Intelligenza Artificiale

A un certo punto non fu più la biologia a dominare il destino dell'uomo, ma il prodotto del suo cervello: la cultura.
Cosicché: "Le uniche leggi della materia sono quelle che la nostra mente deve architettare e le uniche leggi della mente sono architettate per essa dalla materia".
JAMES CLERK MAXWELL

Pulire i dati Categorici


I dati mancanti in un DBase
la rimozione delle righe,il valore più frequente, una categoria "sconosciuta".

Pulire i dati di variabili categoriche

Per pulire i dati di variabili categoriche in un database, è possibile utilizzare diverse strategie,
tra cui:
-la rimozione delle righe con valori mancanti,
-l'imputazione con il valore più frequente
-l'assegnazione di una categoria "sconosciuta".

Di seguito, un esempio in Python utilizzando Pandas:


import pandas as pd

# Creazione di un DataFrame di esempio
data = {'col1': ['A', 'B', 'C', None, 'B'],
        'col2': ['X', 'Y', None, 'Z', 'Z']}
df = pd.DataFrame(data)

# Visualizzazione dei dati originali
print("Dati originali:")
print(df)

# Rimozione delle righe con valori mancanti
df_dropna = df.dropna()
print("\nDati dopo la rimozione delle righe con valori mancanti:")
print(df_dropna)

# Imputazione con il valore più frequente
df_mode = df.fillna(df.mode().iloc[0])
print("\nDati dopo l'imputazione con il valore più frequente:")
print(df_mode)

# Assegnazione di una categoria "sconosciuta"
df_unknown = df.fillna('Unknown')
print("\nDati dopo l'assegnazione di una categoria 'sconosciuta':")
print(df_unknown)

In questo esempio, il DataFrame `df` contiene alcune variabili categoriche con valori mancanti.

Vengono utilizzate tre strategie diverse per pulire i dati:
1. Rimozione delle righe con valori mancanti.
2. Imputazione con il valore più frequente in ogni colonna.
3. Assegnazione di una categoria "sconosciuta" ai valori mancanti.