Pulire i dati Categorici
I dati mancanti in un DBase
la rimozione delle righe,il valore più frequente, una categoria "sconosciuta".
Pulire i dati di variabili categoriche
Per pulire i dati di variabili categoriche in un database, è possibile utilizzare diverse strategie,tra cui:
-la rimozione delle righe con valori mancanti,
-l'imputazione con il valore più frequente
-l'assegnazione di una categoria "sconosciuta".
Di seguito, un esempio in Python utilizzando Pandas:
import pandas as pd
# Creazione di un DataFrame di esempio
data = {'col1': ['A', 'B', 'C', None, 'B'],
'col2': ['X', 'Y', None, 'Z', 'Z']}
df = pd.DataFrame(data)
# Visualizzazione dei dati originali
print("Dati originali:")
print(df)
# Rimozione delle righe con valori mancanti
df_dropna = df.dropna()
print("\nDati dopo la rimozione delle righe con valori mancanti:")
print(df_dropna)
# Imputazione con il valore più frequente
df_mode = df.fillna(df.mode().iloc[0])
print("\nDati dopo l'imputazione con il valore più frequente:")
print(df_mode)
# Assegnazione di una categoria "sconosciuta"
df_unknown = df.fillna('Unknown')
print("\nDati dopo l'assegnazione di una categoria 'sconosciuta':")
print(df_unknown)
In questo esempio, il DataFrame `df` contiene alcune variabili categoriche con valori mancanti.
Vengono utilizzate tre strategie diverse per pulire i dati:
1. Rimozione delle righe con valori mancanti.
2. Imputazione con il valore più frequente in ogni colonna.
3. Assegnazione di una categoria "sconosciuta" ai valori mancanti.