Pulire i dati Numerici
I dati mancanti in un DBase
Pulizia con valore medio, mediano e fisso
Pulire i dati mancanti numerici
Ecco tre esempi di come pulire i dati mancanti numerici utilizzando diverse strategie: pulizia con valore medio, mediano e fisso, utilizzando Python e la libreria Pandas:
import pandas as pd
# Creazione di un DataFrame di esempio con valori mancanti
data = {
'A': [1, 2, None, 4, 5],
'B': [None, 2, 3, 4, 5],
'C': [1, None, 3, None, 5]
}
df = pd.DataFrame(data)
# Pulizia con valore medio
df_mean = df.fillna(df.mean())
# Pulizia con valore mediano
df_median = df.fillna(df.median())
# Pulizia con valore fisso
fixed_value = 0 # Valore fisso da assegnare ai dati mancanti
df_fixed = df.fillna(fixed_value)
print("DataFrame originale:")
print(df)
print("\nDataFrame con valori mancanti sostituiti con valore medio:")
print(df_mean)
print("\nDataFrame con valori mancanti sostituiti con valore mediano:")
print(df_median)
print("\nDataFrame con valori mancanti sostituiti con valore fisso:")
print(df_fixed)
In questo codice, `df` è il DataFrame di esempio con valori mancanti. Le strategie di pulizia sono implementate utilizzando il metodo `fillna()` di Pandas, dove si può specificare il valore da usare per sostituire i dati mancanti.
-Per la strategia con valore medio, `df.mean()` calcola la media di ciascuna colonna e la usa per riempire i valori mancanti.
-Per la strategia con valore mediano, `df.median()` calcola il mediano di ciascuna colonna e la usa per riempire i valori mancanti.
-Per la strategia con valore fisso, si specifica un valore fisso da assegnare ai dati mancanti.