-->

Intelligenza Artificiale

A un certo punto non fu più la biologia a dominare il destino dell'uomo, ma il prodotto del suo cervello: la cultura.
Cosicché: "Le uniche leggi della materia sono quelle che la nostra mente deve architettare e le uniche leggi della mente sono architettate per essa dalla materia".
JAMES CLERK MAXWELL

Test F


Determinare se esistono differenze tra modelli di regressione.

Test F

Il test F è un test statistico che viene utilizzato per confrontare la varianza di due o più campioni.
Il suo scopo principale è determinare se esistono differenze significative tra le varianze di gruppi o tra modelli di regressione.
È ampiamente utilizzato in analisi della varianza (ANOVA), per confrontare più gruppi contemporaneamente, ma può anche essere utilizzato per testare la qualità di adattamento di modelli di regressione lineare.

Cos'è il Test F

Il test F si basa sul confronto di due variabili di varianza. Viene calcolato come il rapporto tra due stime di varianza, di solito chiamato **statistica F**, ed è descritto dalla seguente formula: \[ F = \frac{s_1^2}{s_2^2} \] Dove: \( s_1^2 \) è la **varianza del primo gruppo** (ad esempio, la varianza delle durate delle batterie in un gruppo). \( s_2^2 \) è la **varianza del secondo gruppo** o della **popolazione** di riferimento. Se il valore calcolato di F è grande, significa che la varianza dei gruppi confrontati è significativamente diversa, e quindi possiamo rifiutare l'ipotesi nulla che le varianze siano uguali.

Fasi del Test delle Ipotesi


Affermare le Ipotesi
Nel nostro esempio, vogliamo verificare se la durata media delle batterie è significativamente diversa dalla durata attesa di 10 ore.
Poiché stiamo confrontando le varianze di due gruppi, le ipotesi sono: - Ipotesi nulla (\( H_0 \)): le varianze delle durate delle batterie in due gruppi (ad esempio, un campione di batterie e un gruppo di controllo) sono uguali. \[ H_0: \sigma_1^2 = \sigma_2^2 \]
- Ipotesi alternativa (\( H_1 \)): le varianze delle durate delle batterie nei due gruppi sono diverse. \[ H_1: \sigma_1^2 \neq \sigma_2^2 \]
Stabilire i Criteri di Decisione
Per il test F, dobbiamo calcolare la **statistica F e confrontarla con un valore critico dalla tabella F.
- La statistica F è il rapporto tra due varianze.
- La tabella F fornisce i valori critici di F per differenti gradi di libertà (df) e livelli di significatività (α).

Nel caso di due campioni:
\( df_1 \) è il grado di libertà per il numeratore (varianza del primo gruppo).
\( df_2 \) è il grado di libertà per il denominatore (varianza del secondo gruppo).
Eseguire il Test
Supponiamo di avere un campione di 30 batterie con le seguenti durate (in ore):
\[ [9.5, 10.2, 10.8, 9.7, 10.5, 9.2, 10.1, 10.6, 9.8, 10.3, 9.6, 9.9, 10.4, 10.7, 9.4, 10.0, 9.3, 9.1, 10.9, 10.0, 9.8, 10.1, 10.5, 9.9, 10.6, 10.3, 10.2, 9.7, 9.8, 10.4] \]
Per il nostro esempio, vogliamo verificare se la varianza delle durate delle batterie nel nostro campione è significativamente diversa da quella di una popolazione di riferimento (ad esempio, la durata media delle batterie in commercio che è di 10 ore).
Prendere una Decisione
Confrontiamo il valore calcolato di F con il valore critico dalla tabella F per determinare se l'ipotesi nulla deve essere rifiutata.
Il valore critico della tabella F dipende da due fattori principali:
- Gradi di libertà (df) per il numeratore e il denominatore.
- Livello di significatività (α), che di solito è impostato a 0.05.
Se il valore calcolato di **F** è maggiore del valore critico dalla tabella F, rifiutiamo l'ipotesi nulla, indicando che c'è una differenza significativa tra le varianze dei gruppi.

Cos'è la Tabella F

La tabella F è una tabella statistica che fornisce i valori critici della distribuzione F, che sono utilizzati per determinare se una statistica F calcolata è significativamente grande.
La tabella F viene utilizzata per decidere se possiamo rifiutare l'ipotesi nulla di uguaglianza delle varianze.
La tabella F ha diverse colonne che corrispondono ai gradi di libertà sia per il numeratore che per il denominatore:
- Gradi di libertà del numeratore (df₁): dipendono dalla varianza del primo campione.
- Gradi di libertà del denominatore (df₂): dipendono dalla varianza del secondo campione.
In base ai gradi di libertà e al livello di significatività scelto, la tabella F fornisce il valore critico di F, che possiamo usare per fare il confronto.

Codice Python per il Test F

Ecco un esempio di come calcolare il test F in Python:

import numpy as np
import scipy.stats as stats

# Dati del campione (durata delle batterie in ore)
durate_batterie = [9.5, 10.2, 10.8, 9.7, 10.5, 9.2, 10.1, 10.6, 9.8, 10.3, 
                   9.6, 9.9, 10.4, 10.7, 9.4, 10.0, 9.3, 9.1, 10.9, 10.0, 
                   9.8, 10.1, 10.5, 9.9, 10.6, 10.3, 10.2, 9.7, 9.8, 10.4]

# Calcoliamo la varianza del campione
varianza = np.var(durate_batterie, ddof=1)

# Supponiamo di avere una varianza di riferimento per la popolazione (ad esempio 1.5)
varianza_popolazione = 1.5

# Gradi di libertà per il campione (n - 1)
df_sample = len(durate_batterie) - 1

# Calcoliamo la statistica F
F_stat = varianza / varianza_popolazione

# Calcoliamo il p-value usando la distribuzione F
p_value = 1 - stats.f.cdf(F_stat, df_sample, df_sample)

# Stampiamo i risultati
print(f"Statistica F calcolata: {F_stat:.4f}")
print(f"p-value: {p_value:.4f}")

# Livello di significatività
alpha = 0.05
if p_value < alpha:
    print("Rifiutiamo l'ipotesi nulla: le varianze sono significativamente diverse.")
else:
    print("Non possiamo rifiutare l'ipotesi nulla: le varianze non sono significativamente diverse.")

Conclusione

✔️ Il test F è utilizzato per confrontare la varianza di due o più campioni e determinare se esistono differenze significative tra di essi.
✔️ La tabella F è fondamentale per determinare il valore critico che la statistica F deve raggiungere per rifiutare l'ipotesi nulla.
✔️ Con il codice Python, possiamo facilmente calcolare la statistica F e il p-value per prendere decisioni informate sui nostri dati.