Covarianza
Covarianza, Correlazione
Covarianza e Coefficiente di Correlazione
In statistica, la covarianza e il coefficiente di correlazione sono due strumenti utilizzati per misurare la relazione tra due variabili.
In questo articolo, esploreremo cosa sono, come calcolarli matematicamente e come farlo facilmente usando Python.
Covarianza
La covarianza misura la direzione della relazione tra due variabili.
In altre parole, ci dice se le due variabili tendono a crescere o diminuire insieme.
- Se la covarianza è positiva, significa che entrambe le variabili tendono ad aumentare insieme.
- Se la covarianza è negativa, significa che quando una variabile aumenta, l'altra tende a diminuire.
- Se la covarianza è vicina a zero, significa che non c'è una relazione lineare evidente tra le due variabili.
Formula della Covarianza
La formula per calcolare la covarianza tra due variabili \(X\) e \(Y\) è:\[ Cov(X, Y) = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu_X)(y_i - \mu_Y) \]
Dove:
\(x_i\) e \(y_i\) sono i valori dei dati.
\(\mu_X\) e \(\mu_Y\) sono le medie di \(X\) e \(Y\).
Coefficiente di Correlazione
Il coefficiente di correlazione è una misura che indica quanto stretta sia la relazione tra due variabili.
A differenza della covarianza, che può assumere qualsiasi valore, il coefficiente di correlazione è sempre compreso tra -1 e 1:
- 1 indica una relazione **positiva perfetta**.
- -1 indica una relazione **negativa perfetta**.
- 0 indica **nessuna correlazione**.
Formula del Coefficiente di Correlazione
Il coefficiente di correlazione \(r\) si calcola come:\[ r = \frac{Cov(X, Y)}{\sigma_X \cdot \sigma_Y} \]
Dove:
\(\sigma_X\) e \(\sigma_Y\) sono le deviazioni standard di \(X\) e \(Y\).
Esempio di Calcolo
Supponiamo di avere i seguenti dati su due variabili, \(X = [2, 3, 4, 5, 6]\) e \(Y = [1, 2, 3, 4, 5]\).
1. Calcolare la media di X e Y
\(\mu_X = 4\)
\(\mu_Y = 3\)
2. Calcolare la covarianza:
\[ Cov(X, Y) = \frac{(2-4)(1-3) + (3-4)(2-3) + (4-4)(3-3) + (5-4)(4-3) + (6-4)(5-3)}{5} \] \[ Cov(X, Y) = \frac{( -2 \times -2) + (-1 \times -1) + (0 \times 0) + (1 \times 1) + (2 \times 2)}{5} \] \[ Cov(X, Y) = \frac{4 + 1 + 0 + 1 + 4}{5} = \frac{10}{5} = 2 \]
3. Calcolare la deviazione standard di (X) e (Y): \(\sigma_X = 1.41\) \(\sigma_Y = 1.41\)
4. Calcolare il coefficiente di correlazione:
\[ r = \frac{2}{1.41 \times 1.41} = 1 \]
In questo caso, il coefficiente di correlazione è 1, il che significa che esiste una relazione positiva perfetta tra le due variabili.
Calcolo in Python
import numpy as np
# Dati
X = np.array([2, 3, 4, 5, 6])
Y = np.array([1, 2, 3, 4, 5])
# Calcolare la covarianza
covariance = np.cov(X, Y)[0][1]
# Calcolare il coefficiente di correlazione
correlation = np.corrcoef(X, Y)[0][1]
# Stampare i risultati
print(f"Covarianza: {covariance}")
print(f"Coefficiente di Correlazione: {correlation}")
Conclusione
- La covarianza ci dice **come due variabili si muovono insieme**.- Il coefficiente di correlazione ci fornisce una misura standardizzata della forza della relazione, compresa tra **-1 e 1**.
Entrambi gli strumenti sono fondamentali per analizzare le **relazioni tra variabili** e sono utilizzati in vari campi come l'analisi dei dati, il machine learning e la finanza. Con Python, calcolare queste statistiche è semplice e veloce.