Pametri
Varianza, Deviazione Standard, z-score, correlazione
Varianza
La varianza statistica è una misura di dispersione che quantifica quanto i valori di un insieme di dati si discostano dalla loro media aritmetica.In altre parole, la varianza fornisce una stima della dispersione dei dati intorno alla loro media. Una varianza maggiore indica una maggiore dispersione dei dati, mentre una varianza minore indica una dispersione più limitata.
La formula per calcolare la varianza di un insieme di dati X con n elementi è la seguente: \[ \text{Varianza} (X) = \frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n} \] Dove: - X_i è ciascun elemento dell'insieme di dati,
- (\bar{X}\) è la media aritmetica dell'insieme di dati,
- n è il numero totale di elementi nell'insieme di dati.
La varianza si calcola come la media dei quadrati delle differenze tra ciascun dato e la media.
Questo significa che la varianza tiene conto della dispersione di ciascun dato rispetto alla media dell'insieme.
Deviazione Standard:
La deviazione standard è una misura di dispersione che indica quanto i dati di un insieme si discostano in media dalla loro media.In altre parole, misura la quantità di variabilità o dispersione nei dati. La deviazione standard si calcola come la radice quadrata della varianza.
**Formula:** \[ \sigma = \sqrt{\frac{\sum_{i=1}^{N} (X_i - \mu)^2}{N}} \] Dove: - σ è la deviazione standard
- (X_i) sono i singoli valori dei dati,
- μ è la media dei dati,
- (N) è il numero totale di dati.
Coefficiente di Variazione
Il coefficiente di variazione è una misura relativa della dispersione, espressa come percentuale della media.È utile per confrontare la variabilità di dati con unità di misura diverse o scale diverse.
Formula
\[ CV = \left(\frac{\sigma}{\mu}\right) \times 100\] Dove: - (CV) è il coefficiente di variazione,- σ è la deviazione standard
- μ è la media dei dati,
Z-Score (Punteggio Z)
Il punteggio Z, o Z-score, rappresenta il numero di deviazioni standard di un dato valore dalla media di un insieme di dati. È utile per valutare quanto un dato valore si discosti dalla media in termini di deviazioni standard.Formula
\[ Z = \frac{X - \mu}{\sigma} \] Dove: - Z è il punteggio Z,- X è il dato valore,
- μ è la media dei dati,
- σ è la deviazione standard,
Esempi in Python:
import numpy as np
# Dati di esempio
data = np.array([10, 15, 20, 25, 30])
# Calcolo della deviazione standard
std_dev = np.std(data)
print(f"Deviazione Standard: {std_dev}")
# Calcolo del coefficiente di variazione
mean_value = np.mean(data)
cv = (std_dev / mean_value) * 100
print(f"Coefficiente di Variazione: {cv:.2f}%")
# Calcolo del punteggio Z per un dato valore
x_value = 22
z_score = (x_value - mean_value) / std_dev
print(f"Punteggio Z per {x_value}: {z_score:.2f}")
In questo esempio Python, stiamo utilizzando la libreria NumPy per eseguire calcoli statistici.
La deviazione standard, il coefficiente di variazione e il punteggio Z vengono calcolati e stampati per illustrare l'utilizzo di queste formule nella pratica.
Coefficiente di correlazione
Definizione
Il coefficiente di correlazione misura la forza e la direzione di una relazione lineare tra due variabili.Esso è espresso numericamente e varia tra -1 e 1.
- Un coefficiente di correlazione di 1 indica una correlazione perfetta e positiva, cioè quando una variabile aumenta, l'altra aumenta in modo proporzionale.
- Un coefficiente di correlazione di -1 indica una correlazione perfetta e negativa, cioè quando una variabile aumenta, l'altra diminuisce in modo proporzionale.
- Un coefficiente di correlazione di 0 indica che non c'è alcuna correlazione lineare tra le due variabili.
Calcolo
Per calcolarlo tra due variabili a partire dalle loro medie, deviazioni standard e utilizzando la funzione Z-score, possiamo seguire questi passaggi.Useremo la libreria sklearn per il preprocessing e calcoleremo il coefficiente di correlazione di Pearson:
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from scipy.stats import pearsonr
# Dati di esempio
x = np.array([15, 20, 25, 30, 35])
y = np.array([10, 18, 24, 32, 40])
# Calcoliamo la media e la deviazione standard
mean_x, mean_y = np.mean(x), np.mean(y)
std_x, std_y = np.std(x), np.std(y)
# Standardizziamo i dati utilizzando Z-score
z_x = (x - mean_x) / std_x
z_y = (y - mean_y) / std_y
# Calcoliamo il coefficiente di correlazione di Pearson tra i dati standardizzati
correlation_coefficient, _ = pearsonr(z_x, z_y)
print(f"Coefficiente di correlazione di Pearson: {correlation_coefficient:.2f}")
In questo esempio, stiamo calcolando il coefficiente di correlazione tra due insiemi di dati x e y.
Prima standardizziamo i dati utilizzando la Z-score, poi calcoliamo il coefficiente di correlazione di Pearson tra i dati standardizzati.
La libreria `sklearn` è utilizzata per la standardizzazione.