Data set Sklearn
Scikit-learn include diversi dataset incorporati che sono utili per testare e sperimentare gli algoritmi di machine learning. Includono sia dati reali che dati generati artificialmente.
Dataset in scikit-learn
Scikit-learn include diversi dataset incorporati che sono utili per testare e sperimentare gli algoritmi di machine learning. Questi dataset sono facili da caricare e includono sia dati reali che dati generati artificialmente. Ecco un elenco di alcuni dei dataset più utilizzati in scikit-learn:
1. **Iris**: Set di dati sulle caratteristiche delle diverse specie di iris.
2. **Wine**: Set di dati sulle caratteristiche chimiche dei vini provenienti da tre diverse regioni.
3. **Breast Cancer**: Set di dati sulle caratteristiche dei tumori mammari, utilizzato per la classificazione di tumori maligni e benigni.
4. **Digits**: Set di dati di immagini di cifre scritte a mano.
5. **Boston (Deprecated)**: Set di dati sui prezzi delle case a Boston (nota: questo dataset è stato deprecato a causa di problematiche etiche).
6. **California Housing**: Set di dati sui prezzi delle case in California.
7. **Diabetes**: Set di dati per la progressione del diabete in un anno di tempo.
Esempio di utilizzo: Dataset Iris
Vediamo un esempio di come caricare e utilizzare il dataset Iris per un problema di classificazione:
# Importare le librerie necessarie
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
# Caricare il dataset Iris
iris = load_iris()
X = iris.data
y = iris.target
# Suddividere i dati in set di addestramento e di test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# Preprocessare i dati (scalare le caratteristiche)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
# Inizializzare e addestrare il modello (Support Vector Classifier)
model = SVC(kernel='linear')
model.fit(X_train, y_train)
# Fare previsioni sul set di test
y_pred = model.predict(X_test)
# Valutare il modello
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuratezza del modello: {accuracy:.2f}')
Wine Dataset
from sklearn.datasets import load_wine
wine = load_wine()
X = wine.data
y = wine.target
# La stessa procedura di sopra può essere applicata a questo dataset.
Breast Cancer Dataset
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()
X = breast_cancer.data
y = breast_cancer.target
# La stessa procedura di sopra può essere applicata a questo dataset.
Caricamento di Dataset Esterni
Scikit-learn permette anche di caricare dataset esterni usando funzioni come `fetch_20newsgroups`, `fetch_openml`, ecc. Ecco un esempio:
from sklearn.datasets import fetch_openml
# Caricare il dataset MNIST dal sito OpenML
mnist = fetch_openml('mnist_784', version=1)
X = mnist.data
y = mnist.target
# La stessa procedura di preprocessamento e modellazione può essere applicata a questo dataset.