Processo Decisionale di Markov
Prendere decisioni con un modello matematico
Processo Decisionale di Markov
E' un modello matematico utilizzato per descrivere situazioni in cui un agente deve prendere decisioni sequenziali in un ambiente incerto.Gli MDP sono ampiamente utilizzati in campi come la teoria delle decisioni, l'intelligenza artificiale (AI), il machine learning (ad esempio, nell'apprendimento per rinforzo), la robotica e l'ottimizzazione.
Componenti di un MDP
Un MDP è definito da quattro elementi principali:1. Stati (S)
L'insieme di tutti gli stati possibili in cui il sistema può trovarsi.
2. Azioni (A)
L'insieme di tutte le azioni che l'agente può intraprendere.
3.Funzione di transizione (P(s'|s, a))
La probabilità che il sistema passi dallo stato (s) allo stato (s') dopo che l'agente ha eseguito l'azione (a). È detta anche funzione di probabilità di transizione.
4. Funzione di ricompensa (R(s, a, s'))
Il valore numerico (o ricompensa) che l'agente riceve per aver eseguito l'azione (a) nello stato (s), portandolo allo stato (s').
Obiettivo di un MDP
L'obiettivo dell'agente è trovare una strategia (o politica) ottimale, cioè una funzione (pi(s)) che associa a ciascun stato (s) un'azione (a), in modo da massimizzare una metrica di lungo termine.Questa metrica è solitamente il valore atteso cumulativo della ricompensa.
Proprietà di Markov
Gli MDP seguono la proprietà di Markov, cioè:- La probabilità di transizione e la ricompensa dipendono solo dallo stato attuale (s) e dall'azione (a), non dalla storia passata.
Formalmente: \[ P(s'|s, a, \text{storia passata}) = P(s'|s, a) \]
Esempio di utilizzo
Un'applicazione classica degli MDP è la navigazione di un robot in un ambiente:- Stati: Posizioni del robot nell'ambiente.
- Azioni: Movimenti disponibili (es. avanti, indietro, destra, sinistra).
- Funzione di transizione: Probabilità di raggiungere una nuova posizione data l'azione, considerando incertezze come slittamenti.
- Funzione di ricompensa: Ricompense o penalità associate a determinate posizioni (es. arrivare alla destinazione o evitare ostacoli).