Intelligenza Artificiale

A un certo punto non fu più la biologia a dominare il destino dell'uomo, ma il prodotto del suo cervello: la cultura.
Cosicché: "Le uniche leggi della materia sono quelle che la nostra mente deve architettare e le uniche leggi della mente sono architettate per essa dalla materia".
JAMES CLERK MAXWELL

Processo Decisionale di Markov

Prendere decisioni con un modello matematico

Processo Decisionale di Markov

E' un modello matematico utilizzato per descrivere situazioni in cui un agente deve prendere decisioni sequenziali in un ambiente incerto.
Gli MDP sono ampiamente utilizzati in campi come la teoria delle decisioni, l'intelligenza artificiale (AI), il machine learning (ad esempio, nell'apprendimento per rinforzo), la robotica e l'ottimizzazione.

Componenti di un MDP

Un MDP è definito da quattro elementi principali:
1. Stati (S)
L'insieme di tutti gli stati possibili in cui il sistema può trovarsi.

2. Azioni (A)
L'insieme di tutte le azioni che l'agente può intraprendere.

3.Funzione di transizione (P(s'|s, a))
La probabilità che il sistema passi dallo stato (s) allo stato (s') dopo che l'agente ha eseguito l'azione (a). È detta anche funzione di probabilità di transizione.

4. Funzione di ricompensa (R(s, a, s'))
Il valore numerico (o ricompensa) che l'agente riceve per aver eseguito l'azione (a) nello stato (s), portandolo allo stato (s').

Obiettivo di un MDP

L'obiettivo dell'agente è trovare una strategia (o politica) ottimale, cioè una funzione (pi(s)) che associa a ciascun stato (s) un'azione (a), in modo da massimizzare una metrica di lungo termine.
Questa metrica è solitamente il valore atteso cumulativo della ricompensa.

Proprietà di Markov

Gli MDP seguono la proprietà di Markov, cioè:
- La probabilità di transizione e la ricompensa dipendono solo dallo stato attuale (s) e dall'azione (a), non dalla storia passata.

Formalmente: \[ P(s'|s, a, \text{storia passata}) = P(s'|s, a) \]

Esempio di utilizzo

Un'applicazione classica degli MDP è la navigazione di un robot in un ambiente:
- Stati: Posizioni del robot nell'ambiente.
- Azioni: Movimenti disponibili (es. avanti, indietro, destra, sinistra).
- Funzione di transizione: Probabilità di raggiungere una nuova posizione data l'azione, considerando incertezze come slittamenti.
- Funzione di ricompensa: Ricompense o penalità associate a determinate posizioni (es. arrivare alla destinazione o evitare ostacoli).

Intelligenza Artificiale

Processo Decisionale di Markov

Prendere decisioni con un modello matematico