-->

Intelligenza Artificiale

A un certo punto non fu più la biologia a dominare il destino dell'uomo, ma il prodotto del suo cervello: la cultura.
Cosicché: "Le uniche leggi della materia sono quelle che la nostra mente deve architettare e le uniche leggi della mente sono architettate per essa dalla materia".
JAMES CLERK MAXWELL

Metodo Monte Carlo nel Reinforcement Learning


Quando il calcolo di una politica ottimale richiede una conoscenza completa dell'ambiente

Metodo Monte Carlo nel Reinforcement Learning

Nel reinforcement learning, l'obiettivo principale è apprendere una politica ottimale (π) che massimizza il ritorno atteso ((G_t)) da uno stato (s_t).
Tuttavia, il calcolo esatto del valore atteso \(V^\pi(s)\) o \(Q^\pi(s, a)\) richiede spesso una conoscenza completa dell'ambiente, che non è sempre disponibile.
Qui entra in gioco il metodo di Monte Carlo, che utilizza simulazioni per stimare tali valori.
Il metodo di Monte Carlo è un metodo Model Free

Applicazioni principali del metodo di Monte Carlo nel RL


1. Stima dei valori degli stati \(V^\pi(s)\) - Definizione: Il valore di uno stato (s) sotto una politica (π) è il ritorno atteso partendo da (s) e seguendo la politica π. \[ V^\pi(s) = \mathbb{E}_\pi [G_t | S_t = s] \] - Come si utilizza il metodo di Monte Carlo: 1. L'agente esplora l'ambiente seguendo una politica \(\pi\). 2. Alla fine di ogni episodio, si calcola il **ritorno totale** \(G_t = R_{t+1} + R_{t+2} + \ldots\) a partire da ogni stato visitato. 3. Si aggiornano le stime di \(V^\pi(s)\) come media dei ritorni osservati per lo stato \(s\): \[ V(s) \gets V(s) + \alpha \left[ G_t - V(s) \right] \] - Esempio: In un gioco come il blackjack, si può stimare la probabilità di vittoria da uno stato specifico campionando molte partite.

Vantaggi del metodo di Monte Carlo nel RL

- Non richiede un modello dell'ambiente: Si basa esclusivamente su esperienze raccolte dall'interazione con l'ambiente.
- Adatto per problemi episodici: È particolarmente utile quando i problemi hanno episodi ben definiti con una chiara fine.
- Convergenza garantita: Con sufficiente esplorazione, le stime di Monte Carlo convergono al valore atteso corretto.

Svantaggi

- Lento a convergere: Richiede molte simulazioni per ottenere stime accurate, soprattutto in ambienti ad alta dimensionalità.
- Non adatto per problemi non episodici: Se non ci sono episodi definiti, è difficile calcolare (G_t) in modo accurato.
- Esplorazione inefficiente: Richiede strategie esplicite per garantire che lo spazio degli stati venga esplorato sufficientemente.

In sintesi, il metodo di Monte Carlo nel reinforcement learning è una tecnica potente per stimare valori e migliorare le politiche, sfruttando campionamenti casuali e simulazioni per apprendere dall'esperienza diretta.