-->

Intelligenza Artificiale

A un certo punto non fu più la biologia a dominare il destino dell'uomo, ma il prodotto del suo cervello: la cultura.
Cosicché: "Le uniche leggi della materia sono quelle che la nostra mente deve architettare e le uniche leggi della mente sono architettate per essa dalla materia".
JAMES CLERK MAXWELL

Value Functions & Policy


Massimizzare le ricompense cumulative attese nel lungo termine

Value Function (Funzione di valore)


La Value Function è una funzione che stima quanto sia "buono" un determinato stato (o una coppia stato-azione) in termini di ricompense future attese che l'agente può ottenere a partire da quel stato. La sua utilità risiede nel fornire una misura di quanto sia vantaggioso trovarsi in uno stato specifico, basandosi sulle ricompense future che l'agente può ricevere.
Nel contesto di un Markov Decision Process (MDP), la Value Function di uno stato (s) è definita come il valore atteso della somma delle ricompense future ottenute a partire dallo stato (s), seguendo una determinata policy (pi).
Formalmente, la Value Function (V^pi(s)) per una policy (pi) è:
\[ V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s \right] \]
dove: - ( gamma ) è il fattore di sconto (che determina quanto "lontane" nel tempo le ricompense future siano ancora rilevanti),
- ( r_t ) è la ricompensa ricevuta al passo di tempo (t),
- la somma è fatta sulle ricompense future, che dipendono dalla policy (pi) seguita dall'agente. Un'altra variante è la Q-function, che fornisce una stima del valore di una coppia stato-azione ((s, a)), cioè la qualità di una determinata azione in uno stato.

Policy

La Policy è una funzione che definisce la strategia dell'agente, ovvero come l'agente decide quale azione compiere in un dato stato. La policy può essere deterministica (ovvero una mappa diretta stato-azione) o stocastica (ovvero una probabilità di scegliere una determinata azione in base allo stato).
Formalmente, la policy \(\pi(a|s)\) rappresenta la probabilità che l'agente prenda l'azione (a) quando si trova nello stato (s).

Ottenere la Policy dalla Value Function


In Reinforcement Learning, l'obiettivo è generalmente trovare la policy ottimale, che massimizza le ricompense cumulative attese nel lungo termine.
Se conosciamo la Value Function ottimale (che stima la "qualità" di ogni stato in termini di ricompense future), possiamo derivare la Policy ottimale.
La policy ottimale \(\pi^*\) può essere derivata dalla Q-function (la funzione di valore per coppie stato-azione), che fornisce una stima diretta del valore di ogni coppia stato-azione.
La policy ottimale è quella che, per ogni stato \(s\), seleziona l'azione \(a\) che massimizza il valore atteso della ricompensa futura:
\[ \pi^*(s) = \arg\max_a Q^*(s, a) \]
dove: - \(Q^*(s, a)\) è la funzione di valore ottimale per la coppia stato-azione.
Se invece si parte dalla Value Function \(V^*(s)\), la policy ottimale può essere derivata seguendo un approccio simile, scegliendo l'azione che porta allo stato migliore in termini di valore futuro, ma è necessario conoscere come il passaggio da uno stato a un altro avviene in base alle azioni (cioè la transition model dell'ambiente).

In sintesi


- La Value Function stima quanto sia vantaggioso uno stato (o una coppia stato-azione) in termini di ricompense future attese.
- La Policy è la strategia che definisce quali azioni intraprendere in ogni stato.
- Si può ottenere una policy ottimale dalla Value Function (o dalla Q-function) scegliendo l'azione che massimizza il valore atteso delle ricompense future, a partire da ogni stato.