-->

Intelligenza Artificiale

A un certo punto non fu più la biologia a dominare il destino dell'uomo, ma il prodotto del suo cervello: la cultura.
Cosicché: "Le uniche leggi della materia sono quelle che la nostra mente deve architettare e le uniche leggi della mente sono architettate per essa dalla materia".
JAMES CLERK MAXWELL

Reinforcement Learning (RL)


Definizione e uso

Reinforcement Learning (RL)

Apprendimento per rinforzo, è una branca dell'apprendimento automatico in cui un agente impara a prendere decisioni interagendo con un ambiente, al fine di massimizzare una ricompensa cumulativa nel tempo.
È ispirato al modo in cui gli esseri umani e gli animali imparano attraverso prove ed errori.

Componenti principali del Reinforcement Learning

1. Agente: il sistema o il modello che prende decisioni e apprende dall'ambiente.
2. Ambiente: il contesto in cui l'agente opera e con cui interagisce.
3. Stato (State): la rappresentazione della situazione corrente dell'ambiente percepita dall'agente.
4. Azione (Action): le scelte che l'agente può fare in un dato stato.
5. Ricompensa (Reward): un feedback numerico che l'agente riceve dopo aver eseguito un'azione. La ricompensa guida l'apprendimento.
6. Policy (Politica): la strategia che l'agente segue per decidere quale azione eseguire in un dato stato.
7. Funzione di valore: stima quanto è utile essere in un certo stato o eseguire una determinata azione, in termini di ricompensa futura attesa.
8. Modello dell'ambiente: (opzionale): una rappresentazione dell'ambiente utilizzata per prevedere l'evoluzione degli stati e delle ricompense.

Processo di apprendimento


L'agente interagisce con l'ambiente attraverso un ciclo continuo:
1. Osserva lo stato corrente dell'ambiente.
2. Esegue un'azione basata sulla sua politica.
3. Riceve una ricompensa dall'ambiente e osserva il nuovo stato risultante.
4. Aggiorna la sua politica o funzione di valore per migliorare le decisioni future.

Applicazioni del Reinforcement Learning

- Giochi (ad esempio, gli algoritmi che hanno sconfitto giocatori umani in Go, scacchi e Dota 2).
- Robotica (apprendimento di movimenti complessi).
- Controllo autonomo (ad esempio, veicoli a guida autonoma).
- Gestione delle risorse (ad esempio, ottimizzazione delle reti di telecomunicazione).
- Finanza (trading algoritmico e gestione del portafoglio).

Alcuni algoritmi comuni di RL includono Q-Learning, SARSA, e approcci basati su reti neurali come Deep Q-Networks (DQN) o Policy Gradient Methods.

Esempio pratico Room

Room Problem:
A robot is placed in an unknown room and must learn how to navigate it, avoiding obstacles while reaching a goal.
Environment: The room, with walls, obstacles, and a target location.
Agent: The robot, which can take actions like moving forward, turning left or right, or rotating.
States: The robot’s position within the room, which can be represented by its coordinates.
Actions: The robot’s movements (e.g., move forward, turn left, rotate 90 degrees).
Rewards: Positive reward for reaching the target, negative reward (penalty) for bumping into obstacles or walls.