Q-Learning Simulering

Begrepp:

State (s): Agentens tillstånd, bestående av dess position samt den aktuella konfigurationen av återstående mynt. (0,0,09,33 innebär att agenten är i cell (0,0) och har kvar mynt i cellerna (0,9) och (3,3)
Action (a): Den valda handlingen (upp, höger, ner eller vänster).
Reward (r): Belöningen eller straffet för en handling.
Next state (s'): Tillståndet efter att handlingen utförts.
α (inlärningshastighet) & γ (diskonteringsfaktor): Parametrar som styr hur snabbt och med vilken vikt Q‑värdena uppdateras.
ε (epsilon): Sannolikheten att agenten väljer en slumpmässig handling (utforskning) istället för den bästa kända handlingen (utnyttjande).

Miljö och belöningssystem:

Agenten: Orange cirkel. Startar längst ner till vänster.
Mål: Grön ruta. Om agenten når målet utan att ha samlat alla mynt ges ett straff på -20.
Mynt: Gul cirkel. Varje mynt ger agenten en extra belöning på +10 poäng när det samlas in.
Stegstraff: Varje steg kostar -0.1, vilket uppmuntrar till kortare vägar.

Rutornas färg ändras baserat på Q‑värden:

Ju lägre Q-värde en cell har desto rödare blir den – vilket indikerar sämre prestanda.
Ju högre Q-värde en cell har desto blåare blir den – vilket indikerar bättre prestanda.
Genom att klicka i "Visa Q-värden" kan du se aktuella Q-värden för samtliga actions i varje ruta.
Om du håller muspekaren över en cell visas de aktuella Q-värdena för den cellen.

Redigeringsläge:

När redigeringsläget är aktivt kan du:
- Lägga till eller ta bort hinder med vänsterklick.
- Lägga till eller ta bort mynt med högerklick.
- Flytta start- och målceller genom att dra och släppa dem.
- Redigera värdena för α, γ och ε för att se hur olika parametrar påverkar inlärningen.

Övrigt:

När modellen har konvergerat ("tränats klart") kan du välja att "Visa Policy" för att se bästa action i respektive ruta.
I loggen visas beräkningen för uppdateringen av Q-värdet i cellen för varje steg, enligt formeln: $$ Q(s,a) = Q(s,a) + \alpha \Bigl( r + \gamma \max_{a'} Q(s',a') - Q(s,a) \Bigr) $$

Q-learning simulering