Episod: 0, Steg: 0
Begrepp:
- State (s): Agentens tillstånd, bestående av dess position samt den aktuella konfigurationen av åtestående mynt. (0,0,09,33 innebär att agenten är i cell (0,0) och har kvar mynt i cellerna (0,9) och (3,3)
- Action (a): Den valda handlingen (upp, höger, ner eller vänster).
- Reward (r): Belöningen eller straffet för en handling.
- Next state (s'): Tillståndet efter att handlingen utförts.
- α (inlärningshastighet) & γ (diskonteringsfaktor): Parametrar som styr hur snabbt och med vilken vikt Q‑värdena uppdateras.
- ε (epsilon): Sannolikheten att agenten väljer en slumpmässig handling (utforskning) istället för den bästa kända handlingen (utnyttjande).
Miljö och belöningssystem:
- Agenten: Orange cirkel. Startar längst ner till vänster.
- Mål: Grön ruta. Om agenten når målet utan att ha samlat alla mynt ges ett straff på -20.
- Mynt: Gul cirkel. Varje mynt ger agenten en extra belöning på +10 poäng när det samlas in.
- Stegstraff: Varje steg kostar -0.1, vilket uppmuntrar till kortare vägar.
Rutornas färg ändras baserat på Q‑värden:
- Ju lägre Q-värde en cell har desto rödare blir den – vilket indikerar sämre prestanda.
- Ju högre Q-värde en cell har desto blåare blir den – vilket indikerar bättre prestanda.
- Genom att klicka i "Visa Q-värden" kan du se aktuella Q-värden för samtliga actions i varje ruta.
- Om du håller muspekaren över en cell visas de aktuella Q-värdena för den cellen.
Redigeringsläge:
- När redigeringsläget är aktivt kan du:
- Lägga till eller ta bort hinder med vänsterklick.
- Lägga till eller ta bort mynt med högerklick.
- Flytta start- och målceller genom att dra och släppa dem.
- Redigera värdena för α, γ och ε för att se hur olika parametrar påverkar inlärningen.
Övrigt:
- När modellen har konvergerat ("tränats klart") kan du välja att "Visa Policy" för att se bästa action i respektive ruta.
- I loggen visas beräkningen för uppdateringen av Q-värdet i cellen för varje steg, enligt formeln: $$ Q(s,a) = Q(s,a) + \alpha \Bigl( r + \gamma \max_{a'} Q(s',a') - Q(s,a) \Bigr) $$