← AI-aktiviteter

Q-learning simulering

Träna en agent att navigera ett rutnät med förstärkningsinlärning – se hur Q-värdena uppdateras i realtid.

Episod: 0, Steg: 0

Begrepp:

  • State (s): Agentens tillstånd, bestående av dess position samt den aktuella konfigurationen av återstående mynt. (0,0,09,33 innebär att agenten är i cell (0,0) och har kvar mynt i cellerna (0,9) och (3,3)
  • Action (a): Den valda handlingen (upp, höger, ner eller vänster).
  • Reward (r): Belöningen eller straffet för en handling.
  • Next state (s'): Tillståndet efter att handlingen utförts.
  • α (inlärningshastighet) & γ (diskonteringsfaktor): Parametrar som styr hur snabbt och med vilken vikt Q‑värdena uppdateras.
  • ε (epsilon): Sannolikheten att agenten väljer en slumpmässig handling (utforskning) istället för den bästa kända handlingen (utnyttjande).

Miljö och belöningssystem:

  • Agenten: Orange cirkel. Startar längst ner till vänster.
  • Mål: Grön ruta. Om agenten når målet utan att ha samlat alla mynt ges ett straff på -20.
  • Mynt: Gul cirkel. Varje mynt ger agenten en extra belöning på +10 poäng när det samlas in.
  • Stegstraff: Varje steg kostar -0.1, vilket uppmuntrar till kortare vägar.

Rutornas färg ändras baserat på Q‑värden:

  • Ju lägre Q-värde en cell har desto rödare blir den – vilket indikerar sämre prestanda.
  • Ju högre Q-värde en cell har desto blåare blir den – vilket indikerar bättre prestanda.
  • Genom att klicka i "Visa Q-värden" kan du se aktuella Q-värden för samtliga actions i varje ruta.
  • Om du håller muspekaren över en cell visas de aktuella Q-värdena för den cellen.

Redigeringsläge:

  • När redigeringsläget är aktivt kan du:
    • Lägga till eller ta bort hinder med vänsterklick.
    • Lägga till eller ta bort mynt med högerklick.
    • Flytta start- och målceller genom att dra och släppa dem.
    • Redigera värdena för α, γ och ε för att se hur olika parametrar påverkar inlärningen.

Övrigt:

  • När modellen har konvergerat ("tränats klart") kan du välja att "Visa Policy" för att se bästa action i respektive ruta.
  • I loggen visas beräkningen för uppdateringen av Q-värdet i cellen för varje steg, enligt formeln: $$ Q(s,a) = Q(s,a) + \alpha \Bigl( r + \gamma \max_{a'} Q(s',a') - Q(s,a) \Bigr) $$

Q-learning simulering

Se hur en agent lär sig navigera genom ett rutnät med förstärkningsinlärning – från slumpmässiga handlingar till optimal strategi.

1
Välj miljö och starta träning – Välj bland tre miljöer (Standard, Ormen, Labyrinten) och tryck Starta träning. Agenten utforskar rutnätet, samlar mynt och lär sig genom belöningar och straff.
2
Följ inlärningen – Rutorna färgas baserat på Q-värden: rött = lågt, blått = högt. Klicka Visa Q-värden för siffror. I loggen visas den exakta Q-värdesberäkningen för varje steg.
3
Testa den tränade agenten – När modellen konvergerat kan du visa den inlärda policyn (pilar) och testa agenten steg för steg.

💡 Tips: Aktivera Stegvis läge för att följa varje enskilt steg och se Q-värdesuppdateringen i loggen. Aktivera Redigeringsläge för att bygga egna miljöer.