Q-learning simulering

Välkommen till denna Q-Learning simulering! I denna simulering tränas en agent att navigera genom en 10×10-matris till att samla in alla mynt och sedan ta sig till målcellen.

Episod: 0, Steg: 0

Begrepp:

  • State (s): Agentens tillstånd, bestående av dess position samt den aktuella konfigurationen av åtestående mynt. (0,0,09,33 innebär att agenten är i cell (0,0) och har kvar mynt i cellerna (0,9) och (3,3)
  • Action (a): Den valda handlingen (upp, höger, ner eller vänster).
  • Reward (r): Belöningen eller straffet för en handling.
  • Next state (s'): Tillståndet efter att handlingen utförts.
  • α (inlärningshastighet) & γ (diskonteringsfaktor): Parametrar som styr hur snabbt och med vilken vikt Q‑värdena uppdateras.
  • ε (epsilon): Sannolikheten att agenten väljer en slumpmässig handling (utforskning) istället för den bästa kända handlingen (utnyttjande).

Miljö och belöningssystem:

  • Agenten: Orange cirkel. Startar längst ner till vänster.
  • Mål: Grön ruta. Om agenten når målet utan att ha samlat alla mynt ges ett straff på -20.
  • Mynt: Gul cirkel. Varje mynt ger agenten en extra belöning på +10 poäng när det samlas in.
  • Stegstraff: Varje steg kostar -0.1, vilket uppmuntrar till kortare vägar.

Rutornas färg ändras baserat på Q‑värden:

  • Ju lägre Q-värde en cell har desto rödare blir den – vilket indikerar sämre prestanda.
  • Ju högre Q-värde en cell har desto blåare blir den – vilket indikerar bättre prestanda.
  • Genom att klicka i "Visa Q-värden" kan du se aktuella Q-värden för samtliga actions i varje ruta.
  • Om du håller muspekaren över en cell visas de aktuella Q-värdena för den cellen.

Redigeringsläge:

  • När redigeringsläget är aktivt kan du:
    • Lägga till eller ta bort hinder med vänsterklick.
    • Lägga till eller ta bort mynt med högerklick.
    • Flytta start- och målceller genom att dra och släppa dem.
    • Redigera värdena för α, γ och ε för att se hur olika parametrar påverkar inlärningen.

Övrigt:

  • När modellen har konvergerat ("tränats klart") kan du välja att "Visa Policy" för att se bästa action i respektive ruta.
  • I loggen visas beräkningen för uppdateringen av Q-värdet i cellen för varje steg, enligt formeln: $$ Q(s,a) = Q(s,a) + \alpha \Bigl( r + \gamma \max_{a'} Q(s',a') - Q(s,a) \Bigr) $$