Reinforcement Learning

Mars-Rover Reinforcement Learning

Punkte: 0

Q-Tabelle (Lernfortschritt)

Position ↑ (Hoch) → (Rechts) ↓ (Runter) ← (Links)

Gelb markiert: Aktuell gewählte Aktion

Wie die KI lernt:

  1. Q-Tabelle speichert Erfahrungswerte für jede Position
  2. Belohnung: +5 (Mineral), -10 (Krater), -1 (Schritt)
  3. Die KI wählt Aktionen mit den höchsten Werten
  4. Werte werden nach jeder Aktion aktualisiert:
    Neuer Wert = Alter Wert + 0.1 × (Belohnung + 0.9 × zukünftige Belohnung)