Mars-Rover Reinforcement Learning
Punkte: 0
Q-Tabelle (Lernfortschritt)
Position | ↑ (Hoch) | → (Rechts) | ↓ (Runter) | ← (Links) |
---|
Gelb markiert: Aktuell gewählte Aktion
Wie die KI lernt:
- Q-Tabelle speichert Erfahrungswerte für jede Position
- Belohnung: +5 (Mineral), -10 (Krater), -1 (Schritt)
- Die KI wählt Aktionen mit den höchsten Werten
- Werte werden nach jeder Aktion aktualisiert:
Neuer Wert = Alter Wert + 0.1 × (Belohnung + 0.9 × zukünftige Belohnung)