Constraint-Propagation (Kandidatenpool) mit einer positionsbasierten Q‑Tabelle und ε‑greedy Auswahl kombiniert. Hybrid-Zahlenschloss-KI (Constraint-Propagation + positionsbasiertes Reinforcement-Learning) also ein hybrides maschinelles Lernen.
Zahlenhirn — KI Algorithmen
—-
Versuch: 0
Verbleibende Möglichkeiten: 10000
So funktioniert es:
- Initialisierung
- Alle möglichen Codes werden als Kandidaten erzeugt.
- Q-Tabelle wird für jede Position initialisiert.
- Guess-Generierung
- Mit Wahrscheinlichkeit:
εZufälliger Kandidat (Exploration) - Sonst: Kandidat mit höchster Summe der Q-Werte über alle Positionen (Exploitation)
- Mit Wahrscheinlichkeit:
- Feedback & Learning
- Anzahl korrekt platzierter Ziffern wird als Feedback genutzt.
- Constraint Propagation: Kandidaten, die nicht konsistent mit Feedback sind, werden entfernt.
- Q-Learning: Positionsspezifische Belohnung (1 = korrekt, 0 = falsch) aktualisiert Q-Tabelle.
- Iterative Versuche