Constraint Propagation

Constraint-Propagation (Kandidatenpool) mit einer positionsbasierten Q‑Tabelle und ε‑greedy Auswahl kombiniert. Hybrid-Zahlenschloss-KI (Constraint-Propagation + positionsbasiertes Reinforcement-Learning) also ein hybrides maschinelles Lernen.

Zahlenhirn — KI Algorithmen

Zahlenhirn — KI Algorithmen

—-
Versuch: 0
Verbleibende Möglichkeiten: 10000





So funktioniert es:

  1. Initialisierung
    • Alle möglichen Codes werden als Kandidaten erzeugt.
    • Q-Tabelle wird für jede Position initialisiert.
  2. Guess-Generierung
    • Mit Wahrscheinlichkeit: ε Zufälliger Kandidat (Exploration)
    • Sonst: Kandidat mit höchster Summe der Q-Werte über alle Positionen (Exploitation)
  3. Feedback & Learning
    • Anzahl korrekt platzierter Ziffern wird als Feedback genutzt.
    • Constraint Propagation: Kandidaten, die nicht konsistent mit Feedback sind, werden entfernt.
    • Q-Learning: Positionsspezifische Belohnung (1 = korrekt, 0 = falsch) aktualisiert Q-Tabelle.
  4. Iterative Versuche