Add exit_rule_definition/README.md

2026-02-25 12:02:00 +00:00 · 2026-02-25 12:02:00 +00:00 · f71bf6055d
commit f71bf6055d
parent 405df0e487
1 changed files with 217 additions and 0 deletions
--- a/exit_rule_definition/README.md
+++ b/exit_rule_definition/README.md
@ -0,0 +1,217 @@
 # Deterministische Exit-Regel für Stabilitätsbewertung von Systemmetriken
 ## Purpose
 Definition einer deterministischen Exit-Regel zur Bewertung der Stabilität von unpinned Systemmetriken über mehrere Runs.
 **Problemstellung:** Fehlende definierte Exit‑Bedingungen führen zu inkonsistenten Entscheidungen und erschweren die Automatisierung der Stabilitätsbewertung.
 **Ziele:**
 - Überwachung der Stabilität über eine Zeitreihe von Runs
 - Einführung eines reproduzierbaren Entscheidungsmechanismus für den Statuswechsel (z. B. WARN → PARTIAL‑BLOCK)
 - Vermeidung von Reaktionen auf zufällige Schwankungen
 ## Kontext & Hintergrund
 Messwerte pro Run, getrennt nach pinned und unpinned Strata.
 **Gruppierung:**
 - pinned
 - unpinned
 **Trace-Metadaten / zusätzliche Tags:**
 - policy_hash
 - setup_fingerprint (policy_hash + runner_image + kernel + python + gate_version)
 **Domänenkontext:**
 - Kontinuierliche Stabilitätsüberwachung in CI-Umgebungen
 - Bewertung temporaler Metriken in sequentiellen Testläufen
 **Outlier-Definition:**
 - Methode: Visuelle und metrische Auswertung von Warnraten und negativen Δt-Anteilen.
 - Beschreibung: Messpunkte mit außergewöhnlich hohen warn_rate oder Δt<0 werden als potenzielle Instabilitäten betrachtet.
 - Metrik: warn_rate, unknown_rate, Anteil Δt<0
 **Motivation:**
 - Vermeidung unkontrollierten Umgebungs-Drifts
 - Reproduzierbare, deterministische Bewertungslogik
 - Trennung zwischen stabiler Referenz (pinned) und Testbereich (unpinned)
 ## Methode / Spezifikation
 **Übersicht:**
 - Die Exit-Regel beschreibt ein deterministisches Verfahren, das nach N=3 aufeinanderfolgenden Runs angewendet wird.
 - Bewertet werden drei Kennzahlen für unpinned-Messungen.
 **Algorithmen / Verfahren:**
 - Berechne warn_rate, unknown_rate und Anteil Δt<0 pro Run.
 - Erzeuge Zeitreihe über N=3 aufeinanderfolgende Runs.
 - Vergleiche jede Metrik mit den Schwellen X, Y, Z.
 - Wenn alle drei Werte unter den Schwellen liegen → Status bleibt WARN.
 - Andernfalls → Einleitung Eskalationsprüfung.
 ### Bootstrap-Übersicht
 Bootstrap-Resampling kann zur Stabilitätsprüfung der Kennzahlen-Verteilung verwendet werden.
 **Zielgrößen:**
 - Varianz der warn_rate
 - Varianz des Anteils Δt<0
 ### Resampling-Setup
 - unpinned
 **Stichprobeneinheit:** Run
 **Resampling-Schema:**
 - Rolling window über die letzten 3 Runs
 - Bootstrap über Metrikwerte innerhalb jedes Windows
 **Konfidenzintervalle:**
 - Niveau: 0.95
 - Typ: percentile
 - Ableitung: aus wiederholtem Bootstrap über Run-Mittelwerte
 ### Abgeleitete Effektgrößen
 **Risk Difference (Differenz der Raten):**
 - Definition: Differenz der Proportion von Δt<0 zwischen zwei Runs oder Zuständen.
 - Bootstrap: Berechnung des Konfidenzintervalls der Differenz durch Bootstrap über Stichproben der Einzelwerte.
 **Risk Ratio:**
 - Definition: Verhältnis der Warnhäufigkeiten (warn_rate) zwischen Runs.
 - Bootstrap: Abschätzung eines 95%-Konfidenzintervalls für das Verhältnis durch resampling der Fallzahlen.
 ### C-State-Kontrolle
 **Ziel:** Sicherstellen, dass Unterschiede nicht durch Energiesteuerungszustände (C‑States) verursacht werden.
 **Vorgehen:**
 - Korrelieren von C‑State-Anteilen mit Δt<0 und warn_rate.
 - Ausschluss signifikanter drifthafter Trends über Runs.
 ## Input / Output
 ### Input-Anforderungen
 **Hardware:**
 - konstante Runner-Instanz ohne dynamische Frequenzskalierung
 **Software:**
 - stabile Gate- und Python-Versionen
 - identischer Kernel pro Testserie
 **Konfiguration:**
 - policy_hash fixiert pro Run-Serie
 - setup_fingerprint validiert nach jedem Durchlauf
 ### Erwartete Rohdaten
 **Felder pro Run:**
 - run_id
 - stratum
 - warn_rate
 - unknown_rate
 - delta_t_negative_share
 - policy_hash
 - setup_fingerprint
 **Formatbeispiele:**
 - {run_id:4, stratum:'unpinned', warn_rate:0.07, unknown_rate:0.01, delta_t_negative_share:0.03}
 **Trace-Daten:**
 - Format: CSV oder JSON mit aggregierten Run-Metriken
 - Hinweis: Lauf-identische Fingerprints dienen der Konsistenzprüfung
 ### Analyse-Ausgaben
 **Pro Gruppe / pro Governor:**
 - Zeitreihe der warn_rate
 - Zeitreihe des Anteils Δt<0
 - Stabilitätsindikatoren pro Run-Gruppe
 **Vergleichsausgaben:**
 - pinned vs unpinned
  - Δ: warn_rate_diff
  - CI(Δ): [low, high]
  - RR: warn_rate_ratio
  - CI(RR): [low, high]
 - C-State-Korrelation: Korrelationskoeffizient zwischen aktivem C‑State und Metrikabweichungen
 - Trace-Muster: Erkennung stabiler Fingerprint-Sequenzen über Runs
 ## Workflow / Nutzung
 **Analyse-Workflow:**
 - Daten aus drei jüngsten Runs sammeln.
 - Schwellen X, Y, Z aus definierter Parameterdatei einlesen.
 - Berechnungsmodul für Kennzahlen ausführen.
 - Ergebnis mit Exit-Regel evaluieren.
 - Statusentscheidung dokumentieren (WARN / Eskalation).
 ### Trace-Template-Anforderungen
 **Ziel:** Reproduzierbare Run-Struktur mit stabilen Fingerprint-Metadaten.
 **Erforderliche Tags & Metadaten:**
 - policy_hash
 - setup_fingerprint
 - run_id
 **trace-cmd-Setup:**
 - Run-Setup einfrieren bevor Serie startet.
 - Nach jedem Lauf fingerprint prüfen.
 **Run-Design für Contributors:**
 - Mindestens drei konsekutive Runs mit identischem Setup.
 - Pinned als Referenz immer miterheben.
 ## Interpretation & erwartete Ergebnisse
 **Kernbefunde:**
 - Unpinned stabilisiert sich über mehrere Runs.
 - Warn- und Unknown-Raten bleiben innerhalb definierter Schwellen.
 - Δt<0 Anteil zeigt keine anhaltenden Ausreißer mehr.
 **Implikationen für Experimente:**
 - Die deterministische Exit-Regel kann für automatisierte Stabilitätsprüfungen eingesetzt werden.
 - Pinned dient zuverlässig als Kontrollgruppe.
 **Planungsziel:**
 - Ziel: Entscheidung über Eskalation oder Fortführung basierend auf stabilen Metriken.
 - Vorgehen:
  - Analyse nach Run #6 zur finalen Regelvalidierung.
  - Festlegung finaler Schwellenwerte X/Y/Z.
 ## Limitationen & Fallstricke
 **Datenbezogene Limitationen:**
 - Kleine Stichprobenumfänge (N=3) erhöhen Varianzrisiko.
 - Änderungen im Laufzeit-Environment können Fingerprint trotz stabiler Policy verändern.
 **Bootstrap-spezifische Limitationen:**
 - Bootstrap-Konfidenzintervalle instabil bei wenigen Runs.
 - Schätzungen können bei extremer Schiefe unpräzise sein.
 **Kausalität & Generalisierbarkeit:**
 - Korrelation der Metriken belegt keine Kausalität.
 - Regel gilt nur für getestete Systemtopologie.
 **Praktische Fallstricke:**
 - Zu enge Schwellen führen zu Fehlalarmen.
 - Nichtbeachtung des pinned-Control-Stratums verzerrt Stabilitätseindruck.
 ## Nächste Schritte & Erweiterungen
 **Geplante Experimente:**
 - Durchführung von Run #5 und #6 zur Validierung der Draft-Regel.
 **Analyseziele:**
 - Überprüfung der Schwellenrobustheit bei realen Fluktuationen.
 **Regression & Modellierung:**
 - Modellierung der Zeitreihenentwicklung der warn_rate zur Prognose künftiger Stabilität.
 **Community-Beiträge:**
 - Diskussion und Validierung der Exit-Regel im Gate‑Lab‑Forum.