Add ci_policy_documentation/README.md

2026-01-27 13:13:46 +00:00 · 2026-01-27 13:13:46 +00:00 · c2aa247123
commit c2aa247123
parent eeedd2182f
1 changed files with 193 additions and 0 deletions
--- a/ci_policy_documentation/README.md
+++ b/ci_policy_documentation/README.md
@ -0,0 +1,193 @@
 # CI-Policy Dokumentation für Gate v0.1
 ## Purpose
 Definition der CI-Policy-Regeln und Entscheidungslogik für Gate v0.1 auf Basis der k-of-n Aggregation und Decision-Margin-Mechanismen.
 **Problemstellung:** Vor Gate v0.1 führten unstabile Aggregationsentscheidungen (z. B. k=3-of-6) zu häufigen Flip-Flops. Ziel ist eine belastbare, überprüfbare Regelung der Entscheidungslogik.
 **Ziele:**
 - Standardisierte Entscheidung über PASS/WARN/FAIL in CI-Prozessen
 - Nachvollziehbare Aggregationslogik mit reproduzierbarem Backtest
 - Etablierung robuster Schwellenwerte zur Reduktion von Fehlalarmen
 ## Kontext & Hintergrund
 Frozen-Runs #20–#29 mit Ausgabedaten wie mischfenster_p95, margin, flaky_flag und subset_flip_count.
 **Gruppierung:**
 - run_id
 - pinned
 **Trace-Metadaten / zusätzliche Tags:**
 - pinned Zustand
 - Metrik mischfenster_p95
 - Subset-Stabilität (subset_flip_count)
 **Domänenkontext:**
 - CI-Gate-Entscheidungssystem
 - Performance- und Stabilitätstests
 **Outlier-Definition:**
 - Methode: Decision-Margin-Threshold
 - Beschreibung: Definiert eine Zone um den Schwellenwert, in der FAIL in WARN umgewandelt wird.
 - Metrik: mischfenster_p95
 **Motivation:**
 - Reduktion von Fehlalarmen in automatisierten Evaluationsläufen
 - Transparente Entscheidungsfindung basierend auf Backtest-Daten
 - Klare Trennung zwischen Warn- und Fehlerzuständen
 ## Methode / Spezifikation
 **Übersicht:**
 - Verwendet k-of-n Aggregation für n=6 Subentscheidungen.
 - Standardkonfiguration: k=5-of-6 gilt als stabil.
 - Decision-Margin-Zone konvertiert knappe FAILs zu WARNs.
 - Flaky-Flag kennzeichnet instabile Subsets mit hoher Flip-Rate.
 **Algorithmen / Verfahren:**
 - Berechne mischfenster_p95 pro Run.
 - Aggregiere n=6 Resultate per k-of-n-Logik.
 - Ermittle Decision-Margin basierend auf Schwellwert.
 - Setze flaky_flag auf TRUE, wenn subset_flip_count > 0.
 ### Bootstrap-Übersicht
 Kein Bootstrap-Verfahren im eigentlichen Sinne – Backtest erfolgt über existierende Frozen-Runs.
 **Zielgrößen:**
 - Stabilität der Gate-Entscheidung
 - Minimierung von Flip-Flops
 ### Abgeleitete Effektgrößen
 **Risk Difference (Differenz der Raten):**
 - Definition: Differenzanteil von FAIL-Entscheidungen zwischen Konfigurationen (z. B. k=3 und k=5).
 - Bootstrap: Backtest-basierte Beobachtung über Runs #20–#29, keine Resampling-Verfahren verwendet.
 **Risk Ratio:**
 - Definition: Verhältnis des Fehl-Alarms zwischen alten und neuen Gate-Einstellungen.
 - Bootstrap: Berechnet aus beobachteten CSV-Aggregaten.
 ## Input / Output
 ### Input-Anforderungen
 **Hardware:**
 - Standard CI-Runner Hardware, keine Spezialhardware erforderlich
 **Software:**
 - Python >= 3.9
 - CSV-Auswertung in Pandas optional
 **Konfiguration:**
 - Gate-Parameter: k=5, n=6
 - Decision-Margin-Threshold definieren (experimentabhängig)
 ### Erwartete Rohdaten
 **Felder pro Run:**
 - run_id
 - pinned
 - mischfenster_p95
 - decision
 - margin
 - flaky_flag
 - subset_flip_count
 **Formatbeispiele:**
 - 24, true, 0.935, WARN, 0.012, false, 1
 **Trace-Daten:**
 - Format: CSV
 - Hinweis: Keine neuen Messungen, ausschließlich Reanalyse bestehender Frozen-Runs.
 ### Analyse-Ausgaben
 **Pro Gruppe / pro Governor:**
 - Anteil von PASS/WARN/FAIL pro Run
 - Stabilitätsindikator pro Aggregationsgruppe
 **Vergleichsausgaben:**
 - k=3-of-6 vs k=5-of-6
  - Δ: Reduktion der Flip-Flop-Rate um ~X Prozentpunkte
  - RR: Rückgang der Fehlalarme um Faktor Y
 - Trace-Muster: Visualisierung von subset_flip_count vs. Decision-Margin zur Stabilitätsanalyse
 ## Workflow / Nutzung
 **Analyse-Workflow:**
 - Importiere Frozen-Run-Daten (#20–#29).
 - Führe k-of-n Aggregation mit k=5, n=6 aus.
 - Berechne Decision-Margin und flaky_flag.
 - Erzeuge zusammenfassende CSV- und Debug-JSON-Dateien.
 - Verifiziere Ergebnisse gegen bestehende Aggregationskonfigurationen (z. B. k=3).
 ### Trace-Template-Anforderungen
 **Ziel:** Einheitlicher Vergleich über identische Run-Strukturen hinweg.
 **Erforderliche Tags & Metadaten:**
 - run_id
 - pinned
 - mischfenster_p95
 **trace-cmd-Setup:**
 - Nutze unveränderte Pipeline-Konfiguration.
 - Keine zusätzlichen Measurement-Probes aktivieren.
 **Run-Design für Contributors:**
 - Ergänze Runs nur, wenn Freeze-Kriterien erfüllt sind.
 - Dokumentiere Margin-Threshold-Werte im Git-Metadatenfeld.
 ## Interpretation & erwartete Ergebnisse
 **Kernbefunde:**
 - k=5-of-6 eliminiert instabile Flip-Flop-Verhalten fast vollständig.
 - Decision-Margin verringert Fehlalarme ohne signifikante Sensitivitätseinbußen.
 - Flakiness wird transparent markiert statt überdeckt.
 **Implikationen für Experimente:**
 - Standardisierung der k-of-n Aggregation im CI-System.
 - Integration von WARN-Stufen zur kontrollierten Fehlertoleranz.
 **Planungsziel:**
 - Ziel: Reduktion fehlerhafter FAIL-Entscheidungen in der CI-Auswertung.
 - Vorgehen:
  - Einführung von Decision-Margin-Grenzen.
  - Validierung über Backtest-Ergebnisse.
  - Anwendung konsistenter Aggregationsparameter in zukünftigen Versionen.
 ## Limitationen & Fallstricke
 **Datenbezogene Limitationen:**
 - Begrenzte Stichprobe (nur Runs #20–#29).
 - Keine neuen Messproben; mögliche Datenverzerrungen bleiben bestehen.
 **Bootstrap-spezifische Limitationen:**
 - Keine echte Bootstrap-Stichprobenbildung; Ergebnisse basieren auf beobachteten Werten.
 **Kausalität & Generalisierbarkeit:**
 - Ergebnisse gelten nur für identische Metriken und Run-Strukturen.
 - Keine Generalisierung auf andere Gate-Signale ohne Revalidierung.
 **Praktische Fallstricke:**
 - Fehlende Dynamik bei Änderungen der Metrik mischfenster_p95.
 - Decision-Margin kann bei stark schwankenden Runs Fehlinterpretationen erzeugen.
 ## Nächste Schritte & Erweiterungen
 **Geplante Experimente:**
 - Evaluation anderer k-Werte zur Stabilitätsanalyse unter variierenden Bedingungen.
 **Analyseziele:**
 - Umfassende Gegenüberstellung k=3 vs. k=5 mit Flip-Flop-Tabelle.
 - Integration der CI-Reaktionsregeln direkt in das Reporting.
 **Regression & Modellierung:**
 - Aufbau eines Regressionsmodells zur Vorhersage von Flakiness basierend auf margin- und subset-Metriken.
 **Community-Beiträge:**
 - Bereitstellung der Backtest-CSV und CI-Policy-Definition zur Reproduktion durch andere Teammitglieder.