Add policy_definition/README.md

2026-01-28 16:22:46 +00:00 · 2026-01-28 16:22:46 +00:00 · 49a5b05a87
commit 49a5b05a87
parent 8b20544d76
1 changed files with 165 additions and 0 deletions
--- a/policy_definition/README.md
+++ b/policy_definition/README.md
@ -0,0 +1,165 @@
 # CI-Policy v0.1 – Definition und Evaluierung für PASS/WARN/FAIL Entscheidungen
 ## Purpose
 Formale Definition einer Continuous-Integration-Policy, die Gate-Entscheidungen aus Debug-Daten automatisiert und nachvollziehbar trifft.
 **Problemstellung:** Bisherige Entscheidungslogik in CI-Gates war inkonsistent und interpretierbar. Ziel ist eine deterministische, testbare Policy, die WARN- und FAIL-Bereiche formal abgrenzt.
 **Ziele:**
 - Reduktion subjektiver Entscheidungen in CI-Ergebnissen
 - Standardisierung der Kategorien PASS, WARN und FAIL
 - Einführung maschinenlesbarer Regeldefinition für Gate-Entscheidungen
 ## Kontext & Hintergrund
 Backtest-CSV-Daten (#20–#29) mit Debug-JSON-Ausgaben je Run
 **Gruppierung:**
 - pinned
 - unpinned
 **Trace-Metadaten / zusätzliche Tags:**
 - margin
 - decision
 - flaky_flag
 - subset_flipcount
 - mischfenster_p95
 **Domänenkontext:**
 - Continuous Integration
 - Automatisiertes Testen
 - Qualitätssicherung von CI-Gates
 **Motivation:**
 - Formalisierung bisher intuitiver Gate-Entscheidungen
 - Stabilisierung der Bewertung von knappen Testergebnissen (Margin-Zone)
 - Reduzierung von Flip-Flops zwischen Runs durch konsistente Regeln
 ## Methode / Spezifikation
 **Übersicht:**
 - Die Policy nutzt Metriken aus Debug-JSON zur Festlegung deterministischer Entscheidungen in CI-Läufen.
 - Regeln sind in YAML definiert, maschinenlesbar und unit-testbar.
 **Algorithmen / Verfahren:**
 - PASS → allow
 - WARN → allow + label + Auto-Rerun
 - FAIL → block
 - WARN wird getriggert, wenn Margin-Zone oder flaky_flag zutrifft
 ### Bootstrap-Übersicht
 Nicht anwendbar – deterministische Regelbewertung, kein Resampling.
 **Zielgrößen:**
 ## Input / Output
 ### Input-Anforderungen
 **Hardware:**
 **Software:**
 - Python >=3.8
 - YAML Parser
 - CI-System (z. B. GitHub Actions, Jenkins)
 **Konfiguration:**
 - Integration der YAML-Policy in CI-Pipeline als Validierungsstufe
 ### Erwartete Rohdaten
 **Felder pro Run:**
 - timestamp
 - run_id
 - decision
 - margin
 - flaky_flag
 - subset_flipcount
 - mischfenster_p95
 **Formatbeispiele:**
 - 2024-02-10T08:33:20Z, run_020, WARN, 0.04, true, 1, 0.87
 **Trace-Daten:**
 - Format: JSON
 - Hinweis: Debug-JSON pro Run liefert Basisdaten für Policy-Entscheidung
 ### Analyse-Ausgaben
 **Pro Gruppe / pro Governor:**
 **Vergleichsausgaben:**
 - Trace-Muster: Analyse von WARN-Raten im Zeitverlauf als Indikator für Policy-Drift
 ## Workflow / Nutzung
 **Analyse-Workflow:**
 - Debug-JSONs aus CI-Runs sammeln.
 - Policy auf Debug-JSON anwenden, Entscheidung ableiten.
 - Per Run eine Zeile als Report-Artefakt schreiben.
 - Mittlere WARN-Rate überwachen, Threshold-basierte Alarme setzen (z. B. >30% über 20 Runs).
 ### Trace-Template-Anforderungen
 **Ziel:** Einheitliche Auswertungskriterien für alle CI-Runs.
 **Erforderliche Tags & Metadaten:**
 - margin
 - flaky_flag
 - decision
 **trace-cmd-Setup:**
 - Policy automatisch im Post-Test-Step ausführen
 - Ergebnis als CSV-Zeile im Artefaktordner speichern
 **Run-Design für Contributors:**
 - Jeder Commit löst einen CI-Run aus
 - Policy bewertet Run-Ergebnisse deterministisch
 - WARN-Runs werden automatisch rerunnt
 ## Interpretation & erwartete Ergebnisse
 **Kernbefunde:**
 - pinned-Runs bleiben stabil im PASS/WARN-Bereich
 - unpinned-Runs tragen Hauptanteil der WARN-Entscheidungen
 - keine Fehlklassifikation durch Margin-Anpassung
 - kritische Flip-Flops werden formal eliminiert
 **Implikationen für Experimente:**
 - Policy-Design verbessert Konsistenz und Nachvollziehbarkeit von Gate-Entscheidungen
 - Automatische Reruns reduzieren unnötige FAIL-Blöcke
 - Drift-Monitoring erlaubt langfristige Quantifizierung der Policy-Stabilität
 **Planungsziel:**
 - Ziel: Evaluiere Stabilität und Drift der Policy durch fortlaufende CI-Metrikerfassung.
 - Vorgehen:
  - Messung der WARN-Rate über sequenzielle Runs
  - Schwellwert-Alarmierung bei Policy-Drift
 ## Limitationen & Fallstricke
 **Datenbezogene Limitationen:**
 - Backtest-Datensatz ist statisch; neue Laufdaten können abweichende WARN-Verteilungen zeigen
 **Kausalität & Generalisierbarkeit:**
 - Policy-Validität hängt von Stabilität der zugrundeliegenden Metriken ab
 **Praktische Fallstricke:**
 - Zu enge Margins können unnötige WARNs erzeugen
 - Fehlerhafte flaky_flag-Erkennung beeinflusst Ergebnisqualität
 ## Nächste Schritte & Erweiterungen
 **Geplante Experimente:**
 - Implementierung eines Policy-Drift-Monitors zur Überwachung von WARN-Raten
 **Analyseziele:**
 - Langzeitstatistik von PASS/WARN/FAIL
 - Analyse saisonaler Schwankungen in flaky_flag-Raten
 **Regression & Modellierung:**
 - Evaluierung einer adaptiven Margin-Zone basierend auf historischen Stable-Runs
 **Community-Beiträge:**
 - Open-Source-Veröffentlichung der YAML-Policy und CI-Runner-Integration
 - Feedback-Sammlung zu WARN-Interpretation (soft fail vs. block with rerun)