Add decision_table/README.md

2026-02-04 14:46:48 +00:00 · 2026-02-04 14:46:48 +00:00 · 906c6e1d37
commit 906c6e1d37
parent c1b69dbf8e
1 changed files with 220 additions and 0 deletions
--- a/decision_table/README.md
+++ b/decision_table/README.md
@ -0,0 +1,220 @@
+# Decision-Tabelle zur Klassifizierung von Unknowns und Rerun-Effekt-Analyse (Policy v1.1)
+
+## Purpose
+
+Dokumentiert die Entscheidungstabelle für Unknown-Klassifikationen in der CI und spezifiziert die Rerun-Regeln gemäß Audit-Ergebnissen.
+
+**Problemstellung:** Fehlende Systematik zur Behandlung und Klassifikation von Unknown-Runs führte zu inkonsistenter CI-Analyse und uneinheitlichen Ergebnissen.
+
+**Ziele:**
+- Konsistente Klassifizierung bisher unklarer CI-Ergebnisse (Unknowns)
+- Definition von klaren Actions (PASS, WARN, FAIL) pro Unknown-Klasse
+- Quantitative Bewertung des Rerun-Effekts zur Policy-Ableitung
+
+## Kontext & Hintergrund
+
+audit.csv mit N=112 Run-Einträgen, enthält Protokolle und Diagnoseinformationen zu CI-Runs.
+
+**Gruppierung:**
+- pinned
+- unpinned
+
+**Trace-Metadaten / zusätzliche Tags:**
+- Stratum-Information für Effektanalyse
+- Labels für CI-Status und Fehlerursachen
+
+**Domänenkontext:**
+- Continuous Integration
+- Audit-basierte Klassifikation
+- CI-Automatisierung
+
+**Outlier-Definition:**
+- Methode: Empirische Klassifikation aus Audit-Daten
+- Beschreibung: Unknown-Runs gelten als Abweichungen, wenn Diagnose- oder Contract-Struktur unvollständig oder fehlerhaft ist.
+- Metrik: Run-Status versus erwartete Klassifikationsparameter
+
+**Motivation:**
+- Bereinigung der Kategorie 'Unknown' in der CI-Auswertung
+- Vermeidung von Fehlinterpretationen bei Rerun-Analysen
+- Herstellung automatisierter Reproduzierbarkeit der Entscheidungen
+
+## Methode / Spezifikation
+
+**Übersicht:**
+- Analyse von N=112 CI-Runs im audit.csv.
+- Klassifikation aller Unknowns in vier Ursachenklassen.
+- Zuordnung einer eindeutigen CI-Action pro Klasse.
+- Bewertung des Rerun-Effekts auf Entscheidungsänderungen nach pinned/unpinned-Stratum.
+
+**Algorithmen / Verfahren:**
+- Tabellarische Klassifikation: Zuordnung von Actions und Labels basierend auf Ursache.
+- Audit-basierte Aggregation des Rerun-Effekts über Helps, Shifts, Hurts.
+- Policy-Ableitung: Rerun-Budget nur bei unpinned wirksam, Exklusion bei Contract- oder Artefakt-Fehlern.
+
+### Bootstrap-Übersicht
+
+Resampling-basierte Stabilisierung geplanter Schwellenwerte (warn_rate, unknown_rate).
+
+**Zielgrößen:**
+- WARN-Anteil
+- Unknown-Anteil je Stratum
+
+### Resampling-Setup
+
+- pinned
+- unpinned
+
+**Stichprobeneinheit:** CI-Run
+
+**Resampling-Schema:**
+- Bootstrap mit Wiederholung zur Schätzung der Perzentil-basierten Schwellen
+
+**Konfidenzintervalle:**
+- Niveau: 0.95
+- Typ: Perzentil-Konfidenzintervall
+- Ableitung: Percentile bootstrap
+
+### Abgeleitete Effektgrößen
+
+**Risk Difference (Differenz der Raten):**
+- Definition: Differenz der Häufigkeiten von Helps/ Hurts zwischen Strata.
+- Bootstrap: Verwendung für Vertrauensintervalle der Rerun-Effekt-Schätzung.
+
+**Risk Ratio:**
+- Definition: Quotient der Helps-Rate zwischen unpinned und pinned Runs.
+- Bootstrap: Resampling zur Unsicherheitsabschätzung der Risikoverhältnisse.
+
+### C-State-Kontrolle
+
+**Ziel:** Vermeidung von Messverzerrungen durch Systemzustände während Audit-Erhebung.
+
+**Vorgehen:**
+- Paarweise Analyse nach pinned/unpinned
+- Standardisierung des Zeitraums pro Run
+
+## Input / Output
+
+### Input-Anforderungen
+
+**Hardware:**
+- Standard-CI-Infrastruktur ohne spezielle Hardwareanforderungen
+
+**Software:**
+- CI-System mit Log- und Trace-Export
+- Audit-Tooling für CSV-Analyse
+
+**Konfiguration:**
+- aktive Trennung zwischen pinned und unpinned Runs
+- Audit-Skript konfiguriert für Unknown-Erkennung
+
+### Erwartete Rohdaten
+
+**Felder pro Run:**
+- run_id
+- status
+- artifact_presence
+- contract_status
+- parse_status
+- pinned_flag
+
+**Formatbeispiele:**
+- 11234, UNKNOWN, missing, ok, fail, unpinned
+
+**Trace-Daten:**
+- Format: CSV/JSON
+- Hinweis: Muss pro Run Log- und Analyse-Metadaten enthalten.
+
+### Analyse-Ausgaben
+
+**Pro Gruppe / pro Governor:**
+- Helps-Quote
+- Shifts-Quote
+- Hurts-Quote pro Stratum
+
+**Vergleichsausgaben:**
+- unpinned vs pinned
+  - Δ: Helps-Differenz in Prozentpunkten
+  - CI(Δ): 95%-CI via Bootstrap
+  - RR: Helps_unpinned / Helps_pinned
+  - CI(RR): 95%-CI via Bootstrap
+  - Tests: Signifikanztest optional
+
+- C-State-Korrelation: Korrelation CI-Latenz vs. Klassifikationsfehler
+- Trace-Muster: Häufige Unknown-Artefaktmuster nach Fehlerklasse
+
+## Workflow / Nutzung
+
+**Analyse-Workflow:**
+- Audit-Daten einlesen
+- Runs nach Unknown-Klasse gruppieren
+- Decision-Tabelle anwenden: Klasse -> PASS/WARN/FAIL
+- Rerun-Auswertung getrennt nach pinned/unpinned durchführen
+- report.csv mit aktualisierten Klassifikationen erzeugen
+
+### Trace-Template-Anforderungen
+
+**Ziel:** Standardisierte Erfassung von Unknown-Ursachen zur Automatisierbarkeit der Policy-Anwendung.
+
+**Erforderliche Tags & Metadaten:**
+- run_id
+- pinned_flag
+- error_type
+- contract_status
+- rerun_count
+
+**trace-cmd-Setup:**
+- trace-cmd collect --metadata error_type,pinned_flag
+
+**Run-Design für Contributors:**
+- Min. 30 Runs pro Stratum zur statistischen Bewertung.
+
+## Interpretation & erwartete Ergebnisse
+
+**Kernbefunde:**
+- Unknowns lassen sich in vier stabile Fehlerklassen mit klaren Actions einteilen.
+- Rerun bringt bei unpinned Runs signifikante Verbesserung (Helps)
+- Bei pinned Runs sind Reruns ineffektiv; meist nur Metrikverschiebungen (Shifts).
+
+**Implikationen für Experimente:**
+- Policy v1.1 nutzt Rerun nur als Tie-Breaker bei unpinned.
+- Unvollständige Artefakte und Contract-Verstöße erzeugen immer WARN bzw. FAIL ohne Rerun-Korrektur.
+
+**Planungsziel:**
+- Ziel: Quantitative Ableitung robuster Warn- und Unknown-Schwellenwerte.
+- Vorgehen:
+  - Perzentil-basierte Schätzung der warn_rate und unknown_rate pro Stratum
+  - Bootstrap-Verifikation der Stabilität.
+
+## Limitationen & Fallstricke
+
+**Datenbezogene Limitationen:**
+- N=112 begrenzte Stichprobe, Risk-of-Overfitting in Schwellenableitung
+
+**Bootstrap-spezifische Limitationen:**
+- Stabile Konfidenzintervalle erfordern ≥1000 Resamples pro Stratum
+
+**Kausalität & Generalisierbarkeit:**
+- Rerun-Effekt gilt nur innerhalb auditierter Umgebung
+- Keine Generalisierung auf andere CI-Systeme ohne Nachprüfung
+
+**Praktische Fallstricke:**
+- Fehlende oder falsch gelabelte Runs stören Unknown-Detektion
+- Nicht alle Parser-Fehler sind deterministisch reproduzierbar
+
+## Nächste Schritte & Erweiterungen
+
+**Geplante Experimente:**
+- Erweiterung des Audit-Datensatzes auf ≥500 Runs
+- Validierung der Decision-Tabelle gegen neue CI-Versionen
+
+**Analyseziele:**
+- Kalibrierung von warn_rate und unknown_rate via Bootstrap-Perzentile
+- Sensitivitätsanalyse nach Artefakt-Typ
+
+**Regression & Modellierung:**
+- Einführung logit-basierten Modells zur Unknown-Vorhersage
+- Simulation des Rerun-Nutzens pro Klasse
+
+**Community-Beiträge:**
+- Veröffentlichung der Decision-Tabelle als YAML für Policy-v1.1-Replikation
+- Einbindung in CI-Beobachtungs-Tooling von Mika Code Lab