exit_rule_v1_commit/exit_rule_commit/README.md

5 KiB
Raw Permalink Blame History

Exit-Regel v1 Festlegung absoluter Schwellenwerte (Commit nach Run #6)

Purpose

Verifikation der Stabilität und Festlegung fest definierter Schwellenwerte für die Exit-Regel v1 auf Basis der Runs #3#6.

Problemstellung: Bisherige Runs (#1#5) dienten der Stabilisierung und Charakterisierung von Variabilität. Ziel war die Validierung einer stabilen, nicht-angepassten Exit-Regel bei konstantem Setup.

Ziele:

  • Reproduzierbarkeit der Run-Ergebnisse nachweisen
  • Schwellen für warn_rate, unknown_rate und Δt-Anteil absolut festlegen
  • Übergang von experimenteller zu produktiver Regelung (Instrumentalisierung der Exit-Regel)

Kontext & Hintergrund

1000 Events pro Stratum (pinned/unpinned). Gleiches Setup wie Runs #4 und #5.

Gruppierung:

  • pinned
  • unpinned

Trace-Metadaten / zusätzliche Tags:

  • Δt-Werte
  • warn_rate
  • unknown_rate

Domänenkontext:

  • CI-Systeme
  • experimentelle Stabilitätsprüfung
  • Zeitbasierte Prozessvalidierung

Outlier-Definition:

  • Methode: absolute Schwellenwerte
  • Beschreibung: Δt < 0 Ereignisse als Ausreißer bezogen auf erwartete nicht-negative Zeitdifferenzen.
  • Metrik: Anteil Δt < 0

Motivation:

  • Absicherung gegen schleichende Optimierung der Gate-Kriterien
  • Beibehaltung eines stabilen Baselines-Sets für 10 Folgeruns
  • Saubere Trennung von Kontroll- und Entscheidungsstratum

Methode / Spezifikation

Übersicht:

  • Run #6 mit identischem Setup wie Runs #4 und #5 durchgeführt.
  • Keine neuen Metriken oder Datenquellen eingeführt.
  • Auswertung über 2×2-Kontingenzmatrix (pinned/unpinned × Δt<0/Δt≥0).

Algorithmen / Verfahren:

  • Zählen von Events pro Stratum.
  • Berechnung der warn_rate und unknown_rate.
  • Zählung der Δt<0-Fälle.
  • Vergleich der Strata gegen absolute Grenzwerte.
  • Markierung von Eskalationen bei Überschreitung.

Input / Output

Input-Anforderungen

Hardware:

  • Standard-Runner Infrastruktur

Software:

  • identische Kernel, Python-Version und Runner-Image wie Run #4/#5

Konfiguration:

  • setup_fingerprint identisch zu Run 4/5
  • policy_hash unverändert

Erwartete Rohdaten

Felder pro Run:

  • event_id
  • stratum
  • warn_flag
  • unknown_flag
  • Δt

Formatbeispiele:

  • 1234, pinned, false, false, 0.002
  • 7890, unpinned, true, false, 0.014

Trace-Daten:

  • Format: CSV oder strukturiertes Log mit Δt- und Statusspalten
  • Hinweis: keine strukturellen Änderungen gegenüber Runs #3#5

Analyse-Ausgaben

Pro Gruppe / pro Governor:

  • warn_rate
  • unknown_rate
  • Anteil Δt<0

Vergleichsausgaben:

  • pinned vs unpinned

    • Δ: warn_rate 0.08 pp höher in unpinned
  • Trace-Muster: keine Regression zwischen Runs #4#6

Workflow / Nutzung

Analyse-Workflow:

  • Setup-Freeze-Check vor Start des Runs durchführen.
  • Run #6 mit fixen N=1000 pro Stratum ausführen.
  • Aggregierte Kennzahlen pro Stratum berechnen.
  • Exit-Entscheidung anhand der Schwellen treffen:
  • WARN-only bei Einhaltung; FAIL bei Grenzwertüberschreitung im unpinned-Stratum.

Trace-Template-Anforderungen

Ziel: Erfassung stabiler Δt-, warn-, unknown-Verteilungen für beide Strata.

Erforderliche Tags & Metadaten:

  • stratum
  • Δt
  • warn_flag
  • unknown_flag

trace-cmd-Setup:

  • keine Änderungen am Trace-Setup gegenüber Run #4/#5

Run-Design für Contributors:

  • konstante Umgebung, keine Versionsabweichungen
  • gleicher Datenerfassungszeitraum und Triggerbedingungen

Interpretation & erwartete Ergebnisse

Kernbefunde:

  • kein Drift in Kontrollstratum (pinned)
  • stabile Warn- und Unknown-Raten gemäß Erwartung
  • Δt<0 im unpinned-Stratum bleiben selten (≤0.004)

Implikationen für Experimente:

  • Regel v1 als stabil und belastbar klassifiziert
  • künftige Runs folgen eingefrorener Baseline
  • keine Anpassung relativer Schwellen in den nächsten 10 Runs

Planungsziel:

  • Ziel: Instrumentalisierung einer stabilen Exit-Regel für produktive Nutzung
  • Vorgehen:
    • absolut definierte Schwellen
    • kein dynamisches Mitskalieren mit Mittelwert
    • fest definierte Baseline über Runs hinweg

Limitationen & Fallstricke

Datenbezogene Limitationen:

  • geringe Anzahl Runs (nur drei valide Vergleichspunkte)
  • begrenzte Varianzbeobachtung

Kausalität & Generalisierbarkeit:

  • aktuell nur für CI-Testlaufumgebung validiert
  • nicht automatisch auf produktive Systeme übertragbar

Praktische Fallstricke:

  • statische Schwellen können künftige Driftmaskierung nicht ausgleichen
  • fehlende dynamische Anpassung kann bei Konfigurationsänderungen Fehlalarme erzeugen

Nächste Schritte & Erweiterungen

Geplante Experimente:

  • 10-Folgeruns zur Stabilitätsprüfung
  • Langzeitvergleich der unpinned-Stratum-Trends

Analyseziele:

  • Validierung der Prognose (pinned stabil in 910 Runs)
  • Identifikation seltener FAIL-Fälle durch Timingdrift oder Whitelist-Ablauf

Regression & Modellierung:

  • Analyse der Δt-Verteilungen über Zeit
  • Erweiterung um IQR-basierte Verfahren bei größerem Datensatz

Community-Beiträge:

  • Diskussion absolut vs. relativ geführter Exit-Schwellen über MissionControl-Forum