5 KiB
Exit-Regel v1 – Festlegung absoluter Schwellenwerte (Commit nach Run #6)
Purpose
Verifikation der Stabilität und Festlegung fest definierter Schwellenwerte für die Exit-Regel v1 auf Basis der Runs #3–#6.
Problemstellung: Bisherige Runs (#1–#5) dienten der Stabilisierung und Charakterisierung von Variabilität. Ziel war die Validierung einer stabilen, nicht-angepassten Exit-Regel bei konstantem Setup.
Ziele:
- Reproduzierbarkeit der Run-Ergebnisse nachweisen
- Schwellen für warn_rate, unknown_rate und Δt-Anteil absolut festlegen
- Übergang von experimenteller zu produktiver Regelung (Instrumentalisierung der Exit-Regel)
Kontext & Hintergrund
1000 Events pro Stratum (pinned/unpinned). Gleiches Setup wie Runs #4 und #5.
Gruppierung:
- pinned
- unpinned
Trace-Metadaten / zusätzliche Tags:
- Δt-Werte
- warn_rate
- unknown_rate
Domänenkontext:
- CI-Systeme
- experimentelle Stabilitätsprüfung
- Zeitbasierte Prozessvalidierung
Outlier-Definition:
- Methode: absolute Schwellenwerte
- Beschreibung: Δt < 0 Ereignisse als Ausreißer bezogen auf erwartete nicht-negative Zeitdifferenzen.
- Metrik: Anteil Δt < 0
Motivation:
- Absicherung gegen schleichende Optimierung der Gate-Kriterien
- Beibehaltung eines stabilen Baselines-Sets für 10 Folgeruns
- Saubere Trennung von Kontroll- und Entscheidungsstratum
Methode / Spezifikation
Übersicht:
- Run #6 mit identischem Setup wie Runs #4 und #5 durchgeführt.
- Keine neuen Metriken oder Datenquellen eingeführt.
- Auswertung über 2×2-Kontingenzmatrix (pinned/unpinned × Δt<0/Δt≥0).
Algorithmen / Verfahren:
- Zählen von Events pro Stratum.
- Berechnung der warn_rate und unknown_rate.
- Zählung der Δt<0-Fälle.
- Vergleich der Strata gegen absolute Grenzwerte.
- Markierung von Eskalationen bei Überschreitung.
Input / Output
Input-Anforderungen
Hardware:
- Standard-Runner Infrastruktur
Software:
- identische Kernel, Python-Version und Runner-Image wie Run #4/#5
Konfiguration:
- setup_fingerprint identisch zu Run 4/5
- policy_hash unverändert
Erwartete Rohdaten
Felder pro Run:
- event_id
- stratum
- warn_flag
- unknown_flag
- Δt
Formatbeispiele:
- 1234, pinned, false, false, 0.002
- 7890, unpinned, true, false, 0.014
Trace-Daten:
- Format: CSV oder strukturiertes Log mit Δt- und Statusspalten
- Hinweis: keine strukturellen Änderungen gegenüber Runs #3–#5
Analyse-Ausgaben
Pro Gruppe / pro Governor:
- warn_rate
- unknown_rate
- Anteil Δt<0
Vergleichsausgaben:
-
pinned vs unpinned
- Δ: warn_rate 0.08 pp höher in unpinned
-
Trace-Muster: keine Regression zwischen Runs #4–#6
Workflow / Nutzung
Analyse-Workflow:
- Setup-Freeze-Check vor Start des Runs durchführen.
- Run #6 mit fixen N=1000 pro Stratum ausführen.
- Aggregierte Kennzahlen pro Stratum berechnen.
- Exit-Entscheidung anhand der Schwellen treffen:
- WARN-only bei Einhaltung; FAIL bei Grenzwertüberschreitung im unpinned-Stratum.
Trace-Template-Anforderungen
Ziel: Erfassung stabiler Δt-, warn-, unknown-Verteilungen für beide Strata.
Erforderliche Tags & Metadaten:
- stratum
- Δt
- warn_flag
- unknown_flag
trace-cmd-Setup:
- keine Änderungen am Trace-Setup gegenüber Run #4/#5
Run-Design für Contributors:
- konstante Umgebung, keine Versionsabweichungen
- gleicher Datenerfassungszeitraum und Triggerbedingungen
Interpretation & erwartete Ergebnisse
Kernbefunde:
- kein Drift in Kontrollstratum (pinned)
- stabile Warn- und Unknown-Raten gemäß Erwartung
- Δt<0 im unpinned-Stratum bleiben selten (≤0.004)
Implikationen für Experimente:
- Regel v1 als stabil und belastbar klassifiziert
- künftige Runs folgen eingefrorener Baseline
- keine Anpassung relativer Schwellen in den nächsten 10 Runs
Planungsziel:
- Ziel: Instrumentalisierung einer stabilen Exit-Regel für produktive Nutzung
- Vorgehen:
- absolut definierte Schwellen
- kein dynamisches Mitskalieren mit Mittelwert
- fest definierte Baseline über Runs hinweg
Limitationen & Fallstricke
Datenbezogene Limitationen:
- geringe Anzahl Runs (nur drei valide Vergleichspunkte)
- begrenzte Varianzbeobachtung
Kausalität & Generalisierbarkeit:
- aktuell nur für CI-Testlaufumgebung validiert
- nicht automatisch auf produktive Systeme übertragbar
Praktische Fallstricke:
- statische Schwellen können künftige Driftmaskierung nicht ausgleichen
- fehlende dynamische Anpassung kann bei Konfigurationsänderungen Fehlalarme erzeugen
Nächste Schritte & Erweiterungen
Geplante Experimente:
- 10-Folgeruns zur Stabilitätsprüfung
- Langzeitvergleich der unpinned-Stratum-Trends
Analyseziele:
- Validierung der Prognose (pinned stabil in 9–10 Runs)
- Identifikation seltener FAIL-Fälle durch Timingdrift oder Whitelist-Ablauf
Regression & Modellierung:
- Analyse der Δt-Verteilungen über Zeit
- Erweiterung um IQR-basierte Verfahren bei größerem Datensatz
Community-Beiträge:
- Diskussion absolut vs. relativ geführter Exit-Schwellen über MissionControl-Forum