Mika 196fda73d0 Add exit_rule_commit/README.md

2026-02-27 10:56:53 +00:00

5 KiB

Raw Permalink Blame History

Exit-Regel v1 – Festlegung absoluter Schwellenwerte (Commit nach Run #6)

Purpose

Verifikation der Stabilität und Festlegung fest definierter Schwellenwerte für die Exit-Regel v1 auf Basis der Runs #3–#6.

Problemstellung: Bisherige Runs (#1–#5) dienten der Stabilisierung und Charakterisierung von Variabilität. Ziel war die Validierung einer stabilen, nicht-angepassten Exit-Regel bei konstantem Setup.

Ziele:

Reproduzierbarkeit der Run-Ergebnisse nachweisen
Schwellen für warn_rate, unknown_rate und Δt-Anteil absolut festlegen
Übergang von experimenteller zu produktiver Regelung (Instrumentalisierung der Exit-Regel)

Kontext & Hintergrund

1000 Events pro Stratum (pinned/unpinned). Gleiches Setup wie Runs #4 und #5.

Gruppierung:

pinned
unpinned

Trace-Metadaten / zusätzliche Tags:

Δt-Werte
warn_rate
unknown_rate

Domänenkontext:

CI-Systeme
experimentelle Stabilitätsprüfung
Zeitbasierte Prozessvalidierung

Outlier-Definition:

Methode: absolute Schwellenwerte
Beschreibung: Δt < 0 Ereignisse als Ausreißer bezogen auf erwartete nicht-negative Zeitdifferenzen.
Metrik: Anteil Δt < 0

Motivation:

Absicherung gegen schleichende Optimierung der Gate-Kriterien
Beibehaltung eines stabilen Baselines-Sets für 10 Folgeruns
Saubere Trennung von Kontroll- und Entscheidungsstratum

Methode / Spezifikation

Übersicht:

Run #6 mit identischem Setup wie Runs #4 und #5 durchgeführt.
Keine neuen Metriken oder Datenquellen eingeführt.
Auswertung über 2×2-Kontingenzmatrix (pinned/unpinned × Δt<0/Δt≥0).

Algorithmen / Verfahren:

Zählen von Events pro Stratum.
Berechnung der warn_rate und unknown_rate.
Zählung der Δt<0-Fälle.
Vergleich der Strata gegen absolute Grenzwerte.
Markierung von Eskalationen bei Überschreitung.

Input / Output

Input-Anforderungen

Hardware:

Standard-Runner Infrastruktur

Software:

identische Kernel, Python-Version und Runner-Image wie Run #4/#5

Konfiguration:

setup_fingerprint identisch zu Run 4/5
policy_hash unverändert

Erwartete Rohdaten

Felder pro Run:

event_id
stratum
warn_flag
unknown_flag
Δt

Formatbeispiele:

1234, pinned, false, false, 0.002
7890, unpinned, true, false, 0.014

Trace-Daten:

Format: CSV oder strukturiertes Log mit Δt- und Statusspalten
Hinweis: keine strukturellen Änderungen gegenüber Runs #3–#5

Analyse-Ausgaben

Pro Gruppe / pro Governor:

warn_rate
unknown_rate
Anteil Δt<0

Vergleichsausgaben:

pinned vs unpinned
- Δ: warn_rate 0.08 pp höher in unpinned
Trace-Muster: keine Regression zwischen Runs #4–#6

Workflow / Nutzung

Analyse-Workflow:

Setup-Freeze-Check vor Start des Runs durchführen.
Run #6 mit fixen N=1000 pro Stratum ausführen.
Aggregierte Kennzahlen pro Stratum berechnen.
Exit-Entscheidung anhand der Schwellen treffen:
WARN-only bei Einhaltung; FAIL bei Grenzwertüberschreitung im unpinned-Stratum.

Trace-Template-Anforderungen

Ziel: Erfassung stabiler Δt-, warn-, unknown-Verteilungen für beide Strata.

Erforderliche Tags & Metadaten:

stratum
Δt
warn_flag
unknown_flag

trace-cmd-Setup:

keine Änderungen am Trace-Setup gegenüber Run #4/#5

Run-Design für Contributors:

konstante Umgebung, keine Versionsabweichungen
gleicher Datenerfassungszeitraum und Triggerbedingungen

Interpretation & erwartete Ergebnisse

Kernbefunde:

kein Drift in Kontrollstratum (pinned)
stabile Warn- und Unknown-Raten gemäß Erwartung
Δt<0 im unpinned-Stratum bleiben selten (≤0.004)

Implikationen für Experimente:

Regel v1 als stabil und belastbar klassifiziert
künftige Runs folgen eingefrorener Baseline
keine Anpassung relativer Schwellen in den nächsten 10 Runs

Planungsziel:

Ziel: Instrumentalisierung einer stabilen Exit-Regel für produktive Nutzung
Vorgehen:
- absolut definierte Schwellen
- kein dynamisches Mitskalieren mit Mittelwert
- fest definierte Baseline über Runs hinweg

Limitationen & Fallstricke

Datenbezogene Limitationen:

geringe Anzahl Runs (nur drei valide Vergleichspunkte)
begrenzte Varianzbeobachtung

Kausalität & Generalisierbarkeit:

aktuell nur für CI-Testlaufumgebung validiert
nicht automatisch auf produktive Systeme übertragbar

Praktische Fallstricke:

statische Schwellen können künftige Driftmaskierung nicht ausgleichen
fehlende dynamische Anpassung kann bei Konfigurationsänderungen Fehlalarme erzeugen

Nächste Schritte & Erweiterungen

Geplante Experimente:

10-Folgeruns zur Stabilitätsprüfung
Langzeitvergleich der unpinned-Stratum-Trends

Analyseziele:

Validierung der Prognose (pinned stabil in 9–10 Runs)
Identifikation seltener FAIL-Fälle durch Timingdrift oder Whitelist-Ablauf

Regression & Modellierung:

Analyse der Δt-Verteilungen über Zeit
Erweiterung um IQR-basierte Verfahren bei größerem Datensatz

Community-Beiträge:

Diskussion absolut vs. relativ geführter Exit-Schwellen über MissionControl-Forum

5 KiB Raw Permalink Blame History Unescape Escape