aux3_run_analysis/artifact.003/README.md
2026-04-04 17:36:40 +00:00

5.6 KiB
Raw Blame History

Gating-Prozess und Driftmessung bei aux=3 Runs

Purpose

Dokumentation des Gating-Verfahrens zur Driftkontrolle zwischen aux=2 und aux=3 Runs.

Problemstellung: Run #41 zeigte Drift und war für Vergleichsauswertung unbrauchbar. Es musste eine valide Methodik etabliert werden, um Drift messbar zu erkennen und durch Preflight-Gating auszuschließen.

Ziele:

  • Einrichtung eines validierten aux=3 Runs mit messbarer Driftkontrolle
  • Erstellung einer sauberen Vergleichsbasis zwischen aux=2 und aux=3
  • Vermeidung von Drift-bedingten Fehlinferenzen

Kontext & Hintergrund

Preflight- und Run-Messdaten für aux=2 und aux=3 unter identischen Setup-Bedingungen.

Gruppierung:

  • aux=2
  • aux=3

Trace-Metadaten / zusätzliche Tags:

  • timestamp
  • measured_p
  • freeze_ok
  • setup_fingerprint
  • policy_hash

Domänenkontext:

  • Systemleistungstests mit Zeitdrift-Empfindlichkeit
  • Vergleich experimenteller Laufkonfigurationen (aux=2 vs aux=3)

Outlier-Definition:

  • Methode: threshold gating
  • Beschreibung: Messwerte außerhalb des Zielbands (0.10 ± 0.02) werden verworfen.
  • Metrik: measured_p

Motivation:

  • Ermittlung stabiler Referenzbedingungen
  • Identifikation reproduzierbarer Driftanzeichen
  • Sicherung statistischer Vergleichbarkeit

Methode / Spezifikation

Übersicht:

  • Einführung eines formalen Gating-Schritts vor jedem aux-Run
  • Messung von Drift-Indikatoren bereits im Preflight
  • Start des Laufs nur bei erfülltem Freeze-Kriterium

Algorithmen / Verfahren:

  • Führe Preflight-Messungen aus, bis measured_p innerhalb 0.10 ± 0.02 liegt.
  • Setze freeze_ok=true, sobald das Zielband erreicht ist.
  • Starte den Hauptlauf (aux=Run) nur bei freeze_ok=true.
  • Vergleiche die Resultate zwischen aux=2 und aux=3.

C-State-Kontrolle

Ziel: Minimierung externer Drift-Ursachen während Messung

Vorgehen:

  • Identische setup_fingerprint- und policy_hash-Parameter erzwingen
  • Laufbedingungen einfrieren (Freeze-first Policy)
  • Erfassung jeder Preflight-Iteration zur Driftanalyse

Input / Output

Input-Anforderungen

Hardware:

  • identisches Messsystem für beide Läufe

Software:

  • Preflight-Gating-Logik mit freeze_ok-Feld

Konfiguration:

  • Toleranzband für measured_p (0.10 ± 0.02)

Erwartete Rohdaten

Felder pro Run:

  • timestamp
  • measured_p
  • freeze_ok
  • setup_fingerprint
  • policy_hash

Formatbeispiele:

  • 2024-06-21T07:11:32Z,0.109,true,abcd1234,efgh5678

Trace-Daten:

  • Format: tabellarisch oder JSON
  • Hinweis: Jeder Messversuch wird einzeln erfasst, um Drift über Zeit zu analysieren.

Analyse-Ausgaben

Pro Gruppe / pro Governor:

  • Median
  • Interquartilbereich (IQR)
  • retry_tail_p99_Hotspot
  • retry_tail_p99_Rest
  • band_width
  • Δband_width

Vergleichsausgaben:

  • aux=2 vs aux=3

    • Δ: direktional positiv (+)
    • CI(Δ): noch nicht berechnet
    • RR: nicht bestimmt
    • CI(RR): nicht bestimmt
    • Tests: nicht angewendet
  • C-State-Korrelation: nicht gemessen

  • Trace-Muster: Preflight-Drift sichtbar durch measured_p-Trend

Workflow / Nutzung

Analyse-Workflow:

  • Verwerfe vorherige fehlerhafte Runs mit Drift (#41).
  • Starte neuen Run (#41b) mit Preflight-Gate.
  • Überprüfe measured_p bis freeze_ok=true.
  • Führe Hauptlauf durch und erfasse Vergleichsmetriken.
  • Vergleiche aux=2 vs aux=3 anhand identischer Konfigurationen.

Trace-Template-Anforderungen

Ziel: Standardisierung von aux-Run-Daten für Vergleichbarkeit

Erforderliche Tags & Metadaten:

  • timestamp
  • measured_p
  • freeze_ok
  • setup_fingerprint
  • policy_hash

trace-cmd-Setup:

  • Verwende identische setup_fingerprint-Werte pro Paarvergleich

Run-Design für Contributors:

  • Nur gültige Runs mit freeze_ok=true hochladen

Interpretation & erwartete Ergebnisse

Kernbefunde:

  • Drift ist reproduzierbar messbar und durch Gating kontrollierbar.
  • aux=3 zeigt konsistent leicht höhere retry_tail_p99-Werte gegenüber aux=2.
  • Formal gültiger Vergleich erstmals möglich durch identische setup_fingerprint- und policy_hash-Werte.

Implikationen für Experimente:

  • Driftreduktion ist Voraussetzung für valide Performance-Vergleiche.
  • Freeze-first-Policy verhindert zufällige Laufabweichungen.
  • Erste stabile Basis für weiterführende Band- und Stratumtests geschaffen.

Planungsziel:

  • Ziel: Messung stabiler Δ(aux3aux2)-Effekte ohne Drift
  • Vorgehen:
    • Engbandiges Preflight-Gate anwenden
    • Drift vor Hauptlauf detektieren und kompensieren
    • Vergleich nur bei identischen Setup-Hashes zulassen

Limitationen & Fallstricke

Datenbezogene Limitationen:

  • Kleine Stichprobe (ein Paarvergleich) reduziert Aussagekraft.
  • Preflight-Zielband kann systemabhängig variieren.

Bootstrap-spezifische Limitationen:

  • Noch keine Bootstrap-validierte Unsicherheitsabschätzung durchgeführt.

Kausalität & Generalisierbarkeit:

  • Ergebnisse gelten nur für identisches Setup.
  • Keine kausale Aussage über Driftursache möglich.

Praktische Fallstricke:

  • Ungültige Runs ohne freeze_ok müssen konsequent ausgeschlossen werden.
  • Spätere Änderungen in setup_fingerprint brechen Vergleichbarkeit.

Nächste Schritte & Erweiterungen

Geplante Experimente:

  • Ein weiteres gültiges aux=3-Replikat im gleichen Freeze-Band durchführen.
  • Danach Band-Schwelleneinflüsse prüfen.

Analyseziele:

  • Stabilität von Δ(aux3aux2) über mehrere Runs evaluieren.
  • Drift-Koeffizienten quantifizieren.

Regression & Modellierung:

  • Bootstrap-Resampling zur Unsicherheitsschätzung implementieren.
  • Modellierung der measured_p-Drift über Zeitachsen.

Community-Beiträge:

  • Definition fixer Gating-Kriterien für künftige aux-Vergleiche.
  • Bereitstellung standardisierter Preflight-Protokolle.