aux3_run_analysis/artifact.003/README.md
2026-04-04 17:36:40 +00:00

193 lines
5.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Gating-Prozess und Driftmessung bei aux=3 Runs
## Purpose
Dokumentation des Gating-Verfahrens zur Driftkontrolle zwischen aux=2 und aux=3 Runs.
**Problemstellung:** Run #41 zeigte Drift und war für Vergleichsauswertung unbrauchbar. Es musste eine valide Methodik etabliert werden, um Drift messbar zu erkennen und durch Preflight-Gating auszuschließen.
**Ziele:**
- Einrichtung eines validierten aux=3 Runs mit messbarer Driftkontrolle
- Erstellung einer sauberen Vergleichsbasis zwischen aux=2 und aux=3
- Vermeidung von Drift-bedingten Fehlinferenzen
## Kontext & Hintergrund
Preflight- und Run-Messdaten für aux=2 und aux=3 unter identischen Setup-Bedingungen.
**Gruppierung:**
- aux=2
- aux=3
**Trace-Metadaten / zusätzliche Tags:**
- timestamp
- measured_p
- freeze_ok
- setup_fingerprint
- policy_hash
**Domänenkontext:**
- Systemleistungstests mit Zeitdrift-Empfindlichkeit
- Vergleich experimenteller Laufkonfigurationen (aux=2 vs aux=3)
**Outlier-Definition:**
- Methode: threshold gating
- Beschreibung: Messwerte außerhalb des Zielbands (0.10 ± 0.02) werden verworfen.
- Metrik: measured_p
**Motivation:**
- Ermittlung stabiler Referenzbedingungen
- Identifikation reproduzierbarer Driftanzeichen
- Sicherung statistischer Vergleichbarkeit
## Methode / Spezifikation
**Übersicht:**
- Einführung eines formalen Gating-Schritts vor jedem aux-Run
- Messung von Drift-Indikatoren bereits im Preflight
- Start des Laufs nur bei erfülltem Freeze-Kriterium
**Algorithmen / Verfahren:**
- Führe Preflight-Messungen aus, bis measured_p innerhalb 0.10 ± 0.02 liegt.
- Setze freeze_ok=true, sobald das Zielband erreicht ist.
- Starte den Hauptlauf (aux=Run) nur bei freeze_ok=true.
- Vergleiche die Resultate zwischen aux=2 und aux=3.
### C-State-Kontrolle
**Ziel:** Minimierung externer Drift-Ursachen während Messung
**Vorgehen:**
- Identische setup_fingerprint- und policy_hash-Parameter erzwingen
- Laufbedingungen einfrieren (Freeze-first Policy)
- Erfassung jeder Preflight-Iteration zur Driftanalyse
## Input / Output
### Input-Anforderungen
**Hardware:**
- identisches Messsystem für beide Läufe
**Software:**
- Preflight-Gating-Logik mit freeze_ok-Feld
**Konfiguration:**
- Toleranzband für measured_p (0.10 ± 0.02)
### Erwartete Rohdaten
**Felder pro Run:**
- timestamp
- measured_p
- freeze_ok
- setup_fingerprint
- policy_hash
**Formatbeispiele:**
- 2024-06-21T07:11:32Z,0.109,true,abcd1234,efgh5678
**Trace-Daten:**
- Format: tabellarisch oder JSON
- Hinweis: Jeder Messversuch wird einzeln erfasst, um Drift über Zeit zu analysieren.
### Analyse-Ausgaben
**Pro Gruppe / pro Governor:**
- Median
- Interquartilbereich (IQR)
- retry_tail_p99_Hotspot
- retry_tail_p99_Rest
- band_width
- Δband_width
**Vergleichsausgaben:**
- aux=2 vs aux=3
- Δ: direktional positiv (+)
- CI(Δ): noch nicht berechnet
- RR: nicht bestimmt
- CI(RR): nicht bestimmt
- Tests: nicht angewendet
- C-State-Korrelation: nicht gemessen
- Trace-Muster: Preflight-Drift sichtbar durch measured_p-Trend
## Workflow / Nutzung
**Analyse-Workflow:**
- Verwerfe vorherige fehlerhafte Runs mit Drift (#41).
- Starte neuen Run (#41b) mit Preflight-Gate.
- Überprüfe measured_p bis freeze_ok=true.
- Führe Hauptlauf durch und erfasse Vergleichsmetriken.
- Vergleiche aux=2 vs aux=3 anhand identischer Konfigurationen.
### Trace-Template-Anforderungen
**Ziel:** Standardisierung von aux-Run-Daten für Vergleichbarkeit
**Erforderliche Tags & Metadaten:**
- timestamp
- measured_p
- freeze_ok
- setup_fingerprint
- policy_hash
**trace-cmd-Setup:**
- Verwende identische setup_fingerprint-Werte pro Paarvergleich
**Run-Design für Contributors:**
- Nur gültige Runs mit freeze_ok=true hochladen
## Interpretation & erwartete Ergebnisse
**Kernbefunde:**
- Drift ist reproduzierbar messbar und durch Gating kontrollierbar.
- aux=3 zeigt konsistent leicht höhere retry_tail_p99-Werte gegenüber aux=2.
- Formal gültiger Vergleich erstmals möglich durch identische setup_fingerprint- und policy_hash-Werte.
**Implikationen für Experimente:**
- Driftreduktion ist Voraussetzung für valide Performance-Vergleiche.
- Freeze-first-Policy verhindert zufällige Laufabweichungen.
- Erste stabile Basis für weiterführende Band- und Stratumtests geschaffen.
**Planungsziel:**
- Ziel: Messung stabiler Δ(aux3aux2)-Effekte ohne Drift
- Vorgehen:
- Engbandiges Preflight-Gate anwenden
- Drift vor Hauptlauf detektieren und kompensieren
- Vergleich nur bei identischen Setup-Hashes zulassen
## Limitationen & Fallstricke
**Datenbezogene Limitationen:**
- Kleine Stichprobe (ein Paarvergleich) reduziert Aussagekraft.
- Preflight-Zielband kann systemabhängig variieren.
**Bootstrap-spezifische Limitationen:**
- Noch keine Bootstrap-validierte Unsicherheitsabschätzung durchgeführt.
**Kausalität & Generalisierbarkeit:**
- Ergebnisse gelten nur für identisches Setup.
- Keine kausale Aussage über Driftursache möglich.
**Praktische Fallstricke:**
- Ungültige Runs ohne freeze_ok müssen konsequent ausgeschlossen werden.
- Spätere Änderungen in setup_fingerprint brechen Vergleichbarkeit.
## Nächste Schritte & Erweiterungen
**Geplante Experimente:**
- Ein weiteres gültiges aux=3-Replikat im gleichen Freeze-Band durchführen.
- Danach Band-Schwelleneinflüsse prüfen.
**Analyseziele:**
- Stabilität von Δ(aux3aux2) über mehrere Runs evaluieren.
- Drift-Koeffizienten quantifizieren.
**Regression & Modellierung:**
- Bootstrap-Resampling zur Unsicherheitsschätzung implementieren.
- Modellierung der measured_p-Drift über Zeitachsen.
**Community-Beiträge:**
- Definition fixer Gating-Kriterien für künftige aux-Vergleiche.
- Bereitstellung standardisierter Preflight-Protokolle.