diff --git a/artifact.003/README.md b/artifact.003/README.md new file mode 100644 index 0000000..615403f --- /dev/null +++ b/artifact.003/README.md @@ -0,0 +1,193 @@ +# Gating-Prozess und Driftmessung bei aux=3 Runs + +## Purpose + +Dokumentation des Gating-Verfahrens zur Driftkontrolle zwischen aux=2 und aux=3 Runs. + +**Problemstellung:** Run #41 zeigte Drift und war für Vergleichsauswertung unbrauchbar. Es musste eine valide Methodik etabliert werden, um Drift messbar zu erkennen und durch Preflight-Gating auszuschließen. + +**Ziele:** +- Einrichtung eines validierten aux=3 Runs mit messbarer Driftkontrolle +- Erstellung einer sauberen Vergleichsbasis zwischen aux=2 und aux=3 +- Vermeidung von Drift-bedingten Fehlinferenzen + +## Kontext & Hintergrund + +Preflight- und Run-Messdaten für aux=2 und aux=3 unter identischen Setup-Bedingungen. + +**Gruppierung:** +- aux=2 +- aux=3 + +**Trace-Metadaten / zusätzliche Tags:** +- timestamp +- measured_p +- freeze_ok +- setup_fingerprint +- policy_hash + +**Domänenkontext:** +- Systemleistungstests mit Zeitdrift-Empfindlichkeit +- Vergleich experimenteller Laufkonfigurationen (aux=2 vs aux=3) + +**Outlier-Definition:** +- Methode: threshold gating +- Beschreibung: Messwerte außerhalb des Zielbands (0.10 ± 0.02) werden verworfen. +- Metrik: measured_p + +**Motivation:** +- Ermittlung stabiler Referenzbedingungen +- Identifikation reproduzierbarer Driftanzeichen +- Sicherung statistischer Vergleichbarkeit + +## Methode / Spezifikation + +**Übersicht:** +- Einführung eines formalen Gating-Schritts vor jedem aux-Run +- Messung von Drift-Indikatoren bereits im Preflight +- Start des Laufs nur bei erfülltem Freeze-Kriterium + +**Algorithmen / Verfahren:** +- Führe Preflight-Messungen aus, bis measured_p innerhalb 0.10 ± 0.02 liegt. +- Setze freeze_ok=true, sobald das Zielband erreicht ist. +- Starte den Hauptlauf (aux=Run) nur bei freeze_ok=true. +- Vergleiche die Resultate zwischen aux=2 und aux=3. + +### C-State-Kontrolle + +**Ziel:** Minimierung externer Drift-Ursachen während Messung + +**Vorgehen:** +- Identische setup_fingerprint- und policy_hash-Parameter erzwingen +- Laufbedingungen einfrieren (Freeze-first Policy) +- Erfassung jeder Preflight-Iteration zur Driftanalyse + +## Input / Output + +### Input-Anforderungen + +**Hardware:** +- identisches Messsystem für beide Läufe + +**Software:** +- Preflight-Gating-Logik mit freeze_ok-Feld + +**Konfiguration:** +- Toleranzband für measured_p (0.10 ± 0.02) + +### Erwartete Rohdaten + +**Felder pro Run:** +- timestamp +- measured_p +- freeze_ok +- setup_fingerprint +- policy_hash + +**Formatbeispiele:** +- 2024-06-21T07:11:32Z,0.109,true,abcd1234,efgh5678 + +**Trace-Daten:** +- Format: tabellarisch oder JSON +- Hinweis: Jeder Messversuch wird einzeln erfasst, um Drift über Zeit zu analysieren. + +### Analyse-Ausgaben + +**Pro Gruppe / pro Governor:** +- Median +- Interquartilbereich (IQR) +- retry_tail_p99_Hotspot +- retry_tail_p99_Rest +- band_width +- Δband_width + +**Vergleichsausgaben:** +- aux=2 vs aux=3 + - Δ: direktional positiv (+) + - CI(Δ): noch nicht berechnet + - RR: nicht bestimmt + - CI(RR): nicht bestimmt + - Tests: nicht angewendet + +- C-State-Korrelation: nicht gemessen +- Trace-Muster: Preflight-Drift sichtbar durch measured_p-Trend + +## Workflow / Nutzung + +**Analyse-Workflow:** +- Verwerfe vorherige fehlerhafte Runs mit Drift (#41). +- Starte neuen Run (#41b) mit Preflight-Gate. +- Überprüfe measured_p bis freeze_ok=true. +- Führe Hauptlauf durch und erfasse Vergleichsmetriken. +- Vergleiche aux=2 vs aux=3 anhand identischer Konfigurationen. + +### Trace-Template-Anforderungen + +**Ziel:** Standardisierung von aux-Run-Daten für Vergleichbarkeit + +**Erforderliche Tags & Metadaten:** +- timestamp +- measured_p +- freeze_ok +- setup_fingerprint +- policy_hash + +**trace-cmd-Setup:** +- Verwende identische setup_fingerprint-Werte pro Paarvergleich + +**Run-Design für Contributors:** +- Nur gültige Runs mit freeze_ok=true hochladen + +## Interpretation & erwartete Ergebnisse + +**Kernbefunde:** +- Drift ist reproduzierbar messbar und durch Gating kontrollierbar. +- aux=3 zeigt konsistent leicht höhere retry_tail_p99-Werte gegenüber aux=2. +- Formal gültiger Vergleich erstmals möglich durch identische setup_fingerprint- und policy_hash-Werte. + +**Implikationen für Experimente:** +- Driftreduktion ist Voraussetzung für valide Performance-Vergleiche. +- Freeze-first-Policy verhindert zufällige Laufabweichungen. +- Erste stabile Basis für weiterführende Band- und Stratumtests geschaffen. + +**Planungsziel:** +- Ziel: Messung stabiler Δ(aux3−aux2)-Effekte ohne Drift +- Vorgehen: + - Engbandiges Preflight-Gate anwenden + - Drift vor Hauptlauf detektieren und kompensieren + - Vergleich nur bei identischen Setup-Hashes zulassen + +## Limitationen & Fallstricke + +**Datenbezogene Limitationen:** +- Kleine Stichprobe (ein Paarvergleich) reduziert Aussagekraft. +- Preflight-Zielband kann systemabhängig variieren. + +**Bootstrap-spezifische Limitationen:** +- Noch keine Bootstrap-validierte Unsicherheitsabschätzung durchgeführt. + +**Kausalität & Generalisierbarkeit:** +- Ergebnisse gelten nur für identisches Setup. +- Keine kausale Aussage über Driftursache möglich. + +**Praktische Fallstricke:** +- Ungültige Runs ohne freeze_ok müssen konsequent ausgeschlossen werden. +- Spätere Änderungen in setup_fingerprint brechen Vergleichbarkeit. + +## Nächste Schritte & Erweiterungen + +**Geplante Experimente:** +- Ein weiteres gültiges aux=3-Replikat im gleichen Freeze-Band durchführen. +- Danach Band-Schwelleneinflüsse prüfen. + +**Analyseziele:** +- Stabilität von Δ(aux3−aux2) über mehrere Runs evaluieren. +- Drift-Koeffizienten quantifizieren. + +**Regression & Modellierung:** +- Bootstrap-Resampling zur Unsicherheitsschätzung implementieren. +- Modellierung der measured_p-Drift über Zeitachsen. + +**Community-Beiträge:** +- Definition fixer Gating-Kriterien für künftige aux-Vergleiche. +- Bereitstellung standardisierter Preflight-Protokolle.