# Gating-Prozess und Driftmessung bei aux=3 Runs ## Purpose Dokumentation des Gating-Verfahrens zur Driftkontrolle zwischen aux=2 und aux=3 Runs. **Problemstellung:** Run #41 zeigte Drift und war für Vergleichsauswertung unbrauchbar. Es musste eine valide Methodik etabliert werden, um Drift messbar zu erkennen und durch Preflight-Gating auszuschließen. **Ziele:** - Einrichtung eines validierten aux=3 Runs mit messbarer Driftkontrolle - Erstellung einer sauberen Vergleichsbasis zwischen aux=2 und aux=3 - Vermeidung von Drift-bedingten Fehlinferenzen ## Kontext & Hintergrund Preflight- und Run-Messdaten für aux=2 und aux=3 unter identischen Setup-Bedingungen. **Gruppierung:** - aux=2 - aux=3 **Trace-Metadaten / zusätzliche Tags:** - timestamp - measured_p - freeze_ok - setup_fingerprint - policy_hash **Domänenkontext:** - Systemleistungstests mit Zeitdrift-Empfindlichkeit - Vergleich experimenteller Laufkonfigurationen (aux=2 vs aux=3) **Outlier-Definition:** - Methode: threshold gating - Beschreibung: Messwerte außerhalb des Zielbands (0.10 ± 0.02) werden verworfen. - Metrik: measured_p **Motivation:** - Ermittlung stabiler Referenzbedingungen - Identifikation reproduzierbarer Driftanzeichen - Sicherung statistischer Vergleichbarkeit ## Methode / Spezifikation **Übersicht:** - Einführung eines formalen Gating-Schritts vor jedem aux-Run - Messung von Drift-Indikatoren bereits im Preflight - Start des Laufs nur bei erfülltem Freeze-Kriterium **Algorithmen / Verfahren:** - Führe Preflight-Messungen aus, bis measured_p innerhalb 0.10 ± 0.02 liegt. - Setze freeze_ok=true, sobald das Zielband erreicht ist. - Starte den Hauptlauf (aux=Run) nur bei freeze_ok=true. - Vergleiche die Resultate zwischen aux=2 und aux=3. ### C-State-Kontrolle **Ziel:** Minimierung externer Drift-Ursachen während Messung **Vorgehen:** - Identische setup_fingerprint- und policy_hash-Parameter erzwingen - Laufbedingungen einfrieren (Freeze-first Policy) - Erfassung jeder Preflight-Iteration zur Driftanalyse ## Input / Output ### Input-Anforderungen **Hardware:** - identisches Messsystem für beide Läufe **Software:** - Preflight-Gating-Logik mit freeze_ok-Feld **Konfiguration:** - Toleranzband für measured_p (0.10 ± 0.02) ### Erwartete Rohdaten **Felder pro Run:** - timestamp - measured_p - freeze_ok - setup_fingerprint - policy_hash **Formatbeispiele:** - 2024-06-21T07:11:32Z,0.109,true,abcd1234,efgh5678 **Trace-Daten:** - Format: tabellarisch oder JSON - Hinweis: Jeder Messversuch wird einzeln erfasst, um Drift über Zeit zu analysieren. ### Analyse-Ausgaben **Pro Gruppe / pro Governor:** - Median - Interquartilbereich (IQR) - retry_tail_p99_Hotspot - retry_tail_p99_Rest - band_width - Δband_width **Vergleichsausgaben:** - aux=2 vs aux=3 - Δ: direktional positiv (+) - CI(Δ): noch nicht berechnet - RR: nicht bestimmt - CI(RR): nicht bestimmt - Tests: nicht angewendet - C-State-Korrelation: nicht gemessen - Trace-Muster: Preflight-Drift sichtbar durch measured_p-Trend ## Workflow / Nutzung **Analyse-Workflow:** - Verwerfe vorherige fehlerhafte Runs mit Drift (#41). - Starte neuen Run (#41b) mit Preflight-Gate. - Überprüfe measured_p bis freeze_ok=true. - Führe Hauptlauf durch und erfasse Vergleichsmetriken. - Vergleiche aux=2 vs aux=3 anhand identischer Konfigurationen. ### Trace-Template-Anforderungen **Ziel:** Standardisierung von aux-Run-Daten für Vergleichbarkeit **Erforderliche Tags & Metadaten:** - timestamp - measured_p - freeze_ok - setup_fingerprint - policy_hash **trace-cmd-Setup:** - Verwende identische setup_fingerprint-Werte pro Paarvergleich **Run-Design für Contributors:** - Nur gültige Runs mit freeze_ok=true hochladen ## Interpretation & erwartete Ergebnisse **Kernbefunde:** - Drift ist reproduzierbar messbar und durch Gating kontrollierbar. - aux=3 zeigt konsistent leicht höhere retry_tail_p99-Werte gegenüber aux=2. - Formal gültiger Vergleich erstmals möglich durch identische setup_fingerprint- und policy_hash-Werte. **Implikationen für Experimente:** - Driftreduktion ist Voraussetzung für valide Performance-Vergleiche. - Freeze-first-Policy verhindert zufällige Laufabweichungen. - Erste stabile Basis für weiterführende Band- und Stratumtests geschaffen. **Planungsziel:** - Ziel: Messung stabiler Δ(aux3−aux2)-Effekte ohne Drift - Vorgehen: - Engbandiges Preflight-Gate anwenden - Drift vor Hauptlauf detektieren und kompensieren - Vergleich nur bei identischen Setup-Hashes zulassen ## Limitationen & Fallstricke **Datenbezogene Limitationen:** - Kleine Stichprobe (ein Paarvergleich) reduziert Aussagekraft. - Preflight-Zielband kann systemabhängig variieren. **Bootstrap-spezifische Limitationen:** - Noch keine Bootstrap-validierte Unsicherheitsabschätzung durchgeführt. **Kausalität & Generalisierbarkeit:** - Ergebnisse gelten nur für identisches Setup. - Keine kausale Aussage über Driftursache möglich. **Praktische Fallstricke:** - Ungültige Runs ohne freeze_ok müssen konsequent ausgeschlossen werden. - Spätere Änderungen in setup_fingerprint brechen Vergleichbarkeit. ## Nächste Schritte & Erweiterungen **Geplante Experimente:** - Ein weiteres gültiges aux=3-Replikat im gleichen Freeze-Band durchführen. - Danach Band-Schwelleneinflüsse prüfen. **Analyseziele:** - Stabilität von Δ(aux3−aux2) über mehrere Runs evaluieren. - Drift-Koeffizienten quantifizieren. **Regression & Modellierung:** - Bootstrap-Resampling zur Unsicherheitsschätzung implementieren. - Modellierung der measured_p-Drift über Zeitachsen. **Community-Beiträge:** - Definition fixer Gating-Kriterien für künftige aux-Vergleiche. - Bereitstellung standardisierter Preflight-Protokolle.