aux3_run_analysis/artifact.003/README.md

# Gating-Prozess und Driftmessung bei aux=3 Runs

## Purpose

Dokumentation des Gating-Verfahrens zur Driftkontrolle zwischen aux=2 und aux=3 Runs.

**Problemstellung:** Run #41 zeigte Drift und war für Vergleichsauswertung unbrauchbar. Es musste eine valide Methodik etabliert werden, um Drift messbar zu erkennen und durch Preflight-Gating auszuschließen.

**Ziele:**
- Einrichtung eines validierten aux=3 Runs mit messbarer Driftkontrolle
- Erstellung einer sauberen Vergleichsbasis zwischen aux=2 und aux=3
- Vermeidung von Drift-bedingten Fehlinferenzen

## Kontext & Hintergrund

Preflight- und Run-Messdaten für aux=2 und aux=3 unter identischen Setup-Bedingungen.

**Gruppierung:**
- aux=2
- aux=3

**Trace-Metadaten / zusätzliche Tags:**
- timestamp
- measured_p
- freeze_ok
- setup_fingerprint
- policy_hash

**Domänenkontext:**
- Systemleistungstests mit Zeitdrift-Empfindlichkeit
- Vergleich experimenteller Laufkonfigurationen (aux=2 vs aux=3)

**Outlier-Definition:**
- Methode: threshold gating
- Beschreibung: Messwerte außerhalb des Zielbands (0.10 ± 0.02) werden verworfen.
- Metrik: measured_p

**Motivation:**
- Ermittlung stabiler Referenzbedingungen
- Identifikation reproduzierbarer Driftanzeichen
- Sicherung statistischer Vergleichbarkeit

## Methode / Spezifikation

**Übersicht:**
- Einführung eines formalen Gating-Schritts vor jedem aux-Run
- Messung von Drift-Indikatoren bereits im Preflight
- Start des Laufs nur bei erfülltem Freeze-Kriterium

**Algorithmen / Verfahren:**
- Führe Preflight-Messungen aus, bis measured_p innerhalb 0.10 ± 0.02 liegt.
- Setze freeze_ok=true, sobald das Zielband erreicht ist.
- Starte den Hauptlauf (aux=Run) nur bei freeze_ok=true.
- Vergleiche die Resultate zwischen aux=2 und aux=3.

### C-State-Kontrolle

**Ziel:** Minimierung externer Drift-Ursachen während Messung

**Vorgehen:**
- Identische setup_fingerprint- und policy_hash-Parameter erzwingen
- Laufbedingungen einfrieren (Freeze-first Policy)
- Erfassung jeder Preflight-Iteration zur Driftanalyse

## Input / Output

### Input-Anforderungen

**Hardware:**
- identisches Messsystem für beide Läufe

**Software:**
- Preflight-Gating-Logik mit freeze_ok-Feld

**Konfiguration:**
- Toleranzband für measured_p (0.10 ± 0.02)

### Erwartete Rohdaten

**Felder pro Run:**
- timestamp
- measured_p
- freeze_ok
- setup_fingerprint
- policy_hash

**Formatbeispiele:**
- 2024-06-21T07:11:32Z,0.109,true,abcd1234,efgh5678

**Trace-Daten:**
- Format: tabellarisch oder JSON
- Hinweis: Jeder Messversuch wird einzeln erfasst, um Drift über Zeit zu analysieren.

### Analyse-Ausgaben

**Pro Gruppe / pro Governor:**
- Median
- Interquartilbereich (IQR)
- retry_tail_p99_Hotspot
- retry_tail_p99_Rest
- band_width
- Δband_width

**Vergleichsausgaben:**
- aux=2 vs aux=3
  - Δ: direktional positiv (+)
  - CI(Δ): noch nicht berechnet
  - RR: nicht bestimmt
  - CI(RR): nicht bestimmt
  - Tests: nicht angewendet

- C-State-Korrelation: nicht gemessen
- Trace-Muster: Preflight-Drift sichtbar durch measured_p-Trend

## Workflow / Nutzung

**Analyse-Workflow:**
- Verwerfe vorherige fehlerhafte Runs mit Drift (#41).
- Starte neuen Run (#41b) mit Preflight-Gate.
- Überprüfe measured_p bis freeze_ok=true.
- Führe Hauptlauf durch und erfasse Vergleichsmetriken.
- Vergleiche aux=2 vs aux=3 anhand identischer Konfigurationen.

### Trace-Template-Anforderungen

**Ziel:** Standardisierung von aux-Run-Daten für Vergleichbarkeit

**Erforderliche Tags & Metadaten:**
- timestamp
- measured_p
- freeze_ok
- setup_fingerprint
- policy_hash

**trace-cmd-Setup:**
- Verwende identische setup_fingerprint-Werte pro Paarvergleich

**Run-Design für Contributors:**
- Nur gültige Runs mit freeze_ok=true hochladen

## Interpretation & erwartete Ergebnisse

**Kernbefunde:**
- Drift ist reproduzierbar messbar und durch Gating kontrollierbar.
- aux=3 zeigt konsistent leicht höhere retry_tail_p99-Werte gegenüber aux=2.
- Formal gültiger Vergleich erstmals möglich durch identische setup_fingerprint- und policy_hash-Werte.

**Implikationen für Experimente:**
- Driftreduktion ist Voraussetzung für valide Performance-Vergleiche.
- Freeze-first-Policy verhindert zufällige Laufabweichungen.
- Erste stabile Basis für weiterführende Band- und Stratumtests geschaffen.

**Planungsziel:**
- Ziel: Messung stabiler Δ(aux3−aux2)-Effekte ohne Drift
- Vorgehen:
  - Engbandiges Preflight-Gate anwenden
  - Drift vor Hauptlauf detektieren und kompensieren
  - Vergleich nur bei identischen Setup-Hashes zulassen

## Limitationen & Fallstricke

**Datenbezogene Limitationen:**
- Kleine Stichprobe (ein Paarvergleich) reduziert Aussagekraft.
- Preflight-Zielband kann systemabhängig variieren.

**Bootstrap-spezifische Limitationen:**
- Noch keine Bootstrap-validierte Unsicherheitsabschätzung durchgeführt.

**Kausalität & Generalisierbarkeit:**
- Ergebnisse gelten nur für identisches Setup.
- Keine kausale Aussage über Driftursache möglich.

**Praktische Fallstricke:**
- Ungültige Runs ohne freeze_ok müssen konsequent ausgeschlossen werden.
- Spätere Änderungen in setup_fingerprint brechen Vergleichbarkeit.

## Nächste Schritte & Erweiterungen

**Geplante Experimente:**
- Ein weiteres gültiges aux=3-Replikat im gleichen Freeze-Band durchführen.
- Danach Band-Schwelleneinflüsse prüfen.

**Analyseziele:**
- Stabilität von Δ(aux3−aux2) über mehrere Runs evaluieren.
- Drift-Koeffizienten quantifizieren.

**Regression & Modellierung:**
- Bootstrap-Resampling zur Unsicherheitsschätzung implementieren.
- Modellierung der measured_p-Drift über Zeitachsen.

**Community-Beiträge:**
- Definition fixer Gating-Kriterien für künftige aux-Vergleiche.
- Bereitstellung standardisierter Preflight-Protokolle.