Add artifact.003/README.md
This commit is contained in:
parent
98decc637f
commit
93c5aea95e
1 changed files with 193 additions and 0 deletions
193
artifact.003/README.md
Normal file
193
artifact.003/README.md
Normal file
|
|
@ -0,0 +1,193 @@
|
||||||
|
# Gating-Prozess und Driftmessung bei aux=3 Runs
|
||||||
|
|
||||||
|
## Purpose
|
||||||
|
|
||||||
|
Dokumentation des Gating-Verfahrens zur Driftkontrolle zwischen aux=2 und aux=3 Runs.
|
||||||
|
|
||||||
|
**Problemstellung:** Run #41 zeigte Drift und war für Vergleichsauswertung unbrauchbar. Es musste eine valide Methodik etabliert werden, um Drift messbar zu erkennen und durch Preflight-Gating auszuschließen.
|
||||||
|
|
||||||
|
**Ziele:**
|
||||||
|
- Einrichtung eines validierten aux=3 Runs mit messbarer Driftkontrolle
|
||||||
|
- Erstellung einer sauberen Vergleichsbasis zwischen aux=2 und aux=3
|
||||||
|
- Vermeidung von Drift-bedingten Fehlinferenzen
|
||||||
|
|
||||||
|
## Kontext & Hintergrund
|
||||||
|
|
||||||
|
Preflight- und Run-Messdaten für aux=2 und aux=3 unter identischen Setup-Bedingungen.
|
||||||
|
|
||||||
|
**Gruppierung:**
|
||||||
|
- aux=2
|
||||||
|
- aux=3
|
||||||
|
|
||||||
|
**Trace-Metadaten / zusätzliche Tags:**
|
||||||
|
- timestamp
|
||||||
|
- measured_p
|
||||||
|
- freeze_ok
|
||||||
|
- setup_fingerprint
|
||||||
|
- policy_hash
|
||||||
|
|
||||||
|
**Domänenkontext:**
|
||||||
|
- Systemleistungstests mit Zeitdrift-Empfindlichkeit
|
||||||
|
- Vergleich experimenteller Laufkonfigurationen (aux=2 vs aux=3)
|
||||||
|
|
||||||
|
**Outlier-Definition:**
|
||||||
|
- Methode: threshold gating
|
||||||
|
- Beschreibung: Messwerte außerhalb des Zielbands (0.10 ± 0.02) werden verworfen.
|
||||||
|
- Metrik: measured_p
|
||||||
|
|
||||||
|
**Motivation:**
|
||||||
|
- Ermittlung stabiler Referenzbedingungen
|
||||||
|
- Identifikation reproduzierbarer Driftanzeichen
|
||||||
|
- Sicherung statistischer Vergleichbarkeit
|
||||||
|
|
||||||
|
## Methode / Spezifikation
|
||||||
|
|
||||||
|
**Übersicht:**
|
||||||
|
- Einführung eines formalen Gating-Schritts vor jedem aux-Run
|
||||||
|
- Messung von Drift-Indikatoren bereits im Preflight
|
||||||
|
- Start des Laufs nur bei erfülltem Freeze-Kriterium
|
||||||
|
|
||||||
|
**Algorithmen / Verfahren:**
|
||||||
|
- Führe Preflight-Messungen aus, bis measured_p innerhalb 0.10 ± 0.02 liegt.
|
||||||
|
- Setze freeze_ok=true, sobald das Zielband erreicht ist.
|
||||||
|
- Starte den Hauptlauf (aux=Run) nur bei freeze_ok=true.
|
||||||
|
- Vergleiche die Resultate zwischen aux=2 und aux=3.
|
||||||
|
|
||||||
|
### C-State-Kontrolle
|
||||||
|
|
||||||
|
**Ziel:** Minimierung externer Drift-Ursachen während Messung
|
||||||
|
|
||||||
|
**Vorgehen:**
|
||||||
|
- Identische setup_fingerprint- und policy_hash-Parameter erzwingen
|
||||||
|
- Laufbedingungen einfrieren (Freeze-first Policy)
|
||||||
|
- Erfassung jeder Preflight-Iteration zur Driftanalyse
|
||||||
|
|
||||||
|
## Input / Output
|
||||||
|
|
||||||
|
### Input-Anforderungen
|
||||||
|
|
||||||
|
**Hardware:**
|
||||||
|
- identisches Messsystem für beide Läufe
|
||||||
|
|
||||||
|
**Software:**
|
||||||
|
- Preflight-Gating-Logik mit freeze_ok-Feld
|
||||||
|
|
||||||
|
**Konfiguration:**
|
||||||
|
- Toleranzband für measured_p (0.10 ± 0.02)
|
||||||
|
|
||||||
|
### Erwartete Rohdaten
|
||||||
|
|
||||||
|
**Felder pro Run:**
|
||||||
|
- timestamp
|
||||||
|
- measured_p
|
||||||
|
- freeze_ok
|
||||||
|
- setup_fingerprint
|
||||||
|
- policy_hash
|
||||||
|
|
||||||
|
**Formatbeispiele:**
|
||||||
|
- 2024-06-21T07:11:32Z,0.109,true,abcd1234,efgh5678
|
||||||
|
|
||||||
|
**Trace-Daten:**
|
||||||
|
- Format: tabellarisch oder JSON
|
||||||
|
- Hinweis: Jeder Messversuch wird einzeln erfasst, um Drift über Zeit zu analysieren.
|
||||||
|
|
||||||
|
### Analyse-Ausgaben
|
||||||
|
|
||||||
|
**Pro Gruppe / pro Governor:**
|
||||||
|
- Median
|
||||||
|
- Interquartilbereich (IQR)
|
||||||
|
- retry_tail_p99_Hotspot
|
||||||
|
- retry_tail_p99_Rest
|
||||||
|
- band_width
|
||||||
|
- Δband_width
|
||||||
|
|
||||||
|
**Vergleichsausgaben:**
|
||||||
|
- aux=2 vs aux=3
|
||||||
|
- Δ: direktional positiv (+)
|
||||||
|
- CI(Δ): noch nicht berechnet
|
||||||
|
- RR: nicht bestimmt
|
||||||
|
- CI(RR): nicht bestimmt
|
||||||
|
- Tests: nicht angewendet
|
||||||
|
|
||||||
|
- C-State-Korrelation: nicht gemessen
|
||||||
|
- Trace-Muster: Preflight-Drift sichtbar durch measured_p-Trend
|
||||||
|
|
||||||
|
## Workflow / Nutzung
|
||||||
|
|
||||||
|
**Analyse-Workflow:**
|
||||||
|
- Verwerfe vorherige fehlerhafte Runs mit Drift (#41).
|
||||||
|
- Starte neuen Run (#41b) mit Preflight-Gate.
|
||||||
|
- Überprüfe measured_p bis freeze_ok=true.
|
||||||
|
- Führe Hauptlauf durch und erfasse Vergleichsmetriken.
|
||||||
|
- Vergleiche aux=2 vs aux=3 anhand identischer Konfigurationen.
|
||||||
|
|
||||||
|
### Trace-Template-Anforderungen
|
||||||
|
|
||||||
|
**Ziel:** Standardisierung von aux-Run-Daten für Vergleichbarkeit
|
||||||
|
|
||||||
|
**Erforderliche Tags & Metadaten:**
|
||||||
|
- timestamp
|
||||||
|
- measured_p
|
||||||
|
- freeze_ok
|
||||||
|
- setup_fingerprint
|
||||||
|
- policy_hash
|
||||||
|
|
||||||
|
**trace-cmd-Setup:**
|
||||||
|
- Verwende identische setup_fingerprint-Werte pro Paarvergleich
|
||||||
|
|
||||||
|
**Run-Design für Contributors:**
|
||||||
|
- Nur gültige Runs mit freeze_ok=true hochladen
|
||||||
|
|
||||||
|
## Interpretation & erwartete Ergebnisse
|
||||||
|
|
||||||
|
**Kernbefunde:**
|
||||||
|
- Drift ist reproduzierbar messbar und durch Gating kontrollierbar.
|
||||||
|
- aux=3 zeigt konsistent leicht höhere retry_tail_p99-Werte gegenüber aux=2.
|
||||||
|
- Formal gültiger Vergleich erstmals möglich durch identische setup_fingerprint- und policy_hash-Werte.
|
||||||
|
|
||||||
|
**Implikationen für Experimente:**
|
||||||
|
- Driftreduktion ist Voraussetzung für valide Performance-Vergleiche.
|
||||||
|
- Freeze-first-Policy verhindert zufällige Laufabweichungen.
|
||||||
|
- Erste stabile Basis für weiterführende Band- und Stratumtests geschaffen.
|
||||||
|
|
||||||
|
**Planungsziel:**
|
||||||
|
- Ziel: Messung stabiler Δ(aux3−aux2)-Effekte ohne Drift
|
||||||
|
- Vorgehen:
|
||||||
|
- Engbandiges Preflight-Gate anwenden
|
||||||
|
- Drift vor Hauptlauf detektieren und kompensieren
|
||||||
|
- Vergleich nur bei identischen Setup-Hashes zulassen
|
||||||
|
|
||||||
|
## Limitationen & Fallstricke
|
||||||
|
|
||||||
|
**Datenbezogene Limitationen:**
|
||||||
|
- Kleine Stichprobe (ein Paarvergleich) reduziert Aussagekraft.
|
||||||
|
- Preflight-Zielband kann systemabhängig variieren.
|
||||||
|
|
||||||
|
**Bootstrap-spezifische Limitationen:**
|
||||||
|
- Noch keine Bootstrap-validierte Unsicherheitsabschätzung durchgeführt.
|
||||||
|
|
||||||
|
**Kausalität & Generalisierbarkeit:**
|
||||||
|
- Ergebnisse gelten nur für identisches Setup.
|
||||||
|
- Keine kausale Aussage über Driftursache möglich.
|
||||||
|
|
||||||
|
**Praktische Fallstricke:**
|
||||||
|
- Ungültige Runs ohne freeze_ok müssen konsequent ausgeschlossen werden.
|
||||||
|
- Spätere Änderungen in setup_fingerprint brechen Vergleichbarkeit.
|
||||||
|
|
||||||
|
## Nächste Schritte & Erweiterungen
|
||||||
|
|
||||||
|
**Geplante Experimente:**
|
||||||
|
- Ein weiteres gültiges aux=3-Replikat im gleichen Freeze-Band durchführen.
|
||||||
|
- Danach Band-Schwelleneinflüsse prüfen.
|
||||||
|
|
||||||
|
**Analyseziele:**
|
||||||
|
- Stabilität von Δ(aux3−aux2) über mehrere Runs evaluieren.
|
||||||
|
- Drift-Koeffizienten quantifizieren.
|
||||||
|
|
||||||
|
**Regression & Modellierung:**
|
||||||
|
- Bootstrap-Resampling zur Unsicherheitsschätzung implementieren.
|
||||||
|
- Modellierung der measured_p-Drift über Zeitachsen.
|
||||||
|
|
||||||
|
**Community-Beiträge:**
|
||||||
|
- Definition fixer Gating-Kriterien für künftige aux-Vergleiche.
|
||||||
|
- Bereitstellung standardisierter Preflight-Protokolle.
|
||||||
Loading…
Reference in a new issue