Add results_report/README.md

2026-04-05 13:56:53 +00:00 · 2026-04-05 13:56:53 +00:00 · 7d6e5949e2
commit 7d6e5949e2
parent d1d8d34d24
1 changed files with 219 additions and 0 deletions
--- a/results_report/README.md
+++ b/results_report/README.md
@ -0,0 +1,219 @@
 # Vergleich der aux=2 und aux=3 Systeme im Freeze-Band (Preflight-Gate-Auswertung)
 ## Purpose
 Dokumentation und Analyse der Freeze-Band-Versuche mit den aux=2 und aux=3 Systemen, einschließlich Preflight-Gating und auswertungsrelevanter Kennzahlen.
 **Problemstellung:** Es soll überprüft werden, ob aux=3 unter Freeze-Band-Bedingungen eine signifikant andere Performance gegenüber aux=2 zeigt, unter identischen Setup-Parametern und validem Gating.
 **Ziele:**
 - Validierung der Freeze-Bedingungen für aux=3 im Vergleich zu aux=2
 - Quantifizierung der Stabilität und Wiederholbarkeit des Preflight-Gates
 - Erstellung einer Δ-Tabelle zur direkten Vergleichbarkeit relevanter Metriken
 ## Kontext & Hintergrund
 Preflight-Datensätze aus den Runs #40, #41b und #42, jeweils mit Messungen zu measured_p, freeze_ok, setup_fingerprint und policy_hash.
 **Gruppierung:**
 - aux=2
 - aux=3
 **Trace-Metadaten / zusätzliche Tags:**
 - setup_fingerprint
 - policy_hash
 **Domänenkontext:**
 - Systemvergleich unter Freeze-Band-Bedingungen
 - Stabilitätsanalyse von Preflight-Gates
 **Outlier-Definition:**
 - Methode: Toleranzprüfung
 - Beschreibung: Ein Run gilt als Ausreißer, wenn measured_p außerhalb des Freeze-Ziels von 0.10 ± 0.02 liegt.
 - Metrik: measured_p
 **Motivation:**
 - Reduktion zufallsbasierter Messabweichungen durch Serienvalidierung
 - Prüfung von Systemrobustheit unter identischen Bedingungen
 - Entwicklung reproduzierbarer Vergleichsmethoden
 ## Methode / Spezifikation
 **Übersicht:**
 - Preflight-Versuche werden sequentiell protokolliert.
 - Ein Run darf nur stattfinden, wenn zwei aufeinanderfolgende freeze_ok=1 gemessen werden.
 - Alle Messungen erfolgen mit identischem setup_fingerprint und policy_hash.
 **Algorithmen / Verfahren:**
 - Messung von measured_p für jede Preflight-Sequenz
 - Validierung des Freeze-Gates durch Zählen der aufeinanderfolgenden erfolgreichen (ok) Versuche
 - Statistische Auswertung von retry_tail_p99, band_width und Δband_width
 ### Bootstrap-Übersicht
 Bootstrap-Resampling zur Schätzung der Unsicherheit in Δ(aux3 − aux2).
 **Zielgrößen:**
 - retry_tail_p99
 - band_width
 ### Resampling-Setup
 - aux=2
 - aux=3
 **Stichprobeneinheit:** Run
 **Resampling-Schema:**
 - 1000-faches Bootstrap-Resampling der Run-Level-Metriken
 **Konfidenzintervalle:**
 - Niveau: 0.95
 - Typ: percentile CI
 - Ableitung: Empirische Verteilung der resampleten Differenzen
 ### Abgeleitete Effektgrößen
 **Risk Difference (Differenz der Raten):**
 - Definition: Differenz in der Trefferwahrscheinlichkeit innerhalb des Freeze-Bands.
 - Bootstrap: Resampling über die proportion ok pro Run
 **Risk Ratio:**
 - Definition: Verhältnis der Erfolgswahrscheinlichkeiten freeze_ok(aux3) / freeze_ok(aux2).
 - Bootstrap: Resampling zur CI-Schätzung des Verhältnisses
 ### C-State-Kontrolle
 **Ziel:** Reduktion nichtvergleichbarer CPU-Zustände über Setup-Konstanz.
 **Vorgehen:**
 - Verwendung identischer policy_hash-Werte
 - Vergleich nur innerhalb identischer setup_fingerprint-Konfigurationen
 ## Input / Output
 ### Input-Anforderungen
 **Hardware:**
 - identisches Testsystem pro aux-Gruppe
 **Software:**
 - gleiche Mess- und Logging-Software-Version
 **Konfiguration:**
 - identischer policy_hash
 - identischer setup_fingerprint
 ### Erwartete Rohdaten
 **Felder pro Run:**
 - timestamp
 - measured_p
 - freeze_ok
 - setup_fingerprint
 - policy_hash
 **Formatbeispiele:**
 - 2024-06-02T12:45:03Z, 0.083, 0, a19cf3, 9fba00
 - 2024-06-02T12:47:10Z, 0.118, 1, a19cf3, 9fba00
 **Trace-Daten:**
 - Format: CSV oder JSON pro Preflight-Sequenz
 - Hinweis: Jeder Preflight wird als eigene Zeile dokumentiert, keine Aggregation im Rohdatensatz.
 ### Analyse-Ausgaben
 **Pro Gruppe / pro Governor:**
 - Median retry_tail_p99
 - IQR retry_tail_p99
 - band_width
 - Δband_width
 **Vergleichsausgaben:**
 - aux=2 (#40) vs aux=3 (#42)
  - Δ: Δband_width(aux3−aux2)
  - CI(Δ): 95%-CI über 1000 Resamples
  - RR: ratio freeze_ok(aux3)/freeze_ok(aux2)
  - CI(RR): 95%-CI über Bootstrap-Resamples
  - Tests: zweiseitiger Test optional
 - C-State-Korrelation: Korrelation zwischen policy_hash und gemessenem retry_tail_p99
 - Trace-Muster: Analyse von Setup-Konstanz über Runs
 ## Workflow / Nutzung
 **Analyse-Workflow:**
 - Erfassen aller Preflight-Ergebnisse als Einzelzeilen
 - Berechnen von freeze_ok-Streaks pro Run
 - Validieren der 2×-ok-Gate-Regel
 - Auswerten von retry_tail_p99 und Bandmerkmalen
 - Berechnen der Δ(aux3−aux2) für alle Zielmetriken
 ### Trace-Template-Anforderungen
 **Ziel:** Reproduzierbare Freeze-Gate-Auswertung und Vergleichbarkeit zwischen aux-Konfigurationen
 **Erforderliche Tags & Metadaten:**
 - timestamp
 - measured_p
 - freeze_ok
 - setup_fingerprint
 - policy_hash
 **trace-cmd-Setup:**
 - logge alle Preflights separat
 - prüfe setup_fingerprint auf Konstanz
 **Run-Design für Contributors:**
 - mindestens zwei aufeinanderfolgende freeze_ok erforderlich
 - dokumentiere alle Versuchswerte lückenlos
 ## Interpretation & erwartete Ergebnisse
 **Kernbefunde:**
 - Run #42 (aux=3) erfüllt alle Validitätsbedingungen und bleibt innerhalb des Freeze-Bands.
 - aux=3 zeigt wiederholt höhere retry_tail_p99-Werte im Hotspot-Bereich als aux=2.
 - band_width und Δband_width unterscheiden sich nur geringfügig zwischen Konfigurationen.
 **Implikationen für Experimente:**
 - aux=3 hat unter kontrollierten Freeze-Bedingungen eine messbar ungünstigere Stabilität.
 - Die Wiederholung des Effekts unter 2×-ok-Gating bestätigt die Robustheit der Beobachtung.
 **Planungsziel:**
 - Ziel: Absicherung der Vergleichsbedingungen zwischen Systemkonfigurationen.
 - Vorgehen:
  - verstärktes Preflight-Gating
  - ausschließliche Vergleichsfreigabe bei Setup-Identität
  - Bootstrapping zur Unsicherheitsquantifizierung
 ## Limitationen & Fallstricke
 **Datenbezogene Limitationen:**
 - Kleine Stichprobengröße (nur drei Haupt-Runs)
 - keine vollständige Zufallsverteilung der Freeze-Bedingungen
 **Bootstrap-spezifische Limitationen:**
 - Unsicherheit der CI bei geringer Anzahl von Runs
 **Kausalität & Generalisierbarkeit:**
 - Korrelation zwischen aux-Wert und Performance, keine kausale Schlussfolgerung möglich
 **Praktische Fallstricke:**
 - Fehlende Daten aus Wiederholungsläufen können Varianz verzerren
 - Unterschiedliche Umgebungsbedingungen trotz identischem fingerprint möglich
 ## Nächste Schritte & Erweiterungen
 **Geplante Experimente:**
 - Erweiterung um zusätzliche Runs mit aux=3 unter gleichen Gating-Regeln
 - Validierung von aux=2 und aux=3 unter variierenden Freeze-Zielbereichen
 **Analyseziele:**
 - Erweiterung der Δ-Tabelle mit Durchschnitts- und Streumaßen
 - Quantitative Bewertung des 2×-ok-Gates auf Stabilität und Trefferquote
 **Regression & Modellierung:**
 - Regression von retry_tail_p99 gegen measured_p zur Sensitivitätsanalyse
 **Community-Beiträge:**
 - Bereitstellung der Rohdaten und Δ-Tabellen zur Peer-Überprüfung im Lab-Repository