Mika 7d6e5949e2 Add results_report/README.md

2026-04-05 13:56:53 +00:00

6.8 KiB

Raw Permalink Blame History

Vergleich der aux=2 und aux=3 Systeme im Freeze-Band (Preflight-Gate-Auswertung)

Purpose

Dokumentation und Analyse der Freeze-Band-Versuche mit den aux=2 und aux=3 Systemen, einschließlich Preflight-Gating und auswertungsrelevanter Kennzahlen.

Problemstellung: Es soll überprüft werden, ob aux=3 unter Freeze-Band-Bedingungen eine signifikant andere Performance gegenüber aux=2 zeigt, unter identischen Setup-Parametern und validem Gating.

Ziele:

Validierung der Freeze-Bedingungen für aux=3 im Vergleich zu aux=2
Quantifizierung der Stabilität und Wiederholbarkeit des Preflight-Gates
Erstellung einer Δ-Tabelle zur direkten Vergleichbarkeit relevanter Metriken

Kontext & Hintergrund

Preflight-Datensätze aus den Runs #40, #41b und #42, jeweils mit Messungen zu measured_p, freeze_ok, setup_fingerprint und policy_hash.

Gruppierung:

aux=2
aux=3

Trace-Metadaten / zusätzliche Tags:

setup_fingerprint
policy_hash

Domänenkontext:

Systemvergleich unter Freeze-Band-Bedingungen
Stabilitätsanalyse von Preflight-Gates

Outlier-Definition:

Methode: Toleranzprüfung
Beschreibung: Ein Run gilt als Ausreißer, wenn measured_p außerhalb des Freeze-Ziels von 0.10 ± 0.02 liegt.
Metrik: measured_p

Motivation:

Reduktion zufallsbasierter Messabweichungen durch Serienvalidierung
Prüfung von Systemrobustheit unter identischen Bedingungen
Entwicklung reproduzierbarer Vergleichsmethoden

Methode / Spezifikation

Übersicht:

Preflight-Versuche werden sequentiell protokolliert.
Ein Run darf nur stattfinden, wenn zwei aufeinanderfolgende freeze_ok=1 gemessen werden.
Alle Messungen erfolgen mit identischem setup_fingerprint und policy_hash.

Algorithmen / Verfahren:

Messung von measured_p für jede Preflight-Sequenz
Validierung des Freeze-Gates durch Zählen der aufeinanderfolgenden erfolgreichen (ok) Versuche
Statistische Auswertung von retry_tail_p99, band_width und Δband_width

Bootstrap-Übersicht

Bootstrap-Resampling zur Schätzung der Unsicherheit in Δ(aux3 − aux2).

Zielgrößen:

retry_tail_p99
band_width

Resampling-Setup

aux=2
aux=3

Stichprobeneinheit: Run

Resampling-Schema:

1000-faches Bootstrap-Resampling der Run-Level-Metriken

Konfidenzintervalle:

Niveau: 0.95
Typ: percentile CI
Ableitung: Empirische Verteilung der resampleten Differenzen

Abgeleitete Effektgrößen

Risk Difference (Differenz der Raten):

Definition: Differenz in der Trefferwahrscheinlichkeit innerhalb des Freeze-Bands.
Bootstrap: Resampling über die proportion ok pro Run

Risk Ratio:

Definition: Verhältnis der Erfolgswahrscheinlichkeiten freeze_ok(aux3) / freeze_ok(aux2).
Bootstrap: Resampling zur CI-Schätzung des Verhältnisses

C-State-Kontrolle

Ziel: Reduktion nichtvergleichbarer CPU-Zustände über Setup-Konstanz.

Vorgehen:

Verwendung identischer policy_hash-Werte
Vergleich nur innerhalb identischer setup_fingerprint-Konfigurationen

Input / Output

Input-Anforderungen

Hardware:

identisches Testsystem pro aux-Gruppe

Software:

gleiche Mess- und Logging-Software-Version

Konfiguration:

identischer policy_hash
identischer setup_fingerprint

Erwartete Rohdaten

Felder pro Run:

timestamp
measured_p
freeze_ok
setup_fingerprint
policy_hash

Formatbeispiele:

2024-06-02T12:45:03Z, 0.083, 0, a19cf3, 9fba00
2024-06-02T12:47:10Z, 0.118, 1, a19cf3, 9fba00

Trace-Daten:

Format: CSV oder JSON pro Preflight-Sequenz
Hinweis: Jeder Preflight wird als eigene Zeile dokumentiert, keine Aggregation im Rohdatensatz.

Analyse-Ausgaben

Pro Gruppe / pro Governor:

Median retry_tail_p99
IQR retry_tail_p99
band_width
Δband_width

Vergleichsausgaben:

aux=2 (#40) vs aux=3 (#42)
- Δ: Δband_width(aux3−aux2)
- CI(Δ): 95%-CI über 1000 Resamples
- RR: ratio freeze_ok(aux3)/freeze_ok(aux2)
- CI(RR): 95%-CI über Bootstrap-Resamples
- Tests: zweiseitiger Test optional
C-State-Korrelation: Korrelation zwischen policy_hash und gemessenem retry_tail_p99
Trace-Muster: Analyse von Setup-Konstanz über Runs

Workflow / Nutzung

Analyse-Workflow:

Erfassen aller Preflight-Ergebnisse als Einzelzeilen
Berechnen von freeze_ok-Streaks pro Run
Validieren der 2×-ok-Gate-Regel
Auswerten von retry_tail_p99 und Bandmerkmalen
Berechnen der Δ(aux3−aux2) für alle Zielmetriken

Trace-Template-Anforderungen

Ziel: Reproduzierbare Freeze-Gate-Auswertung und Vergleichbarkeit zwischen aux-Konfigurationen

Erforderliche Tags & Metadaten:

timestamp
measured_p
freeze_ok
setup_fingerprint
policy_hash

trace-cmd-Setup:

logge alle Preflights separat
prüfe setup_fingerprint auf Konstanz

Run-Design für Contributors:

mindestens zwei aufeinanderfolgende freeze_ok erforderlich
dokumentiere alle Versuchswerte lückenlos

Interpretation & erwartete Ergebnisse

Kernbefunde:

Run #42 (aux=3) erfüllt alle Validitätsbedingungen und bleibt innerhalb des Freeze-Bands.
aux=3 zeigt wiederholt höhere retry_tail_p99-Werte im Hotspot-Bereich als aux=2.
band_width und Δband_width unterscheiden sich nur geringfügig zwischen Konfigurationen.

Implikationen für Experimente:

aux=3 hat unter kontrollierten Freeze-Bedingungen eine messbar ungünstigere Stabilität.
Die Wiederholung des Effekts unter 2×-ok-Gating bestätigt die Robustheit der Beobachtung.

Planungsziel:

Ziel: Absicherung der Vergleichsbedingungen zwischen Systemkonfigurationen.
Vorgehen:
- verstärktes Preflight-Gating
- ausschließliche Vergleichsfreigabe bei Setup-Identität
- Bootstrapping zur Unsicherheitsquantifizierung

Limitationen & Fallstricke

Datenbezogene Limitationen:

Kleine Stichprobengröße (nur drei Haupt-Runs)
keine vollständige Zufallsverteilung der Freeze-Bedingungen

Bootstrap-spezifische Limitationen:

Unsicherheit der CI bei geringer Anzahl von Runs

Kausalität & Generalisierbarkeit:

Korrelation zwischen aux-Wert und Performance, keine kausale Schlussfolgerung möglich

Praktische Fallstricke:

Fehlende Daten aus Wiederholungsläufen können Varianz verzerren
Unterschiedliche Umgebungsbedingungen trotz identischem fingerprint möglich

Nächste Schritte & Erweiterungen

Geplante Experimente:

Erweiterung um zusätzliche Runs mit aux=3 unter gleichen Gating-Regeln
Validierung von aux=2 und aux=3 unter variierenden Freeze-Zielbereichen

Analyseziele:

Erweiterung der Δ-Tabelle mit Durchschnitts- und Streumaßen
Quantitative Bewertung des 2×-ok-Gates auf Stabilität und Trefferquote

Regression & Modellierung:

Regression von retry_tail_p99 gegen measured_p zur Sensitivitätsanalyse

Community-Beiträge:

Bereitstellung der Rohdaten und Δ-Tabellen zur Peer-Überprüfung im Lab-Repository

6.8 KiB Raw Permalink Blame History Unescape Escape