aux_comparison_freeze_band/results_report/README.md

6.8 KiB
Raw Permalink Blame History

Vergleich der aux=2 und aux=3 Systeme im Freeze-Band (Preflight-Gate-Auswertung)

Purpose

Dokumentation und Analyse der Freeze-Band-Versuche mit den aux=2 und aux=3 Systemen, einschließlich Preflight-Gating und auswertungsrelevanter Kennzahlen.

Problemstellung: Es soll überprüft werden, ob aux=3 unter Freeze-Band-Bedingungen eine signifikant andere Performance gegenüber aux=2 zeigt, unter identischen Setup-Parametern und validem Gating.

Ziele:

  • Validierung der Freeze-Bedingungen für aux=3 im Vergleich zu aux=2
  • Quantifizierung der Stabilität und Wiederholbarkeit des Preflight-Gates
  • Erstellung einer Δ-Tabelle zur direkten Vergleichbarkeit relevanter Metriken

Kontext & Hintergrund

Preflight-Datensätze aus den Runs #40, #41b und #42, jeweils mit Messungen zu measured_p, freeze_ok, setup_fingerprint und policy_hash.

Gruppierung:

  • aux=2
  • aux=3

Trace-Metadaten / zusätzliche Tags:

  • setup_fingerprint
  • policy_hash

Domänenkontext:

  • Systemvergleich unter Freeze-Band-Bedingungen
  • Stabilitätsanalyse von Preflight-Gates

Outlier-Definition:

  • Methode: Toleranzprüfung
  • Beschreibung: Ein Run gilt als Ausreißer, wenn measured_p außerhalb des Freeze-Ziels von 0.10 ± 0.02 liegt.
  • Metrik: measured_p

Motivation:

  • Reduktion zufallsbasierter Messabweichungen durch Serienvalidierung
  • Prüfung von Systemrobustheit unter identischen Bedingungen
  • Entwicklung reproduzierbarer Vergleichsmethoden

Methode / Spezifikation

Übersicht:

  • Preflight-Versuche werden sequentiell protokolliert.
  • Ein Run darf nur stattfinden, wenn zwei aufeinanderfolgende freeze_ok=1 gemessen werden.
  • Alle Messungen erfolgen mit identischem setup_fingerprint und policy_hash.

Algorithmen / Verfahren:

  • Messung von measured_p für jede Preflight-Sequenz
  • Validierung des Freeze-Gates durch Zählen der aufeinanderfolgenden erfolgreichen (ok) Versuche
  • Statistische Auswertung von retry_tail_p99, band_width und Δband_width

Bootstrap-Übersicht

Bootstrap-Resampling zur Schätzung der Unsicherheit in Δ(aux3 aux2).

Zielgrößen:

  • retry_tail_p99
  • band_width

Resampling-Setup

  • aux=2
  • aux=3

Stichprobeneinheit: Run

Resampling-Schema:

  • 1000-faches Bootstrap-Resampling der Run-Level-Metriken

Konfidenzintervalle:

  • Niveau: 0.95
  • Typ: percentile CI
  • Ableitung: Empirische Verteilung der resampleten Differenzen

Abgeleitete Effektgrößen

Risk Difference (Differenz der Raten):

  • Definition: Differenz in der Trefferwahrscheinlichkeit innerhalb des Freeze-Bands.
  • Bootstrap: Resampling über die proportion ok pro Run

Risk Ratio:

  • Definition: Verhältnis der Erfolgswahrscheinlichkeiten freeze_ok(aux3) / freeze_ok(aux2).
  • Bootstrap: Resampling zur CI-Schätzung des Verhältnisses

C-State-Kontrolle

Ziel: Reduktion nichtvergleichbarer CPU-Zustände über Setup-Konstanz.

Vorgehen:

  • Verwendung identischer policy_hash-Werte
  • Vergleich nur innerhalb identischer setup_fingerprint-Konfigurationen

Input / Output

Input-Anforderungen

Hardware:

  • identisches Testsystem pro aux-Gruppe

Software:

  • gleiche Mess- und Logging-Software-Version

Konfiguration:

  • identischer policy_hash
  • identischer setup_fingerprint

Erwartete Rohdaten

Felder pro Run:

  • timestamp
  • measured_p
  • freeze_ok
  • setup_fingerprint
  • policy_hash

Formatbeispiele:

  • 2024-06-02T12:45:03Z, 0.083, 0, a19cf3, 9fba00
  • 2024-06-02T12:47:10Z, 0.118, 1, a19cf3, 9fba00

Trace-Daten:

  • Format: CSV oder JSON pro Preflight-Sequenz
  • Hinweis: Jeder Preflight wird als eigene Zeile dokumentiert, keine Aggregation im Rohdatensatz.

Analyse-Ausgaben

Pro Gruppe / pro Governor:

  • Median retry_tail_p99
  • IQR retry_tail_p99
  • band_width
  • Δband_width

Vergleichsausgaben:

  • aux=2 (#40) vs aux=3 (#42)

    • Δ: Δband_width(aux3aux2)
    • CI(Δ): 95%-CI über 1000 Resamples
    • RR: ratio freeze_ok(aux3)/freeze_ok(aux2)
    • CI(RR): 95%-CI über Bootstrap-Resamples
    • Tests: zweiseitiger Test optional
  • C-State-Korrelation: Korrelation zwischen policy_hash und gemessenem retry_tail_p99

  • Trace-Muster: Analyse von Setup-Konstanz über Runs

Workflow / Nutzung

Analyse-Workflow:

  • Erfassen aller Preflight-Ergebnisse als Einzelzeilen
  • Berechnen von freeze_ok-Streaks pro Run
  • Validieren der 2×-ok-Gate-Regel
  • Auswerten von retry_tail_p99 und Bandmerkmalen
  • Berechnen der Δ(aux3aux2) für alle Zielmetriken

Trace-Template-Anforderungen

Ziel: Reproduzierbare Freeze-Gate-Auswertung und Vergleichbarkeit zwischen aux-Konfigurationen

Erforderliche Tags & Metadaten:

  • timestamp
  • measured_p
  • freeze_ok
  • setup_fingerprint
  • policy_hash

trace-cmd-Setup:

  • logge alle Preflights separat
  • prüfe setup_fingerprint auf Konstanz

Run-Design für Contributors:

  • mindestens zwei aufeinanderfolgende freeze_ok erforderlich
  • dokumentiere alle Versuchswerte lückenlos

Interpretation & erwartete Ergebnisse

Kernbefunde:

  • Run #42 (aux=3) erfüllt alle Validitätsbedingungen und bleibt innerhalb des Freeze-Bands.
  • aux=3 zeigt wiederholt höhere retry_tail_p99-Werte im Hotspot-Bereich als aux=2.
  • band_width und Δband_width unterscheiden sich nur geringfügig zwischen Konfigurationen.

Implikationen für Experimente:

  • aux=3 hat unter kontrollierten Freeze-Bedingungen eine messbar ungünstigere Stabilität.
  • Die Wiederholung des Effekts unter 2×-ok-Gating bestätigt die Robustheit der Beobachtung.

Planungsziel:

  • Ziel: Absicherung der Vergleichsbedingungen zwischen Systemkonfigurationen.
  • Vorgehen:
    • verstärktes Preflight-Gating
    • ausschließliche Vergleichsfreigabe bei Setup-Identität
    • Bootstrapping zur Unsicherheitsquantifizierung

Limitationen & Fallstricke

Datenbezogene Limitationen:

  • Kleine Stichprobengröße (nur drei Haupt-Runs)
  • keine vollständige Zufallsverteilung der Freeze-Bedingungen

Bootstrap-spezifische Limitationen:

  • Unsicherheit der CI bei geringer Anzahl von Runs

Kausalität & Generalisierbarkeit:

  • Korrelation zwischen aux-Wert und Performance, keine kausale Schlussfolgerung möglich

Praktische Fallstricke:

  • Fehlende Daten aus Wiederholungsläufen können Varianz verzerren
  • Unterschiedliche Umgebungsbedingungen trotz identischem fingerprint möglich

Nächste Schritte & Erweiterungen

Geplante Experimente:

  • Erweiterung um zusätzliche Runs mit aux=3 unter gleichen Gating-Regeln
  • Validierung von aux=2 und aux=3 unter variierenden Freeze-Zielbereichen

Analyseziele:

  • Erweiterung der Δ-Tabelle mit Durchschnitts- und Streumaßen
  • Quantitative Bewertung des 2×-ok-Gates auf Stabilität und Trefferquote

Regression & Modellierung:

  • Regression von retry_tail_p99 gegen measured_p zur Sensitivitätsanalyse

Community-Beiträge:

  • Bereitstellung der Rohdaten und Δ-Tabellen zur Peer-Überprüfung im Lab-Repository