Add frozen_runs_report/README.md

2026-01-24 12:03:30 +00:00 · 2026-01-24 12:03:30 +00:00 · 83e8eccd1f
commit 83e8eccd1f
parent d10af0df59
1 changed files with 230 additions and 0 deletions
--- a/frozen_runs_report/README.md
+++ b/frozen_runs_report/README.md
@ -0,0 +1,230 @@
 # Frozen-Runs Analyse – Zwischenbericht zu Metriken und Timing-Effekten
 ## Purpose
 Analyse von Frozen-Runs zur Untersuchung von Timing-Stabilität und Metrikunterschieden zwischen pinned und unpinned CPU-Konfigurationen.
 **Problemstellung:** Unklarheit über die Stabilität und Wiederholbarkeit von Timing-Metriken bei Frozen-Runs unter verschiedenen CPU-Bindungszuständen (pinned vs. unpinned).
 **Ziele:**
 - Vergleich der Metriken Mischfenster-Dauer, Retry-free-in-window Rate und seqcount_retry_count zwischen pinned und unpinned Runs
 - Bewertung der metrischen Robustheit mittels Bootstrap-Konfidenzintervallen
 - Identifikation belastbarer Trennmerkmale als Grundlage für spätere CI-Gates
 ## Kontext & Hintergrund
 Vier N40-Frozen-Runs (#20–#23) mit balanciertem Setup: pinned/unpinned alternierend, keine back-to-back-Ausführungen.
 **Gruppierung:**
 - pinned_flag
 **Trace-Metadaten / zusätzliche Tags:**
 - corr_id
 - write_pre
 - write_post
 - clocksource_switch
 **Domänenkontext:**
 - System Performance Analysis
 - CPU Binding Effects
 - Timing Stability in Benchmark Runs
 **Outlier-Definition:**
 - Methode: Empirisch über Bootstrap-Stabilität der p95/max-Metriken
 - Beschreibung: Ausreißer sind Runs, deren Metrikbeiträge stark variieren und über die Bootstraps nicht stabil reproduzierbar sind.
 - Metrik: Mischfenster-Dauer (p95, max)
 **Motivation:**
 - Validierung der Frozen-Runs als stabile Baseline
 - Quantifizierung der Einflüsse von CPU-Pinning auf Timing-Streuung
 - Vorbereitung auf CI-taugliche Gate-Metriken
 ## Methode / Spezifikation
 **Übersicht:**
 - Balanciertes Frozen-Run-Design mit 2x pinned und 2x unpinned Ausführungen.
 - Sanity-Checks zur Sicherstellung der Datenintegrität vor Analyse.
 - Bootstrap-Resampling über Runs zur Robustheitsbewertung der Effektgrößen.
 **Algorithmen / Verfahren:**
 - Berechnung von p50, p95 und max der Mischfenster-Dauer pro Run.
 - Berechnung der retry-free-in-window Rate und Korrelation mit seqcount_retry_count.
 - Bootstrap-Resampling (n=10.000) über Runs, gruppiert nach pinned_flag.
 - Berechnung von Effektgrößen (rank-biserial Correlation, Cliff’s delta).
 ### Bootstrap-Übersicht
 Resampling-Verfahren zur Schätzung von Konfidenzintervallen und Stabilität von Effektgrößen.
 **Zielgrößen:**
 - p95 Mischfenster-Dauer
 - retry-free-in-window Rate
 - Cliff’s delta pro Metrik
 ### Resampling-Setup
 - pinned
 - unpinned
 **Stichprobeneinheit:** Run
 **Resampling-Schema:**
 - 10.000 Resamples pro Gruppe mit Replacement
 **Konfidenzintervalle:**
 - Niveau: 0.95
 - Typ: percentile
 - Ableitung: aus den empirischen Bootstrap-Verteilungen
 ### Abgeleitete Effektgrößen
 **Risk Difference (Differenz der Raten):**
 - Definition: Differenz der retry-free-in-window Raten zwischen pinned und unpinned Runs.
 - Bootstrap: Bootstrapped 95%-Konfidenzintervall über Gruppenmittelwerte.
 **Risk Ratio:**
 - Definition: Relatives Risiko eines niedrigen retry-free Anteils bei unpinned Runs.
 - Bootstrap: Bootstrap-Schätzung der RR-Verteilung über Run-Resamples.
 ### C-State-Kontrolle
 **Ziel:** Vermeidung von Störfaktoren durch CPU-Zustandswechsel (C-States).
 **Vorgehen:**
 - Frozen-Setup ohne Dynamikänderungen von CPUFreq governor.
 - Enge Kontrolle über run sequence und clocksource stability.
 ## Input / Output
 ### Input-Anforderungen
 **Hardware:**
 - Mehrkernsystem mit identischen Cores
 - CPU-Pinning-Unterstützung im Kernel
 **Software:**
 - trace-cmd
 - Auswerteskripte mit Bootstrap-Unterstützung
 - Statistik-Tool für Effektgrößen
 **Konfiguration:**
 - Frozen-Setup aktiv
 - Clocksource switch tracebar
 - Keine parallelen Systemlasten
 ### Erwartete Rohdaten
 **Felder pro Run:**
 - run_id
 - pinned_flag
 - mischfenster_p50
 - mischfenster_p95
 - mischfenster_max
 - retry_free_rate
 - seqcount_retry_count
 **Formatbeispiele:**
 - 21, unpinned, 1.2ms, 4.9ms, 7.3ms, 0.94, 12
 **Trace-Daten:**
 - Format: trace-cmd output mit clocksource_switch-Ereignissen
 - Hinweis: Jeder Trace enthält korrelierte write_pre/write_post-Einträge mit fortlaufenden corr_id-Werten.
 ### Analyse-Ausgaben
 **Pro Gruppe / pro Governor:**
 - p50
 - p95
 - max
 - bootstrap CI-Bereich
 - Cliff’s delta
 **Vergleichsausgaben:**
 - pinned vs unpinned
  - Δ: retry-free-in-window Rate differiert um ca. mehrere Prozentpunkte
  - CI(Δ): 95%-CI ohne Überlappung in einigen Runs
  - RR: unpinned > pinned (breitere Tails, höhere Varianz)
  - CI(RR): enge Bandbreite, robuste Trennung beim p95
 - C-State-Korrelation: nicht signifikant unter frozen setup
 - Trace-Muster: unpinned zeigt breitere Latenzverteilungen im Mischfenster
 ## Workflow / Nutzung
 **Analyse-Workflow:**
 - Alle Runs erfassen und sanity-check durchführen.
 - Kernmetriken extrahieren und pro Run speichern.
 - Bootstrap-Resampling mit Gruppierung nach pinned_flag ausführen.
 - Effektgrößen und Konfidenzintervalle vergleichen und validieren.
 ### Trace-Template-Anforderungen
 **Ziel:** Eindeutige Erkennung der clocksource_switch- und write_pre/post-Ereignisse.
 **Erforderliche Tags & Metadaten:**
 - corr_id
 - run_id
 - pinned_flag
 - timestamp
 **trace-cmd-Setup:**
 - trace-cmd record -e clocksource:*
 - constantes Tracing-Intervall pro Run
 **Run-Design für Contributors:**
 - abwechslungsweise pinned/unpinned Läufe
 - keine Back-to-back-Ausführung
 ## Interpretation & erwartete Ergebnisse
 **Kernbefunde:**
 - unpinned Runs zeigen erhöhte Varianz in p95 und max Mischfenster-Dauer.
 - retry-free-in-window Rate bleibt über Gruppen stabil mit engen CIs.
 - Bootstrap-Schätzungen trennen signifikant auch bei kleinen Run-Zahlen.
 **Implikationen für Experimente:**
 - p95 ist robustere Metrik als max für künftige CI-Gates.
 - retry-free-in-window eignet sich als ergänzender Stabilitätsindikator.
 **Planungsziel:**
 - Ziel: Vorbereitung auf CI-basierte Metrik-Gates für Performance-Regression-Checks.
 - Vorgehen:
  - Kombination von Effektgröße und Bootstrap-CI als Entscheidungskriterium
  - Identifikation von stabilen Metriken mit geringer CI-Streuung
 ## Limitationen & Fallstricke
 **Datenbezogene Limitationen:**
 - Kleine Stichprobenzahl (n=4) limitiert Teststärke.
 - Frozen-Setup kann externe Effekte kaschieren.
 - Keine volle Zeitreproduzierbarkeit bei möglichen Migrationen außerhalb frozen runs.
 **Bootstrap-spezifische Limitationen:**
 - Bootstrap stabilisiert nur im Rahmen vorhandener Varianz.
 - Run-Korrelationen können zu unterschätzten CIs führen.
 **Kausalität & Generalisierbarkeit:**
 - Effekte gelten nur für identisches Hardware-Setup.
 - Keine kausale Aussage über CPU-Pinning allgemein.
 **Praktische Fallstricke:**
 - clocksource_switch Events müssen vollständig geloggt sein.
 - Fehlende corr_id oder write_post können Analyse verzerren.
 ## Nächste Schritte & Erweiterungen
 **Geplante Experimente:**
 - Zusätzliche 4–6 Runs im strict frozen Setup.
 - Gate-Prototyp zur Bewertung stabiler Metriken.
 **Analyseziele:**
 - CI-fähiger Vergleich von p95 vs. retry-free-in-window als Leitmetrik.
 - Überprüfung der Bootstrap-Verlässlichkeit bei größeren Samples.
 **Regression & Modellierung:**
 - Einführung einfacher Gate-Prototypen ohne harte Schwellen.
 - Langfristig Modellierung von Timing-Varianz über pinned vs. unpinned.
 **Community-Beiträge:**
 - Feedback zu priorisierten Gate-Metriken einholen (p95 vs retry-free).
 - Offene Diskussion über standardisierte Frozen-Benchmarks.