Add governors_analysis_report/README.md

2025-12-06 13:10:45 +00:00 · 2025-12-06 13:10:45 +00:00 · 9006cc3831
commit 9006cc3831
parent 339e8ceeb1
1 changed files with 204 additions and 0 deletions
--- a/governors_analysis_report/README.md
+++ b/governors_analysis_report/README.md
@ -0,0 +1,204 @@
+# Bootstrap-Analyse der Outlier-Raten unter Power-Save und Performance Governors
+
+## Purpose
+
+Quantitative Analyse des Einflusses unterschiedlicher CPU-Governor-Strategien (powersave vs. performance) auf die Outlier-Rate von Microbenchmarks mithilfe von Bootstrap-Resampling.
+
+**Problemstellung:** Unklarer Effekt von CPU-Governor-Einstellungen auf die Stabilität von Microbenchmark-Läufen; Ziel ist die statistisch abgesicherte Quantifizierung der Outlier-Wahrscheinlichkeit pro Governor.
+
+**Ziele:**
+- Vergleich der Outlier-Proportionen zwischen Governor-Gruppen
+- Schätzung von Konfidenzintervallen mittels Bootstrap
+- Bewertung des Risikoverhältnisses (risk ratio) und der Stabilität der Ergebnisse
+
+## Kontext & Hintergrund
+
+Micro-Benchmark-Logs mit rund 240 Läufen, je nach Governor (powersave, performance) gruppiert. Enthält Outlier-Tags, Laufzeiten und Trace-Metadaten.
+
+**Gruppierung:**
+- governor = powersave
+- governor = performance
+
+**Trace-Metadaten / zusätzliche Tags:**
+- C-State-Residency zur Kontrolle der Laufkonsistenz
+- Governor-Tags zur Gruppierung der Runs
+
+**Domänenkontext:**
+- CPU-Frequenzskalierung
+- Systemleistung und Stabilität
+- Bootstrap-Statistik im Performance-Engineering
+
+**Outlier-Definition:**
+- Methode: Median/IQR-basiert
+- Beschreibung: Läufe, deren Benchmark-Ergebnis außerhalb eines 1.5*IQR-Intervalls relativ zum Median liegen, gelten als Outlier.
+- Metrik: Proportion der Outlier pro Gruppe
+
+**Motivation:**
+- Quantifizierung des Einflusses von Energiesparmechanismen auf die Benchmarkstabilität
+- Unterstützung von Konfigurationsentscheidungen durch statistische Absicherung
+
+## Methode / Spezifikation
+
+**Übersicht:**
+- Bootstrap-basiertes Resampling zur Schätzung der Outlier-Proportion pro Governor-Gruppe
+- Vergleich der Gruppen mittels Differenz in Prozentpunkten und Risk Ratio
+
+**Algorithmen / Verfahren:**
+- 10.000 Bootstrap-Resamples pro Gruppe
+- Berechnung der mittleren Outlier-Proportion
+- Ableitung von 95%-Konfidenzintervallen
+- Berechnung der Differenz in Prozentpunkten und Risk Ratio auf Bootstrap-Basis
+
+### Bootstrap-Übersicht
+
+Nichtparametrisches Resampling-Verfahren zur Schätzung der Unsicherheiten statistischer Kennwerte basierend auf Stichprobenziehungen mit Zurücklegen.
+
+**Zielgrößen:**
+- Outlier-Proportion pro Governor
+- Differenz in Prozentpunkten
+- Risk Ratio
+
+### Resampling-Setup
+
+- powersave
+- performance
+
+**Stichprobeneinheit:** einzelner Benchmark-Run (Outlier=1/0)
+
+**Resampling-Schema:**
+- 10.000 Bootstrap-Stichproben pro Gruppe
+
+**Konfidenzintervalle:**
+- Niveau: 0.95
+- Typ: Percentile CI
+- Ableitung: 2.5%- und 97.5%-Bootstrap-Quantile
+
+### Abgeleitete Effektgrößen
+
+**Risk Difference (Differenz der Raten):**
+- Definition: Differenz der Outlier-Proportionen (powersave - performance), angegeben in Prozentpunkten.
+- Bootstrap: 95%-Konfidenzintervall aus Bootstraps der Differenzen zwischen Gruppenmitteln.
+
+**Risk Ratio:**
+- Definition: Quotient der Outlier-Wahrscheinlichkeiten: p(powersave)/p(performance).
+- Bootstrap: 95%-Konfidenzintervall basierend auf log-transformierten Risk-Ratios aus Resamples.
+
+### C-State-Kontrolle
+
+**Ziel:** Sicherstellung, dass die Outlier-Bewertung nicht durch abweichende C-State-Residency verfälscht wird.
+
+**Vorgehen:**
+- Einbezug der C-State-Tags aus den Traces
+- Ausschluss von Runs mit anomalen Residency-Profilen
+
+## Input / Output
+
+### Erwartete Rohdaten
+
+**Felder pro Run:**
+- run_id
+- timestamp
+- governor
+- duration
+- outlier_flag
+- C-state-tags
+
+**Formatbeispiele:**
+- run123,2024-06-14 15:02:01,performance,5.03,0,C7:0.12
+
+**Trace-Daten:**
+- Format: trace-cmd output mit Governor- und C-State-Metadaten
+- Hinweis: Benötigt für Validierung der Laufbedingungen
+
+### Analyse-Ausgaben
+
+**Pro Gruppe / pro Governor:**
+- powersave Outlier-Proportion = 25.0% (95% CI [17.8%, 33.1%])
+- performance Outlier-Proportion = 5.8% (95% CI [2.4%, 11.5%])
+
+**Vergleichsausgaben:**
+- powersave vs performance
+  - Δ: ≈19 (95% CI [10.1, 28.7])
+  - CI(Δ): [10.1, 28.7]
+  - RR: ≈4.3
+  - CI(RR): [2.0, 9.6]
+  - Tests: Mann-Whitney p≈0.006
+
+- C-State-Korrelation: Höhere powersave-Outlier-Rate entspricht häufigeren tiefen C-States (Residency-Muster).
+- Trace-Muster: Stabile Trace-Muster bei performance; variable C-State-Tiefen bei powersave.
+
+## Workflow / Nutzung
+
+**Analyse-Workflow:**
+- Extraktion der Benchmark-Logs und Metadaten
+- Klassifikation der Läufe nach Governor
+- Anwendung des Bootstrap-Resampling-Skripts
+- Berechnung der CIs, Differenzen und Risk Ratios
+- Validierung über C-State-Tags
+- Erstellung von Ergebnis-Grafiken / Tabellen
+
+### Trace-Template-Anforderungen
+
+**Ziel:** Standardisierte Erfassung von Governor-getaggten Benchmark-Traces mit C-State-Information.
+
+**Erforderliche Tags & Metadaten:**
+- governor
+- C-State-Residency
+- Timestamp
+- run_id
+
+**trace-cmd-Setup:**
+- trace-cmd record -e power:* -b 32M --date --output=trace.dat
+
+**Run-Design für Contributors:**
+- ca. 50 gepaarte Runs (powersave/performance) mit identischer Workload
+- Anonymisierte Logs mit Outlier-Markierungen und Metadaten einreichen
+
+## Interpretation & erwartete Ergebnisse
+
+**Kernbefunde:**
+- powersave-Governor führt zu signifikanter Erhöhung der Outlier-Rate
+- Effekt robust über Bootstrap-Resampling abgesichert
+- Keine Überlappung der 95%-Konfidenzintervalle
+
+**Implikationen für Experimente:**
+- Governor-Wahl stark einflussreich auf Messstabilität
+- C-State-Residency zentraler Kontrollfaktor
+- Fixierung der Governor-Einstellung notwendig für zukünftige Vergleiche
+
+**Planungsziel:**
+- Ziel: Reduktion der Unsicherheit in zukünftigen Messungen auf ±3 Prozentpunkte pro Governor.
+- Vorgehen:
+  - Geplante Erweiterung der Stichprobenzahlen nach Bootstrap-Schätzung
+
+## Limitationen & Fallstricke
+
+**Datenbezogene Limitationen:**
+- N begrenzt (~240 Läufe); mögliche Varianzunter- oder Überschätzung bei extremen Governors
+
+**Bootstrap-spezifische Limitationen:**
+- Bootstrap-Konfidenzintervalle abhängig von Stichprobenhomogenität; Verzerrung möglich bei starker Clusterung
+
+**Kausalität & Generalisierbarkeit:**
+- Beobachtete Effekte gelten für getestete Hardware/Setup; Generalisierung auf andere Systeme bedingt
+
+**Praktische Fallstricke:**
+- Nicht synchronisierte Runs können durch Temperaturdrift beeinflusst sein
+- C-State-Tagging unvollständig → fehlerhafte Gruppenzuordnung
+
+## Nächste Schritte & Erweiterungen
+
+**Geplante Experimente:**
+- 24h-Holdover-Messung mit fixiertem Governor (powersave dann performance)
+- Replikation der Bootstrap-Ergebnisse mit erweitertem C-State-Logging
+
+**Analyseziele:**
+- Validierung der Bootstrap-Ergebnisse über längere Laufzeiträume
+- Erforschung der Wechselwirkungen zwischen Governors und C-State-Tiefen
+
+**Regression & Modellierung:**
+- Integration der Governor- und C-State-Faktoren in zukünftige Regressionsmodelle für Outlier-Wahrscheinlichkeit
+
+**Community-Beiträge:**
+- Erstellung eines öffentlichen Trace-Templates für Contributor-Runs
+- Sammlung und Vergleich anonymisierter Governor-getaggter Logs