Add ci_pipeline/README.md

2025-12-09 14:56:51 +00:00 · 2025-12-09 14:56:51 +00:00 · 5a8b776ec7
commit 5a8b776ec7
parent 583f0c496d
1 changed files with 230 additions and 0 deletions
--- a/ci_pipeline/README.md
+++ b/ci_pipeline/README.md
@ -0,0 +1,230 @@
 # Mini-CI Probelauf mit stratified sampling, Runner-Split und Bootstrap-Checks
 ## Purpose
 Technische Dokumentation des Mini-CI-Probelaufs zur Validierung von Bootstrap-Konsistenz und Laufzeitstabilität im Vergleich zu einem Single-Runner-Ansatz.
 **Problemstellung:** Vor dem Full-Run sollte überprüft werden, ob das geplante CI-Design mit stratified sampling und getrennten Runnern zuverlässig reproduzierbare Bootstrap-Ergebnisse liefert.
 **Ziele:**
 - Nachweis der Stabilität von Bootstrap-Konfidenzintervallen bei unterschiedlichen CPU-State-Konfigurationen
 - Evaluation des Runner-Splits (capture, aggregator, bootstrap)
 - Konfiguration eines skalierbaren Mini-CI-Designs für experimentelle Performance-Analysen
 ## Kontext & Hintergrund
 Jedes CI-Job-Run enthält Traces und Outlier-Raten, getrennt nach CPU-State-Profilen ('powersave' und 'performance').
 **Gruppierung:**
 - CPU-State-Gruppe
 - Runner-Typ
 - CI-Job
 **Trace-Metadaten / zusätzliche Tags:**
 - C-State-Tags
 - Zeilenendungsformat
 - Trace-Aggregator-Ausgabe
 **Domänenkontext:**
 - Continuous Integration
 - Performance Tracing
 - Bootstrap-Statistik
 - System Benchmarks
 **Outlier-Definition:**
 - Methode: Bootstrap-Schätzung je Gruppe
 - Beschreibung: Outlier-Rate basierend auf Job-Zeitverteilung pro CPU-State.
 - Metrik: Prozentuale Abweichung der Outlier-Rate (pp)
 **Motivation:**
 - Reduktion der Streuung bei Bootstrap-Ergebnissen
 - Getrennte Steuerung und Resampling zur Reduktion von Laufzeitvariabilität
 - Validierung der CI-Tauglichkeit für lange Bootstrap-Läufe
 ## Methode / Spezifikation
 **Übersicht:**
 - 10 Replikate je Run mit N≈240 pro Job
 - Stratifizierung in 'powersave' und 'performance'
 - Parallele Capture-Runner, zentraler Aggregator, separater Bootstrap-Runner
 **Algorithmen / Verfahren:**
 - Stratifiziertes Sampling nach CPU-State
 - Aggregation und Normalisierung der Traces
 - Bootstrap-Resampling mit 1000 Wiederholungen pro Probe
 ### Bootstrap-Übersicht
 Nichtparametrisches Resampling zur Schätzung stabiler Konfidenzintervalle der Outlier-Rate.
 **Zielgrößen:**
 - Outlier-Rate
 - Intervallbreite
 - Risikoquotient
 ### Resampling-Setup
 - 'powersave'
 - 'performance'
 **Stichprobeneinheit:** einzelner CI-Job-Run
 **Resampling-Schema:**
 - 1000 Bootstrap-Resamples je Gruppe
 **Konfidenzintervalle:**
 - Niveau: 0.95
 - Typ: percentile CI
 - Ableitung: empirisch aus Resampling-Verteilung
 ### Abgeleitete Effektgrößen
 **Risk Difference (Differenz der Raten):**
 - Definition: Differenz der Outlier-Raten zwischen CPU-State-Gruppen in Prozentpunkten.
 - Bootstrap: Schätzung des CI der Differenz via Bootstrap der Gruppenmittelwerte.
 **Risk Ratio:**
 - Definition: Quotient der Outlier-Raten zwischen 'performance' und 'powersave'.
 - Bootstrap: Verteilung des Quotienten aus resampleten Gruppenraten.
 ### C-State-Kontrolle
 **Ziel:** Sicherstellung konsistenter Zuordnung von Traces zu CPU-State-Labels.
 **Vorgehen:**
 - Normalisierung der C-State-Tags im Aggregator
 - Zeilenendungs-Normalisierung zur Vermeidung von Trace_Mismatch
 ## Input / Output
 ### Input-Anforderungen
 **Hardware:**
 - CI-Runner mit CPU-State-Steuerung
 - Oszilloskoptracing-fähige Umgebung
 **Software:**
 - CI-System (GitLab CI oder GitHub Actions)
 - Python/R Statistikbibliothek
 - Trace-Aggregator
 **Konfiguration:**
 - stratified_sample_size=240
 - capture_parallel=4
 - aggregator_mode=singleton
 - bootstrap_runs=1000 (Quick-Check) / 10000 (Full-Run)
 - job_timeouts=900s pro Run
 ### Erwartete Rohdaten
 **Felder pro Run:**
 - job_id
 - cpu_state
 - runtime_s
 - outlier_flag
 - trace_path
 **Formatbeispiele:**
 - {'job_id': 1, 'cpu_state': 'powersave', 'runtime_s': 814, 'outlier_flag': false}
 **Trace-Daten:**
 - Format: JSON/CSV mit Zeit- und State-Feldern
 - Hinweis: Zeilenenden müssen normalisiert sein.
 ### Analyse-Ausgaben
 **Pro Gruppe / pro Governor:**
 - mean_runtime
 - outlier_rate
 - ci_width_pp
 **Vergleichsausgaben:**
 - powersave vs performance
  - Δ: 1.1
  - CI(Δ): [0.7;1.5]
  - RR: 0.97
  - CI(RR): [0.93;1.02]
 - C-State-Korrelation: Pearson-Korrelation zwischen Outlier-Rate und C-State-Verteilung pro Runner
 - Trace-Muster: Erkennung von systematischen Trace-Mismatches nach Normalisierung 0%
 ## Workflow / Nutzung
 **Analyse-Workflow:**
 - Trigger eines Mini-CI-Runs mit definierten Stratified-Jobs
 - Paralleles Capture der Traces (4 Runner)
 - Zentrale Aggregation und Normalisierung
 - Bootstrap-Resampling und CI-Auswertung
 - Vergleich mit vorherigen Runs (Single-Runner-Referenz)
 ### Trace-Template-Anforderungen
 **Ziel:** Reproduzierbare Traces mit eindeutigen CPU-State-Tags
 **Erforderliche Tags & Metadaten:**
 - cpu_state
 - timestamp
 - runner_type
 - trace_source
 **trace-cmd-Setup:**
 - --normalize-line-endings
 - --tag-cstate
 - --runner-label=<capture|aggregator|bootstrap>
 **Run-Design für Contributors:**
 - je 10 Replikate pro State-Klasse
 - N=240 pro Gruppe
 - Runner-Labels nach Typ zuweisen
 ## Interpretation & erwartete Ergebnisse
 **Kernbefunde:**
 - Stratifiziertes Mini-CI-Design bietet stabile Bootstrap-CIs (Breite ≈1.1pp)
 - Runner-Split reduziert Streuung signifikant gegenüber Single-Runner-Setup
 - Bottleneck liegt im Aggregator und Bootstrapping, nicht im Tracing selbst
 **Implikationen für Experimente:**
 - Runner-Trennung ist für Langzeit-Bootstrap-Läufe sinnvoll
 - Job-Design mit N≈240 ist statistisch hinreichend und ressourcenschonend
 **Planungsziel:**
 - Ziel: Planung eines Full-Runs über 24h
 - Vorgehen:
  - Erhöhung der Bootstrap-Wiederholungen auf 10k
  - Überwachung der Drift (1PPS) im Selftest
 ## Limitationen & Fallstricke
 **Datenbezogene Limitationen:**
 - Empfindlich gegenüber falscher CPU-State-Zuordnung
 - Trace-Mismatch kann CI-Breite verfälschen
 **Bootstrap-spezifische Limitationen:**
 - Bei niedriger N kann die CI-Schätzung instabil werden
 - Starker Einfluss von Gruppenungleichgewicht auf Risk-Ratio
 **Kausalität & Generalisierbarkeit:**
 - Ergebnisse beschränken sich auf Mini-CI-Setups mit ähnlichem Runner-Layout
 - Keine Übertragbarkeit auf heterogene Multi-Host-Szenarien
 **Praktische Fallstricke:**
 - 6h-Job-Limits erfordern robustes Artifact-Handling
 - Langlaufende CI-Systeme sind abhängig von zuverlässigen Runnern und Storage
 ## Nächste Schritte & Erweiterungen
 **Geplante Experimente:**
 - Full-Run mit 10k Bootstrap-Resamples über 24h auf dediziertem Runner-Pool
 - Drift-Vergleich mittels 1PPS-Selbsttest
 **Analyseziele:**
 - Untersuchung der Stabilität über Langzeitintervalle
 - Korrelation Bootstrap-Varianz zu Trace-Dauer
 **Regression & Modellierung:**
 - Modellierung der CI-Breite als Funktion der Bootstraps und der CPU-State-Varianz
 **Community-Beiträge:**
 - Vergleich GitHub vs. GitLab CI für lange Jobs
 - YAML-Konfigurationsreview durch andere CI-Setups