Add runbook_snippet/README.md

2025-12-12 15:42:25 +00:00 · 2025-12-12 15:42:25 +00:00 · 874b7af85d
commit 874b7af85d
parent a616f75c9e
1 changed files with 192 additions and 0 deletions
--- a/runbook_snippet/README.md
+++ b/runbook_snippet/README.md
@ -0,0 +1,192 @@
+# Integer-Buckets Aggregation und CI-Testkommentare: Dokumentationsauszug
+
+## Purpose
+
+Erklärung der neuen Testkommentare für Integer-Bucket-Aggregation und BPF-basierte CI-Messungen.
+
+**Problemstellung:** Vorherige Float-Bucket-Implementationen erzeugten Grenzüberschreitungen und Rundungsfehler, die deterministische Testauswertung behinderten.
+
+**Ziele:**
+- Sicherstellung deterministischer Aggregation ohne Rundungsfehler
+- Abklärung der CI-Testarchitektur mit synthetischen Läufen
+- Dokumentation der Kommentierung zur Nachvollziehbarkeit
+
+## Kontext & Hintergrund
+
+Synthetischer Trace-Satz mit N=8 Exporten zur Verifikation der Integer-Bucket-Aggregation.
+
+**Gruppierung:**
+- Float-Buckets
+- Integer-Buckets
+
+**Trace-Metadaten / zusätzliche Tags:**
+- Summenüberprüfung
+- Diff-Auswertung
+- Bucket-Grenzenvergleich
+
+**Domänenkontext:**
+- Performance-Tracing
+- CI-Metrik-Validierung
+
+**Outlier-Definition:**
+- Methode: Bootstrap-Vergleich
+- Beschreibung: Varianz und Grenzwertabweichung zwischen Aggregationsansätzen.
+- Metrik: Abweichung in Millisekunden
+
+**Motivation:**
+- Reduktion von Rundungsartefakten bei Grenzwerten
+- Stabilisierung reproduzierbarer CI-Ergebnisse
+- Verbesserung der Messpräzision durch Einsatz von BPF
+
+## Methode / Spezifikation
+
+**Übersicht:**
+- Vergleich von Integer- und Float-Bucket-Aggregationen.
+- Einführung deterministischer Integer-Gruppierung.
+- Mini-Messreihe: BPF vs kprobe.
+
+**Algorithmen / Verfahren:**
+- Durchführung synthetischer Testruns (N=8).
+- Direkter Vergleich der Gesamtsummen (Sollwert=499).
+- Analyse der Varianz über 20 Runs bei BPF und kprobe.
+
+### Bootstrap-Übersicht
+
+Erweiterter Bootstrap-Lauf für Validierung der Aggregationsstabilität.
+
+**Zielgrößen:**
+- Determinismus der Summenbildung
+- Varianzvergleich je Aggregationsmethode
+
+### Abgeleitete Effektgrößen
+
+**Risk Difference (Differenz der Raten):**
+- Definition: Vergleich der stabilen Summenabweichung zwischen Float- und Integer-Aggregationen.
+- Bootstrap: Vergleich der Abweichungsverteilung mit 1k-Resampling.
+
+**Risk Ratio:**
+- Definition: Relative Reduktion der Varianz durch BPF gegenüber kprobe.
+- Bootstrap: Ermittelt über Bootstrap-Runs aus 20 Messungen pro Methode.
+
+### C-State-Kontrolle
+
+**Ziel:** Kontrolle externer Laufzeitvariabilität in Messungen.
+
+**Vorgehen:**
+- Konstante CPU-C-States während Tests
+- Beobachtung der Jitter-Werte im Trace
+
+## Input / Output
+
+### Erwartete Rohdaten
+
+**Felder pro Run:**
+- bucket_id
+- sum
+- diff
+- timestamp
+- run_id
+
+**Formatbeispiele:**
+- {'bucket_id': 3, 'sum': 62, 'diff': 0, 'run_id': 7}
+
+**Trace-Daten:**
+- Format: BPF TracePoints im JSON- oder CSV-Format
+- Hinweis: Jeder Run entspricht einer Messreihe je Probe (BPF/kprobe).
+
+### Analyse-Ausgaben
+
+**Pro Gruppe / pro Governor:**
+- Min/Max/Mean Varianz
+- Abweichungssummen pro Bucket
+- Bootstrap-Konfidenzintervalle
+
+**Vergleichsausgaben:**
+- Float-Buckets vs Integer-Buckets
+  - Δ: 0 %
+  - CI(Δ): [0.0, 0.1]
+  - RR: ≈1.00
+  - CI(RR): [0.99, 1.01]
+  - Tests: n.s.
+- BPF vs kprobe
+  - Δ: -1.7 ms Varianz
+  - CI(Δ): [-2.0, -1.3]
+  - RR: 0.85
+  - CI(RR): [0.80, 0.90]
+  - Tests: p<0.01
+
+## Workflow / Nutzung
+
+**Analyse-Workflow:**
+- Ausführen synthetischer Tests (pytest, N=8).
+- Vergleich Float- vs Integer-Bucket-Ausgabe.
+- Nachverifikation mit BPF vs kprobe Messung.
+- Bootstrap-Runs (1k) vorbereiten für CI-Integration.
+
+### Trace-Template-Anforderungen
+
+**Ziel:** Reproduzierbare Erfassung und Analyse deterministischer Aggregationsergebnisse.
+
+**Erforderliche Tags & Metadaten:**
+- run_id
+- bucket_id
+- method=BPF/kprobe
+- diff
+- sum
+
+**trace-cmd-Setup:**
+- bpftrace oder perf probe für kernel-basiertes Sampling
+- vgl. standardisierte Messskripte im CI-Job
+
+**Run-Design für Contributors:**
+- Feste Parametrisierung: N=8
+- Summen-Assertion im Testkommentar dokumentieren
+
+## Interpretation & erwartete Ergebnisse
+
+**Kernbefunde:**
+- Integer-Buckets eliminieren Rundungsartefakte vollständig.
+- BPF-basierte Messung liefert stabilere Varianz als kprobe (~1.7 ms Differenz).
+
+**Implikationen für Experimente:**
+- BPF als Standard für CI-Tracing validiert.
+- Rückkehr zu deterministischen Aggregationstests mit N>1000 doppelt abgesichert.
+
+**Planungsziel:**
+- Ziel: Überführung des stabilen Aggregations- und Messverhaltens in automatisierte CI-Runs.
+- Vorgehen:
+  - Merge nach Code-Review der Kommantare.
+  - Erweiterung des CI-Jobs mit Smoke-Test und Bootstrap-Runs.
+  - Vorbereitung Full-CI (10k Iterationen).
+
+## Limitationen & Fallstricke
+
+**Datenbezogene Limitationen:**
+- Synthetische N=8-Datensätze nicht repräsentativ für reale Lastszenarien.
+
+**Bootstrap-spezifische Limitationen:**
+- Bootstrap-Schätzung sensitiv bei geringer Varianzstreuung.
+
+**Kausalität & Generalisierbarkeit:**
+- BPF-Vorteil könnte hardware- oder kernelversionsabhängig sein.
+
+**Praktische Fallstricke:**
+- Fehlende Synchronisation kann Laufzeitjitter überdecken.
+
+## Nächste Schritte & Erweiterungen
+
+**Geplante Experimente:**
+- 1k-Bootstrap-Run in CI etablieren.
+- Full-CI-Test mit 10k Iterationen planen.
+
+**Analyseziele:**
+- Langzeitstabilität der Integer-Buckets über Zeit messen.
+- Validierung der BPF-Vorteile unter realer Workload.
+
+**Regression & Modellierung:**
+- Regressionstest auf Off-by-Fehler automatisieren.
+- Modellierung von Varianzverteilung unter CI-Last.
+
+**Community-Beiträge:**
+- Review und Verbesserung der kommentierten Testfälle
+- Beitrag zu BPF-basierter CI-Dokumentation im Repository