Add artifact.3/README.md

2026-01-21 17:37:37 +00:00 · 2026-01-21 17:37:37 +00:00 · 96236f49a3
commit 96236f49a3
parent 79af1bbbb5
1 changed files with 189 additions and 0 deletions
--- a/artifact.3/README.md
+++ b/artifact.3/README.md
@ -0,0 +1,189 @@
+# Analyse der ersten 10 Runs des N40-Experiments
+
+## Purpose
+
+Zwischenanalyse der ersten zehn N40-Runs mit Fokus auf Performanceverteilung und Vergleich pinned vs unpinned.
+
+**Problemstellung:** Bewerten, ob pinned-Runs konsistent geringere Mischfenster-Dauern und stabilere Verteilungen aufweisen als unpinned-Runs, basierend auf einer kleinen Stichprobe (n=5/5).
+
+**Ziele:**
+- Validierung der Datenintegrität und Stabilität der Aggregationskette
+- Vergleich der Mischfenster-Metriken zwischen pinned und unpinned Runs
+- Berechnung erster statistischer Tests zur Trennung der Gruppen
+
+## Kontext & Hintergrund
+
+Erste 10 Runs des N40-Experiments, bestehend aus 5 pinned- und 5 unpinned-Konfigurationen.
+
+**Gruppierung:**
+- pinned
+- unpinned
+
+**Trace-Metadaten / zusätzliche Tags:**
+- corr_id-Konsistenzprüfung
+- write_pre/write_post-Paarvalidierung
+- Aggregator-Run-Summaries mit Metadaten (pinned_flag, runtime, config_hash)
+
+**Domänenkontext:**
+- CPU clocksource switch performance
+- Kernel- und VM-Level Timingtraces
+- seqcount_retry_count und Mischfenster-Dauer als korrelierte Metriken
+
+**Outlier-Definition:**
+- Methode: Empirische Sichtung der Maximalwerte (tails) der Mischfenster
+- Beschreibung: Breite Fenster und hohe p95-Werte in unpinned als potenzielle Outlier-Indikation.
+- Metrik: Mischfenster-Dauer (µs)
+
+**Motivation:**
+- Validierung der experimentellen Setup-Stabilität vor fortgesetzter Datenerhebung
+- Frühe Indikation, ob pinned-Konfiguration stabilere Zeitverläufe liefert
+
+## Methode / Spezifikation
+
+**Übersicht:**
+- Gleichbleibendes Setup für alle Runs (Kernel, VM, Last, Trace).
+- Vergleich pinned vs unpinned anhand bisheriger 10 Runs.
+- Berechnung von Verteilungen und Korrelationen aus Aggregator-Summaries.
+
+**Algorithmen / Verfahren:**
+- Berechnung p50, p95, max der Mischfenster-Dauer für mult↔shift und base_raw↔nsec_base.
+- Berechnung der Korrelation (Pearson, Spearman) zwischen Mischfenster-Dauer und seqcount_retry_count.
+- Mann-Whitney-U-Test auf p95-Dauern, Gruppen: pinned vs unpinned.
+
+### Bootstrap-Übersicht
+
+Kein Bootstrap-Verfahren in dieser Zwischenanalyse angewendet.
+
+**Zielgrößen:**
+### Abgeleitete Effektgrößen
+
+**Risk Difference (Differenz der Raten):**
+- Definition: Nicht berechnet in dieser Phase.
+
+**Risk Ratio:**
+- Definition: Nicht relevant für diesen Vergleich.
+
+### C-State-Kontrolle
+
+**Ziel:** Konstante Laufbedingungen über Runs sicherstellen.
+
+**Vorgehen:**
+- Fixierung aller C-State-beeinflussenden Parameter über alle Runs.
+- Verwendung identischer Zielzahlen bei clocksource_switch-Ereignissen.
+
+## Input / Output
+
+### Input-Anforderungen
+
+**Hardware:**
+- Testsystem identisch über alle Runs
+
+**Software:**
+- Unveränderter Kernel und VM-Konfiguration
+
+**Konfiguration:**
+- Konstantes Trace-Setup mit fixer Zielzahl clocksource_switch pro Run
+
+### Erwartete Rohdaten
+
+**Felder pro Run:**
+- pinned_flag
+- corr_id_chain
+- write_pre/write_post
+- runtime
+- config_hash
+
+**Formatbeispiele:**
+- pinned_flag=true, runtime=38.2s, hash=ab4d92e
+
+**Trace-Daten:**
+- Format: raw trace events
+- Hinweis: clocksource_switch, seqcount_retry_count, Mischfenster-Dauer
+
+### Analyse-Ausgaben
+
+**Pro Gruppe / pro Governor:**
+- retry-free-in-window/100 switches
+- Mischfenster p50/p95/max
+- Pearson and Spearman correlation coefficients
+
+**Vergleichsausgaben:**
+- pinned vs unpinned
+  - Tests: Mann-Whitney-U-Test Ergebnis (Trend erkennbar, bei n=5/5 nicht signifikant)
+
+- C-State-Korrelation: Nicht gesondert analysiert.
+- Trace-Muster: Hohe Konsistenz, keine defekten corr_id-Ketten.
+
+## Workflow / Nutzung
+
+**Analyse-Workflow:**
+- Jeden Run direkt nach Durchführung aggregieren.
+- Run-Summary generieren und integritätsprüfen.
+- Ergebnisse für pinned und unpinned getrennt zusammenfassen.
+- Vergleichstabelle mit Kernmetriken erzeugen.
+- Statistischen Test auf p95-Werte anwenden.
+
+### Trace-Template-Anforderungen
+
+**Ziel:** Gleichförmige Datenbasis über alle Runs.
+
+**Erforderliche Tags & Metadaten:**
+- corr_id
+- write_pre
+- write_post
+- pinned_flag
+- config_hash
+
+**trace-cmd-Setup:**
+- Keine Änderungen an Trace-Target oder Samplingrate während Serie.
+
+**Run-Design für Contributors:**
+- Fortführung bis N40 komplett (20 pinned, 20 unpinned).
+
+## Interpretation & erwartete Ergebnisse
+
+**Kernbefunde:**
+- Pinned-Runs zeigen im Median und p95 konsistent kleinere Mischfenster.
+- Unpinned-Runs haben häufig breitere Verteilungen mit längeren Tails.
+- Stärkere Korrelation zwischen Mischfenster-Dauer und seqcount_retry_count bei unpinned-Runs.
+- Mann-Whitney-U-Test deutet auf Trennung, jedoch geringe Stichprobe.
+
+**Implikationen für Experimente:**
+- Aggregationspfad und Datenhygiene validiert.
+- Experiment kann auf 40 Runs erweitert werden, ohne methodische Anpassung.
+
+**Planungsziel:**
+- Ziel: Vollständige Serie (N40) mit solider Effektgrößen- und Konfidenzanalyse.
+- Vorgehen:
+  - Fortführung bis 20/20 Runs pro Gruppe.
+  - Nach Abschluss Berechnung von Cliff’s delta und Konfidenzintervallen.
+
+## Limitationen & Fallstricke
+
+**Datenbezogene Limitationen:**
+- Kleine Stichprobe (n=5 pro Gruppe) limitiert Signifikanz.
+- Keine Kontrolle potenzieller Mikrovariationen in Runtime-Bedingungen.
+
+**Bootstrap-spezifische Limitationen:**
+- Bootstrap-Methoden noch nicht angewandt.
+
+**Kausalität & Generalisierbarkeit:**
+- Ergebnisse vorläufig, noch keine belastbare Generalisierbarkeit.
+
+**Praktische Fallstricke:**
+- Gefahr voreiliger Schlussfolgerungen bei geringen N.
+- Offsets (~1,111s) in unpinned-Tails nur beobachtet, nicht geprüft.
+
+## Nächste Schritte & Erweiterungen
+
+**Geplante Experimente:**
+- Vollständige N40-Laufserie (20 pinned / 20 unpinned) abschließen.
+
+**Analyseziele:**
+- Gesamtauswertung aller 40 Runs mit statistischer Absicherung und Konfidenzintervallen.
+
+**Regression & Modellierung:**
+- Erweiterung um Effektgrößenmaß (Cliff’s delta) und Bootstrap-basiertes Vertrauen.
+
+**Community-Beiträge:**
+- Bereitstellung der stabilen Trace-Templates und Run-Summaries für Replikationszwecke.