run_analysis_aux_workers/artifact.3/README.md

# Analyse der aux-Worker-Konfiguration (aux=1–3)

## Purpose

Vergleichsanalyse der Leistungswirkung verschiedener aux-Worker-Konfigurationen, um eine belastbare Standardkonfiguration für Log-Analyseprozesse festzulegen.

**Problemstellung:** Erhöhung der aux‑Worker‑Anzahl verbessert möglicherweise log‑basiertes I/O‑Verhalten, kann aber durch erhöhte Streuung und sinkende Effizienz saturieren. Ziel war, die optimale Anzahl von aux‑Workern zu bestimmen.

**Ziele:**
- Messung der Wirksamkeit zusätzlicher aux-Worker auf Hotspot‑Tail‑Latenzen
- Ermittlung von Varianz‑ und Bandbreitenänderungen bei Skalierung von aux‑Worker‑Anzahl
- Festlegung einer stabilen Betriebsregel auf Basis statistischer Schwellen

## Kontext & Hintergrund

Drei Messläufe (#34, #36, #37) mit identischer Messmethodik, variierender aux‑Worker‑Anzahl (1, 2, 3).

**Gruppierung:**
- aux=1
- aux=2
- aux=3

**Trace-Metadaten / zusätzliche Tags:**
- epoch_ms
- monotonic_ns
- tz_offset_minutes
- run_id
- step_id

**Domänenkontext:**
- Leistungsanalyse asynchroner Log-Verarbeitungs-Worker
- Bewertung von I/O-Lastverteilung und Timing-Streuung

**Outlier-Definition:**
- Methode: Interquartilsabstand (IQR)
- Beschreibung: Abweichungen jenseits des 1,5×IQR‑Bereichs gelten als Ausreißer im Latenzverhalten.
- Metrik: retry_tail_p99

**Motivation:**
- Reduktion der Latenzspitzen in near‑expiry‑unpinned Hotspots
- Vermeidung von Drift in band_width bei zunehmender Parallelität
- Entwicklung reproduzierbarer, regelbasierter Skalierungsentscheidungen

## Methode / Spezifikation

**Übersicht:**
- Vergleichsanalyse über drei Runs mit variierender aux‑Worker‑Zahl
- Auswertung mittels Median und Interquartilsabstand (IQR)
- Trennung der Metriken nach Hotspot‑Tail, Rest‑Tail und band_width

**Algorithmen / Verfahren:**
- Erfassen der Log‑Metriken unter identischen Rahmenbedingungen
- Berechnen von Median und IQR pro Kennzahl und aux‑Worker‑Gruppe
- Vergleich von Δp99 zwischen Runs
- Bewertung der Unterschiede anhand der IQR‑Spanne (Signifikanzkriterium Δ > IQR/2)

### Bootstrap-Übersicht

Verteilungsschätzung möglicher Stichprobenmedian‑Differenzen durch wiederholtes Resampling.

**Zielgrößen:**
- retry_tail_p99_Hotspot
- retry_tail_p99_Rest
- band_width

### Resampling-Setup

- aux=1
- aux=2
- aux=3

**Stichprobeneinheit:** Run‑Fenster (Zeitintervallmessung)

**Resampling-Schema:**
- bootstrap resampling
- 1.000 Wiederholungen pro Gruppe

**Konfidenzintervalle:**
- Niveau: 0.95
- Typ: percentile-based
- Ableitung: empirische Quantile der bootstrapped Differenzen

### Abgeleitete Effektgrößen

**Risk Difference (Differenz der Raten):**
- Definition: Differenz der relativen Häufigkeit hoher Latenzwerte zwischen Vergleichsgruppen.
- Bootstrap: Schätzung der CI der Differenz aus resampled Anteil hoher p99‑Werte.

**Risk Ratio:**
- Definition: Verhältnis der Wahrscheinlichkeit erhöhter Latenz bei höherer aux‑Zahl.
- Bootstrap: Resampling‑basierte Schätzung der Verteilungsverhältnisse.

### C-State-Kontrolle

**Ziel:** Sicherstellen, dass beobachtete Unterschiede nicht durch CPU‑Stromsparmodi beeinflusst werden.

**Vorgehen:**
- Fixieren der CPU‑C‑States während der Läufe
- Überwachung über Trace‑Metadata
- Dokumentation des setup_fingerprint zur Vergleichbarkeit

## Input / Output

### Input-Anforderungen

**Hardware:**
- Mehrkern‑CPU mit mindestens 4 Kernen
- Stabile I/O‑Speicherumgebung

**Software:**
- eigener Logger mit Sanity‑Header
- Telemetrie mit setup_fingerprint
- Statistikmodul zur Median/IQR‑Analyse

**Konfiguration:**
- aux‑Worker‑Zahl parametrierbar (1–3)
- identische Fensterung und Messperiode je Run

### Erwartete Rohdaten

**Felder pro Run:**
- epoch_ms
- monotonic_ns
- tz_offset_minutes
- run_id
- step_id
- retry_tail_p99
- band_width

**Formatbeispiele:**
- 1705123145,512312233122,60,36,12,0.015,3.5e+06

**Trace-Daten:**
- Format: CSV oder JSON‑Logdateien mit fixem Header
- Hinweis: setup_fingerprint dient zur Absicherung parametergleicher Läufe

### Analyse-Ausgaben

**Pro Gruppe / pro Governor:**
- Median
- IQR
- p99
- Drift‑Indikator (relative Varianz)

**Vergleichsausgaben:**
- aux=1 vs aux=2
  - Δ: deutliche Verbesserung von Hotspot‑p99
  - CI(Δ): positiv außerhalb IQR
  - RR: unter 1
  - CI(RR): eng, stabil
- aux=2 vs aux=3
  - Δ: gering, innerhalb IQR
  - CI(Δ): überlappt Null
  - RR: ≈1
  - CI(RR): breit, unsicher

- C-State-Korrelation: keine signifikanten Korrelationen beobachtet
- Trace-Muster: leicht erhöhte band_width‑Varianz bei aux=3

## Workflow / Nutzung

**Analyse-Workflow:**
- Parameterwahl (aux‑Worker‑Anzahl setzen)
- Run‑Durchführung mit identischen Bedingungen
- Log‑Erfassung und Sanity‑Header‑Validierung
- Statistische Auswertung (Median/IQR, Bootstrap optional)
- Sättigungskriterium prüfen (Δ < IQR/2)
- Default‑Entscheidung aktualisieren

### Trace-Template-Anforderungen

**Ziel:** Vergleichbare Runs ohne Tuning‑Artefakte erzeugen.

**Erforderliche Tags & Metadaten:**
- setup_fingerprint
- run_id
- aux_worker
- time_window_id

**trace-cmd-Setup:**
- fixierte CPU‑C‑States
- identische Logger‑Konfiguration
- synchronisierte Startbedingungen

**Run-Design für Contributors:**
- jeweils 1 Parameteränderung pro Run
- mindestens 3 Wiederholungen für Medianstabilität

## Interpretation & erwartete Ergebnisse

**Kernbefunde:**
- aux=1 → aux=2 führt zu klar verbessertem Hotspot‑Tail (p99‑Verringerung außerhalb IQR)
- aux=2 → aux=3 zeigt keine signifikante Verbesserung, jedoch erhöhte Varianz in band_width
- Sättigungseffekt ab aux≥3 erkennbar

**Implikationen für Experimente:**
- aux=2 als stabiler Default sinnvoll
- weiteres Hochskalieren ohne strukturellen Vorteil
- Fokus künftig auf Steuerungsalgorithmik statt Worker‑Zahl

**Planungsziel:**
- Ziel: Definieren reproduzierbarer Entscheidungsregeln für Worker‑Skalierung.
- Vorgehen:
  - Vergleich ΔHotspot‑P99 gegen IQR/2‑Schwelle
  - Zusätzliche Driftbewertung von band_width in Frühfenstern

## Limitationen & Fallstricke

**Datenbezogene Limitationen:**
- nur drei Runs, begrenzte Stichprobentiefe
- keine externe Replikation auf anderer Hardware

**Bootstrap-spezifische Limitationen:**
- Verteilungsschätzungen sensitiv für kleine Stichproben
- breite CI erschwert sichere Interpretation bei Δ≈0

**Kausalität & Generalisierbarkeit:**
- Resultate gelten nur für identische Logger‑ und I/O‑Profile
- keine direkte Generalisierung auf andere Task‑Typen

**Praktische Fallstricke:**
- unentdeckte Seiteneffekte bei paralleler Instrumentierung
- Verwechslung von Drift und Messrauschen bei kurzen Runs

## Nächste Schritte & Erweiterungen

**Geplante Experimente:**
- Analyse alternativer Scheduling‑Strategien für aux‑Worker
- Erweiterung durch präzisere Latenz‑Vorhersagemodelle

**Analyseziele:**
- Quantifizierung der band_width‑Driftursachen
- Messung der Trade‑offs zwischen Parallelität und Stabilität

**Regression & Modellierung:**
- Aufbau eines Regressionsmodells für aux‑Worker‑Effekte auf Latenzmetriken

**Community-Beiträge:**
- Bereitstellung der setup_fingerprint‑Methodik als offenes Vergleichsinstrument für ähnliche Experimente