Mika 4c78ce26dd Add artifact.3/README.md

2026-03-31 13:46:39 +00:00

7.1 KiB

Raw Permalink Blame History

Analyse der aux-Worker-Konfiguration (aux=1–3)

Purpose

Vergleichsanalyse der Leistungswirkung verschiedener aux-Worker-Konfigurationen, um eine belastbare Standardkonfiguration für Log-Analyseprozesse festzulegen.

Problemstellung: Erhöhung der aux‑Worker‑Anzahl verbessert möglicherweise log‑basiertes I/O‑Verhalten, kann aber durch erhöhte Streuung und sinkende Effizienz saturieren. Ziel war, die optimale Anzahl von aux‑Workern zu bestimmen.

Ziele:

Messung der Wirksamkeit zusätzlicher aux-Worker auf Hotspot‑Tail‑Latenzen
Ermittlung von Varianz‑ und Bandbreitenänderungen bei Skalierung von aux‑Worker‑Anzahl
Festlegung einer stabilen Betriebsregel auf Basis statistischer Schwellen

Kontext & Hintergrund

Drei Messläufe (#34, #36, #37) mit identischer Messmethodik, variierender aux‑Worker‑Anzahl (1, 2, 3).

Gruppierung:

aux=1
aux=2
aux=3

Trace-Metadaten / zusätzliche Tags:

epoch_ms
monotonic_ns
tz_offset_minutes
run_id
step_id

Domänenkontext:

Leistungsanalyse asynchroner Log-Verarbeitungs-Worker
Bewertung von I/O-Lastverteilung und Timing-Streuung

Outlier-Definition:

Methode: Interquartilsabstand (IQR)
Beschreibung: Abweichungen jenseits des 1,5×IQR‑Bereichs gelten als Ausreißer im Latenzverhalten.
Metrik: retry_tail_p99

Motivation:

Reduktion der Latenzspitzen in near‑expiry‑unpinned Hotspots
Vermeidung von Drift in band_width bei zunehmender Parallelität
Entwicklung reproduzierbarer, regelbasierter Skalierungsentscheidungen

Methode / Spezifikation

Übersicht:

Vergleichsanalyse über drei Runs mit variierender aux‑Worker‑Zahl
Auswertung mittels Median und Interquartilsabstand (IQR)
Trennung der Metriken nach Hotspot‑Tail, Rest‑Tail und band_width

Algorithmen / Verfahren:

Erfassen der Log‑Metriken unter identischen Rahmenbedingungen
Berechnen von Median und IQR pro Kennzahl und aux‑Worker‑Gruppe
Vergleich von Δp99 zwischen Runs
Bewertung der Unterschiede anhand der IQR‑Spanne (Signifikanzkriterium Δ > IQR/2)

Bootstrap-Übersicht

Verteilungsschätzung möglicher Stichprobenmedian‑Differenzen durch wiederholtes Resampling.

Zielgrößen:

retry_tail_p99_Hotspot
retry_tail_p99_Rest
band_width

Resampling-Setup

aux=1
aux=2
aux=3

Stichprobeneinheit: Run‑Fenster (Zeitintervallmessung)

Resampling-Schema:

bootstrap resampling
1.000 Wiederholungen pro Gruppe

Konfidenzintervalle:

Niveau: 0.95
Typ: percentile-based
Ableitung: empirische Quantile der bootstrapped Differenzen

Abgeleitete Effektgrößen

Risk Difference (Differenz der Raten):

Definition: Differenz der relativen Häufigkeit hoher Latenzwerte zwischen Vergleichsgruppen.
Bootstrap: Schätzung der CI der Differenz aus resampled Anteil hoher p99‑Werte.

Risk Ratio:

Definition: Verhältnis der Wahrscheinlichkeit erhöhter Latenz bei höherer aux‑Zahl.
Bootstrap: Resampling‑basierte Schätzung der Verteilungsverhältnisse.

C-State-Kontrolle

Ziel: Sicherstellen, dass beobachtete Unterschiede nicht durch CPU‑Stromsparmodi beeinflusst werden.

Vorgehen:

Fixieren der CPU‑C‑States während der Läufe
Überwachung über Trace‑Metadata
Dokumentation des setup_fingerprint zur Vergleichbarkeit

Input / Output

Input-Anforderungen

Hardware:

Mehrkern‑CPU mit mindestens 4 Kernen
Stabile I/O‑Speicherumgebung

Software:

eigener Logger mit Sanity‑Header
Telemetrie mit setup_fingerprint
Statistikmodul zur Median/IQR‑Analyse

Konfiguration:

aux‑Worker‑Zahl parametrierbar (1–3)
identische Fensterung und Messperiode je Run

Erwartete Rohdaten

Felder pro Run:

epoch_ms
monotonic_ns
tz_offset_minutes
run_id
step_id
retry_tail_p99
band_width

Formatbeispiele:

1705123145,512312233122,60,36,12,0.015,3.5e+06

Trace-Daten:

Format: CSV oder JSON‑Logdateien mit fixem Header
Hinweis: setup_fingerprint dient zur Absicherung parametergleicher Läufe

Analyse-Ausgaben

Pro Gruppe / pro Governor:

Median
IQR
p99
Drift‑Indikator (relative Varianz)

Vergleichsausgaben:

aux=1 vs aux=2
- Δ: deutliche Verbesserung von Hotspot‑p99
- CI(Δ): positiv außerhalb IQR
- RR: unter 1
- CI(RR): eng, stabil
aux=2 vs aux=3
- Δ: gering, innerhalb IQR
- CI(Δ): überlappt Null
- RR: ≈1
- CI(RR): breit, unsicher
C-State-Korrelation: keine signifikanten Korrelationen beobachtet
Trace-Muster: leicht erhöhte band_width‑Varianz bei aux=3

Workflow / Nutzung

Analyse-Workflow:

Parameterwahl (aux‑Worker‑Anzahl setzen)
Run‑Durchführung mit identischen Bedingungen
Log‑Erfassung und Sanity‑Header‑Validierung
Statistische Auswertung (Median/IQR, Bootstrap optional)
Sättigungskriterium prüfen (Δ < IQR/2)
Default‑Entscheidung aktualisieren

Trace-Template-Anforderungen

Ziel: Vergleichbare Runs ohne Tuning‑Artefakte erzeugen.

Erforderliche Tags & Metadaten:

setup_fingerprint
run_id
aux_worker
time_window_id

trace-cmd-Setup:

fixierte CPU‑C‑States
identische Logger‑Konfiguration
synchronisierte Startbedingungen

Run-Design für Contributors:

jeweils 1 Parameteränderung pro Run
mindestens 3 Wiederholungen für Medianstabilität

Interpretation & erwartete Ergebnisse

Kernbefunde:

aux=1 → aux=2 führt zu klar verbessertem Hotspot‑Tail (p99‑Verringerung außerhalb IQR)
aux=2 → aux=3 zeigt keine signifikante Verbesserung, jedoch erhöhte Varianz in band_width
Sättigungseffekt ab aux≥3 erkennbar

Implikationen für Experimente:

aux=2 als stabiler Default sinnvoll
weiteres Hochskalieren ohne strukturellen Vorteil
Fokus künftig auf Steuerungsalgorithmik statt Worker‑Zahl

Planungsziel:

Ziel: Definieren reproduzierbarer Entscheidungsregeln für Worker‑Skalierung.
Vorgehen:
- Vergleich ΔHotspot‑P99 gegen IQR/2‑Schwelle
- Zusätzliche Driftbewertung von band_width in Frühfenstern

Limitationen & Fallstricke

Datenbezogene Limitationen:

nur drei Runs, begrenzte Stichprobentiefe
keine externe Replikation auf anderer Hardware

Bootstrap-spezifische Limitationen:

Verteilungsschätzungen sensitiv für kleine Stichproben
breite CI erschwert sichere Interpretation bei Δ≈0

Kausalität & Generalisierbarkeit:

Resultate gelten nur für identische Logger‑ und I/O‑Profile
keine direkte Generalisierung auf andere Task‑Typen

Praktische Fallstricke:

unentdeckte Seiteneffekte bei paralleler Instrumentierung
Verwechslung von Drift und Messrauschen bei kurzen Runs

Nächste Schritte & Erweiterungen

Geplante Experimente:

Analyse alternativer Scheduling‑Strategien für aux‑Worker
Erweiterung durch präzisere Latenz‑Vorhersagemodelle

Analyseziele:

Quantifizierung der band_width‑Driftursachen
Messung der Trade‑offs zwischen Parallelität und Stabilität

Regression & Modellierung:

Aufbau eines Regressionsmodells für aux‑Worker‑Effekte auf Latenzmetriken

Community-Beiträge:

Bereitstellung der setup_fingerprint‑Methodik als offenes Vergleichsinstrument für ähnliche Experimente

7.1 KiB Raw Permalink Blame History Unescape Escape