replikation_31b_analysis/run_comparison
2026-03-24 11:10:16 +00:00
..
README.md Add run_comparison/README.md 2026-03-24 11:10:16 +00:00

Vergleichsanalyse der Läufe #28, #31a und #31b mit Fokus auf Bandbreite und Retry-Tailp99

Purpose

Technische Vergleichsdokumentation der Replikationsläufe #28, #31a und #31b mit Identifikation von Mustern in Bandbreite und retry_tailp99.

Problemstellung: Bei Verdopplung der Parallelität von 4× auf 8× zeigte sich ein erhöhter retry_tailp99. Es soll überprüft werden, ob dieser Effekt reproduzierbar ist und welche Mechanismen ihn verursachen.

Ziele:

  • Feststellen, ob Experiment #31b das Ergebnis von #31a repliziert
  • Analyse des Zusammenhangs zwischen Parallelität, Bandbreite und Retry-Tailp99-Verhalten
  • Bewertung des Tail-Risk für 8×-Parallelität

Kontext & Hintergrund

Drei Läufe (#28 randomized 4×, #31a 8×, #31b 8×) mit identischem Setup-Fingerprint und Policy-Hash.

Gruppierung:

  • Baseline (#28)
  • Replikation (#31a, #31b)

Trace-Metadaten / zusätzliche Tags:

  • setup_fingerprint
  • policy_hash
  • windowing/exiting rules

Domänenkontext:

  • Replikationsexperimente im Netzwerk- oder IO-Performance-Kontext
  • Analyse von Sättigungs- und Queueing-Effekten bei Parallelitätssteigerung

Outlier-Definition:

  • Methode: Proportionale Schwellenprüfung
  • Beschreibung: Ein Lauf gilt als kritisch, wenn retry_tailp99 ≥15% über Baseline liegt.
  • Metrik: retry_tailp99

Motivation:

  • Nachweis, ob die beobachtete Tail-Verschlechterung systematisch oder zufällig ist
  • Bewertung, ob 8×-Parallelität als stabiles Betriebsregime geeignet ist

Methode / Spezifikation

Übersicht:

  • Standardisierte Auswertung mit gleichbleibenden Skripten über drei Runs
  • Messung von Bandbreite (h), retry_tailp99 und delta_vs_baseline

Algorithmen / Verfahren:

  • Vergleich der Runs unter identischen Bedingungen
  • Berechnung der Differenzen zu Baseline (#28)
  • Segmentierung nach Strata: near-expiry-unpinned vs. Rest

Input / Output

Erwartete Rohdaten

Felder pro Run:

  • run_id
  • parallelism
  • bandwidth
  • delta_vs_baseline
  • retry_tailp99
  • retry_tailp99_threshold

Formatbeispiele:

  • {"run_id": "31b", "parallelism": 8, "bandwidth": 6.2, "delta_vs_baseline": -0.6, "retry_tailp99": "+17%", "retry_tailp99_threshold": 15}

Analyse-Ausgaben

Pro Gruppe / pro Governor:

  • mittlere Bandbreite (h)
  • Delta vs. Baseline
  • retry_tailp99-Anstieg relativ zur Schwelle

Vergleichsausgaben:

  • #28 vs #31a

    • Δ: Bandbreite -0.7h, retry_tailp99 +18%
  • #28 vs #31b

    • Δ: Bandbreite -0.6h, retry_tailp99 +17%
  • Trace-Muster: Hotspot im Stratum near-expiry-unpinned identifiziert

Workflow / Nutzung

Analyse-Workflow:

  • Verifizieren der Setup-Identität (Fingerprint, Policy-Hash, Skripte)
  • Auswertung von Bandbreite und retry_tailp99 pro Lauf
  • Vergleich der 8×-Runs mit Baseline
  • Segmentanalyse (near-expiry-unpinned vs. Rest)
  • Interpretation der Ursache (Queueing/Sättigung vs. Scheduling/Mixing)

Interpretation & erwartete Ergebnisse

Kernbefunde:

  • retry_tailp99 steigt bei 8× reproduzierbar über 15% an
  • Bandbreite bleibt stabil, kein Kollaps
  • Hotspot: near-expiry-unpinned trägt Hauptanteil am Tail-Anstieg

Implikationen für Experimente:

  • Replikation bestätigt den Tail-Risk bei 8×
  • Mechanismus wahrscheinlich Queueing-bedingt, nicht Scheduling-bedingt

Planungsziel:

  • Ziel: Identifikation und Isolierung des kritischen Strata mit Tail-Instabilität
  • Vorgehen:
    • Gezielte Entkopplung von near-expiry-unpinned
    • Vermeidung globaler Parameteränderungen

Limitationen & Fallstricke

Datenbezogene Limitationen:

  • Nur drei Runs, begrenzte Stichprobe
  • Keine zusätzlichen Metriken zur Latenzverteilung

Kausalität & Generalisierbarkeit:

  • Effekt kausal plausibel, aber experimentell eng begrenzt auf aktuelle Strukturen

Praktische Fallstricke:

  • 8×-Parallelität kann je nach Systemzustand variabel reagieren
  • Segmentierung erforderlich, sonst Gefahr der Fehlinterpretation

Nächste Schritte & Erweiterungen

Geplante Experimente:

  • Isolierter Testlauf ausschließlich im near-expiry-unpinned-Segment mit 8×

Analyseziele:

  • Validierung der Entkopplung durch Segment-spezifisches Limit

Regression & Modellierung:

  • Modellierung des Queueing-Verhaltens bei erhöhter Nachfrage im Tail

Community-Beiträge:

  • Verifikation durch unabhängige Replikationen mit identischem Setup