replikation_31b_analysis/run_comparison/README.md

132 lines
4.3 KiB
Markdown
Raw Permalink Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Vergleichsanalyse der Läufe #28, #31a und #31b mit Fokus auf Bandbreite und Retry-Tailp99
## Purpose
Technische Vergleichsdokumentation der Replikationsläufe #28, #31a und #31b mit Identifikation von Mustern in Bandbreite und retry_tailp99.
**Problemstellung:** Bei Verdopplung der Parallelität von 4× auf 8× zeigte sich ein erhöhter retry_tailp99. Es soll überprüft werden, ob dieser Effekt reproduzierbar ist und welche Mechanismen ihn verursachen.
**Ziele:**
- Feststellen, ob Experiment #31b das Ergebnis von #31a repliziert
- Analyse des Zusammenhangs zwischen Parallelität, Bandbreite und Retry-Tailp99-Verhalten
- Bewertung des Tail-Risk für 8×-Parallelität
## Kontext & Hintergrund
Drei Läufe (#28 randomized 4×, #31a 8×, #31b 8×) mit identischem Setup-Fingerprint und Policy-Hash.
**Gruppierung:**
- Baseline (#28)
- Replikation (#31a, #31b)
**Trace-Metadaten / zusätzliche Tags:**
- setup_fingerprint
- policy_hash
- windowing/exiting rules
**Domänenkontext:**
- Replikationsexperimente im Netzwerk- oder IO-Performance-Kontext
- Analyse von Sättigungs- und Queueing-Effekten bei Parallelitätssteigerung
**Outlier-Definition:**
- Methode: Proportionale Schwellenprüfung
- Beschreibung: Ein Lauf gilt als kritisch, wenn retry_tailp99 ≥15% über Baseline liegt.
- Metrik: retry_tailp99
**Motivation:**
- Nachweis, ob die beobachtete Tail-Verschlechterung systematisch oder zufällig ist
- Bewertung, ob 8×-Parallelität als stabiles Betriebsregime geeignet ist
## Methode / Spezifikation
**Übersicht:**
- Standardisierte Auswertung mit gleichbleibenden Skripten über drei Runs
- Messung von Bandbreite (h), retry_tailp99 und delta_vs_baseline
**Algorithmen / Verfahren:**
- Vergleich der Runs unter identischen Bedingungen
- Berechnung der Differenzen zu Baseline (#28)
- Segmentierung nach Strata: near-expiry-unpinned vs. Rest
## Input / Output
### Erwartete Rohdaten
**Felder pro Run:**
- run_id
- parallelism
- bandwidth
- delta_vs_baseline
- retry_tailp99
- retry_tailp99_threshold
**Formatbeispiele:**
- {"run_id": "31b", "parallelism": 8, "bandwidth": 6.2, "delta_vs_baseline": -0.6, "retry_tailp99": "+17%", "retry_tailp99_threshold": 15}
### Analyse-Ausgaben
**Pro Gruppe / pro Governor:**
- mittlere Bandbreite (h)
- Delta vs. Baseline
- retry_tailp99-Anstieg relativ zur Schwelle
**Vergleichsausgaben:**
- #28 vs #31a
- Δ: Bandbreite -0.7h, retry_tailp99 +18%
- #28 vs #31b
- Δ: Bandbreite -0.6h, retry_tailp99 +17%
- Trace-Muster: Hotspot im Stratum near-expiry-unpinned identifiziert
## Workflow / Nutzung
**Analyse-Workflow:**
- Verifizieren der Setup-Identität (Fingerprint, Policy-Hash, Skripte)
- Auswertung von Bandbreite und retry_tailp99 pro Lauf
- Vergleich der 8×-Runs mit Baseline
- Segmentanalyse (near-expiry-unpinned vs. Rest)
- Interpretation der Ursache (Queueing/Sättigung vs. Scheduling/Mixing)
## Interpretation & erwartete Ergebnisse
**Kernbefunde:**
- retry_tailp99 steigt bei 8× reproduzierbar über 15% an
- Bandbreite bleibt stabil, kein Kollaps
- Hotspot: near-expiry-unpinned trägt Hauptanteil am Tail-Anstieg
**Implikationen für Experimente:**
- Replikation bestätigt den Tail-Risk bei 8×
- Mechanismus wahrscheinlich Queueing-bedingt, nicht Scheduling-bedingt
**Planungsziel:**
- Ziel: Identifikation und Isolierung des kritischen Strata mit Tail-Instabilität
- Vorgehen:
- Gezielte Entkopplung von near-expiry-unpinned
- Vermeidung globaler Parameteränderungen
## Limitationen & Fallstricke
**Datenbezogene Limitationen:**
- Nur drei Runs, begrenzte Stichprobe
- Keine zusätzlichen Metriken zur Latenzverteilung
**Kausalität & Generalisierbarkeit:**
- Effekt kausal plausibel, aber experimentell eng begrenzt auf aktuelle Strukturen
**Praktische Fallstricke:**
- 8×-Parallelität kann je nach Systemzustand variabel reagieren
- Segmentierung erforderlich, sonst Gefahr der Fehlinterpretation
## Nächste Schritte & Erweiterungen
**Geplante Experimente:**
- Isolierter Testlauf ausschließlich im near-expiry-unpinned-Segment mit 8×
**Analyseziele:**
- Validierung der Entkopplung durch Segment-spezifisches Limit
**Regression & Modellierung:**
- Modellierung des Queueing-Verhaltens bei erhöhter Nachfrage im Tail
**Community-Beiträge:**
- Verifikation durch unabhängige Replikationen mit identischem Setup