Add artifact3/README.md

2026-03-15 12:31:24 +00:00 · 2026-03-15 12:31:24 +00:00 · fd5941fd02
commit fd5941fd02
parent ed4a7215d0
1 changed files with 170 additions and 0 deletions
--- a/artifact3/README.md
+++ b/artifact3/README.md
@ -0,0 +1,170 @@
 # Analyse des Einflusses eines isolierten Toggles auf das Resonanzband (Run #24)
 ## Purpose
 Dokumentation von Run #24 zur Prüfung des kausalen Zusammenhangs zwischen einem isolierten Step-Toggle und der Max-Outlier-Performance im Resonanzband.
 **Problemstellung:** Klären, ob der im Cluster dominierende Step den Max-Outlier direkt beeinflusst oder ob das Resonanzband unabhängig von diesem Mechanismus besteht.
 **Ziele:**
 - Nachweis einer kausalen Beziehung zwischen Step und Max-Outlier-Werten
 - Abgrenzung des Resonanzbands von unmittelbaren Step-Effekten
 - Standardisierte Auswertung über identische Runs (#22/#23 vs. #24)
 ## Kontext & Hintergrund
 Messdaten aus Cluster-Runs #22, #23 und #24 mit identischem Setup-Fingerprint und policy_hash.
 **Gruppierung:**
 - Run #22
 - Run #23
 - Run #24
 **Trace-Metadaten / zusätzliche Tags:**
 - setup_fingerprint
 - policy_hash
 - metric_time_series
 **Domänenkontext:**
 - Cluster-Performance
 - Timing-Anomalien
 - Workload-Verzögerungen
 **Outlier-Definition:**
 - Methode: Schwellenbasiert
 - Beschreibung: Outlier werden definiert als Latenzen über 90 ms.
 - Metrik: max_ms, retry_total_overhead_ms
 **Motivation:**
 - Reduktion von Latenz-Peaks in Cluster-Jobs
 - Kausaltest statt Korrelationsannahme
 - Identifikation des Steps als Ursache spezifischer Outlier
 ## Methode / Spezifikation
 **Übersicht:**
 - Vergleich dreier Runs mit identischem Setup und einzelnem Toggle am Step.
 - Keine Änderungen in Schwellen, Logfeldern oder Policies.
 - Bewertung anhand festgelegter Entscheidungstabelle (A, B, C).
 **Algorithmen / Verfahren:**
 - Deduplizieren von Max-only-Alerts pro Key pro Run.
 - Berechnung der Outlier-Frequenz >90 ms.
 - Erzeugung von Histogrammen und Quantilen für expires_at_dist_hours.
 - Statistische Auswertung der retry_total_overhead_ms (p50/p95/p99/max).
 ## Input / Output
 ### Input-Anforderungen
 **Hardware:**
 - Cluster mit identischer Konfiguration über alle Runs
 **Software:**
 - Tracing- und Metriksystem mit unveränderten Schwellen
 **Konfiguration:**
 - Identischer setup_fingerprint und policy_hash
 ### Erwartete Rohdaten
 **Felder pro Run:**
 - max_ms
 - outlier_count_90ms
 - expires_at_dist_hours
 - retry_total_overhead_ms
 **Formatbeispiele:**
 - {'max_ms': 84.2, 'outlier_count_90ms': 12, 'expires_at_dist_hours': [1.2,1.6,2.0], 'retry_total_overhead_ms': {'p95':38.4,'p99':71.8}}
 **Trace-Daten:**
 - Format: structured JSON traces
 - Hinweis: Alle Runs verwenden gleiche trace schemas für Vergleichbarkeit.
 ### Analyse-Ausgaben
 **Pro Gruppe / pro Governor:**
 - Histogrammüberlagerung von expires_at_dist_hours
 - Berechnung der Max-only-Alert-Kollapsrate
 **Vergleichsausgaben:**
 - Run #22 + #23 vs Run #24
  - Δ: Reduktion der >90 ms Outlier-Frequenz um signifikanten Anteil
  - CI(Δ): Nicht berechnet, da qualitative Beobachtung
  - RR: RR < 1 zeigt Verbesserung der Max-Latenz
 - C-State-Korrelation: Nicht relevant für diesen Run
 - Trace-Muster: Resonanzband unverändert, Max-Peak kollabiert
 ## Workflow / Nutzung
 **Analyse-Workflow:**
 - Setup-Fingerprint bestätigen
 - Einzeltoggle am Step aktivieren
 - Run #24 durchführen (4× parallel)
 - Metriken gemäss Entscheidungstabelle A–C auswerten
 - Vergleich mit Vorläuferruns
 ### Trace-Template-Anforderungen
 **Ziel:** Vergleichbarkeit von Cluster-Traces über Runs
 **Erforderliche Tags & Metadaten:**
 - setup_fingerprint
 - policy_hash
 - metric_type
 - job_id
 **trace-cmd-Setup:**
 - trace_cmd ohne zusätzliche Filter
 - identische Sampling-Rate
 **Run-Design für Contributors:**
 - Nur ein Toggle-Parameter ändern
 - Minimal-invasive Vergleiche für Kausalitätsschluss
 ## Interpretation & erwartete Ergebnisse
 **Kernbefunde:**
 - Resonanzband bleibt konstant: Timing-Phänomen durch 4×-Ausführung.
 - Max-Outlier kollabiert: direkter Zusammenhang mit Step bestätigt.
 **Implikationen für Experimente:**
 - Step ist primärer Auslöser der extremen Latenzen.
 - Resonanzband durch parallele Dynamik, nicht Step-initiiert.
 **Planungsziel:**
 - Ziel: Trennung von Step-bedingten und Lastverteilungs-bedingten Effekten.
 - Vorgehen:
  - Einzeltoggle-Design
  - Identische Randbedingungen über Runs
 ## Limitationen & Fallstricke
 **Datenbezogene Limitationen:**
 - Beobachtungen basieren auf nur drei Runs
 - Keine Bootstrap-Quantifizierung vorhanden
 **Bootstrap-spezifische Limitationen:**
 - Keine Resampling-Schätzung zur Unsicherheit genutzt
 **Kausalität & Generalisierbarkeit:**
 - Nur für N=1 Toggle getestet
 - Ergebnisse gelten nur für gleiche Setup-Fingerprint-Konstellation
 **Praktische Fallstricke:**
 - Kleine Unterschiede im Scheduling können unbemerkt bleiben
 ## Nächste Schritte & Erweiterungen
 **Geplante Experimente:**
 - Run #25 mit alternativem Step-Toggle oder Scheduling-Isolation
 **Analyseziele:**
 - Verifizierung der Step-Kausalität bei alternativer Implementierung
 **Regression & Modellierung:**
 - Späteres Modeling von Resonanzband-Bedingungen möglich
 **Community-Beiträge:**
 - Diskussion über Ursachen von Timing-Resonanzen zwischen Step- und Cluster-Ebene