Add artifact3/README.md

2026-03-15 12:31:24 +00:00 · 2026-03-15 12:31:24 +00:00 · fd5941fd02
commit fd5941fd02
parent ed4a7215d0
1 changed files with 170 additions and 0 deletions
--- a/artifact3/README.md
+++ b/artifact3/README.md
@ -0,0 +1,170 @@
+# Analyse des Einflusses eines isolierten Toggles auf das Resonanzband (Run #24)
+
+## Purpose
+
+Dokumentation von Run #24 zur Prüfung des kausalen Zusammenhangs zwischen einem isolierten Step-Toggle und der Max-Outlier-Performance im Resonanzband.
+
+**Problemstellung:** Klären, ob der im Cluster dominierende Step den Max-Outlier direkt beeinflusst oder ob das Resonanzband unabhängig von diesem Mechanismus besteht.
+
+**Ziele:**
+- Nachweis einer kausalen Beziehung zwischen Step und Max-Outlier-Werten
+- Abgrenzung des Resonanzbands von unmittelbaren Step-Effekten
+- Standardisierte Auswertung über identische Runs (#22/#23 vs. #24)
+
+## Kontext & Hintergrund
+
+Messdaten aus Cluster-Runs #22, #23 und #24 mit identischem Setup-Fingerprint und policy_hash.
+
+**Gruppierung:**
+- Run #22
+- Run #23
+- Run #24
+
+**Trace-Metadaten / zusätzliche Tags:**
+- setup_fingerprint
+- policy_hash
+- metric_time_series
+
+**Domänenkontext:**
+- Cluster-Performance
+- Timing-Anomalien
+- Workload-Verzögerungen
+
+**Outlier-Definition:**
+- Methode: Schwellenbasiert
+- Beschreibung: Outlier werden definiert als Latenzen über 90 ms.
+- Metrik: max_ms, retry_total_overhead_ms
+
+**Motivation:**
+- Reduktion von Latenz-Peaks in Cluster-Jobs
+- Kausaltest statt Korrelationsannahme
+- Identifikation des Steps als Ursache spezifischer Outlier
+
+## Methode / Spezifikation
+
+**Übersicht:**
+- Vergleich dreier Runs mit identischem Setup und einzelnem Toggle am Step.
+- Keine Änderungen in Schwellen, Logfeldern oder Policies.
+- Bewertung anhand festgelegter Entscheidungstabelle (A, B, C).
+
+**Algorithmen / Verfahren:**
+- Deduplizieren von Max-only-Alerts pro Key pro Run.
+- Berechnung der Outlier-Frequenz >90 ms.
+- Erzeugung von Histogrammen und Quantilen für expires_at_dist_hours.
+- Statistische Auswertung der retry_total_overhead_ms (p50/p95/p99/max).
+
+## Input / Output
+
+### Input-Anforderungen
+
+**Hardware:**
+- Cluster mit identischer Konfiguration über alle Runs
+
+**Software:**
+- Tracing- und Metriksystem mit unveränderten Schwellen
+
+**Konfiguration:**
+- Identischer setup_fingerprint und policy_hash
+
+### Erwartete Rohdaten
+
+**Felder pro Run:**
+- max_ms
+- outlier_count_90ms
+- expires_at_dist_hours
+- retry_total_overhead_ms
+
+**Formatbeispiele:**
+- {'max_ms': 84.2, 'outlier_count_90ms': 12, 'expires_at_dist_hours': [1.2,1.6,2.0], 'retry_total_overhead_ms': {'p95':38.4,'p99':71.8}}
+
+**Trace-Daten:**
+- Format: structured JSON traces
+- Hinweis: Alle Runs verwenden gleiche trace schemas für Vergleichbarkeit.
+
+### Analyse-Ausgaben
+
+**Pro Gruppe / pro Governor:**
+- Histogrammüberlagerung von expires_at_dist_hours
+- Berechnung der Max-only-Alert-Kollapsrate
+
+**Vergleichsausgaben:**
+- Run #22 + #23 vs Run #24
+  - Δ: Reduktion der >90 ms Outlier-Frequenz um signifikanten Anteil
+  - CI(Δ): Nicht berechnet, da qualitative Beobachtung
+  - RR: RR < 1 zeigt Verbesserung der Max-Latenz
+
+- C-State-Korrelation: Nicht relevant für diesen Run
+- Trace-Muster: Resonanzband unverändert, Max-Peak kollabiert
+
+## Workflow / Nutzung
+
+**Analyse-Workflow:**
+- Setup-Fingerprint bestätigen
+- Einzeltoggle am Step aktivieren
+- Run #24 durchführen (4× parallel)
+- Metriken gemäss Entscheidungstabelle A–C auswerten
+- Vergleich mit Vorläuferruns
+
+### Trace-Template-Anforderungen
+
+**Ziel:** Vergleichbarkeit von Cluster-Traces über Runs
+
+**Erforderliche Tags & Metadaten:**
+- setup_fingerprint
+- policy_hash
+- metric_type
+- job_id
+
+**trace-cmd-Setup:**
+- trace_cmd ohne zusätzliche Filter
+- identische Sampling-Rate
+
+**Run-Design für Contributors:**
+- Nur ein Toggle-Parameter ändern
+- Minimal-invasive Vergleiche für Kausalitätsschluss
+
+## Interpretation & erwartete Ergebnisse
+
+**Kernbefunde:**
+- Resonanzband bleibt konstant: Timing-Phänomen durch 4×-Ausführung.
+- Max-Outlier kollabiert: direkter Zusammenhang mit Step bestätigt.
+
+**Implikationen für Experimente:**
+- Step ist primärer Auslöser der extremen Latenzen.
+- Resonanzband durch parallele Dynamik, nicht Step-initiiert.
+
+**Planungsziel:**
+- Ziel: Trennung von Step-bedingten und Lastverteilungs-bedingten Effekten.
+- Vorgehen:
+  - Einzeltoggle-Design
+  - Identische Randbedingungen über Runs
+
+## Limitationen & Fallstricke
+
+**Datenbezogene Limitationen:**
+- Beobachtungen basieren auf nur drei Runs
+- Keine Bootstrap-Quantifizierung vorhanden
+
+**Bootstrap-spezifische Limitationen:**
+- Keine Resampling-Schätzung zur Unsicherheit genutzt
+
+**Kausalität & Generalisierbarkeit:**
+- Nur für N=1 Toggle getestet
+- Ergebnisse gelten nur für gleiche Setup-Fingerprint-Konstellation
+
+**Praktische Fallstricke:**
+- Kleine Unterschiede im Scheduling können unbemerkt bleiben
+
+## Nächste Schritte & Erweiterungen
+
+**Geplante Experimente:**
+- Run #25 mit alternativem Step-Toggle oder Scheduling-Isolation
+
+**Analyseziele:**
+- Verifizierung der Step-Kausalität bei alternativer Implementierung
+
+**Regression & Modellierung:**
+- Späteres Modeling von Resonanzband-Bedingungen möglich
+
+**Community-Beiträge:**
+- Diskussion über Ursachen von Timing-Resonanzen zwischen Step- und Cluster-Ebene