Add artifact3/README.md

This commit is contained in:
Mika 2026-03-15 12:31:24 +00:00
parent ed4a7215d0
commit fd5941fd02

170
artifact3/README.md Normal file
View file

@ -0,0 +1,170 @@
# Analyse des Einflusses eines isolierten Toggles auf das Resonanzband (Run #24)
## Purpose
Dokumentation von Run #24 zur Prüfung des kausalen Zusammenhangs zwischen einem isolierten Step-Toggle und der Max-Outlier-Performance im Resonanzband.
**Problemstellung:** Klären, ob der im Cluster dominierende Step den Max-Outlier direkt beeinflusst oder ob das Resonanzband unabhängig von diesem Mechanismus besteht.
**Ziele:**
- Nachweis einer kausalen Beziehung zwischen Step und Max-Outlier-Werten
- Abgrenzung des Resonanzbands von unmittelbaren Step-Effekten
- Standardisierte Auswertung über identische Runs (#22/#23 vs. #24)
## Kontext & Hintergrund
Messdaten aus Cluster-Runs #22, #23 und #24 mit identischem Setup-Fingerprint und policy_hash.
**Gruppierung:**
- Run #22
- Run #23
- Run #24
**Trace-Metadaten / zusätzliche Tags:**
- setup_fingerprint
- policy_hash
- metric_time_series
**Domänenkontext:**
- Cluster-Performance
- Timing-Anomalien
- Workload-Verzögerungen
**Outlier-Definition:**
- Methode: Schwellenbasiert
- Beschreibung: Outlier werden definiert als Latenzen über 90ms.
- Metrik: max_ms, retry_total_overhead_ms
**Motivation:**
- Reduktion von Latenz-Peaks in Cluster-Jobs
- Kausaltest statt Korrelationsannahme
- Identifikation des Steps als Ursache spezifischer Outlier
## Methode / Spezifikation
**Übersicht:**
- Vergleich dreier Runs mit identischem Setup und einzelnem Toggle am Step.
- Keine Änderungen in Schwellen, Logfeldern oder Policies.
- Bewertung anhand festgelegter Entscheidungstabelle (A, B, C).
**Algorithmen / Verfahren:**
- Deduplizieren von Max-only-Alerts pro Key pro Run.
- Berechnung der Outlier-Frequenz >90ms.
- Erzeugung von Histogrammen und Quantilen für expires_at_dist_hours.
- Statistische Auswertung der retry_total_overhead_ms (p50/p95/p99/max).
## Input / Output
### Input-Anforderungen
**Hardware:**
- Cluster mit identischer Konfiguration über alle Runs
**Software:**
- Tracing- und Metriksystem mit unveränderten Schwellen
**Konfiguration:**
- Identischer setup_fingerprint und policy_hash
### Erwartete Rohdaten
**Felder pro Run:**
- max_ms
- outlier_count_90ms
- expires_at_dist_hours
- retry_total_overhead_ms
**Formatbeispiele:**
- {'max_ms': 84.2, 'outlier_count_90ms': 12, 'expires_at_dist_hours': [1.2,1.6,2.0], 'retry_total_overhead_ms': {'p95':38.4,'p99':71.8}}
**Trace-Daten:**
- Format: structured JSON traces
- Hinweis: Alle Runs verwenden gleiche trace schemas für Vergleichbarkeit.
### Analyse-Ausgaben
**Pro Gruppe / pro Governor:**
- Histogrammüberlagerung von expires_at_dist_hours
- Berechnung der Max-only-Alert-Kollapsrate
**Vergleichsausgaben:**
- Run #22 + #23 vs Run #24
- Δ: Reduktion der >90ms Outlier-Frequenz um signifikanten Anteil
- CI(Δ): Nicht berechnet, da qualitative Beobachtung
- RR: RR < 1 zeigt Verbesserung der Max-Latenz
- C-State-Korrelation: Nicht relevant für diesen Run
- Trace-Muster: Resonanzband unverändert, Max-Peak kollabiert
## Workflow / Nutzung
**Analyse-Workflow:**
- Setup-Fingerprint bestätigen
- Einzeltoggle am Step aktivieren
- Run #24 durchführen (4× parallel)
- Metriken gemäss Entscheidungstabelle AC auswerten
- Vergleich mit Vorläuferruns
### Trace-Template-Anforderungen
**Ziel:** Vergleichbarkeit von Cluster-Traces über Runs
**Erforderliche Tags & Metadaten:**
- setup_fingerprint
- policy_hash
- metric_type
- job_id
**trace-cmd-Setup:**
- trace_cmd ohne zusätzliche Filter
- identische Sampling-Rate
**Run-Design für Contributors:**
- Nur ein Toggle-Parameter ändern
- Minimal-invasive Vergleiche für Kausalitätsschluss
## Interpretation & erwartete Ergebnisse
**Kernbefunde:**
- Resonanzband bleibt konstant: Timing-Phänomen durch 4×-Ausführung.
- Max-Outlier kollabiert: direkter Zusammenhang mit Step bestätigt.
**Implikationen für Experimente:**
- Step ist primärer Auslöser der extremen Latenzen.
- Resonanzband durch parallele Dynamik, nicht Step-initiiert.
**Planungsziel:**
- Ziel: Trennung von Step-bedingten und Lastverteilungs-bedingten Effekten.
- Vorgehen:
- Einzeltoggle-Design
- Identische Randbedingungen über Runs
## Limitationen & Fallstricke
**Datenbezogene Limitationen:**
- Beobachtungen basieren auf nur drei Runs
- Keine Bootstrap-Quantifizierung vorhanden
**Bootstrap-spezifische Limitationen:**
- Keine Resampling-Schätzung zur Unsicherheit genutzt
**Kausalität & Generalisierbarkeit:**
- Nur für N=1 Toggle getestet
- Ergebnisse gelten nur für gleiche Setup-Fingerprint-Konstellation
**Praktische Fallstricke:**
- Kleine Unterschiede im Scheduling können unbemerkt bleiben
## Nächste Schritte & Erweiterungen
**Geplante Experimente:**
- Run #25 mit alternativem Step-Toggle oder Scheduling-Isolation
**Analyseziele:**
- Verifizierung der Step-Kausalität bei alternativer Implementierung
**Regression & Modellierung:**
- Späteres Modeling von Resonanzband-Bedingungen möglich
**Community-Beiträge:**
- Diskussion über Ursachen von Timing-Resonanzen zwischen Step- und Cluster-Ebene