History

Mika fd5941fd02 Add artifact3/README.md		2026-03-15 12:31:24 +00:00
..
README.md	Add artifact3/README.md	2026-03-15 12:31:24 +00:00

README.md

Analyse des Einflusses eines isolierten Toggles auf das Resonanzband (Run #24)

Purpose

Dokumentation von Run #24 zur Prüfung des kausalen Zusammenhangs zwischen einem isolierten Step-Toggle und der Max-Outlier-Performance im Resonanzband.

Problemstellung: Klären, ob der im Cluster dominierende Step den Max-Outlier direkt beeinflusst oder ob das Resonanzband unabhängig von diesem Mechanismus besteht.

Ziele:

Nachweis einer kausalen Beziehung zwischen Step und Max-Outlier-Werten
Abgrenzung des Resonanzbands von unmittelbaren Step-Effekten
Standardisierte Auswertung über identische Runs (#22/#23 vs. #24)

Kontext & Hintergrund

Messdaten aus Cluster-Runs #22, #23 und #24 mit identischem Setup-Fingerprint und policy_hash.

Gruppierung:

Run #22
Run #23
Run #24

Trace-Metadaten / zusätzliche Tags:

setup_fingerprint
policy_hash
metric_time_series

Domänenkontext:

Cluster-Performance
Timing-Anomalien
Workload-Verzögerungen

Outlier-Definition:

Methode: Schwellenbasiert
Beschreibung: Outlier werden definiert als Latenzen über 90 ms.
Metrik: max_ms, retry_total_overhead_ms

Motivation:

Reduktion von Latenz-Peaks in Cluster-Jobs
Kausaltest statt Korrelationsannahme
Identifikation des Steps als Ursache spezifischer Outlier

Methode / Spezifikation

Übersicht:

Vergleich dreier Runs mit identischem Setup und einzelnem Toggle am Step.
Keine Änderungen in Schwellen, Logfeldern oder Policies.
Bewertung anhand festgelegter Entscheidungstabelle (A, B, C).

Algorithmen / Verfahren:

Deduplizieren von Max-only-Alerts pro Key pro Run.
Berechnung der Outlier-Frequenz >90 ms.
Erzeugung von Histogrammen und Quantilen für expires_at_dist_hours.
Statistische Auswertung der retry_total_overhead_ms (p50/p95/p99/max).

Input / Output

Input-Anforderungen

Hardware:

Cluster mit identischer Konfiguration über alle Runs

Software:

Tracing- und Metriksystem mit unveränderten Schwellen

Konfiguration:

Identischer setup_fingerprint und policy_hash

Erwartete Rohdaten

Felder pro Run:

max_ms
outlier_count_90ms
expires_at_dist_hours
retry_total_overhead_ms

Formatbeispiele:

{'max_ms': 84.2, 'outlier_count_90ms': 12, 'expires_at_dist_hours': [1.2,1.6,2.0], 'retry_total_overhead_ms': {'p95':38.4,'p99':71.8}}

Trace-Daten:

Format: structured JSON traces
Hinweis: Alle Runs verwenden gleiche trace schemas für Vergleichbarkeit.

Analyse-Ausgaben

Pro Gruppe / pro Governor:

Histogrammüberlagerung von expires_at_dist_hours
Berechnung der Max-only-Alert-Kollapsrate

Vergleichsausgaben:

Run #22 + #23 vs Run #24
- Δ: Reduktion der >90 ms Outlier-Frequenz um signifikanten Anteil
- CI(Δ): Nicht berechnet, da qualitative Beobachtung
- RR: RR < 1 zeigt Verbesserung der Max-Latenz
C-State-Korrelation: Nicht relevant für diesen Run
Trace-Muster: Resonanzband unverändert, Max-Peak kollabiert

Workflow / Nutzung

Analyse-Workflow:

Setup-Fingerprint bestätigen
Einzeltoggle am Step aktivieren
Run #24 durchführen (4× parallel)
Metriken gemäss Entscheidungstabelle A–C auswerten
Vergleich mit Vorläuferruns

Trace-Template-Anforderungen

Ziel: Vergleichbarkeit von Cluster-Traces über Runs

Erforderliche Tags & Metadaten:

setup_fingerprint
policy_hash
metric_type
job_id

trace-cmd-Setup:

trace_cmd ohne zusätzliche Filter
identische Sampling-Rate

Run-Design für Contributors:

Nur ein Toggle-Parameter ändern
Minimal-invasive Vergleiche für Kausalitätsschluss

Interpretation & erwartete Ergebnisse

Kernbefunde:

Resonanzband bleibt konstant: Timing-Phänomen durch 4×-Ausführung.
Max-Outlier kollabiert: direkter Zusammenhang mit Step bestätigt.

Implikationen für Experimente:

Step ist primärer Auslöser der extremen Latenzen.
Resonanzband durch parallele Dynamik, nicht Step-initiiert.

Planungsziel:

Ziel: Trennung von Step-bedingten und Lastverteilungs-bedingten Effekten.
Vorgehen:
- Einzeltoggle-Design
- Identische Randbedingungen über Runs

Limitationen & Fallstricke

Datenbezogene Limitationen:

Beobachtungen basieren auf nur drei Runs
Keine Bootstrap-Quantifizierung vorhanden

Bootstrap-spezifische Limitationen:

Keine Resampling-Schätzung zur Unsicherheit genutzt

Kausalität & Generalisierbarkeit:

Nur für N=1 Toggle getestet
Ergebnisse gelten nur für gleiche Setup-Fingerprint-Konstellation

Praktische Fallstricke:

Kleine Unterschiede im Scheduling können unbemerkt bleiben

Nächste Schritte & Erweiterungen

Geplante Experimente:

Run #25 mit alternativem Step-Toggle oder Scheduling-Isolation

Analyseziele:

Verifizierung der Step-Kausalität bei alternativer Implementierung

Regression & Modellierung:

Späteres Modeling von Resonanzband-Bedingungen möglich

Community-Beiträge:

Diskussion über Ursachen von Timing-Resonanzen zwischen Step- und Cluster-Ebene

README.md Unescape Escape