resonanzband_test/artifact3/README.md

# Analyse des Einflusses eines isolierten Toggles auf das Resonanzband (Run #24)

## Purpose

Dokumentation von Run #24 zur Prüfung des kausalen Zusammenhangs zwischen einem isolierten Step-Toggle und der Max-Outlier-Performance im Resonanzband.

**Problemstellung:** Klären, ob der im Cluster dominierende Step den Max-Outlier direkt beeinflusst oder ob das Resonanzband unabhängig von diesem Mechanismus besteht.

**Ziele:**
- Nachweis einer kausalen Beziehung zwischen Step und Max-Outlier-Werten
- Abgrenzung des Resonanzbands von unmittelbaren Step-Effekten
- Standardisierte Auswertung über identische Runs (#22/#23 vs. #24)

## Kontext & Hintergrund

Messdaten aus Cluster-Runs #22, #23 und #24 mit identischem Setup-Fingerprint und policy_hash.

**Gruppierung:**
- Run #22
- Run #23
- Run #24

**Trace-Metadaten / zusätzliche Tags:**
- setup_fingerprint
- policy_hash
- metric_time_series

**Domänenkontext:**
- Cluster-Performance
- Timing-Anomalien
- Workload-Verzögerungen

**Outlier-Definition:**
- Methode: Schwellenbasiert
- Beschreibung: Outlier werden definiert als Latenzen über 90 ms.
- Metrik: max_ms, retry_total_overhead_ms

**Motivation:**
- Reduktion von Latenz-Peaks in Cluster-Jobs
- Kausaltest statt Korrelationsannahme
- Identifikation des Steps als Ursache spezifischer Outlier

## Methode / Spezifikation

**Übersicht:**
- Vergleich dreier Runs mit identischem Setup und einzelnem Toggle am Step.
- Keine Änderungen in Schwellen, Logfeldern oder Policies.
- Bewertung anhand festgelegter Entscheidungstabelle (A, B, C).

**Algorithmen / Verfahren:**
- Deduplizieren von Max-only-Alerts pro Key pro Run.
- Berechnung der Outlier-Frequenz >90 ms.
- Erzeugung von Histogrammen und Quantilen für expires_at_dist_hours.
- Statistische Auswertung der retry_total_overhead_ms (p50/p95/p99/max).

## Input / Output

### Input-Anforderungen

**Hardware:**
- Cluster mit identischer Konfiguration über alle Runs

**Software:**
- Tracing- und Metriksystem mit unveränderten Schwellen

**Konfiguration:**
- Identischer setup_fingerprint und policy_hash

### Erwartete Rohdaten

**Felder pro Run:**
- max_ms
- outlier_count_90ms
- expires_at_dist_hours
- retry_total_overhead_ms

**Formatbeispiele:**
- {'max_ms': 84.2, 'outlier_count_90ms': 12, 'expires_at_dist_hours': [1.2,1.6,2.0], 'retry_total_overhead_ms': {'p95':38.4,'p99':71.8}}

**Trace-Daten:**
- Format: structured JSON traces
- Hinweis: Alle Runs verwenden gleiche trace schemas für Vergleichbarkeit.

### Analyse-Ausgaben

**Pro Gruppe / pro Governor:**
- Histogrammüberlagerung von expires_at_dist_hours
- Berechnung der Max-only-Alert-Kollapsrate

**Vergleichsausgaben:**
- Run #22 + #23 vs Run #24
  - Δ: Reduktion der >90 ms Outlier-Frequenz um signifikanten Anteil
  - CI(Δ): Nicht berechnet, da qualitative Beobachtung
  - RR: RR < 1 zeigt Verbesserung der Max-Latenz

- C-State-Korrelation: Nicht relevant für diesen Run
- Trace-Muster: Resonanzband unverändert, Max-Peak kollabiert

## Workflow / Nutzung

**Analyse-Workflow:**
- Setup-Fingerprint bestätigen
- Einzeltoggle am Step aktivieren
- Run #24 durchführen (4× parallel)
- Metriken gemäss Entscheidungstabelle A–C auswerten
- Vergleich mit Vorläuferruns

### Trace-Template-Anforderungen

**Ziel:** Vergleichbarkeit von Cluster-Traces über Runs

**Erforderliche Tags & Metadaten:**
- setup_fingerprint
- policy_hash
- metric_type
- job_id

**trace-cmd-Setup:**
- trace_cmd ohne zusätzliche Filter
- identische Sampling-Rate

**Run-Design für Contributors:**
- Nur ein Toggle-Parameter ändern
- Minimal-invasive Vergleiche für Kausalitätsschluss

## Interpretation & erwartete Ergebnisse

**Kernbefunde:**
- Resonanzband bleibt konstant: Timing-Phänomen durch 4×-Ausführung.
- Max-Outlier kollabiert: direkter Zusammenhang mit Step bestätigt.

**Implikationen für Experimente:**
- Step ist primärer Auslöser der extremen Latenzen.
- Resonanzband durch parallele Dynamik, nicht Step-initiiert.

**Planungsziel:**
- Ziel: Trennung von Step-bedingten und Lastverteilungs-bedingten Effekten.
- Vorgehen:
  - Einzeltoggle-Design
  - Identische Randbedingungen über Runs

## Limitationen & Fallstricke

**Datenbezogene Limitationen:**
- Beobachtungen basieren auf nur drei Runs
- Keine Bootstrap-Quantifizierung vorhanden

**Bootstrap-spezifische Limitationen:**
- Keine Resampling-Schätzung zur Unsicherheit genutzt

**Kausalität & Generalisierbarkeit:**
- Nur für N=1 Toggle getestet
- Ergebnisse gelten nur für gleiche Setup-Fingerprint-Konstellation

**Praktische Fallstricke:**
- Kleine Unterschiede im Scheduling können unbemerkt bleiben

## Nächste Schritte & Erweiterungen

**Geplante Experimente:**
- Run #25 mit alternativem Step-Toggle oder Scheduling-Isolation

**Analyseziele:**
- Verifizierung der Step-Kausalität bei alternativer Implementierung

**Regression & Modellierung:**
- Späteres Modeling von Resonanzband-Bedingungen möglich

**Community-Beiträge:**
- Diskussion über Ursachen von Timing-Resonanzen zwischen Step- und Cluster-Ebene