Add alert_definition_specification/README.md

2026-03-12 11:51:47 +00:00 · 2026-03-12 11:51:47 +00:00 · 6de88d7691
commit 6de88d7691
parent 15b33cbb31
1 changed files with 172 additions and 0 deletions
--- a/alert_definition_specification/README.md
+++ b/alert_definition_specification/README.md
@ -0,0 +1,172 @@
+# Spezifikation des 'Max-only' Alert-Mechanismus
+
+## Purpose
+
+Definiert die technische Auslöse-, Deduplizierungs- und Routinglogik für den Max-only Alert auf Basis von Latenz-Outliern in Lasttests.
+
+**Problemstellung:** Unter Last entstehen beobachtbare, aber seltene Outlier-Ereignisse im near-expiry-unpinned-Stratum. Diese sollen transparent geloggt, aber nicht systemweit als Fehler gewertet werden.
+
+**Ziele:**
+- Identifikation signifikanter Latenzspitzen (Outlier)
+- Begrenzung unnötiger Logeinträge durch deduplizierte Ereigniserfassung
+- Schaffung eines eigenen Log-Kanals für reproduzierbare Extremfälle ohne Alert-Spam
+
+## Kontext & Hintergrund
+
+Runs #18 bis #20, jeweils 2× und 4× Parallelität, mit Latenzmetriken und Retry-Daten.
+
+**Gruppierung:**
+- Stratum (near-expiry-unpinned, pinned, etc.)
+- Parallelität (2×, 4×)
+
+**Trace-Metadaten / zusätzliche Tags:**
+- corr_id
+- key
+- runner_class
+- expires_at_dist_hours
+
+**Domänenkontext:**
+- Performanceanalyse unter variabler Parallelität
+- Systematische Erfassung von Latenzspitzen
+- Kontextualisierung von Near-Expiry-Outliern
+
+**Outlier-Definition:**
+- Methode: Schwellenbasierte Identifikation
+- Beschreibung: Ein Request wird als Outlier gewertet, wenn latency_ms > 90ms oder latency_ms > run_p99_ms.
+- Metrik: latency_ms
+
+**Motivation:**
+- Trennung von zufälligen Latenzspitzen und systematischen Mustern
+- Vermeidung unnötiger Alarmierung bei kontrollierbaren Extremwerten
+
+## Methode / Spezifikation
+
+**Übersicht:**
+- Für jeden Request wird die Latenz geprüft und mit definierten Schwellwerten verglichen.
+- Bei Überschreitung erfolgt ein Logeintrag im max_only-Channel.
+- Dedupe-Logik verhindert Mehrfacheinträge pro Key im 10-Minuten-Fenster.
+
+**Algorithmen / Verfahren:**
+- 1. Berechne run_p99_ms für aktuellen Run.
+- 2. Prüfe latency_ms >= 90ms oder >= run_p99_ms + delta_ms (optional).
+- 3. Wenn true, bilde outlier_bucket 'gt_90ms'.
+- 4. Sammle Payload-Felder und schreibe in max_only-Log-Channel mit MODE=warn.
+- 5. Wende Dedupe-Regel (pro run_id/key, Zeitfenster 10 Minuten) an.
+
+## Input / Output
+
+### Input-Anforderungen
+
+**Hardware:**
+**Software:**
+- Tracing-, Logging- und Performance-Monitoring-Integration aktiv
+
+**Konfiguration:**
+- Definierte Schwellwerte für Outlier und run_p99_ms
+- Aktivierter max_only Log-Channel
+
+### Erwartete Rohdaten
+
+**Felder pro Run:**
+- corr_id
+- key
+- stratum
+- job_parallelism
+- runner_class
+- expires_at_dist_hours
+- t_gate_read
+- t_index_visible
+- retry_taken
+- retry_total_overhead_ms
+- outlier_bucket
+
+**Formatbeispiele:**
+- { 'corr_id': 'abcd1234', 'latency_ms': 112, 'outlier_bucket': 'gt_90ms' }
+
+**Trace-Daten:**
+- Format: Structured JSON log entries
+- Hinweis: Einträge werden nur bei Outlier-Fällen generiert.
+
+### Analyse-Ausgaben
+
+**Pro Gruppe / pro Governor:**
+- Anteil >90ms pro Stratum
+- Anteil >p99 pro Run
+
+**Vergleichsausgaben:**
+- 2× Parallelität vs 4× Parallelität
+  - Δ: Signifikant höherer Outlier-Anteil bei 4×
+
+- C-State-Korrelation: Nicht signifikant, Fokus auf near-expiry-unpinned-Stratum
+- Trace-Muster: Clusterbildung in gleichen Jobklassen bei 4× Runs
+
+## Workflow / Nutzung
+
+**Analyse-Workflow:**
+- Latenzmetriken pro Run extrahieren
+- Outlier-Kriterium anwenden
+- Max-only-Payload generieren
+- Dedupe-Regel ausführen
+- Ergebnisse in max_only-Channel schreiben
+
+### Trace-Template-Anforderungen
+
+**Ziel:** Ermöglicht gezielte Analyse von Max-Outliern über mehrere Runs
+
+**Erforderliche Tags & Metadaten:**
+- latency_ms
+- run_p99_ms
+- stratum
+- job_parallelism
+- corr_id
+
+**trace-cmd-Setup:**
+- Ensure metric collection with ms granularity
+- Synchronisiere Run-Metadaten zentral
+
+**Run-Design für Contributors:**
+- Nutze konsistente Parallelitätsstufen (2×, 4×)
+- Erfasse retry_overhead getrennt pro Stratum
+
+## Interpretation & erwartete Ergebnisse
+
+**Kernbefunde:**
+- Outlier treten reproduzierbar im near-expiry-unpinned-Stratum auf.
+- Retry-Overhead bleibt stabil bis leicht erhöht unter 4×, ohne globale Drift.
+- Der Max ist operativ relevant, aber kein Fehlerindikator.
+
+**Implikationen für Experimente:**
+- Ziel ist Beobachtbarkeit, nicht Schwellenverschärfung.
+- Weitere Runs dienen Validierung des Max-only-Routings.
+
+**Planungsziel:**
+- Ziel: Stabile Alerting-Basis für reproduzierbare Extremfälle schaffen.
+- Vorgehen:
+  - Outlier als Diagnoseobjekte behandeln
+  - Keine Policy-Änderung vor vollständiger Validierung
+
+## Limitationen & Fallstricke
+
+**Datenbezogene Limitationen:**
+- Schwankungen der p99-Schwelle zwischen Runs erschweren direkte Vergleichbarkeit.
+
+**Kausalität & Generalisierbarkeit:**
+- Ergebnisse gelten für beobachtete Lastfenster, nicht notwendigerweise für andere Systemkonfigurationen.
+
+**Praktische Fallstricke:**
+- Zu niedrige Dedupe-Fenster könnten Ereignisse mehrfach loggen.
+- Fehlende Synchronisierung von run_p99_ms führt zu inkonsistenter Auslösung.
+
+## Nächste Schritte & Erweiterungen
+
+**Geplante Experimente:**
+- 4× Run mit aktiviertem Max-only-Routing zur Validierung der Logik
+
+**Analyseziele:**
+- Vergleich zwischen Pre- und Post-Routing Performance-Verteilung
+
+**Regression & Modellierung:**
+- Evaluieren, ob Outlier-Verhalten durch Caching- oder Scheduling-Variablen modellierbar ist
+
+**Community-Beiträge:**
+- Bereitstellung des Alert-Templates für andere Analysegruppen