run_15_16_analysis/artifact.3/README.md
2026-03-08 11:31:08 +00:00

153 lines
4.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Go/No-Go-Kriterien für Replikationsruns #15#16
## Purpose
Dokumentation der Go/No-Go-Entscheidungslogik auf Basis der stabilen Latenz- und Heilungsmetriken aus Runs #14#16.
**Problemstellung:** Bestimmen, ob die beobachtete Performance und Heilungsstabilität der near-expiry-unpinned-Fälle konsistent genug ist, um als Freigabekriterium zu dienen.
**Ziele:**
- Definieren reproduzierbarer Grenzwerte für Latenzverhalten
- Formalisieren der Go/No-Go-Regel zur Produktionsfreigabe
- Evaluieren der Stabilität von Heilungsraten
## Kontext & Hintergrund
Metriken der Runs #14#16 mit identischem Setup (near-expiry-unpinned, Δt<0, fixed delay, 1 Retry).
**Gruppierung:**
- Run #14
- Run #15
- Run #16
**Trace-Metadaten / zusätzliche Tags:**
- retry_total_overhead_ms
- warn_rate
- unknown_rate
- healing_rate
**Domänenkontext:**
- Backend-Latenzmessung
- Retry-Mechanismusüberwachung
- Replikationsvalidierung
**Motivation:**
- Sicherstellen der Reproduzierbarkeit vorheriger Verbesserungen (#13/#14)
- Überführen experimenteller Resultate in belastbare Release-Kriterien
## Methode / Spezifikation
**Übersicht:**
- Analyse der Δt<0-Fälle und Heilungsraten pro Run.
- Berechnung von Latenzquantilen (p50, p95, p99, min, max).
- Aggregierte Auswertung der Runs #14#16 zur Stabilitätsprüfung.
- Herleitung einer quantitativen Go/No-Go-Regel (Gate V1).
**Algorithmen / Verfahren:**
- Zähle alle Fälle mit Δt<0 pro Run.
- Berechne p50, p95, p99, min, max aus retry_total_overhead_ms.
- Berechne warn_rate, unknown_rate und Heilungsrate.
- Vergleiche die Kennzahlen über Runs hinweg.
- Prüfe die definierten Grenzwerte gemäß Go/No-Go-Regel.
## Input / Output
### Erwartete Rohdaten
**Felder pro Run:**
- run_id
- delta_t
- retry_total_overhead_ms
- warn_rate
- unknown_rate
- healing_rate
**Formatbeispiele:**
- {run_id:15, delta_t:-3.2, retry_total_overhead_ms:44, warn_rate:0.061, unknown_rate:0.00, healing_rate:1.00}
### Analyse-Ausgaben
**Pro Gruppe / pro Governor:**
- p50_overhead_ms
- p95_overhead_ms
- p99_overhead_ms
- min_overhead_ms
- max_overhead_ms
- healing_rate
- warn_rate
- unknown_rate
**Vergleichsausgaben:**
- Run #15 vs Run #16
- Δ: warn_rate_diff=0.002
## Workflow / Nutzung
**Analyse-Workflow:**
- Runs laden (#14#16).
- Relevante Metriken extrahieren (Δt<0, retry_total_overhead_ms, warn_rate, ...) pro Run.
- Quantile über retry_total_overhead_ms berechnen.
- Vergleichstabellen erstellen und aggregiert auswerten.
- Validierung gegen definierte Go/No-Go-Kriterien durchführen.
### Trace-Template-Anforderungen
**Ziel:** Gleichbleibende Messstruktur zur Replikationsvalidierung.
**Erforderliche Tags & Metadaten:**
- run_id
- delta_t
- retry_total_overhead_ms
- warning_class
- retry_success_flag
**trace-cmd-Setup:**
- Alle Runs mit identischem Retry-Setup und fixer Delay-Konfiguration ausführen.
- Keine Änderungen an Kontrollparametern zwischen Runs #14#16.
## Interpretation & erwartete Ergebnisse
**Kernbefunde:**
- Δt<0 tritt nur im near-expiry-unpinned-Stratum auf.
- Heilungsrate in allen Runs 100%.
- warn_rate bleibt stabil (≈0.06).
- Overhead-Verteilung eng und unter 80 ms (p95/p99).
**Implikationen für Experimente:**
- Reproduzierbarkeit der Abhilfe bestätigt.
- Definierte Grenzen für Produktionsfreigabe belastbar.
**Planungsziel:**
- Ziel: Einheitliche Freigabekriterien (Gate V1).
- Vorgehen:
- Festlegung quantitativer Latenzschwellen (p9580 ms, p9990 ms).
- Toleranzprüfung gegen warn_rate und unknown_rate.
- Validierung der Heilungsrate 99%.
## Limitationen & Fallstricke
**Datenbezogene Limitationen:**
- Nur drei Runs betrachtet; keine Langzeitvalidierung.
- Keine Variation anderer Strata oder Parameter.
**Kausalität & Generalisierbarkeit:**
- Resultate nur für near-expiry-unpinned-Kontext gültig.
- Keine Aussage zu anderen Retry-Strategien.
**Praktische Fallstricke:**
- Zu knappe Schwellen könnten bei Systemlast ungewollte No-Go-Ergebnisse erzeugen.
- Messrauschen bei Latenzen <50 ms kann Einfluss auf p95/p99 haben.
## Nächste Schritte & Erweiterungen
**Geplante Experimente:**
- Run #17 mit veränderter Delay-Strategie für Belastungstest.
- Langzeitserie über 10 Replikationen zur Stabilitätsmessung.
**Analyseziele:**
- Bootstrap-Konfidenzintervalle für Latenzquantile berechnen.
- Variabilität der warn_rate unter Produktionslast prüfen.
**Community-Beiträge:**
- Diskussion optimaler Schwellenwerte (80/90 vs. 70/80 ms).
- Integration der Go/No-Go-Regel in CI-Pipeline.