Add artifact.3/README.md

2026-03-08 11:31:08 +00:00 · 2026-03-08 11:31:08 +00:00 · 8ad8d0a7b2
commit 8ad8d0a7b2
parent 47c80874eb
1 changed files with 153 additions and 0 deletions
--- a/artifact.3/README.md
+++ b/artifact.3/README.md
@ -0,0 +1,153 @@
+# Go/No-Go-Kriterien für Replikationsruns #15–#16
+
+## Purpose
+
+Dokumentation der Go/No-Go-Entscheidungslogik auf Basis der stabilen Latenz- und Heilungsmetriken aus Runs #14–#16.
+
+**Problemstellung:** Bestimmen, ob die beobachtete Performance und Heilungsstabilität der near-expiry-unpinned-Fälle konsistent genug ist, um als Freigabekriterium zu dienen.
+
+**Ziele:**
+- Definieren reproduzierbarer Grenzwerte für Latenzverhalten
+- Formalisieren der Go/No-Go-Regel zur Produktionsfreigabe
+- Evaluieren der Stabilität von Heilungsraten
+
+## Kontext & Hintergrund
+
+Metriken der Runs #14–#16 mit identischem Setup (near-expiry-unpinned, Δt<0, fixed delay, 1 Retry).
+
+**Gruppierung:**
+- Run #14
+- Run #15
+- Run #16
+
+**Trace-Metadaten / zusätzliche Tags:**
+- retry_total_overhead_ms
+- warn_rate
+- unknown_rate
+- healing_rate
+
+**Domänenkontext:**
+- Backend-Latenzmessung
+- Retry-Mechanismusüberwachung
+- Replikationsvalidierung
+
+**Motivation:**
+- Sicherstellen der Reproduzierbarkeit vorheriger Verbesserungen (#13/#14)
+- Überführen experimenteller Resultate in belastbare Release-Kriterien
+
+## Methode / Spezifikation
+
+**Übersicht:**
+- Analyse der Δt<0-Fälle und Heilungsraten pro Run.
+- Berechnung von Latenzquantilen (p50, p95, p99, min, max).
+- Aggregierte Auswertung der Runs #14–#16 zur Stabilitätsprüfung.
+- Herleitung einer quantitativen Go/No-Go-Regel (Gate V1).
+
+**Algorithmen / Verfahren:**
+- Zähle alle Fälle mit Δt<0 pro Run.
+- Berechne p50, p95, p99, min, max aus retry_total_overhead_ms.
+- Berechne warn_rate, unknown_rate und Heilungsrate.
+- Vergleiche die Kennzahlen über Runs hinweg.
+- Prüfe die definierten Grenzwerte gemäß Go/No-Go-Regel.
+
+## Input / Output
+
+### Erwartete Rohdaten
+
+**Felder pro Run:**
+- run_id
+- delta_t
+- retry_total_overhead_ms
+- warn_rate
+- unknown_rate
+- healing_rate
+
+**Formatbeispiele:**
+- {run_id:15, delta_t:-3.2, retry_total_overhead_ms:44, warn_rate:0.061, unknown_rate:0.00, healing_rate:1.00}
+
+### Analyse-Ausgaben
+
+**Pro Gruppe / pro Governor:**
+- p50_overhead_ms
+- p95_overhead_ms
+- p99_overhead_ms
+- min_overhead_ms
+- max_overhead_ms
+- healing_rate
+- warn_rate
+- unknown_rate
+
+**Vergleichsausgaben:**
+- Run #15 vs Run #16
+  - Δ: warn_rate_diff=0.002
+
+## Workflow / Nutzung
+
+**Analyse-Workflow:**
+- Runs laden (#14–#16).
+- Relevante Metriken extrahieren (Δt<0, retry_total_overhead_ms, warn_rate, ...) pro Run.
+- Quantile über retry_total_overhead_ms berechnen.
+- Vergleichstabellen erstellen und aggregiert auswerten.
+- Validierung gegen definierte Go/No-Go-Kriterien durchführen.
+
+### Trace-Template-Anforderungen
+
+**Ziel:** Gleichbleibende Messstruktur zur Replikationsvalidierung.
+
+**Erforderliche Tags & Metadaten:**
+- run_id
+- delta_t
+- retry_total_overhead_ms
+- warning_class
+- retry_success_flag
+
+**trace-cmd-Setup:**
+- Alle Runs mit identischem Retry-Setup und fixer Delay-Konfiguration ausführen.
+- Keine Änderungen an Kontrollparametern zwischen Runs #14–#16.
+
+## Interpretation & erwartete Ergebnisse
+
+**Kernbefunde:**
+- Δt<0 tritt nur im near-expiry-unpinned-Stratum auf.
+- Heilungsrate in allen Runs 100%.
+- warn_rate bleibt stabil (≈0.06).
+- Overhead-Verteilung eng und unter 80 ms (p95/p99).
+
+**Implikationen für Experimente:**
+- Reproduzierbarkeit der Abhilfe bestätigt.
+- Definierte Grenzen für Produktionsfreigabe belastbar.
+
+**Planungsziel:**
+- Ziel: Einheitliche Freigabekriterien (Gate V1).
+- Vorgehen:
+  - Festlegung quantitativer Latenzschwellen (p95≤80 ms, p99≤90 ms).
+  - Toleranzprüfung gegen warn_rate und unknown_rate.
+  - Validierung der Heilungsrate ≥99%.
+
+## Limitationen & Fallstricke
+
+**Datenbezogene Limitationen:**
+- Nur drei Runs betrachtet; keine Langzeitvalidierung.
+- Keine Variation anderer Strata oder Parameter.
+
+**Kausalität & Generalisierbarkeit:**
+- Resultate nur für near-expiry-unpinned-Kontext gültig.
+- Keine Aussage zu anderen Retry-Strategien.
+
+**Praktische Fallstricke:**
+- Zu knappe Schwellen könnten bei Systemlast ungewollte No-Go-Ergebnisse erzeugen.
+- Messrauschen bei Latenzen <50 ms kann Einfluss auf p95/p99 haben.
+
+## Nächste Schritte & Erweiterungen
+
+**Geplante Experimente:**
+- Run #17 mit veränderter Delay-Strategie für Belastungstest.
+- Langzeitserie über 10 Replikationen zur Stabilitätsmessung.
+
+**Analyseziele:**
+- Bootstrap-Konfidenzintervalle für Latenzquantile berechnen.
+- Variabilität der warn_rate unter Produktionslast prüfen.
+
+**Community-Beiträge:**
+- Diskussion optimaler Schwellenwerte (80/90 vs. 70/80 ms).
+- Integration der Go/No-Go-Regel in CI-Pipeline.