Add artifact.validation_checklist/README.md

2026-04-06 16:12:09 +00:00 · 2026-04-06 16:12:09 +00:00 · 7407c905a5
commit 7407c905a5
parent 1960994679
1 changed files with 147 additions and 0 deletions
--- a/artifact.validation_checklist/README.md
+++ b/artifact.validation_checklist/README.md
@ -0,0 +1,147 @@
+# Validitätscheckliste für den Vergleich der Evidence Cards #40 und #42
+
+## Purpose
+
+Dokumentation der Prüf- und Validitätskriterien für den direkten Vergleich zweier Evidence-Card-Runs (#40 und #42) mit identischem Setup und Policy-Konfiguration.
+
+**Problemstellung:** Unterschiedliche Ergebnisse zwischen Runs können nur dann statistisch interpretiert werden, wenn alle Rahmenbedingungen konstant gehalten und geprüft sind.
+
+**Ziele:**
+- Sicherstellen der Vergleichbarkeit zwischen Runs durch technische Validierung
+- Prüfen der Setup-Konsistenz und Policy-Identität
+- Vermeidung von Fehlinterpretationen durch unkontrollierte Variablen
+
+## Kontext & Hintergrund
+
+Experiment-Logs und Preflight-Daten der Evidence-Card-Runs #40 (aux=2) und #42 (aux=3).
+
+**Gruppierung:**
+- Run #40: Basis-Konfiguration
+- Run #42: identisches Setup mit 2×‑ok‑Preflight‑Regel
+
+**Trace-Metadaten / zusätzliche Tags:**
+- Run‑Header‑Metadaten aus Preflight‑Logs
+- Fingerprint‑ und Policy‑Hashes zur Setup‑Verifikation
+
+**Domänenkontext:**
+- Vergleichsstudien in automatisierten Performance‑Experimenten
+- Freeze‑Band‑Überwachung der Messgrößen zur Validitätssicherung
+
+**Motivation:**
+- Minimierung von Drift und Rauschen bei zeitversetzten Experimenten
+- Überprüfung der Effektstabilität vor Interpretation von Leistungsunterschieden
+
+## Methode / Spezifikation
+
+**Übersicht:**
+- Validierung erfolgt durch binäre Prüfungen ('Ja/Nein') anhand einer festen Checkliste.
+- Kriterium 1: measured_p innerhalb des definierten Freeze‑Bands (0,10 ±0,02).
+- Kriterium 2: setup_fingerprint identisch in beiden Runs.
+- Kriterium 3: policy_hash identisch, gleicher Freeze‑Guard aktiv.
+
+**Algorithmen / Verfahren:**
+- Ermittlung der Parameter measured_p, setup_fingerprint, policy_hash aus Preflight‑Logs.
+- Abgleich der Werte für Runs #40 und #42.
+- Klassifikation des Vergleichs als 'valide' bei vollständiger Übereinstimmung.
+
+## Input / Output
+
+### Input-Anforderungen
+
+**Hardware:**
+- Identische Hardware‑Instanz oder virtualisierte Umgebung mit fixed allocation
+
+**Software:**
+- Gleiches Experiment‑Framework
+- identischer Policy‑Hash
+- Freeze‑Guard aktiviert
+
+**Konfiguration:**
+- aux=2 (Run #40) vs aux=3 (Run #42)
+- 2×‑ok‑Preflight‑Regel bei Run #42
+
+### Erwartete Rohdaten
+
+**Felder pro Run:**
+- measured_p
+- setup_fingerprint
+- policy_hash
+- retry_tail_p99
+- band_width
+- Δband_width
+
+**Formatbeispiele:**
+- {"measured_p": 0.101, "setup_fingerprint": "fp_12345", "policy_hash": "ph_abc"}
+
+**Trace-Daten:**
+- Format: JSON‑basierte Run‑Logeinträge
+- Hinweis: Metriken werden aus Preflight‑ und Main‑Run‑Logs extrahiert.
+
+### Analyse-Ausgaben
+
+**Pro Gruppe / pro Governor:**
+- retry_tail_p99 (Hotspot / Rest getrennt)
+- band_width
+- Δband_width
+
+**Vergleichsausgaben:**
+- Run #40 (aux=2) vs Run #42 (aux=3)
+  - Δ: Hotspot‑Tail p99 schlechter bei #42
+
+## Workflow / Nutzung
+
+**Analyse-Workflow:**
+- Preflight‑Validierung beider Runs durchführen.
+- Checkliste vollständig ausfüllen.
+- Nur bei validiertem Setup Vergleich der Kernmetriken starten.
+- Ergebnisse für Hotspot‑Tail und Bandbreite dokumentieren.
+
+### Trace-Template-Anforderungen
+
+**Ziel:** Sicherstellung der Run‑Konsistenz für reproduzierbare Vergleichsexperimente.
+
+**Erforderliche Tags & Metadaten:**
+- measured_p
+- setup_fingerprint
+- policy_hash
+- aux
+- freeze_band
+
+**trace-cmd-Setup:**
+- Einrichtung der 2×‑ok‑Preflight‑Regel für konservative Runs.
+- Konfiguration fixer Random‑Seeds zur Minimierung zufälliger Schwankungen.
+
+**Run-Design für Contributors:**
+- Neue Runs müssen Fingerprint‑ und Policy‑Hash‑Übereinstimmung nachweisen.
+- Validitätsklasse (z. B. 'aux‑Aussage') im Header dokumentieren.
+
+## Interpretation & erwartete Ergebnisse
+
+**Kernbefunde:**
+- Runs #40 und #42 sind validiert vergleichbar.
+- Run #42 zeigt erhöhte Latenz im Hotspot‑Tail‑Bereich, keine globale Verlangsamung.
+- Freeze‑Band‑Stabilität bestätigt.
+
+**Implikationen für Experimente:**
+- Der Effekt aux=3 verstärkt lokale Empfindlichkeiten, keine generelle Performance‑Degradation.
+- Replikation (#43) notwendig, um Richtung und Stärke des Effekts zu bestätigen.
+
+## Limitationen & Fallstricke
+
+**Datenbezogene Limitationen:**
+- Kleine Stichprobe (nur zwei Runs) verhindert statistische Generalisierung.
+
+**Praktische Fallstricke:**
+- Interpretation ohne Replikation riskant.
+- Preflight‑Gate erhöht Validität, reduziert aber Iterationsgeschwindigkeit.
+
+## Nächste Schritte & Erweiterungen
+
+**Geplante Experimente:**
+- Run #43 als aux=3‑Replikat bei identischem Gate und Setup durchführen.
+
+**Analyseziele:**
+- Überprüfung der Stabilität des Hotspot‑Effekts über mehrere Replikate.
+
+**Community-Beiträge:**
+- Standardisierung der ValidationChecklist als JSON‑Template für Folgeexperimente.