Add artifact.validation_checklist/README.md

This commit is contained in:
Mika 2026-04-06 16:12:09 +00:00
parent 1960994679
commit 7407c905a5

View file

@ -0,0 +1,147 @@
# Validitätscheckliste für den Vergleich der Evidence Cards #40 und #42
## Purpose
Dokumentation der Prüf- und Validitätskriterien für den direkten Vergleich zweier Evidence-Card-Runs (#40 und #42) mit identischem Setup und Policy-Konfiguration.
**Problemstellung:** Unterschiedliche Ergebnisse zwischen Runs können nur dann statistisch interpretiert werden, wenn alle Rahmenbedingungen konstant gehalten und geprüft sind.
**Ziele:**
- Sicherstellen der Vergleichbarkeit zwischen Runs durch technische Validierung
- Prüfen der Setup-Konsistenz und Policy-Identität
- Vermeidung von Fehlinterpretationen durch unkontrollierte Variablen
## Kontext & Hintergrund
Experiment-Logs und Preflight-Daten der Evidence-Card-Runs #40 (aux=2) und #42 (aux=3).
**Gruppierung:**
- Run #40: Basis-Konfiguration
- Run #42: identisches Setup mit 2×okPreflightRegel
**Trace-Metadaten / zusätzliche Tags:**
- RunHeaderMetadaten aus PreflightLogs
- Fingerprint und PolicyHashes zur SetupVerifikation
**Domänenkontext:**
- Vergleichsstudien in automatisierten PerformanceExperimenten
- FreezeBandÜberwachung der Messgrößen zur Validitätssicherung
**Motivation:**
- Minimierung von Drift und Rauschen bei zeitversetzten Experimenten
- Überprüfung der Effektstabilität vor Interpretation von Leistungsunterschieden
## Methode / Spezifikation
**Übersicht:**
- Validierung erfolgt durch binäre Prüfungen ('Ja/Nein') anhand einer festen Checkliste.
- Kriterium 1: measured_p innerhalb des definierten FreezeBands (0,10 ±0,02).
- Kriterium 2: setup_fingerprint identisch in beiden Runs.
- Kriterium 3: policy_hash identisch, gleicher FreezeGuard aktiv.
**Algorithmen / Verfahren:**
- Ermittlung der Parameter measured_p, setup_fingerprint, policy_hash aus PreflightLogs.
- Abgleich der Werte für Runs #40 und #42.
- Klassifikation des Vergleichs als 'valide' bei vollständiger Übereinstimmung.
## Input / Output
### Input-Anforderungen
**Hardware:**
- Identische HardwareInstanz oder virtualisierte Umgebung mit fixed allocation
**Software:**
- Gleiches ExperimentFramework
- identischer PolicyHash
- FreezeGuard aktiviert
**Konfiguration:**
- aux=2 (Run #40) vs aux=3 (Run #42)
- 2×okPreflightRegel bei Run #42
### Erwartete Rohdaten
**Felder pro Run:**
- measured_p
- setup_fingerprint
- policy_hash
- retry_tail_p99
- band_width
- Δband_width
**Formatbeispiele:**
- {"measured_p": 0.101, "setup_fingerprint": "fp_12345", "policy_hash": "ph_abc"}
**Trace-Daten:**
- Format: JSONbasierte RunLogeinträge
- Hinweis: Metriken werden aus Preflight und MainRunLogs extrahiert.
### Analyse-Ausgaben
**Pro Gruppe / pro Governor:**
- retry_tail_p99 (Hotspot / Rest getrennt)
- band_width
- Δband_width
**Vergleichsausgaben:**
- Run #40 (aux=2) vs Run #42 (aux=3)
- Δ: HotspotTail p99 schlechter bei #42
## Workflow / Nutzung
**Analyse-Workflow:**
- PreflightValidierung beider Runs durchführen.
- Checkliste vollständig ausfüllen.
- Nur bei validiertem Setup Vergleich der Kernmetriken starten.
- Ergebnisse für HotspotTail und Bandbreite dokumentieren.
### Trace-Template-Anforderungen
**Ziel:** Sicherstellung der RunKonsistenz für reproduzierbare Vergleichsexperimente.
**Erforderliche Tags & Metadaten:**
- measured_p
- setup_fingerprint
- policy_hash
- aux
- freeze_band
**trace-cmd-Setup:**
- Einrichtung der 2×okPreflightRegel für konservative Runs.
- Konfiguration fixer RandomSeeds zur Minimierung zufälliger Schwankungen.
**Run-Design für Contributors:**
- Neue Runs müssen Fingerprint und PolicyHashÜbereinstimmung nachweisen.
- Validitätsklasse (z.B. 'auxAussage') im Header dokumentieren.
## Interpretation & erwartete Ergebnisse
**Kernbefunde:**
- Runs #40 und #42 sind validiert vergleichbar.
- Run #42 zeigt erhöhte Latenz im HotspotTailBereich, keine globale Verlangsamung.
- FreezeBandStabilität bestätigt.
**Implikationen für Experimente:**
- Der Effekt aux=3 verstärkt lokale Empfindlichkeiten, keine generelle PerformanceDegradation.
- Replikation (#43) notwendig, um Richtung und Stärke des Effekts zu bestätigen.
## Limitationen & Fallstricke
**Datenbezogene Limitationen:**
- Kleine Stichprobe (nur zwei Runs) verhindert statistische Generalisierung.
**Praktische Fallstricke:**
- Interpretation ohne Replikation riskant.
- PreflightGate erhöht Validität, reduziert aber Iterationsgeschwindigkeit.
## Nächste Schritte & Erweiterungen
**Geplante Experimente:**
- Run #43 als aux=3Replikat bei identischem Gate und Setup durchführen.
**Analyseziele:**
- Überprüfung der Stabilität des HotspotEffekts über mehrere Replikate.
**Community-Beiträge:**
- Standardisierung der ValidationChecklist als JSONTemplate für Folgeexperimente.