evidence_card_comparison/artifact.validation_checklist/README.md

147 lines
4.8 KiB
Markdown
Raw Permalink Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Validitätscheckliste für den Vergleich der Evidence Cards #40 und #42
## Purpose
Dokumentation der Prüf- und Validitätskriterien für den direkten Vergleich zweier Evidence-Card-Runs (#40 und #42) mit identischem Setup und Policy-Konfiguration.
**Problemstellung:** Unterschiedliche Ergebnisse zwischen Runs können nur dann statistisch interpretiert werden, wenn alle Rahmenbedingungen konstant gehalten und geprüft sind.
**Ziele:**
- Sicherstellen der Vergleichbarkeit zwischen Runs durch technische Validierung
- Prüfen der Setup-Konsistenz und Policy-Identität
- Vermeidung von Fehlinterpretationen durch unkontrollierte Variablen
## Kontext & Hintergrund
Experiment-Logs und Preflight-Daten der Evidence-Card-Runs #40 (aux=2) und #42 (aux=3).
**Gruppierung:**
- Run #40: Basis-Konfiguration
- Run #42: identisches Setup mit 2×okPreflightRegel
**Trace-Metadaten / zusätzliche Tags:**
- RunHeaderMetadaten aus PreflightLogs
- Fingerprint und PolicyHashes zur SetupVerifikation
**Domänenkontext:**
- Vergleichsstudien in automatisierten PerformanceExperimenten
- FreezeBandÜberwachung der Messgrößen zur Validitätssicherung
**Motivation:**
- Minimierung von Drift und Rauschen bei zeitversetzten Experimenten
- Überprüfung der Effektstabilität vor Interpretation von Leistungsunterschieden
## Methode / Spezifikation
**Übersicht:**
- Validierung erfolgt durch binäre Prüfungen ('Ja/Nein') anhand einer festen Checkliste.
- Kriterium 1: measured_p innerhalb des definierten FreezeBands (0,10 ±0,02).
- Kriterium 2: setup_fingerprint identisch in beiden Runs.
- Kriterium 3: policy_hash identisch, gleicher FreezeGuard aktiv.
**Algorithmen / Verfahren:**
- Ermittlung der Parameter measured_p, setup_fingerprint, policy_hash aus PreflightLogs.
- Abgleich der Werte für Runs #40 und #42.
- Klassifikation des Vergleichs als 'valide' bei vollständiger Übereinstimmung.
## Input / Output
### Input-Anforderungen
**Hardware:**
- Identische HardwareInstanz oder virtualisierte Umgebung mit fixed allocation
**Software:**
- Gleiches ExperimentFramework
- identischer PolicyHash
- FreezeGuard aktiviert
**Konfiguration:**
- aux=2 (Run #40) vs aux=3 (Run #42)
- 2×okPreflightRegel bei Run #42
### Erwartete Rohdaten
**Felder pro Run:**
- measured_p
- setup_fingerprint
- policy_hash
- retry_tail_p99
- band_width
- Δband_width
**Formatbeispiele:**
- {"measured_p": 0.101, "setup_fingerprint": "fp_12345", "policy_hash": "ph_abc"}
**Trace-Daten:**
- Format: JSONbasierte RunLogeinträge
- Hinweis: Metriken werden aus Preflight und MainRunLogs extrahiert.
### Analyse-Ausgaben
**Pro Gruppe / pro Governor:**
- retry_tail_p99 (Hotspot / Rest getrennt)
- band_width
- Δband_width
**Vergleichsausgaben:**
- Run #40 (aux=2) vs Run #42 (aux=3)
- Δ: HotspotTail p99 schlechter bei #42
## Workflow / Nutzung
**Analyse-Workflow:**
- PreflightValidierung beider Runs durchführen.
- Checkliste vollständig ausfüllen.
- Nur bei validiertem Setup Vergleich der Kernmetriken starten.
- Ergebnisse für HotspotTail und Bandbreite dokumentieren.
### Trace-Template-Anforderungen
**Ziel:** Sicherstellung der RunKonsistenz für reproduzierbare Vergleichsexperimente.
**Erforderliche Tags & Metadaten:**
- measured_p
- setup_fingerprint
- policy_hash
- aux
- freeze_band
**trace-cmd-Setup:**
- Einrichtung der 2×okPreflightRegel für konservative Runs.
- Konfiguration fixer RandomSeeds zur Minimierung zufälliger Schwankungen.
**Run-Design für Contributors:**
- Neue Runs müssen Fingerprint und PolicyHashÜbereinstimmung nachweisen.
- Validitätsklasse (z.B. 'auxAussage') im Header dokumentieren.
## Interpretation & erwartete Ergebnisse
**Kernbefunde:**
- Runs #40 und #42 sind validiert vergleichbar.
- Run #42 zeigt erhöhte Latenz im HotspotTailBereich, keine globale Verlangsamung.
- FreezeBandStabilität bestätigt.
**Implikationen für Experimente:**
- Der Effekt aux=3 verstärkt lokale Empfindlichkeiten, keine generelle PerformanceDegradation.
- Replikation (#43) notwendig, um Richtung und Stärke des Effekts zu bestätigen.
## Limitationen & Fallstricke
**Datenbezogene Limitationen:**
- Kleine Stichprobe (nur zwei Runs) verhindert statistische Generalisierung.
**Praktische Fallstricke:**
- Interpretation ohne Replikation riskant.
- PreflightGate erhöht Validität, reduziert aber Iterationsgeschwindigkeit.
## Nächste Schritte & Erweiterungen
**Geplante Experimente:**
- Run #43 als aux=3Replikat bei identischem Gate und Setup durchführen.
**Analyseziele:**
- Überprüfung der Stabilität des HotspotEffekts über mehrere Replikate.
**Community-Beiträge:**
- Standardisierung der ValidationChecklist als JSONTemplate für Folgeexperimente.