evidence_card_comparison/artifact.validation_checklist/README.md

4.8 KiB
Raw Permalink Blame History

Validitätscheckliste für den Vergleich der Evidence Cards #40 und #42

Purpose

Dokumentation der Prüf- und Validitätskriterien für den direkten Vergleich zweier Evidence-Card-Runs (#40 und #42) mit identischem Setup und Policy-Konfiguration.

Problemstellung: Unterschiedliche Ergebnisse zwischen Runs können nur dann statistisch interpretiert werden, wenn alle Rahmenbedingungen konstant gehalten und geprüft sind.

Ziele:

  • Sicherstellen der Vergleichbarkeit zwischen Runs durch technische Validierung
  • Prüfen der Setup-Konsistenz und Policy-Identität
  • Vermeidung von Fehlinterpretationen durch unkontrollierte Variablen

Kontext & Hintergrund

Experiment-Logs und Preflight-Daten der Evidence-Card-Runs #40 (aux=2) und #42 (aux=3).

Gruppierung:

  • Run #40: Basis-Konfiguration
  • Run #42: identisches Setup mit 2×okPreflightRegel

Trace-Metadaten / zusätzliche Tags:

  • RunHeaderMetadaten aus PreflightLogs
  • Fingerprint und PolicyHashes zur SetupVerifikation

Domänenkontext:

  • Vergleichsstudien in automatisierten PerformanceExperimenten
  • FreezeBandÜberwachung der Messgrößen zur Validitätssicherung

Motivation:

  • Minimierung von Drift und Rauschen bei zeitversetzten Experimenten
  • Überprüfung der Effektstabilität vor Interpretation von Leistungsunterschieden

Methode / Spezifikation

Übersicht:

  • Validierung erfolgt durch binäre Prüfungen ('Ja/Nein') anhand einer festen Checkliste.
  • Kriterium 1: measured_p innerhalb des definierten FreezeBands (0,10 ±0,02).
  • Kriterium 2: setup_fingerprint identisch in beiden Runs.
  • Kriterium 3: policy_hash identisch, gleicher FreezeGuard aktiv.

Algorithmen / Verfahren:

  • Ermittlung der Parameter measured_p, setup_fingerprint, policy_hash aus PreflightLogs.
  • Abgleich der Werte für Runs #40 und #42.
  • Klassifikation des Vergleichs als 'valide' bei vollständiger Übereinstimmung.

Input / Output

Input-Anforderungen

Hardware:

  • Identische HardwareInstanz oder virtualisierte Umgebung mit fixed allocation

Software:

  • Gleiches ExperimentFramework
  • identischer PolicyHash
  • FreezeGuard aktiviert

Konfiguration:

  • aux=2 (Run #40) vs aux=3 (Run #42)
  • 2×okPreflightRegel bei Run #42

Erwartete Rohdaten

Felder pro Run:

  • measured_p
  • setup_fingerprint
  • policy_hash
  • retry_tail_p99
  • band_width
  • Δband_width

Formatbeispiele:

  • {"measured_p": 0.101, "setup_fingerprint": "fp_12345", "policy_hash": "ph_abc"}

Trace-Daten:

  • Format: JSONbasierte RunLogeinträge
  • Hinweis: Metriken werden aus Preflight und MainRunLogs extrahiert.

Analyse-Ausgaben

Pro Gruppe / pro Governor:

  • retry_tail_p99 (Hotspot / Rest getrennt)
  • band_width
  • Δband_width

Vergleichsausgaben:

  • Run #40 (aux=2) vs Run #42 (aux=3)
    • Δ: HotspotTail p99 schlechter bei #42

Workflow / Nutzung

Analyse-Workflow:

  • PreflightValidierung beider Runs durchführen.
  • Checkliste vollständig ausfüllen.
  • Nur bei validiertem Setup Vergleich der Kernmetriken starten.
  • Ergebnisse für HotspotTail und Bandbreite dokumentieren.

Trace-Template-Anforderungen

Ziel: Sicherstellung der RunKonsistenz für reproduzierbare Vergleichsexperimente.

Erforderliche Tags & Metadaten:

  • measured_p
  • setup_fingerprint
  • policy_hash
  • aux
  • freeze_band

trace-cmd-Setup:

  • Einrichtung der 2×okPreflightRegel für konservative Runs.
  • Konfiguration fixer RandomSeeds zur Minimierung zufälliger Schwankungen.

Run-Design für Contributors:

  • Neue Runs müssen Fingerprint und PolicyHashÜbereinstimmung nachweisen.
  • Validitätsklasse (z.B. 'auxAussage') im Header dokumentieren.

Interpretation & erwartete Ergebnisse

Kernbefunde:

  • Runs #40 und #42 sind validiert vergleichbar.
  • Run #42 zeigt erhöhte Latenz im HotspotTailBereich, keine globale Verlangsamung.
  • FreezeBandStabilität bestätigt.

Implikationen für Experimente:

  • Der Effekt aux=3 verstärkt lokale Empfindlichkeiten, keine generelle PerformanceDegradation.
  • Replikation (#43) notwendig, um Richtung und Stärke des Effekts zu bestätigen.

Limitationen & Fallstricke

Datenbezogene Limitationen:

  • Kleine Stichprobe (nur zwei Runs) verhindert statistische Generalisierung.

Praktische Fallstricke:

  • Interpretation ohne Replikation riskant.
  • PreflightGate erhöht Validität, reduziert aber Iterationsgeschwindigkeit.

Nächste Schritte & Erweiterungen

Geplante Experimente:

  • Run #43 als aux=3Replikat bei identischem Gate und Setup durchführen.

Analyseziele:

  • Überprüfung der Stabilität des HotspotEffekts über mehrere Replikate.

Community-Beiträge:

  • Standardisierung der ValidationChecklist als JSONTemplate für Folgeexperimente.