Add results_documentation/README.md

2026-02-24 13:33:07 +00:00 · 2026-02-24 13:33:07 +00:00 · 6d25b2544b
commit 6d25b2544b
parent 7c0b86d349
1 changed files with 176 additions and 0 deletions
--- a/results_documentation/README.md
+++ b/results_documentation/README.md
@ -0,0 +1,176 @@
+# Ergebnisdokumentation der Laufanalyse (Run #3)
+
+## Purpose
+
+Analyse der Timing-Differenzen und Zustandseffekte zwischen pinned und unpinned Läufen zur Beurteilung der Policy‑Entscheidung.
+
+**Problemstellung:** Unklare Zuordnung der Warn‑Rate‑Spitzen zu spezifischen Timing‑Zuständen in unpinned Läufen verursachte unpräzise Systementscheidungen.
+
+**Ziele:**
+- Validierung der Hypothese, dass der WARN‑Spike durch unpinned + Δt < 0 verursacht wurde
+- Überprüfung der Auswirkung des unpinned‑2‑Phase‑Read‑Delay‑Commits auf die Δt‑Verteilung
+- Definition einer versionierbaren Entscheidungsregel für zukünftige Runs
+
+## Kontext & Hintergrund
+
+Messdaten aus mehreren Runs mit identischen policy_hash‑Werten, Gruppierung nach pinned vs. unpinned und Δt‑Status.
+
+**Gruppierung:**
+- pinned / unpinned
+- Δt ≥ 0 / Δt < 0
+
+**Trace-Metadaten / zusätzliche Tags:**
+- t_index_visible
+- t_gate_read
+- policy_hash
+
+**Domänenkontext:**
+- Timing‑Optimierung in Systementscheidungsprozessen
+- Policy‑Regler‑Verfeinerung basierend auf Δt‑Verteilungen
+
+**Outlier-Definition:**
+- Methode: Δt‑Signum‑Vergleich
+- Beschreibung: Negative Δt werden als zeitlich rückläufige, potenziell fehlerhafte Ereignisse klassifiziert.
+- Metrik: Δt = t_index_visible − t_gate_read
+
+**Motivation:**
+- Reduktion von False Positives in Warn‑Entscheidungen
+- Sicherung der Vergleichbarkeit zwischen Runs
+- Stabilisierung der Systemantwort durch konsistente Timing‑Verhältnisse
+
+## Methode / Spezifikation
+
+**Übersicht:**
+- Analyse der Kennzahlen warn_rate und unknown_rate getrennt nach pinned und unpinned Läufen
+- Berechnung und Vergleich der Δt‑Verteilungen zwischen Runs #2 und #3
+- Erstellung einer 2×2‑Matrix: pinned/unpinned × Δt ≥ 0 / Δt < 0 zur Identifikation dominanter Quadranten
+
+**Algorithmen / Verfahren:**
+- Vergleich des policy_hash zwischen Runs zur Sicherstellung identischer Bedingungen
+- Aggregierte Auswertung von Δt‑Signen zur Quadrantenermittlung
+- Proportionsvergleich der Quadrantenanteile ( insbesondere unpinned & Δt < 0)
+
+### Abgeleitete Effektgrößen
+
+**Risk Difference (Differenz der Raten):**
+- Definition: Differenz der negativen Δt‑Anteile zwischen Run #2 und Run #3 innerhalb des unpinned‑Stratums.
+- Bootstrap: Optionales Bootstrap‑Resampling möglich, zur robusten Schätzung von Konfidenzintervallen über Quadrantenanteile.
+
+**Risk Ratio:**
+- Definition: Verhältnis der Wahrscheinlichkeit für Δt < 0 im unpinned‑Stratum zwischen Run #2 und Run #3.
+- Bootstrap: Bootstrap‑Resampling zur Bestimmung der Unsicherheitsbreite implementierbar.
+
+## Input / Output
+
+### Erwartete Rohdaten
+
+**Felder pro Run:**
+- t_index_visible
+- t_gate_read
+- policy_hash
+- pinned_flag
+- warn_rate
+- unknown_rate
+
+**Formatbeispiele:**
+- {run_id:3, pinned: false, t_index_visible: 171.253, t_gate_read: 171.268, policy_hash: 'd9acb2', warn_rate: 0.042}
+
+**Trace-Daten:**
+- Format: strukturierte Logdateien oder CSV‑Exports pro Lauf
+- Hinweis: Zeitstempel konsistent in gleicher Auflösung (z. B. ns‑basiert).
+
+### Analyse-Ausgaben
+
+**Pro Gruppe / pro Governor:**
+- warn_rate
+- unknown_rate
+- Anteile pro Δt‑Quadrant
+
+**Vergleichsausgaben:**
+- Run #2 (unpinned) vs Run #3 (unpinned)
+  - Δ: Δ Anteil Δt < 0 = −x%
+  - CI(Δ): 95% CI [−y%, −z%]
+  - RR: r ≈ 0.XX
+  - CI(RR): 95% CI [a, b]
+
+- Trace-Muster: Quadrantenmatrix‑Visualisierung zur schnellen Erkennung dominanter Ausreißerzonen
+
+## Workflow / Nutzung
+
+**Analyse-Workflow:**
+- Run-Datensatz mit Referenzpolicy (Run #2) vergleichen
+- policy_hash‑Abgleich durchführen
+- Δt‑Differenzen pro Stratum berechnen
+- 2×2‑Matrix erstellen
+- Differenzen und Verteilungen bewerten
+- Policy‑Entscheidung dokumentieren
+
+### Trace-Template-Anforderungen
+
+**Ziel:** Reproduzierbare Umgebung mit identischem timing‑logging setup
+
+**Erforderliche Tags & Metadaten:**
+- policy_hash
+- run_id
+- t_index_visible
+- t_gate_read
+
+**trace-cmd-Setup:**
+- logging‑frequenz definieren
+- timestamp precision auf Nanosekundenebene sicherstellen
+
+**Run-Design für Contributors:**
+- mindestens drei konsekutive Runs mit gleichem policy_hash durchführen
+- keine zusätzlichen Messgrößen zwischen den Runs einführen
+
+## Interpretation & erwartete Ergebnisse
+
+**Kernbefunde:**
+- Deutlicher Rückgang negativer Δt im unpinned‑Stratum
+- Pinned‑Stratum bleibt unverändert
+- Quadrant unpinned & Δt < 0 signifikant geschrumpft
+- Mechanismus validiert: 2‑Phase‑Delay beeinflusst Ursache, nicht Symptom
+
+**Implikationen für Experimente:**
+- Beibehaltung des unpinned‑Delay und MODE=warn
+- Einführung einer versionierbaren Exit‑Regel für die Policy
+- Ziel: stabile Warnraten ohne höhere Fehlklassifikation
+
+**Planungsziel:**
+- Ziel: Reduktion von Fehlalarmen durch präzise Timing‑Stratifizierung
+- Vorgehen:
+  - nur noch Warnungen bei Δt < 0 im unpinned‑Stratum nach Stabilitätsnachweis
+  - Verifikation über drei Folgeruns mit konstantem policy_hash
+
+## Limitationen & Fallstricke
+
+**Datenbezogene Limitationen:**
+- Run‑Drift durch unbewusste Parameteränderungen möglich
+- Δt‑Schwankungen empfindlich gegenüber Messauflösung
+
+**Bootstrap-spezifische Limitationen:**
+- Bootstrap‑CI‑Breite abhängig von Run‑Anzahl und Δt‑Varianz
+
+**Kausalität & Generalisierbarkeit:**
+- Ergebnisse spezifisch für das verwendete policy_hash‑Setup
+- keine direkte Übertragbarkeit auf abweichende Hardware‑Konfigurationen
+
+**Praktische Fallstricke:**
+- Fehlende Reproduzierbarkeit bei neuen Seeds
+- Verwechslung von Symptom (Δt‑Verzögerung) und Ursache (Scheduling‑Effekt)
+
+## Nächste Schritte & Erweiterungen
+
+**Geplante Experimente:**
+- Durchführung von zwei bis drei weiteren Läufen mit identischen Bedingungen
+- Vergleich der 2×2‑Drift‑Matrix als Zeitreihe
+
+**Analyseziele:**
+- Überprüfung der Stabilität des unpinned‑Quadranten
+- Evaluierung langfristiger Reduktion der warn_rate ohne Δt‑Verschlechterung
+
+**Regression & Modellierung:**
+- Erweiterung der Δt‑Analyse um lineare Drift‑Modelle oder Zeitverlaufs‑Regression
+
+**Community-Beiträge:**
+- Bereitstellung der Drift‑Matrix‑Analyse als reproduzierbares Template für Run‑Vergleiche