4.9 KiB
A/B-Test Dokumentation – Fresh vs Near-Expiry (Run #11)
Purpose
Untersuchung, ob Near‑Expiry Produkte die Ursache für negative Zeitstempel-Differenzen (Δt < 0) sind.
Problemstellung: Vorherige Runs zeigten Δt < 0‑Fälle, deren Ursache unklar war. Es wird geprüft, ob Near‑Expiry Produkte den Effekt verursachen.
Ziele:
- Validierung der Hypothese, dass Near‑Expiry ein technischer Einflussfaktor auf Zeitdifferenzen ist.
- Beibehaltung eines minimalen, kontrollierten A/B‑Test‑Setups ohne neue Instrumentierung.
Kontext & Hintergrund
Erfasste Laufdaten mit Metriken zu warn_rate, unknown_rate und Δt‑Bedingungen in Gruppen Fresh und Near‑Expiry, jeweils nach Stratum pinned/unpinned
Gruppierung:
- fresh/pinned
- fresh/unpinned
- near‑expiry/pinned
- near‑expiry/unpinned
Trace-Metadaten / zusätzliche Tags:
- expires_at_dist_hours
- t_gate_read
- t_index_visible
- corr_id
Domänenkontext:
- Zeitstempel‑Konsistenzanalyse in A/B‑Test‑Runs
- Verlaufsmessung technischer Metriken unter unterschiedlichen Produkt-Zuständen
Outlier-Definition:
- Methode: delta_t_negative_detection
- Beschreibung: Ein Lauf wird als Ausreißer markiert, wenn Δt = (t_gate_read − t_index_visible) < 0.
- Metrik: Δt
Motivation:
- Erkennen zeitlicher Unstimmigkeiten bei Near‑Expiry Items
- Sicherung synchroner Prozessverläufe in Produktionssystemen
Methode / Spezifikation
Übersicht:
- Zwei Gruppen im A/B‑Design: Gruppe A = fresh (expires_at_dist_hours ≥ 72h), Gruppe B = near‑expiry (expires_at_dist_hours < 24h).
- Stratifizierung nach pinned/unpinned Konfiguration.
- Exit‑Regel v1 unverändert, keine Änderung an Instrumentierung.
Algorithmen / Verfahren:
- Berechnung relativer Raten: warn_rate, unknown_rate, Δt<0‑Vorkommen je Gruppe und Stratum.
- Vergleich der Δt<0‑Anteile zwischen A und B im unpinned‑Stratum als zentrale Hypothesenprüfung.
Input / Output
Erwartete Rohdaten
Felder pro Run:
- corr_id
- expires_at_dist_hours
- t_gate_read
- t_index_visible
- warn_flag
- pinned_flag
Formatbeispiele:
- corr_id=9f2c…, expires_at_dist_hours=5.9, Δt=−00:02:41
Trace-Daten:
- Format: Tabellarisch nach Gruppen (A/B × pinned/unpinned)
- Hinweis: Jede Zelle enthält warn_rate, unknown_rate und Δt<0‑Zählung.
Analyse-Ausgaben
Pro Gruppe / pro Governor:
- warn_rate
- unknown_rate
- Δt<0_count
Vergleichsausgaben:
-
fresh-unpinned vs near-expiry-unpinned
- Δ: Δt<0: 0% vs 3 Fälle
- RR: undefiniert (0 vs >0)
-
Trace-Muster: Δt<0‑Fälle treten nur bei near‑expiry‑unpinned auf.
Workflow / Nutzung
Analyse-Workflow:
- Daten pro Run erfassen.
- Nach Gruppenzuordnung (fresh/near‑expiry) und Stratum (pinned/unpinned) aggregieren.
- Anteile für warn_rate und Δt<0 berechnen.
- Effektvergleich durchführen, Entscheidungsregel anwenden.
Trace-Template-Anforderungen
Ziel: Identifikation von Zeitdifferenzen in Ablaufprozessen bei Near‑Expiry Items
Erforderliche Tags & Metadaten:
- expires_at_dist_hours
- pinned_flag
- t_gate_read
- t_index_visible
trace-cmd-Setup:
- Keine neue Instrumentierung, bestehendes Setup unverändert einsetzen.
Run-Design für Contributors:
- A/B‑Zuteilung nach expires_at_dist_hours, identische Pipelines für beide Gruppen.
Interpretation & erwartete Ergebnisse
Kernbefunde:
- Δt<0 tritt ausschließlich in near‑expiry‑unpinned auf.
- Pinned‑Strata sind stabil, unabhängig vom Produktzustand.
- Warn‑ und unknown‑Raten sind über beide Gruppen nahezu gleich.
Implikationen für Experimente:
- Near‑Expiry beeinflusst Zeitkonsistenz signifikant im unpinned‑Stratum.
- Künftige Runs sollen bestätigen, ob der Effekt stabil wiederholbar ist.
Planungsziel:
- Ziel: Überprüfung der Stabilität des Near‑Expiry‑Effekts über mehrere Runs hinweg.
- Vorgehen:
- Keine Änderungen, passives Beobachten über 24–48h.
- Mindestens ein weiterer Run mit identischem Setup.
Limitationen & Fallstricke
Datenbezogene Limitationen:
- Nur ein Run (#11) vorhanden; statistische Absicherung fehlt.
- Gruppengrößen nicht spezifiziert.
Kausalität & Generalisierbarkeit:
- Kausalität nur vermutet, nicht bewiesen.
- Effekt kann zufallsbedingt oder durch Nebenbedingungen verursacht sein.
Praktische Fallstricke:
- Verfrühte operative Maßnahmen ohne Replikation riskant.
- Nur Beobachtung empfohlen, keine sofortige Regeländerung.
Nächste Schritte & Erweiterungen
Geplante Experimente:
- Run #12 mit gleichem Setup zur Validierung des Near‑Expiry‑Effekts.
Analyseziele:
- Überprüfung der Wiederholbarkeit von Δt<0 bei near‑expiry‑unpinned.
- Messung der Stabilität über mehrere 24‑h‑Zyklen.
Regression & Modellierung:
- Optional: logistische Regression Δt<0 ~ expires_at_dist_hours + pinned_flag.
Community-Beiträge:
- Diskussion der Near‑Expiry‑Behandlung auf MissionControl Forum (Tag 166).