Add artifact_1_band_width_analysis/src/artifact_1_band_width_analysis/core.py

2026-04-02 13:12:16 +00:00 · 2026-04-02 13:12:16 +00:00 · 47b5a5b569
commit 47b5a5b569
1 changed files with 90 additions and 0 deletions
--- a/artifact_1_band_width_analysis/src/artifact_1_band_width_analysis/core.py
+++ b/artifact_1_band_width_analysis/src/artifact_1_band_width_analysis/core.py
@ -0,0 +1,90 @@
+from __future__ import annotations
+import logging
+from dataclasses import dataclass
+from typing import List, Dict, Any
+import pandas as pd
+
+logger = logging.getLogger(__name__)
+
+
+class DataValidationError(Exception):
+    """Fehler, wenn Eingabedaten nicht den Erwartungen entsprechen."""
+    pass
+
+
+@dataclass
+class RunData:
+    band_width: float
+    aux: int
+    near_expiry: float
+    retry_tail_p99: float
+
+    def __post_init__(self) -> None:
+        # Eingabevalidierung
+        if not isinstance(self.band_width, (int, float)):
+            raise DataValidationError("band_width muss numerisch sein.")
+        if not isinstance(self.aux, int):
+            raise DataValidationError("aux muss ein Integer sein.")
+        if not isinstance(self.near_expiry, (int, float)):
+            raise DataValidationError("near_expiry muss numerisch sein.")
+        if not isinstance(self.retry_tail_p99, (int, float)):
+            raise DataValidationError("retry_tail_p99 muss numerisch sein.")
+
+
+# Public API
+
+def calculate_statistics(data: List[RunData]) -> Dict[str, Any]:
+    """Berechnet Median, IQR und weitere Kennzahlen für band_width und retry_tail_p99 pro Run."""
+    assert data, 'Eingabedaten dürfen nicht leer sein.'
+    try:
+        df = pd.DataFrame([d.__dict__ for d in data])
+    except Exception as e:
+        logger.exception("Fehler beim Erstellen des DataFrames")
+        raise DataValidationError(f"Ungültige Datenstruktur: {e}") from e
+
+    if df.empty:
+        raise DataValidationError("DataFrame aus Eingabedaten ist leer.")
+
+    results: Dict[str, Any] = {}
+    for col in ["band_width", "retry_tail_p99"]:
+        series = df[col].dropna()
+        if series.empty:
+            raise DataValidationError(f"Spalte {col} enthält keine gültigen Werte.")
+        q1, q3 = series.quantile(0.25), series.quantile(0.75)
+        iqr = q3 - q1
+        results[col] = {
+            "median": float(series.median()),
+            "iqr": float(iqr),
+            "mean": float(series.mean()),
+            "std": float(series.std()),
+            "min": float(series.min()),
+            "max": float(series.max()),
+        }
+    logger.debug("Berechnete Statistik-Ergebnisse: %s", results)
+    return results
+
+
+def compare_runs(run1: RunData, run2: RunData) -> Dict[str, Any]:
+    """Vergleicht zwei Runs hinsichtlich band_width und anderer Kennzahlen."""
+    if not all(isinstance(r, RunData) for r in [run1, run2]):
+        raise DataValidationError("Beide Eingaben müssen RunData-Instanzen sein.")
+
+    diff = {
+        "band_width_diff": run2.band_width - run1.band_width,
+        "aux_diff": run2.aux - run1.aux,
+        "near_expiry_diff": run2.near_expiry - run1.near_expiry,
+        "retry_tail_p99_diff": run2.retry_tail_p99 - run1.retry_tail_p99,
+    }
+    logger.debug(
+        "Vergleich zwischen Runs: %s vs %s -> %s",
+        run1.__dict__,
+        run2.__dict__,
+        diff,
+    )
+    return diff
+
+
+# Konfiguration für CI-Validierung
+if __name__ == "__main__":
+    logging.basicConfig(level=logging.INFO)
+    logger.info("Module core.py loaded successfully.")