Add data_analysis/src/data_analysis/core.py

2026-02-28 14:47:37 +00:00 · 2026-02-28 14:47:37 +00:00 · da5c79a470
commit da5c79a470
parent 5b1eb5ece6
1 changed files with 100 additions and 0 deletions
--- a/data_analysis/src/data_analysis/core.py
+++ b/data_analysis/src/data_analysis/core.py
@ -0,0 +1,100 @@
+from __future__ import annotations
+
+import logging
+from dataclasses import dataclass
+from datetime import datetime
+from typing import List, Dict, Any
+import pandas as pd
+
+
+# Configure basic logging for CI readiness
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+
+
+@dataclass
+class RunData:
+    """Repräsentiert einen einzelnen Run-Datensatz."""
+    run_id: str
+    timestamp: datetime
+    delta_t: float
+    expiring_at: datetime
+
+    @classmethod
+    def from_dict(cls, data: Dict[str, Any]) -> RunData:
+        """Validiert und erstellt ein RunData-Objekt aus einem Dictionary."""
+        required_fields = {"run_id", "timestamp", "delta_t", "expiring_at"}
+        missing = required_fields - data.keys()
+        if missing:
+            raise ValueError(f"Fehlende Felder in RunData: {missing}")
+
+        try:
+            return cls(
+                run_id=str(data["run_id"]),
+                timestamp=pd.to_datetime(data["timestamp"]).to_pydatetime(),
+                delta_t=float(data["delta_t"]),
+                expiring_at=pd.to_datetime(data["expiring_at"]).to_pydatetime(),
+            )
+        except Exception as e:
+            raise ValueError(f"Ungültige Feldwerte in RunData: {e}") from e
+
+
+def analyze_runs(run_data: List[RunData]) -> Dict[str, Any]:
+    """Analysiert Run-Daten und identifiziert Δt<0-Fälle sowie mögliche Muster.
+
+    Args:
+        run_data: Liste von RunData-Objekten.
+
+    Returns:
+        dict: Aggregierte Analyseergebnisse.
+    """
+    assert isinstance(run_data, list), "run_data muss eine Liste sein."
+
+    if not run_data:
+        logger.warning("Leere RunData-Liste übergeben.")
+        return {"total_runs": 0, "negative_dt_count": 0, "negative_dt_ratio": 0.0}
+
+    # Validierung der Elemente
+    for rd in run_data:
+        if not isinstance(rd, RunData):
+            raise TypeError(f"Ungültiger Typ in run_data: {type(rd)}")
+
+    # DataFrame erstellen
+    df = pd.DataFrame([{
+        "run_id": r.run_id,
+        "timestamp": r.timestamp,
+        "delta_t": r.delta_t,
+        "expiring_at": r.expiring_at,
+    } for r in run_data])
+
+    if df.empty:
+        return {"total_runs": 0, "negative_dt_count": 0, "negative_dt_ratio": 0.0}
+
+    total = len(df)
+    negative_mask = df["delta_t"] < 0
+    neg_count = negative_mask.sum()
+
+    result = {
+        "total_runs": int(total),
+        "negative_dt_count": int(neg_count),
+        "negative_dt_ratio": float(neg_count / total) if total > 0 else 0.0,
+    }
+
+    # Gruppierung nach run_id für tiefergehende Analyse
+    if neg_count > 0:
+        neg_df = df[negative_mask]
+        by_run = (
+            neg_df.groupby("run_id")
+            .agg(count=("delta_t", "size"), mean_delta_t=("delta_t", "mean"))
+            .reset_index()
+        )
+        result["negative_runs"] = by_run.to_dict(orient="records")
+
+    logger.info(
+        "Analyse abgeschlossen: total=%d, negative=%d (%.2f%%)",
+        result["total_runs"],
+        result["negative_dt_count"],
+        result["negative_dt_ratio"] * 100,
+    )
+
+    return result