Add audit_data_processing/src/audit_data_processing/core.py

2026-02-05 13:42:01 +00:00 · 2026-02-05 13:42:01 +00:00 · cbf9a22a8d
commit cbf9a22a8d
1 changed files with 91 additions and 0 deletions
--- a/audit_data_processing/src/audit_data_processing/core.py
+++ b/audit_data_processing/src/audit_data_processing/core.py
@ -0,0 +1,91 @@
 from __future__ import annotations
 import logging
 from dataclasses import dataclass
 from typing import List, Dict, Any
 import pandas as pd
 __all__ = ["RunData", "calculate_percentiles"]
@dataclass
 class RunData:
    """Datenmodell für einen einzelnen Audit-Run."""
    run_id: str
    warn_rate: float
    unknown_rate: float
    pinned: bool
    @staticmethod
    def from_dict(row: Dict[str, Any]) -> "RunData":
        try:
            return RunData(
                run_id=str(row.get("run_id")),
                warn_rate=float(row.get("warn_rate", 0.0)),
                unknown_rate=float(row.get("unknown_rate", 0.0)),
                pinned=bool(row.get("pinned")),
            )
        except (ValueError, TypeError) as e:
            raise ValueError(f"Ungültige RunData-Zeile: {row}") from e
 def calculate_percentiles(data: List[RunData], percentile_levels: List[float]) -> Dict[str, Dict[str, float]]:
    """Berechnet angegebene Perzentile für warn_rate und unknown_rate.
    Args:
        data: Liste von RunData-Objekten.
        percentile_levels: Liste der zu berechnenden Perzentile (z. B. [50, 75, 90, 95]).
    Returns:
        Dictionary der Form:
        {
            "warn_rate": {"p50": ..., "p75": ...},
            "unknown_rate": {"p50": ..., ...}
        }
    """
    logger = logging.getLogger(__name__)
    if not data:
        raise ValueError("Die Eingabedatenliste ist leer.")
    if not all(isinstance(rd, RunData) for rd in data):
        raise TypeError("Alle Elemente in 'data' müssen Instanzen von RunData sein.")
    if not percentile_levels:
        raise ValueError("Keine Perzentil-Level angegeben.")
    df = pd.DataFrame([{
        "run_id": r.run_id,
        "warn_rate": r.warn_rate,
        "unknown_rate": r.unknown_rate,
        "pinned": r.pinned,
    } for r in data])
    # Eingabevalidierung: Nur numerische Spalten prüfen
    for col in ["warn_rate", "unknown_rate"]:
        if not pd.api.types.is_numeric_dtype(df[col]):
            raise TypeError(f"Spalte {col} enthält nicht-numerische Werte.")
    percentiles_summary: Dict[str, Dict[str, float]] = {}
    for metric in ["warn_rate", "unknown_rate"]:
        logger.debug(f"Berechne Perzentile für {metric}.")
        try:
            values = df[metric].dropna()
            if values.empty:
                percentiles_summary[metric] = {f"p{int(p)}": None for p in percentile_levels}
                continue
            computed = {}
            for p in percentile_levels:
                # Unterstützung für Eingaben >1 oder zwischen 0-1
                quant = p if 0 <= p <= 1 else p / 100.0
                value = float(values.quantile(quant))
                computed[f"p{int(p)}"] = round(value, 6)
            percentiles_summary[metric] = computed
        except Exception as e:
            logger.error(f"Fehler bei Perzentilberechnung für {metric}: {e}")
            raise
    # Assertions für CI-Readiness
    assert all(isinstance(v, dict) for v in percentiles_summary.values()), "Ungültige Struktur im Ergebnis."
    assert all(all(isinstance(val, (float, type(None))) for val in d.values()) for d in percentiles_summary.values()), "Nicht-numerische Ergebnisse."
    return percentiles_summary