Add data_analysis/src/data_analysis/core.py

2026-03-05 15:48:01 +00:00 · 2026-03-05 15:48:01 +00:00 · d1e357fa3c
commit d1e357fa3c
parent b2c3d2719d
1 changed files with 71 additions and 0 deletions
--- a/data_analysis/src/data_analysis/core.py
+++ b/data_analysis/src/data_analysis/core.py
@ -0,0 +1,71 @@
 from __future__ import annotations
 import logging
 from typing import List, Dict, Any
 import pandas as pd
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 class DataValidationError(Exception):
    """Raised when input data validation fails."""
    pass
 def _validate_input_data(data: List[Dict[str, Any]]) -> None:
    """Validiert, ob die Eingabedaten die erforderlichen Felder enthalten."""
    required_fields = {"context", "pinned_status", "delta_t", "warn"}
    if not isinstance(data, list):
        raise DataValidationError("Input data must be a list of dicts.")
    for i, record in enumerate(data):
        if not isinstance(record, dict):
            raise DataValidationError(f"Each entry must be a dict (index {i}).")
        if not required_fields.issubset(record.keys()):
            missing = required_fields - record.keys()
            raise DataValidationError(f"Missing fields {missing} in record at index {i}.")
 def analyze_data(data: List[Dict[str, Any]]) -> Dict[str, Any]:
    """Analysiert Datensätze und identifiziert Δt<0-Fälle sowie berechnet Aggregationen.
    Parameters
    ----------
    data : list[dict]
        Liste von Datensätzen mit Feldern: context, pinned_status, delta_t, warn.
    Returns
    -------
    dict
        Analyseergebnis: near_expiry_count, fresh_count, warn_rate.
    """
    logger.debug("Starting analyze_data with %d records", len(data))
    _validate_input_data(data)
    df = pd.DataFrame(data)
    required_columns = ["context", "pinned_status", "delta_t", "warn"]
    if not all(col in df.columns for col in required_columns):
        raise DataValidationError("Input data missing required columns.")
    # Filter nur auf unpinned und negative delta_t-Fälle
    unpinned_df = df[(df["pinned_status"] == "unpinned") & (df["delta_t"] < 0)]
    logger.debug("Filtered unpinned negative delta_t count: %d", len(unpinned_df))
    near_expiry_count = int((unpinned_df["context"] == "near_expiry").sum())
    fresh_count = int((unpinned_df["context"] == "fresh").sum())
    warn_total = int(unpinned_df["warn"].sum())
    warn_rate = float(warn_total / len(unpinned_df)) if len(unpinned_df) > 0 else 0.0
    result = {
        "near_expiry_count": near_expiry_count,
        "fresh_count": fresh_count,
        "warn_rate": round(warn_rate, 4),
    }
    logger.info("Analysis complete: %s", result)
    assert all(key in result for key in ["near_expiry_count", "fresh_count", "warn_rate"]), (
        "Result missing expected keys!"
    )
    return result