Add unknown_analysis/src/unknown_analysis/core.py

2026-02-12 11:16:20 +00:00 · 2026-02-12 11:16:20 +00:00 · 5dab9594dd
commit 5dab9594dd
1 changed files with 84 additions and 0 deletions
--- a/unknown_analysis/src/unknown_analysis/core.py
+++ b/unknown_analysis/src/unknown_analysis/core.py
@ -0,0 +1,84 @@
 from __future__ import annotations
 import pandas as pd
 from typing import List, Dict
 class InputValidationError(ValueError):
    """Exception raised when input log_data is invalid."""
    pass
 def _validate_log_data(log_data: list[dict]) -> None:
    if not isinstance(log_data, list):
        raise InputValidationError("log_data must be a list of dictionaries")
    required_fields = {"artifact_key", "status", "cause", "path", "error"}
    for i, entry in enumerate(log_data):
        if not isinstance(entry, dict):
            raise InputValidationError(f"Entry {i} is not a dictionary")
        missing = required_fields - set(entry.keys())
        if missing:
            raise InputValidationError(f"Entry {i} missing required keys: {missing}")
 def calculate_unknown_rates(log_data: List[Dict]) -> Dict[str, float]:
    """Berechnet die Unknown-Artifakt- und Unknown-Schema-Quoten aus Logdaten.
    Args:
        log_data: Liste von Dictionaries mit Artefaktinformationen.
    Returns:
        Dictionary mit den Raten der Unknown-Kategorien.
    """
    _validate_log_data(log_data)
    if not log_data:
        return {"unknown_artifact_missing_rate": 0.0, "unknown_schema_rate": 0.0}
    df = pd.DataFrame(log_data)
    total_count = max(len(df), 1)
    unknown_mask = df["status"].str.upper() == "UNKNOWN"
    unknown_df = df[unknown_mask]
    missing_rate = (unknown_df["cause"].str.contains("missing", case=False, na=False).sum()) / total_count
    schema_rate = (unknown_df["cause"].str.contains("schema", case=False, na=False).sum()) / total_count
    return {
        "unknown_artifact_missing_rate": round(missing_rate, 4),
        "unknown_schema_rate": round(schema_rate, 4),
    }
 def get_top_pass_unknown_switches(log_data: List[Dict]) -> List[Dict]:
    """Analysiert die häufigsten PASS→Unknown-Umschaltungen.
    Args:
        log_data: Liste der Logeinträge mit Statusänderungen und Fehlern.
    Returns:
        Liste der Top-Umschaltungen mit 'cause', 'path' und 'error'.
    """
    _validate_log_data(log_data)
    if not log_data:
        return []
    df = pd.DataFrame(log_data)
    df = df.sort_values(by=["artifact_key"])  # Ensure grouping order is stable
    pass_unknown = df.query('status.str.upper() == "UNKNOWN"', engine="python")
    # For simplicity, treat any UNKNOWN with a previous PASS artifact as a switch
    known_pass_artifacts = set(df.loc[df["status"].str.upper() == "PASS", "artifact_key"])
    switches = pass_unknown[pass_unknown["artifact_key"].isin(known_pass_artifacts)]
    if switches.empty:
        return []
    grouped = (
        switches.groupby(["cause", "path", "error"])
        .size()
        .reset_index(name="count")
        .sort_values(by="count", ascending=False)
    )
    top = grouped.head(10)[["cause", "path", "error"]]
    return top.to_dict(orient="records")