Add outlier_analysis/src/outlier_analysis/core.py

2026-03-13 16:23:00 +00:00 · 2026-03-13 16:23:00 +00:00 · 85fd92bba5
commit 85fd92bba5
parent 4b052da98a
1 changed files with 76 additions and 0 deletions
--- a/outlier_analysis/src/outlier_analysis/core.py
+++ b/outlier_analysis/src/outlier_analysis/core.py
@ -0,0 +1,76 @@
 from __future__ import annotations
 import json
 import statistics
 from pathlib import Path
 from typing import List, Dict, Any
 import pandas as pd
 class InputValidationError(ValueError):
    """Raised when input validation fails for log entries."""
    pass
 def _validate_log_entries(log_entries: List[Dict[str, Any]]) -> None:
    if not isinstance(log_entries, list):
        raise InputValidationError("log_entries must be a list of dicts.")
    for entry in log_entries:
        if not isinstance(entry, dict):
            raise InputValidationError("Each log entry must be a dict.")
        required_fields = [
            "corr_id",
            "stratum",
            "retry_total_overhead_ms",
        ]
        for field in required_fields:
            if field not in entry:
                raise InputValidationError(f"Missing required field '{field}' in log entry.")
 def analyze_outliers(log_entries: List[Dict[str, Any]]) -> Dict[str, Any]:
    """Analysiert Log-Einträge und erstellt statistische Kennzahlen zu Outliern.
    Args:
        log_entries (List[Dict[str, Any]]): Liste von Log-Einträgen.
    Returns:
        Dict[str, Any]: Statistik- und Clusterinformationen im JSON-kompatiblen Format.
    """
    _validate_log_entries(log_entries)
    df = pd.DataFrame(log_entries)
    if df.empty or 'retry_total_overhead_ms' not in df.columns:
        raise InputValidationError("No retry_total_overhead_ms data found.")
    values = df['retry_total_overhead_ms'].dropna().astype(float).tolist()
    if not values:
        raise InputValidationError("No valid numerical values for retry_total_overhead_ms.")
    report: Dict[str, Any] = {
        "mean": float(statistics.fmean(values)),
        "median": float(statistics.median(values)),
        "p90": float(df['retry_total_overhead_ms'].quantile(0.90)),
        "p95": float(df['retry_total_overhead_ms'].quantile(0.95)),
        "p99": float(df['retry_total_overhead_ms'].quantile(0.99)),
        "max": float(df['retry_total_overhead_ms'].max()),
        "clusters": [],
    }
    high_threshold = report["p95"]
    clusters = []
    high_outliers = df[df['retry_total_overhead_ms'] >= high_threshold]
    if not high_outliers.empty:
        grouped = high_outliers.groupby('stratum')
        for name, group in grouped:
            clusters.append({
                "stratum": name,
                "count": int(len(group)),
                "mean_overhead": float(group['retry_total_overhead_ms'].mean()),
                "max_overhead": float(group['retry_total_overhead_ms'].max()),
            })
    report["clusters"] = clusters
    # CI assertions for data integrity
    assert set(report.keys()) == {"mean", "median", "p90", "p95", "p99", "max", "clusters"}, "Unexpected report format"
    return report