Add outlier_analysis/src/outlier_analysis/core.py

2026-03-12 11:51:44 +00:00 · 2026-03-12 11:51:44 +00:00 · 7c883811f2
commit 7c883811f2
1 changed files with 106 additions and 0 deletions
--- a/outlier_analysis/src/outlier_analysis/core.py
+++ b/outlier_analysis/src/outlier_analysis/core.py
@ -0,0 +1,106 @@
 from __future__ import annotations
 import logging
 from typing import List, Dict, Any
 import pandas as pd
 from dataclasses import dataclass, asdict
 import statistics
 logger = logging.getLogger(__name__)
@dataclass
 class LogRecord:
    run_id: str
    latency_ms: float
    stratum: str
    job_parallelism: int
    retry_total_overhead_ms: float
    @classmethod
    def from_dict(cls, data: Dict[str, Any]) -> 'LogRecord':
        required_fields = {f.name for f in cls.__dataclass_fields__.values()}
        missing = required_fields - data.keys()
        if missing:
            raise ValueError(f"Missing required fields: {missing}")
        try:
            return cls(
                run_id=str(data['run_id']),
                latency_ms=float(data['latency_ms']),
                stratum=str(data['stratum']),
                job_parallelism=int(data['job_parallelism']),
                retry_total_overhead_ms=float(data['retry_total_overhead_ms'])
            )
        except (ValueError, TypeError) as exc:
            raise ValueError(f"Invalid data in LogRecord: {data}") from exc
@dataclass
 class OutlierSummary:
    run_id: str
    outlier_count: int
    latency_distribution: Dict[str, float]
    def to_dict(self) -> Dict[str, Any]:
        return asdict(self)
 class OutlierAnalysisError(Exception):
    """Custom exception for outlier analysis errors."""
    pass
 def analyze_outliers(log_data: List[Dict[str, Any]]) -> Dict[str, Any]:
    """
    Analysiert Logdaten auf Latenz-Outlier und erzeugt eine summarische Statistik pro Run.
    Parameter:
        log_data: Liste von Logeinträgen als Dicts.
    Rückgabe:
        Dict mit Schlüssel = run_id, Wert = OutlierSummary.to_dict()
    """
    if not isinstance(log_data, list):
        raise OutlierAnalysisError("Input log_data must be a list of dicts.")
    try:
        records = [LogRecord.from_dict(item) for item in log_data]
    except ValueError as e:
        logger.error("Data validation failed: %s", e)
        raise OutlierAnalysisError(str(e))
    df = pd.DataFrame([asdict(r) for r in records])
    if df.empty:
        return {}
    summaries: Dict[str, Any] = {}
    for run_id, group in df.groupby('run_id'):
        latencies = group['latency_ms']
        p50 = float(latencies.quantile(0.5))
        p95 = float(latencies.quantile(0.95))
        p99 = float(latencies.quantile(0.99))
        max_latency = float(latencies.max())
        # Define outliers as latency > p99
        outlier_mask = latencies > p99
        outlier_count = int(outlier_mask.sum())
        latency_distribution = {
            'p50': round(p50, 3),
            'p95': round(p95, 3),
            'p99': round(p99, 3),
            'max': round(max_latency, 3)
        }
        summary = OutlierSummary(
            run_id=str(run_id),
            outlier_count=outlier_count,
            latency_distribution=latency_distribution
        )
        summaries[str(run_id)] = summary.to_dict()
        logger.debug("Processed run_id=%s: %s", run_id, summary)
    assert all('run_id' in s for s in summaries.values()), 'Validation: Missing run_id in summary.'
    return summaries