Add data_analysis/src/data_analysis/core.py

2026-02-24 13:33:05 +00:00 · 2026-02-24 13:33:05 +00:00 · 5cd3549a76
commit 5cd3549a76
parent 6be3c5b35c
1 changed files with 73 additions and 0 deletions
--- a/data_analysis/src/data_analysis/core.py
+++ b/data_analysis/src/data_analysis/core.py
@ -0,0 +1,73 @@
+from __future__ import annotations
+
+import pandas as pd
+from typing import List, Dict
+
+
+class DataValidationError(ValueError):
+    """Raised when provided run data is invalid or incomplete."""
+    pass
+
+
+def _validate_run_data(data: List[dict]) -> None:
+    required_fields = {"policy_hash", "warn_rate", "unknown_rate", "delta_time"}
+    if not isinstance(data, list):
+        raise DataValidationError("Input data must be a list of dictionaries.")
+    for entry in data:
+        if not isinstance(entry, dict):
+            raise DataValidationError("Each run entry must be a dictionary.")
+        missing = required_fields - set(entry.keys())
+        if missing:
+            raise DataValidationError(f"Missing required fields: {missing}")
+        for field in required_fields:
+            if field in ("warn_rate", "unknown_rate", "delta_time"):
+                try:
+                    float(entry[field])
+                except (TypeError, ValueError):
+                    raise DataValidationError(
+                        f"Field '{field}' must be convertible to float."
+                    )
+
+
+def calculate_warn_rate(data: List[dict]) -> float:
+    """Computes the average warning rate across all runs.
+
+    Args:
+        data: List of run data records each with a 'warn_rate' field.
+
+    Returns:
+        Average warning rate as a float. If data is empty, returns 0.0.
+    """
+    _validate_run_data(data)
+    if not data:
+        return 0.0
+    df = pd.DataFrame(data)
+    mean_warn_rate = df["warn_rate"].astype(float).mean()
+    assert 0.0 <= mean_warn_rate <= 1.0 or mean_warn_rate > 1.0, "Mean warning rate should be non-negative."
+    return float(mean_warn_rate)
+
+
+def delta_time_distribution(data: List[dict]) -> Dict[str, float]:
+    """Calculates distribution statistics (mean, variance, min, max) for delta_time.
+
+    Args:
+        data: List of run data records with 'delta_time' field.
+
+    Returns:
+        Dictionary containing mean, variance, min, max metrics.
+        If data is empty, returns metrics set to 0.0.
+    """
+    _validate_run_data(data)
+    if not data:
+        return {"mean": 0.0, "variance": 0.0, "min": 0.0, "max": 0.0}
+    df = pd.DataFrame(data)
+    delta_col = df["delta_time"].astype(float)
+    stats = {
+        "mean": float(delta_col.mean()),
+        "variance": float(delta_col.var(ddof=0)),
+        "min": float(delta_col.min()),
+        "max": float(delta_col.max()),
+    }
+    for key, val in stats.items():
+        assert isinstance(val, float), f"Statistic '{key}' must be float."
+    return stats