Add rerun_evaluator/src/rerun_evaluator/core.py

2026-01-31 13:07:41 +00:00 · 2026-01-31 13:07:41 +00:00 · fa99a0b2bf
commit fa99a0b2bf
parent f7af088970
1 changed files with 102 additions and 0 deletions
--- a/rerun_evaluator/src/rerun_evaluator/core.py
+++ b/rerun_evaluator/src/rerun_evaluator/core.py
@ -0,0 +1,102 @@
 from __future__ import annotations
 import json
 from dataclasses import dataclass
 from typing import List, Dict, Any
 import statistics
 import logging
 # Configure basic logging for CI-ready environments
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 class InvalidRunDataError(ValueError):
    """Raised when a RunData instance is invalid or has missing/incorrect fields."""
    pass
@dataclass
 class RunData:
    """Represents a single CI run entry with metadata for rerun evaluation."""
    run_id: str
    label_triggered: bool
    flappy: bool
    pinned: bool
    unknown_rate: float
    def __post_init__(self) -> None:
        if not isinstance(self.run_id, str) or not self.run_id:
            raise InvalidRunDataError("run_id must be a non-empty string")
        if not isinstance(self.label_triggered, bool):
            raise InvalidRunDataError("label_triggered must be a bool")
        if not isinstance(self.flappy, bool):
            raise InvalidRunDataError("flappy must be a bool")
        if not isinstance(self.pinned, bool):
            raise InvalidRunDataError("pinned must be a bool")
        if not isinstance(self.unknown_rate, (float, int)) or not (0.0 <= self.unknown_rate <= 1.0):
            raise InvalidRunDataError("unknown_rate must be a float between 0.0 and 1.0")
 def evaluate_rerun_needs(runs_data: List[RunData]) -> Dict[str, Any]:
    """Evaluate whether reruns are needed based on CI run historical data.
    Args:
        runs_data: List of RunData entries.
    Returns:
        dict: Evaluation metrics for rerun necessity and stability.
    """
    assert isinstance(runs_data, list), "runs_data must be a list of RunData instances"
    if not runs_data:
        return {
            "total_runs": 0,
            "rerun_recommended": False,
            "metrics": {
                "label_trigger_rate": 0.0,
                "flappy_rate": 0.0,
                "unknown_rate_avg": 0.0,
                "pinned_rate": 0.0,
            },
        }
    # Validate all elements
    for item in runs_data:
        if not isinstance(item, RunData):
            raise InvalidRunDataError("All elements in runs_data must be RunData instances")
    # Compute basic statistics
    label_triggered_values = [r.label_triggered for r in runs_data]
    flappy_values = [r.flappy for r in runs_data]
    pinned_values = [r.pinned for r in runs_data]
    unknown_rates = [r.unknown_rate for r in runs_data]
    metrics = {
        "label_trigger_rate": sum(label_triggered_values) / len(runs_data),
        "flappy_rate": sum(flappy_values) / len(runs_data),
        "unknown_rate_avg": statistics.fmean(unknown_rates) if unknown_rates else 0.0,
        "pinned_rate": sum(pinned_values) / len(runs_data),
    }
    # Simple heuristic for rerun recommendation
    rerun_recommended = (
        metrics["flappy_rate"] > 0.2 or
        metrics["unknown_rate_avg"] > 0.15 or
        metrics["label_trigger_rate"] < 0.3
    )
    result = {
        "total_runs": len(runs_data),
        "rerun_recommended": bool(rerun_recommended),
        "metrics": metrics,
    }
    logger.info(
        "Rerun evaluation completed: total_runs=%d, rerun_recommended=%s",
        result["total_runs"],
        result["rerun_recommended"],
    )
    return result