Add rollout_report_generator/src/rollout_report_generator/core.py

2026-02-21 15:27:03 +00:00 · 2026-02-21 15:27:03 +00:00 · 20205707ee
commit 20205707ee
1 changed files with 128 additions and 0 deletions
--- a/rollout_report_generator/src/rollout_report_generator/core.py
+++ b/rollout_report_generator/src/rollout_report_generator/core.py
@ -0,0 +1,128 @@
+from __future__ import annotations
+
+import argparse
+import logging
+from dataclasses import dataclass
+from datetime import datetime
+from pathlib import Path
+from typing import Optional
+
+import pandas as pd
+
+# Logging setup
+logging.basicConfig(level=logging.INFO, format='[%(asctime)s] %(levelname)s - %(message)s')
+logger = logging.getLogger(__name__)
+
+
+@dataclass
+class RolloutData:
+    unknown_rate: float
+    warn_rate: float
+    policy_hash: str
+    runs: int
+
+
+@dataclass
+class WhitelistEntry:
+    key: str
+    scope: str
+    rationale: str
+    added_at: datetime
+    expires_at: Optional[datetime]
+
+
+class ReportGenerationError(Exception):
+    """Custom exception for errors during report generation."""
+    pass
+
+
+def _validate_dataframe(df: pd.DataFrame) -> None:
+    required_columns = {"unknown_rate", "warn_rate", "policy_hash", "runs"}
+    missing = required_columns - set(df.columns)
+    if missing:
+        raise ReportGenerationError(f"Missing required columns: {', '.join(missing)}")
+    for col in ["unknown_rate", "warn_rate"]:
+        if not pd.api.types.is_numeric_dtype(df[col]):
+            raise ReportGenerationError(f"Column {col} must be numeric.")
+    if not pd.api.types.is_integer_dtype(df["runs"]):
+        raise ReportGenerationError("Column 'runs' must be integer.")
+
+
+def _calculate_metrics(df: pd.DataFrame, col: str) -> dict[str, float]:
+    series = df[col].dropna()
+    stats = {
+        "min": float(series.min()),
+        "median": float(series.median()),
+        "p95": float(series.quantile(0.95)),
+        "max": float(series.max()),
+    }
+    return stats
+
+
+def _generate_markdown_report(unknown_metrics: dict[str, float], warn_metrics: dict[str, float]) -> str:
+    lines = [
+        "# Rollout Data Analysis Report", "",
+        f"Generated at: {datetime.utcnow().isoformat()} UTC", "",
+        "## Metrics Summary", "",
+        "| Metric | unknown_rate | warn_rate |",
+        "|---------|--------------|-----------|",
+        f"| Min | {unknown_metrics['min']:.4f} | {warn_metrics['min']:.4f} |",
+        f"| Median | {unknown_metrics['median']:.4f} | {warn_metrics['median']:.4f} |",
+        f"| P95 | {unknown_metrics['p95']:.4f} | {warn_metrics['p95']:.4f} |",
+        f"| Max | {unknown_metrics['max']:.4f} | {warn_metrics['max']:.4f} |",
+        "",
+        "## Threshold Recommendations", "",
+        "- **unknown_rate PASS threshold** ≤ median",
+        "- **unknown_rate WARN threshold** between median and p95",
+        "- **warn_rate PASS threshold** ≤ median",
+        "- **warn_rate WARN threshold** between median and p95",
+        "",
+        "## Notes", "",
+        "This report summarizes historical rollout behavior to assist in setting validation thresholds.",
+    ]
+    return "\n".join(lines)
+
+
+def generate_report(csv_file_path: str, md_file_path: str) -> None:
+    """Reads rollout CSV data, calculates metrics, and writes a Markdown report."""
+    logger.info("Starting report generation.")
+    try:
+        csv_path = Path(csv_file_path)
+        md_path = Path(md_file_path)
+
+        if not csv_path.exists():
+            raise ReportGenerationError(f"Input file not found: {csv_file_path}")
+
+        df = pd.read_csv(csv_path)
+        _validate_dataframe(df)
+
+        unknown_metrics = _calculate_metrics(df, "unknown_rate")
+        warn_metrics = _calculate_metrics(df, "warn_rate")
+
+        report_content = _generate_markdown_report(unknown_metrics, warn_metrics)
+
+        md_path.parent.mkdir(parents=True, exist_ok=True)
+        md_path.write_text(report_content, encoding="utf-8")
+
+        logger.info(f"Markdown report successfully written to {md_path}.")
+    except Exception as exc:
+        logger.exception("Failed to generate rollout report.")
+        raise ReportGenerationError(str(exc)) from exc
+
+
+# CLI entrypoint
+def _build_cli_parser() -> argparse.ArgumentParser:
+    parser = argparse.ArgumentParser(description="Generate rollout metrics report.")
+    parser.add_argument("--csv", required=True, help="Path to rollout CSV file.")
+    parser.add_argument("--out", required=True, help="Path to output markdown file.")
+    return parser
+
+
+def main() -> None:
+    parser = _build_cli_parser()
+    args = parser.parse_args()
+    generate_report(args.csv, args.out)
+
+
+if __name__ == "__main__":
+    main()