Add audit_drift_script/src/audit_drift_script/core.py

2026-02-03 17:11:44 +00:00 · 2026-02-03 17:11:44 +00:00 · 4d283df368
commit 4d283df368
1 changed files with 183 additions and 0 deletions
--- a/audit_drift_script/src/audit_drift_script/core.py
+++ b/audit_drift_script/src/audit_drift_script/core.py
@ -0,0 +1,183 @@
+import os
+import json
+import argparse
+import logging
+from datetime import datetime
+from pathlib import Path
+from collections import defaultdict
+from typing import List, Dict, Any
+import pandas as pd
+
+logging.basicConfig(level=logging.INFO, format='[%(asctime)s] %(levelname)s: %(message)s')
+
+
+class SchemaValidationError(Exception):
+    """Custom exception for invalid report schema."""
+    pass
+
+
+class ReportData:
+    """Represents a single drift_report.json file."""
+
+    def __init__(self, timestamp: datetime, run_id: str, stratum: str, decision: str, warn_rate: float, unknown_rate: float):
+        self.timestamp = timestamp
+        self.run_id = run_id
+        self.stratum = stratum
+        self.decision = decision
+        self.warn_rate = warn_rate
+        self.unknown_rate = unknown_rate
+
+    @classmethod
+    def from_json(cls, json_dict: Dict[str, Any]) -> 'ReportData':
+        if not validate_report_schema(json_dict):
+            raise SchemaValidationError("Invalid report schema encountered.")
+        timestamp = datetime.fromisoformat(json_dict['timestamp'])
+        return cls(
+            timestamp=timestamp,
+            run_id=json_dict['run_id'],
+            stratum=json_dict['stratum'],
+            decision=json_dict['decision'],
+            warn_rate=float(json_dict['warn_rate']),
+            unknown_rate=float(json_dict['unknown_rate'])
+        )
+
+    def to_dict(self) -> Dict[str, Any]:
+        return {
+            'timestamp': self.timestamp.isoformat(),
+            'run_id': self.run_id,
+            'stratum': self.stratum,
+            'decision': self.decision,
+            'warn_rate': self.warn_rate,
+            'unknown_rate': self.unknown_rate
+        }
+
+
+def validate_report_schema(report_json: Dict[str, Any]) -> bool:
+    """Validate required fields and value ranges."""
+    required_fields = {'timestamp': str, 'run_id': str, 'stratum': str, 'decision': str, 'warn_rate': (int, float), 'unknown_rate': (int, float)}
+    valid_strata = {'pinned', 'unpinned'}
+    valid_decisions = {'PASS', 'WARN', 'FAIL'}
+
+    for field, expected_type in required_fields.items():
+        if field not in report_json:
+            logging.error(f"Missing required field: {field}")
+            return False
+        if not isinstance(report_json[field], expected_type):
+            logging.error(f"Invalid type for field {field}")
+            return False
+
+    if report_json['stratum'] not in valid_strata:
+        logging.error(f"Invalid stratum value: {report_json['stratum']}")
+        return False
+    if report_json['decision'] not in valid_decisions:
+        logging.error(f"Invalid decision value: {report_json['decision']}")
+        return False
+    try:
+        datetime.fromisoformat(report_json['timestamp'])
+    except Exception:
+        logging.error("Invalid timestamp format.")
+        return False
+    if not (0.0 <= float(report_json['warn_rate']) <= 1.0):
+        logging.error("warn_rate out of range.")
+        return False
+    if not (0.0 <= float(report_json['unknown_rate']) <= 1.0):
+        logging.error("unknown_rate out of range.")
+        return False
+    return True
+
+
+def aggregate_statistics(reports: List[ReportData]) -> Dict[str, Any]:
+    """Aggregate results per stratum and overall metrics."""
+    if not reports:
+        return {}
+
+    df = pd.DataFrame([r.to_dict() for r in reports])
+    agg = {}
+
+    for stratum, group in df.groupby('stratum'):
+        agg[stratum] = {
+            'count': len(group),
+            'mean_warn_rate': group['warn_rate'].mean(),
+            'mean_unknown_rate': group['unknown_rate'].mean(),
+            'decision_counts': group['decision'].value_counts().to_dict()
+        }
+
+    agg['total'] = {
+        'count': len(df),
+        'mean_warn_rate': df['warn_rate'].mean(),
+        'mean_unknown_rate': df['unknown_rate'].mean(),
+        'decision_counts': df['decision'].value_counts().to_dict()
+    }
+
+    return agg
+
+
+def analyze_reports(directory_path: str) -> Dict[str, Any]:
+    """Scan directory recursively, validate and aggregate drift_report.json files."""
+    directory = Path(directory_path)
+    if not directory.exists() or not directory.is_dir():
+        raise FileNotFoundError(f"Directory not found: {directory_path}")
+
+    reports: List[ReportData] = []
+
+    for file_path in directory.rglob('drift_report.json'):
+        try:
+            with open(file_path, 'r', encoding='utf-8') as f:
+                report_json = json.load(f)
+            if validate_report_schema(report_json):
+                reports.append(ReportData.from_json(report_json))
+            else:
+                logging.warning(f"Skipping invalid report: {file_path}")
+        except Exception as e:
+            logging.error(f"Failed to process {file_path}: {e}")
+
+    agg_result = aggregate_statistics(reports)
+
+    # Generate outputs
+    if reports:
+        output_dir = Path('output')
+        output_dir.mkdir(parents=True, exist_ok=True)
+
+        csv_path = output_dir / 'audit.csv'
+        md_path = output_dir / 'drift_report_agg.md'
+
+        # CSV output
+        rows = []
+        for stratum, stats in agg_result.items():
+            row = {'stratum': stratum, **{k: v for k, v in stats.items() if k != 'decision_counts'}}
+            for decision, count in stats['decision_counts'].items():
+                row[f'decision_{decision}'] = count
+            rows.append(row)
+        pd.DataFrame(rows).to_csv(csv_path, index=False)
+
+        # Markdown output
+        with open(md_path, 'w', encoding='utf-8') as md:
+            md.write('# Drift Report Aggregation Summary\n\n')
+            for stratum, stats in agg_result.items():
+                md.write(f"## {stratum.capitalize()}\n")
+                md.write(f"Total Reports: {stats['count']}\n\n")
+                md.write(f"Mean Warn Rate: {stats['mean_warn_rate']:.3f}\n\n")
+                md.write(f"Mean Unknown Rate: {stats['mean_unknown_rate']:.3f}\n\n")
+                md.write('### Decision Counts\n')
+                for d, c in stats['decision_counts'].items():
+                    md.write(f"- {d}: {c}\n")
+                md.write('\n')
+
+    return agg_result
+
+
+def _main():
+    parser = argparse.ArgumentParser(description='Analyze drift_report.json files.')
+    parser.add_argument('--input', required=True, help='Path to input directory containing drift_report.json files.')
+    parser.add_argument('--out', required=False, default='output', help='Output directory for generated files.')
+    args = parser.parse_args()
+
+    logging.info(f"Analyzing drift reports in {args.input}")
+    results = analyze_reports(args.input)
+    logging.info(f"Analysis completed. Results:")
+    for k, v in results.items():
+        logging.info(f"{k}: {v}")
+
+
+if __name__ == '__main__':
+    _main()