Add max_outlier_analysis_script/src/max_outlier_analysis_script/cli.py

2026-03-11 12:43:10 +00:00 · 2026-03-11 12:43:10 +00:00 · 8f351f9310
commit 8f351f9310
parent bd3d545b1b
1 changed files with 93 additions and 0 deletions
--- a/max_outlier_analysis_script/src/max_outlier_analysis_script/cli.py
+++ b/max_outlier_analysis_script/src/max_outlier_analysis_script/cli.py
@ -0,0 +1,93 @@
+import argparse
+import json
+import logging
+from pathlib import Path
+from typing import Any, Dict, List
+
+import pandas as pd
+
+from max_outlier_analysis_script.core import analyze_max_outliers
+
+
+logging.basicConfig(
+    level=logging.INFO,
+    format='[%(asctime)s] %(levelname)s:%(name)s: %(message)s'
+)
+logger = logging.getLogger(__name__)
+
+
+def _read_csv_input(path: Path) -> List[Dict[str, Any]]:
+    """Liest CSV-Eingabedatei und validiert die Felder."""
+    required_columns = {
+        'corr_id', 'stratum', 'job_parallelism',
+        'expires_at_dist_hours', 'retry_total_overhead_ms', 'latency_max'
+    }
+    df = pd.read_csv(path)
+
+    missing = required_columns - set(df.columns)
+    if missing:
+        raise ValueError(f"CSV fehlt Spalten: {missing}")
+
+    data = df.to_dict(orient='records')
+
+    # Typvalidierung einfach aber strikt
+    for i, record in enumerate(data):
+        assert isinstance(record['corr_id'], str), f"Zeile {i}: corr_id muss str sein"
+        assert isinstance(record['stratum'], str), f"Zeile {i}: stratum muss str sein"
+        assert isinstance(record['job_parallelism'], (int, float)), f"Zeile {i}: job_parallelism muss numerisch sein"
+        assert isinstance(record['expires_at_dist_hours'], (int, float)), f"Zeile {i}: expires_at_dist_hours muss numerisch sein"
+        assert isinstance(record['retry_total_overhead_ms'], (int, float)), f"Zeile {i}: retry_total_overhead_ms muss numerisch sein"
+        assert isinstance(record['latency_max'], (int, float)), f"Zeile {i}: latency_max muss numerisch sein"
+
+    logger.debug("CSV-Daten erfolgreich eingelesen und validiert (%d Records)", len(data))
+    return data
+
+
+def _write_json_output(output_path: Path, results: Dict[str, Any]) -> None:
+    output_path.parent.mkdir(parents=True, exist_ok=True)
+    with output_path.open('w', encoding='utf-8') as f:
+        json.dump(results, f, indent=2)
+    logger.info("Analyseergebnisse geschrieben nach %s", output_path)
+
+
+def main() -> None:
+    parser = argparse.ArgumentParser(
+        description="Analyse von Max-Outlier-Daten aus CI-Lasttests"
+    )
+    parser.add_argument('--input', required=True, help='Pfad zur CSV-Eingabedatei')
+    parser.add_argument('--output', required=False, default='output/analysis_summary.json',
+                        help='Pfad zur Ausgabedatei für Analyseergebnisse (JSON)')
+
+    args = parser.parse_args()
+
+    input_path = Path(args.input)
+    output_path = Path(args.output)
+
+    if not input_path.exists():
+        raise FileNotFoundError(f"Eingabedatei nicht gefunden: {input_path}")
+
+    try:
+        logger.info("Lese CSV-Datei: %s", input_path)
+        data = _read_csv_input(input_path)
+        logger.info("Starte Analyse über %d Datensätze", len(data))
+        results = analyze_max_outliers(data)
+
+        if not isinstance(results, dict):
+            raise TypeError("analyse_max_outliers muss ein dict zurückgeben")
+
+        # Minimalvalidierung des Ergebnisobjekts (CI-Ready)
+        expected_keys = {'max_above_p99_count', 'near_expiry_cluster_percentage', 'retry_overhead_variance'}
+        assert expected_keys.issubset(results.keys()), (
+            f"Ergebnis enthält nicht alle erwarteten Felder: {expected_keys - set(results.keys())}"
+        )
+
+        _write_json_output(output_path, results)
+        logger.info("Analyse abgeschlossen.")
+
+    except Exception as e:
+        logger.exception("Fehler bei der Ausführung: %s", e)
+        raise
+
+
+if __name__ == '__main__':
+    main()