Add rollout_data_analysis/tests/test_core.py

2026-02-21 15:27:05 +00:00 · 2026-02-21 15:27:05 +00:00 · aaca3d29df
commit aaca3d29df
parent 27da182255
1 changed files with 71 additions and 0 deletions
--- a/rollout_data_analysis/tests/test_core.py
+++ b/rollout_data_analysis/tests/test_core.py
@ -0,0 +1,71 @@
+import pytest
+import math
+from rollout_data_analysis import core
+
+class DummyAnalysisResults:
+    def __init__(self, min_val, median_val, p95_val, max_val):
+        self.min = min_val
+        self.median = median_val
+        self.p95 = p95_val
+        self.max = max_val
+
+@pytest.fixture
+def sample_rollout_data():
+    return [
+        {"run_id": "r1", "unknown_rate": 0.1, "warn_rate": 0.05, "policy_hash": "abc", "pinned": True},
+        {"run_id": "r2", "unknown_rate": 0.2, "warn_rate": 0.1,  "policy_hash": "abc", "pinned": False},
+        {"run_id": "r3", "unknown_rate": 0.4, "warn_rate": 0.2,  "policy_hash": "def", "pinned": False},
+        {"run_id": "r4", "unknown_rate": 0.3, "warn_rate": 0.15, "policy_hash": "ghi", "pinned": True}
+    ]
+
+
+def approx_equal(a, b, tol=1e-6):
+    return math.isclose(a, b, rel_tol=tol, abs_tol=tol)
+
+
+def test_analyze_data_basic(sample_rollout_data):
+    results = core.analyze_data(sample_rollout_data)
+    assert hasattr(results, 'min') and hasattr(results, 'median')
+    assert hasattr(results, 'p95') and hasattr(results, 'max')
+    values = [v["unknown_rate"] for v in sample_rollout_data]
+    assert approx_equal(results.min, min(values))
+    assert approx_equal(results.max, max(values))
+    # Median: Zwischen 0.2 und 0.3 -> 0.25
+    assert approx_equal(results.median, 0.25)
+    # P95 sollte nahe dem maximum liegen, aber nicht exakt
+    assert results.p95 <= results.max
+
+
+def test_analyze_data_empty():
+    with pytest.raises(ValueError):
+        core.analyze_data([])
+
+
+def test_analyze_data_invalid_input():
+    # Fehlt Feld unknown_rate
+    invalid_data = [{"run_id": "r1", "warn_rate": 0.1, "policy_hash": "x", "pinned": False}]
+    with pytest.raises((KeyError, ValueError, TypeError)):
+        core.analyze_data(invalid_data)
+
+
+def test_analyze_data_float_accuracy(sample_rollout_data):
+    results = core.analyze_data(sample_rollout_data)
+    assert isinstance(results.min, float)
+    assert isinstance(results.median, float)
+    assert isinstance(results.p95, float)
+    assert isinstance(results.max, float)
+    # Check monotonicity: min <= median <= p95 <= max
+    assert results.min <= results.median <= results.p95 <= results.max
+
+
+def test_analyze_data_with_duplicate_values():
+    rollout_data = [
+        {"run_id": f"r{i}", "unknown_rate": 0.25, "warn_rate": 0.05, "policy_hash": "h{i}", "pinned": False}
+        for i in range(10)
+    ]
+    results = core.analyze_data(rollout_data)
+    expected_val = 0.25
+    assert all(
+        approx_equal(getattr(results, attr), expected_val)
+        for attr in ('min', 'median', 'p95', 'max')
+    )