Add data_analysis/src/data_analysis/core.py

2026-02-22 03:07:04 +00:00 · 2026-02-22 03:07:04 +00:00 · c98bd3bdda
commit c98bd3bdda
parent f436a8d19f
1 changed files with 102 additions and 0 deletions
--- a/data_analysis/src/data_analysis/core.py
+++ b/data_analysis/src/data_analysis/core.py
@ -0,0 +1,102 @@
 import json
 import argparse
 import logging
 import numpy as np
 import pandas as pd
 from pathlib import Path
 from typing import List, Dict, Any
 class DataValidationError(Exception):
    """Custom exception for invalid input data."""
    pass
 def _validate_data_points(data: List[Dict[str, Any]], required_fields=("intensity", "background_noise")) -> None:
    if not isinstance(data, list):
        raise DataValidationError("Input data must be a list of dictionaries.")
    for i, item in enumerate(data):
        if not isinstance(item, dict):
            raise DataValidationError(f"Data item at index {i} is not a dictionary.")
        for field in required_fields:
            if field not in item:
                raise DataValidationError(f"Missing field '{field}' in data item at index {i}.")
            if not isinstance(item[field], (int, float)):
                raise DataValidationError(f"Field '{field}' in item {i} must be numeric.")
 def correct_flourescence(raw_data: List[Dict[str, float]]) -> List[Dict[str, float]]:
    """Korrigiert Roh-Fluoreszenzdaten durch Glättung und Basislinienabzug."""
    _validate_data_points(raw_data)
    df = pd.DataFrame(raw_data)
    # Glättung (moving average filter)
    df['intensity'] = df['intensity'].rolling(window=3, min_periods=1, center=True).mean()
    # Basislinienabzug anhand des Medianwerts
    baseline = df['background_noise'].median()
    df['corrected_intensity'] = np.maximum(df['intensity'] - baseline, 0)
    corrected = [
        {
            'intensity': float(row['corrected_intensity']),
            'background_noise': float(row['background_noise'])
        }
        for _, row in df.iterrows()
    ]
    return corrected
 def substract_reference(data: List[Dict[str, float]], reference: List[Dict[str, float]]) -> List[Dict[str, float]]:
    """Subtrahiert Referenzwerte (z. B. Fremdlicht) aus den Daten."""
    _validate_data_points(data)
    _validate_data_points(reference)
    df_data = pd.DataFrame(data)
    df_ref = pd.DataFrame(reference)
    # Falls Längen unterschiedlich, mit Minimalgröße arbeiten
    min_len = min(len(df_data), len(df_ref))
    df_data = df_data.iloc[:min_len].reset_index(drop=True)
    df_ref = df_ref.iloc[:min_len].reset_index(drop=True)
    df_result = df_data.copy()
    df_result['intensity'] = np.maximum(df_data['intensity'] - df_ref['intensity'], 0)
    return df_result.to_dict(orient='records')
 def _load_json(path: Path) -> List[Dict[str, Any]]:
    with path.open('r', encoding='utf-8') as f:
        return json.load(f)
 def _save_json(data: List[Dict[str, Any]], path: Path) -> None:
    path.parent.mkdir(parents=True, exist_ok=True)
    with path.open('w', encoding='utf-8') as f:
        json.dump(data, f, indent=2)
 def main():
    parser = argparse.ArgumentParser(description="Fluoreszenzdaten-Korrektur")
    parser.add_argument('--input', required=True, help='Pfad zur Eingabedatei mit Rohdaten (JSON).')
    parser.add_argument('--reference', required=True, help='Pfad zur Referenzdatei (JSON).')
    parser.add_argument('--output', required=True, help='Pfad zur Ausgabedatei (JSON).')
    args = parser.parse_args()
    logging.basicConfig(level=logging.INFO, format='[%(levelname)s] %(message)s')
    logger = logging.getLogger(__name__)
    in_path = Path(args.input)
    ref_path = Path(args.reference)
    out_path = Path(args.output)
    logger.info(f"Lade Rohdaten aus {in_path}...")
    raw_data = _load_json(in_path)
    logger.info(f"Lade Referenzdaten aus {ref_path}...")
    reference_data = _load_json(ref_path)
    logger.info("Korrigiere Fluoreszenzdaten...")
    corrected = correct_flourescence(raw_data)
    logger.info("Subtrahiere Referenzsignal...")
    result = substract_reference(corrected, reference_data)
    _save_json(result, out_path)
    logger.info(f"Korrigierte Daten wurden nach {out_path} geschrieben.")
 if __name__ == '__main__':
    main()