3.6 KiB
Dataset Creation and Analysis
Überblick
Dieses Projekt mit dem experiment_key dataset_creation_and_analysis beschreibt ein Experiment zur Erstellung und Analyse eines Datasets aus CI-Artefakten zur Überwachung von Policy-Entscheidungen und Drift-Signalen.
Hinweis
Alle Inhalte wurden per KI generiert.
Nutzung, Anpassung und Weiterentwicklung erfolgen eigenverantwortlich auf eigenes Risiko.
Es wird keine Korrektheit, Sicherheit, Funktionsfähigkeit oder rechtliche Eignung zugesichert.
Inhalt des Repositories
Enthalten sind mehrere Python-Skripte, die Daten aus CI-Artefakten extrahieren, analysieren und als Dataset exportieren.
Artefakte
1. drift_report_parser
- Art: python_script
- Ziel: mixed
- Sprachen: Python
- Zweck: Analysiert Drift-Berichte und extrahiert relevante Felder aus JSON-Daten.
API-Funktionen:
parse_drift_report(file_path)→ parsed_data (Liste von Dictionaries)- Liest eine Drift-Report-Datei ein und gibt strukturierte Daten zurück.
Datenstruktur: DriftReportData
- Felder: timestamp, pinned, unpinned, decision, rolling_warn_rate, counts, label, comment
2. dataset_exporter
- Art: python_script
- Ziel: mixed
- Sprachen: Python
- Zweck: Exportiert die analysierten Daten im JSONL- oder CSV-Format.
API-Funktionen:
export_dataset(dataset, output_format, output_path)→ None- Speichert ein Dataset im gewünschten Ausgabeformat.
Datenstruktur: ExportOptions
- Felder: output_format, output_path
3. rerun_evaluator
- Art: python_script
- Ziel: mixed
- Sprachen: Python
- Zweck: Bewertet die Notwendigkeit von Reruns auf Basis vorheriger Laufdaten.
API-Funktionen:
evaluate_rerun_needs(runs_data)→ rerun_evaluation (Dictionary)- Analysiert Laufhistorien und bestimmt, ob erneute Ausführungen sinnvoll sind.
Datenstruktur: RunData
- Felder: run_id, label_triggered, flappy, pinned, unknown_rate
Installation & Nutzung
Voraussetzungen
- Python 3.8 oder höher
- Abhängigkeiten gemäß
requirements.txt(sofern vorhanden)
Installation
- Repository klonen:
git clone https://git.donau2space.de/Mika/dataset_creation_and_analysis cd dataset_creation_and_analysis - Optionale virtuelle Umgebung erstellen und aktivieren.
- Abhängigkeiten installieren:
pip install -r requirements.txt
Nutzung
Die Skripte können einzeln ausgeführt oder in eigenen Python-Pipelines importiert werden.
Beispiele:
- Drift-Report parsen:
python drift_report_parser.py path/to/report.json - Dataset exportieren:
python dataset_exporter.py dataset.jsonl csv output.csv - Rerun-Bewertung durchführen:
python rerun_evaluator.py previous_runs.json
Typische Use-Cases
- Analyse von Drift-Berichten aus CI/CD-Systemen
- Erstellung strukturierter Datasets für Machine-Learning-Auswertungen
- Bewertung und Reduktion unnötiger Reruns
- Vorbereitung von Experiment-Datenexporten
Struktur & mögliche Erweiterungen
- Erweiterbar um zusätzliche Parser für andere Artefakt-Typen
- Kombinierbar mit Dashboard- oder Reporting-Komponenten
- Integration möglich in bestehende CI/CD-Überwachungsframeworks
Lizenz
Dieses Projekt steht unter der MIT-Lizenz.
Hinweis: Diese README-Datei und alle zugehörigen Inhalte wurden automatisiert per KI generiert. Nutzung auf eigene Verantwortung.