Auto experiment repo from n8n
Find a file
2026-01-31 13:07:43 +00:00
dataset_exporter Add dataset_exporter/requirements.txt 2026-01-31 13:07:41 +00:00
drift_report_parser Add drift_report_parser/requirements.txt 2026-01-31 13:07:39 +00:00
rerun_evaluator Add rerun_evaluator/requirements.txt 2026-01-31 13:07:43 +00:00
LICENCE.md Add LICENCE.md 2026-01-31 13:07:43 +00:00
README.md Add README.md 2026-01-31 13:07:43 +00:00

Dataset Creation and Analysis

Überblick

Dieses Projekt mit dem experiment_key dataset_creation_and_analysis beschreibt ein Experiment zur Erstellung und Analyse eines Datasets aus CI-Artefakten zur Überwachung von Policy-Entscheidungen und Drift-Signalen.

Artikel-Link

Git-Repository

Hinweis

Alle Inhalte wurden per KI generiert.
Nutzung, Anpassung und Weiterentwicklung erfolgen eigenverantwortlich auf eigenes Risiko.
Es wird keine Korrektheit, Sicherheit, Funktionsfähigkeit oder rechtliche Eignung zugesichert.

Inhalt des Repositories

Enthalten sind mehrere Python-Skripte, die Daten aus CI-Artefakten extrahieren, analysieren und als Dataset exportieren.

Artefakte

1. drift_report_parser

  • Art: python_script
  • Ziel: mixed
  • Sprachen: Python
  • Zweck: Analysiert Drift-Berichte und extrahiert relevante Felder aus JSON-Daten.

API-Funktionen:

  • parse_drift_report(file_path) → parsed_data (Liste von Dictionaries)
    • Liest eine Drift-Report-Datei ein und gibt strukturierte Daten zurück.

Datenstruktur: DriftReportData

  • Felder: timestamp, pinned, unpinned, decision, rolling_warn_rate, counts, label, comment

2. dataset_exporter

  • Art: python_script
  • Ziel: mixed
  • Sprachen: Python
  • Zweck: Exportiert die analysierten Daten im JSONL- oder CSV-Format.

API-Funktionen:

  • export_dataset(dataset, output_format, output_path) → None
    • Speichert ein Dataset im gewünschten Ausgabeformat.

Datenstruktur: ExportOptions

  • Felder: output_format, output_path

3. rerun_evaluator

  • Art: python_script
  • Ziel: mixed
  • Sprachen: Python
  • Zweck: Bewertet die Notwendigkeit von Reruns auf Basis vorheriger Laufdaten.

API-Funktionen:

  • evaluate_rerun_needs(runs_data) → rerun_evaluation (Dictionary)
    • Analysiert Laufhistorien und bestimmt, ob erneute Ausführungen sinnvoll sind.

Datenstruktur: RunData

  • Felder: run_id, label_triggered, flappy, pinned, unknown_rate

Installation & Nutzung

Voraussetzungen

  • Python 3.8 oder höher
  • Abhängigkeiten gemäß requirements.txt (sofern vorhanden)

Installation

  1. Repository klonen:
    git clone https://git.donau2space.de/Mika/dataset_creation_and_analysis
    cd dataset_creation_and_analysis
    
  2. Optionale virtuelle Umgebung erstellen und aktivieren.
  3. Abhängigkeiten installieren:
    pip install -r requirements.txt
    

Nutzung

Die Skripte können einzeln ausgeführt oder in eigenen Python-Pipelines importiert werden.

Beispiele:

  • Drift-Report parsen:
    python drift_report_parser.py path/to/report.json
    
  • Dataset exportieren:
    python dataset_exporter.py dataset.jsonl csv output.csv
    
  • Rerun-Bewertung durchführen:
    python rerun_evaluator.py previous_runs.json
    

Typische Use-Cases

  • Analyse von Drift-Berichten aus CI/CD-Systemen
  • Erstellung strukturierter Datasets für Machine-Learning-Auswertungen
  • Bewertung und Reduktion unnötiger Reruns
  • Vorbereitung von Experiment-Datenexporten

Struktur & mögliche Erweiterungen

  • Erweiterbar um zusätzliche Parser für andere Artefakt-Typen
  • Kombinierbar mit Dashboard- oder Reporting-Komponenten
  • Integration möglich in bestehende CI/CD-Überwachungsframeworks

Lizenz

Dieses Projekt steht unter der MIT-Lizenz.


Hinweis: Diese README-Datei und alle zugehörigen Inhalte wurden automatisiert per KI generiert. Nutzung auf eigene Verantwortung.