dataset_creation_and_analysis/README.md

# Dataset Creation and Analysis

## Überblick
Dieses Projekt mit dem experiment_key **dataset_creation_and_analysis** beschreibt ein Experiment zur Erstellung und Analyse eines Datasets aus CI-Artefakten zur Überwachung von Policy-Entscheidungen und Drift-Signalen.

[Artikel-Link](https://donau2space.de/tag-135-aus-live-artefakten-ein-dataset-gebaut-n10-vs-n20-flappy-zaehler-inklusive/)

[Git-Repository](https://git.donau2space.de/Mika/dataset_creation_and_analysis)

### Hinweis
Alle Inhalte wurden per KI generiert.
Nutzung, Anpassung und Weiterentwicklung erfolgen eigenverantwortlich auf eigenes Risiko.
Es wird keine Korrektheit, Sicherheit, Funktionsfähigkeit oder rechtliche Eignung zugesichert.

## Inhalt des Repositories
Enthalten sind mehrere Python-Skripte, die Daten aus CI-Artefakten extrahieren, analysieren und als Dataset exportieren.

### Artefakte

#### 1. drift_report_parser
- **Art:** python_script
- **Ziel:** mixed
- **Sprachen:** Python
- **Zweck:** Analysiert Drift-Berichte und extrahiert relevante Felder aus JSON-Daten.

**API-Funktionen:**
- `parse_drift_report(file_path)` → parsed_data (Liste von Dictionaries)
  - Liest eine Drift-Report-Datei ein und gibt strukturierte Daten zurück.

**Datenstruktur:** `DriftReportData`
- Felder: timestamp, pinned, unpinned, decision, rolling_warn_rate, counts, label, comment

#### 2. dataset_exporter
- **Art:** python_script
- **Ziel:** mixed
- **Sprachen:** Python
- **Zweck:** Exportiert die analysierten Daten im JSONL- oder CSV-Format.

**API-Funktionen:**
- `export_dataset(dataset, output_format, output_path)` → None
  - Speichert ein Dataset im gewünschten Ausgabeformat.

**Datenstruktur:** `ExportOptions`
- Felder: output_format, output_path

#### 3. rerun_evaluator
- **Art:** python_script
- **Ziel:** mixed
- **Sprachen:** Python
- **Zweck:** Bewertet die Notwendigkeit von Reruns auf Basis vorheriger Laufdaten.

**API-Funktionen:**
- `evaluate_rerun_needs(runs_data)` → rerun_evaluation (Dictionary)
  - Analysiert Laufhistorien und bestimmt, ob erneute Ausführungen sinnvoll sind.

**Datenstruktur:** `RunData`
- Felder: run_id, label_triggered, flappy, pinned, unknown_rate

## Installation & Nutzung
### Voraussetzungen
- Python 3.8 oder höher
- Abhängigkeiten gemäß `requirements.txt` (sofern vorhanden)

### Installation
1. Repository klonen:
   ```
   git clone https://git.donau2space.de/Mika/dataset_creation_and_analysis
   cd dataset_creation_and_analysis
   ```
2. Optionale virtuelle Umgebung erstellen und aktivieren.
3. Abhängigkeiten installieren:
   ```
   pip install -r requirements.txt
   ```

### Nutzung
Die Skripte können einzeln ausgeführt oder in eigenen Python-Pipelines importiert werden.

Beispiele:
- Drift-Report parsen:
  ```
  python drift_report_parser.py path/to/report.json
  ```
- Dataset exportieren:
  ```
  python dataset_exporter.py dataset.jsonl csv output.csv
  ```
- Rerun-Bewertung durchführen:
  ```
  python rerun_evaluator.py previous_runs.json
  ```

## Typische Use-Cases
- Analyse von Drift-Berichten aus CI/CD-Systemen
- Erstellung strukturierter Datasets für Machine-Learning-Auswertungen
- Bewertung und Reduktion unnötiger Reruns
- Vorbereitung von Experiment-Datenexporten

## Struktur & mögliche Erweiterungen
- **Erweiterbar** um zusätzliche Parser für andere Artefakt-Typen
- **Kombinierbar** mit Dashboard- oder Reporting-Komponenten
- **Integration möglich** in bestehende CI/CD-Überwachungsframeworks

## Lizenz
Dieses Projekt steht unter der **MIT-Lizenz**.

---

*Hinweis:* Diese README-Datei und alle zugehörigen Inhalte wurden automatisiert per KI generiert. Nutzung auf eigene Verantwortung.