Synthetic Data Generator - Beitrag auf KINEWS24

Die Erstellung von maßgeschneiderten Datensätzen ist oft eine Hürde für viele, die sich nicht mit Programmierung auskennen. Doch der neue Synthetic Data Generator bietet eine innovative Lösung: Nutzer können durch einfache Beschreibungen und eine benutzerfreundliche Oberfläche synthetische Datensätze erstellen – komplett ohne Code. Ob für Textklassifikation oder Chat-Training, dieses Tool ermöglicht es, in wenigen Minuten hochwertige Daten zu generieren.

Das musst Du wissen: Synthetic Data Generator

No-Code-Lösung: Erstellung von Datensätzen per Eingabe natürlicher Sprache.
Unterstützte Aufgaben: Textklassifikation und Chat-Datensätze.
Technische Basis: Powered by Hugging Face API und distilabel.
Einfache Bedienung: Ein dreistufiger Prozess zur Datenerstellung.
Integration: Direkte Verbindung zu Argilla und Hugging Face Hub.
Skalierbarkeit: Anpassbare Modelle, Batch-Größen und Parameter.
Deployment: Open-Source-Tool auch für lokale Installationen verfügbar.

Wie funktioniert der Synthetic Data Generator?

Der Synthetic Data Generator macht sich fortschrittliche Sprachmodelle zunutze, um beschriebene Daten automatisch zu erstellen. Der Ablauf erfolgt in drei klaren Schritten:

Datensatz beschreiben
Nutzer geben eine detaillierte Beschreibung dessen ein, was sie benötigen. Das Tool versteht die Anforderungen und erstellt einen ersten Datensatz.
Konfigurieren und verfeinern
Der erstellte Datensatz lässt sich durch Anpassung des Systemprompts und der Einstellungen weiter verfeinern. Iterative Verbesserungen sind möglich, bis die gewünschte Qualität erreicht ist.
Generieren und speichern
Nutzer definieren die Anzahl der benötigten Datensätze und die gewünschte Kreativität (Temperature). Die Daten werden anschließend direkt zu Argilla und Hugging Face Hub exportiert.

Anwendungsfälle: Textklassifikation und Chat-Datensätze

Der Synthetic Data Generator deckt aktuell zwei Hauptaufgaben ab:

Textklassifikation: Ideal für die Kategorisierung von Texten, z.B. Kundenbewertungen, Social-Media-Posts oder News-Artikeln. Ein Beispiel ist der Datensatz argilla/synthetic-text-classification-news, der synthetische News in acht Klassen einteilt.
Chat-Datensätze: Für das Training von Modellen im Bereich der konversationellen KI. Solche Datensätze werden für Supervised Fine-Tuning (SFT) verwendet, um Modelle für den Dialogeinsatz zu optimieren. Ein Beispiel ist argilla/synthetic-sft-customer-support-single-turn, ein Datensatz für Kundenservice-Anwendungen.

Generell lassen sich etwa 50 Samples pro Minute für Textklassifikation und 20 Samples pro Minute für Chat-Datensätze erstellen. Wer mehr benötigt, kann die Leistung durch individuelle API-Anbindungen skalieren.

Integration und Datenprüfung mit Argilla

Ein Highlight des Tools ist die Integration mit Argilla, einer Plattform zur Datenkurierung. Hier können Nutzer ihre synthetischen Datensätze visuell prüfen, filtern und verbessern. Mit Features wie semantischer Suche und individuellen Filtern lassen sich Fehler und Inkonsistenzen einfach identifizieren. Die bearbeiteten Datensätze können dann zurück an Hugging Face Hub exportiert und für das Modelltraining verwendet werden.<h6>Modelle trainieren ohne Code</h6>

Auch die anschließende Modellentwicklung ist nahtlos und ohne Programmierkenntnisse möglich. Mit Hugging Face AutoTrain lassen sich Modelle mit wenigen Klicks trainieren. Ein Beispiel wäre die Nutzung des synthetischen Textklassifikations-Datensatzes, um ein Modell zu erstellen, das News-Artikel in Klassen einteilt. Der gesamte Prozess läuft auf kostenfreiem CPU-Hardware von Hugging Face.

Erweiterte Features für Fortgeschrittene des Synthetic Data Generators

Wer mehr Kontrolle über die Daten-Generierung benötigt, kann das Tool weiter anpassen und skalieren:

Modellwahl: Wechsel zu leistungsstärkeren Modellen wie meta-llama/Llama-3.1-70B-Instruct oder OpenAI-APIs wie GPT-4.
Batch-Größen: Höhere Generierungsraten durch Anpassung der Batch-Parameter.
Lokale Installation: Open-Source-Deployment via GitHub und Python-Paket pip install synthetic-dataset-generator.
Private Argilla-Instanzen: Für mehr Datenschutz und Kontrolle.

Zusätzlich erlaubt das Framework distilabel, reproduzierbare und anpassbare Pipelines zu erstellen, die flexibel geteilt werden können.

Was kommt als Nächstes?

Das Entwicklerteam plant bereits neue Features wie Retrieval Augmented Generation (RAG) und benutzerdefinierte Evaluationen mit LLMs als Richter. Auf GitHub können Nutzer zur Weiterentwicklung beitragen oder Feedback geben.

Fazit: Synthetic Data Generator – Datensätze erstellen leicht gemacht

Der Synthetic Data Generator revolutioniert die Datenerstellung: Einfache Handhabung, flexible Anpassbarkeit und die Möglichkeit zur Skalierung machen das Tool zu einem wertvollen Helfer für Unternehmen und Entwickler. Egal ob für Textklassifikation oder Chat-Datensätze, die intuitive Benutzeroberfläche und die nahtlose Integration in Hugging Face und Argilla setzen neue Maßstäbe in der KI-Entwicklung.

Quelle: Hugging Face Blog