Die Versprechen und Gefahren synthetischer Daten

Business, Ethik und Gesellschaft, Language Models

Die Versprechen und Gefahren synthetischer Daten

Von Oliver Welling

15 Oktober, 2024
08:38

Künstliche Intelligenz (KI) revolutioniert zahlreiche Branchen, von der Medizin bis zur Unterhaltung. Doch hinter den beeindruckenden Fähigkeiten von KI-Systemen steht ein entscheidender Faktor: Daten. Die Menge und Qualität der Daten, auf denen ein KI-Modell trainiert wird, bestimmt maßgeblich dessen Leistung. In den letzten Jahren hat die Forschung zunehmend synthetische Daten als Alternative zu realen Daten in den Vordergrund gerückt. Doch welche Versprechen und Risiken birgt die Verwendung synthetischer Daten? Dieser Artikel beleuchtet die Chancen und Herausforderungen, die mit der Nutzung synthetischer Daten einhergehen.

Warum brauchen KI-Modelle Daten?

Künstliche Intelligenz basiert auf statistischen Modellen, die auf der Grundlage großer Datenmengen trainiert werden. Diese Modelle lernen Muster in den Daten zu erkennen und Vorhersagen zu treffen. Ein Beispiel: Wenn ein KI-Modell zahlreiche Bilder von Küchen sieht, die korrekt mit dem Begriff „Küche“ annotiert sind, lernt es, typische Merkmale einer Küche (wie Kühlschränke und Arbeitsplatten) zu identifizieren. Diese Annotationen, also die Beschriftungen der Daten, sind essenziell für das Lernen von KI-Modellen.

Der Bedarf an solchen annotierten Daten hat einen großen Markt für Daten-Annotationen geschaffen. Laut Schätzungen von Dimension Market Research wird dieser Markt bis 2034 auf 10,34 Milliarden US-Dollar anwachsen. Während einige dieser Jobs gut bezahlt werden, insbesondere wenn spezialisiertes Wissen gefragt ist, sind die Bedingungen in Entwicklungsländern oft prekär. Viele Annotatoren erhalten niedrige Löhne und haben keinen langfristigen Arbeitsvertrag.

Das schwindende Datenangebot

Neben den ethischen Bedenken in Bezug auf die Arbeitsbedingungen gibt es auch praktische Gründe, warum Unternehmen nach Alternativen zu menschlichen Datenannotationen suchen. Erstens sind menschliche Annotatoren begrenzt in ihrer Kapazität und fehleranfällig. Ihre Bewertungen können von persönlichen Vorurteilen beeinflusst sein, und Fehler in den Annotationsvorgaben können die Qualität der Daten negativ beeinflussen.

Zweitens wird es immer schwieriger, qualitativ hochwertige Daten zu beschaffen. Plattformen wie Shutterstock verlangen Millionenbeträge für den Zugang zu ihren Daten, und viele Webseiten blockieren mittlerweile den Zugriff auf ihre Inhalte für Web-Scraping-Tools von KI-Unternehmen. Etwa 35 % der weltweit 1.000 meistbesuchten Webseiten verwehren heute den Zugriff auf ihre Daten, und bis zu 25 % der qualitativ hochwertigen Daten, die zur Schulung von KI-Modellen verwendet wurden, sind mittlerweile eingeschränkt zugänglich.

Dieser Trend könnte sich fortsetzen, was dazu führen könnte, dass KI-Entwickler bis 2032 keine ausreichenden Daten mehr zur Verfügung haben, um ihre Modelle zu trainieren, so das Forschungsteam Epoch AI. In dieser Datenknappheit könnte synthetische Daten eine wichtige Rolle spielen.

Was sind synthetische Daten?

Synthetische Daten werden nicht aus der realen Welt erfasst, sondern von KI-Modellen generiert. Sie bieten eine Lösung für die Herausforderungen, die mit dem Zugang und der Qualität von realen Daten verbunden sind. Statt sich auf echte Daten zu stützen, können KI-Modelle mithilfe von synthetischen Daten trainiert und verbessert werden.

Einige große Tech-Unternehmen haben diese Methode bereits erfolgreich eingesetzt. Meta nutzte beispielsweise synthetische Daten, um seine Llama 3.1-Modelle zu verbessern, und OpenAI verwendet synthetische Daten von seinem Modell o1, um das kommende Orion-Modell zu trainieren. Auch Unternehmen wie Microsoft und Google setzen vermehrt auf synthetische Daten, um ihre KI-Projekte voranzutreiben. Laut Gartner werden 60 % der Daten, die im Jahr 2024 für KI- und Analyseprojekte verwendet werden, synthetisch erzeugt sein.

Die Vorteile synthetischer Daten

Kostenersparnis: Synthetische Daten können deutlich günstiger erzeugt werden als das Sammeln und Annotieren realer Daten. Ein Beispiel ist das Unternehmen Writer, das ein Modell für nur 700.000 US-Dollar fast ausschließlich mit synthetischen Daten trainierte, während ein vergleichbar großes OpenAI-Modell 4,6 Millionen US-Dollar gekostet hätte.
Unbegrenzte Verfügbarkeit: Mit synthetischen Daten gibt es keine Grenzen hinsichtlich der Datenmenge, die erzeugt werden kann. Dadurch können Unternehmen umfangreiche Datensätze erstellen, die genau auf ihre Bedürfnisse zugeschnitten sind.
Vielfältige Datenformate: Synthetische Daten bieten die Möglichkeit, Daten in Formaten zu generieren, die schwer zugänglich oder gar nicht vorhanden sind. So nutzte Meta das Modell Llama 3, um Videodaten mit automatischen Beschriftungen zu versehen, die dann von menschlichen Experten verfeinert wurden.

Die Risiken synthetischer Daten

Trotz der zahlreichen Vorteile ist der Einsatz von synthetischen Daten nicht ohne Risiken. Ein zentrales Problem bleibt die Qualität der generierten Daten. Wenn ein Modell auf voreingenommenen oder fehlerhaften Daten basiert, werden auch die synthetischen Daten diese Mängel widerspiegeln. Ein Beispiel dafür ist die mangelhafte Repräsentation bestimmter Gruppen in den Trainingsdaten. Werden etwa nur 30 Personen einer bestimmten ethnischen Gruppe in einem Datensatz erfasst, kann die Synthese neuer Daten dazu führen, dass nur diese spezifische Untergruppe stärker repräsentiert wird.

Verzerrte Modelle

Eine 2023 durchgeführte Studie der Rice University und Stanford zeigte, dass eine Übernutzung synthetischer Daten dazu führen kann, dass die Qualität und Diversität eines Modells abnimmt. Wenn die Vielfalt im Originaldatensatz nicht gegeben ist, verfestigen sich diese Mängel im synthetischen Datensatz. Dies führt langfristig zu Modellen, die die Realität schlechter abbilden und somit weniger genaue Vorhersagen treffen.

Ein weiteres Problem ist das Phänomen der Halluzinationen in KI-Modellen. Komplexe Modelle wie OpenAI’s o1 neigen dazu, Halluzinationen zu erzeugen – also fehlerhafte oder unlogische Datenpunkte, die nicht der Realität entsprechen. Diese Halluzinationen lassen sich oft schwer erkennen und beeinflussen negativ die Qualität der Daten, die zur Schulung neuer Modelle verwendet werden.

Modellzusammenbruch

Wenn synthetische Daten ohne sorgfältige Überprüfung verwendet werden, besteht das Risiko eines sogenannten Modellzusammenbruchs. Ein Modell, das auf minderwertigen oder fehlerhaften synthetischen Daten trainiert wurde, kann im Laufe der Zeit an Leistungsfähigkeit verlieren. Es wird weniger kreativ und generiert möglicherweise immer stärker voreingenommene Ergebnisse. Eine Studie, die in der Fachzeitschrift Nature veröffentlicht wurde, belegt, dass sich dieses Problem in einem Feedback-Loop verschärft: Modelle, die auf fehlerhaften Daten trainiert wurden, generieren immer fehlerhaftere Daten, was schließlich zur Degeneration der gesamten Modellqualität führt.

Laut Luca Soldaini, Senior Research Scientist am Allen Institute for AI, ist es daher unerlässlich, synthetische Daten vor ihrer Nutzung gründlich zu überprüfen und mit echten Daten zu kombinieren. Dies verhindert, dass Modelle durch wiederholte Fehleranfälligkeit an Leistungsfähigkeit einbüßen.

Fazit: Menschen weiterhin notwendig

Trotz des Potenzials synthetischer Daten wird die menschliche Beteiligung in absehbarer Zeit nicht vollständig überflüssig. KI-Modelle, die ausschließlich auf synthetischen Daten basieren, könnten fehleranfällig werden und an Vielfalt verlieren. Zwar wird es in Zukunft möglich sein, dass KI-Modelle hochwertige synthetische Daten erzeugen, die ihren Trainingsprozess autonom unterstützen, doch aktuell sind wir noch nicht an diesem Punkt. Sam Altman, CEO von OpenAI, betont, dass die Technologie noch nicht ausgereift genug ist, um vollständig ohne menschliche Eingriffe zu funktionieren.

Für den Moment bleibt es notwendig, dass Menschen den Trainingsprozess von KI-Modellen überwachen und sicherstellen, dass sowohl reale als auch synthetische Daten sorgfältig kuratiert und verarbeitet werden. Nur so lässt sich sicherstellen, dass zukünftige KI-Modelle nicht nur kreativ und leistungsstark, sondern auch ethisch einwandfrei und fair sind.

Quellen:

Wiggers, Kyle. „The Promise and Perils of Synthetic Data.“ TechCrunch, 13. Oktober 2024, https://techcrunch.com/2024/10/13/the-promise-and-perils-of-synthetic-data/.

KI UND BASKETBALL: EINE WIN-WIN-SITUATION

Die Welt der Sportwetten und die rasante Entwicklung der Kuenstlichen Intelligenz (KI) scheinen auf den ersten Blick zwei unterschiedliche Universen.

VON
28 Februar, 2026

Die Synergie von KI und E-Sport: Eine aufregende Zukunft

Die Welt der Technologie entwickelt sich in einem atemberaubenden Tempo, angetrieben von den Fortschritten im Bereich der künstlichen Intelligenz. Gleichzeitig.

VON
28 Februar, 2026

VON
28 Februar, 2026

Die Synergie von KI und E-Sport: Eine aufregende Zukunft

VON
28 Februar, 2026

Casino Roulette Automat

VON
5 Februar, 2026

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Business, Ethik und Gesellschaft, Language Models

Die Versprechen und Gefahren synthetischer Daten

Warum brauchen KI-Modelle Daten?

Das schwindende Datenangebot

Was sind synthetische Daten?

Die Vorteile synthetischer Daten

Die Risiken synthetischer Daten

Verzerrte Modelle

Modellzusammenbruch

Fazit: Menschen weiterhin notwendig

Ähnliche Beiträge

Folge uns

Beliebte Artikel

About Author

Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

HOT CATEGORIES

Cybersecurity

Events

Interviews und Meinungen

Investment

Unternehmen

TAGS