Business Ethik und Gesellschaft Language Models

Die Versprechen und Gefahren synthetischer Daten

KINEWS24.de - Die Versprechen und Gefahren synthetischer Daten

KINEWS24.de - Die Versprechen und Gefahren synthetischer Daten

Künstliche Intelligenz (KI) revolutioniert zahlreiche Branchen, von der Medizin bis zur Unterhaltung. Doch hinter den beeindruckenden Fähigkeiten von KI-Systemen steht ein entscheidender Faktor: Daten. Die Menge und Qualität der Daten, auf denen ein KI-Modell trainiert wird, bestimmt maßgeblich dessen Leistung. In den letzten Jahren hat die Forschung zunehmend synthetische Daten als Alternative zu realen Daten in den Vordergrund gerückt. Doch welche Versprechen und Risiken birgt die Verwendung synthetischer Daten? Dieser Artikel beleuchtet die Chancen und Herausforderungen, die mit der Nutzung synthetischer Daten einhergehen.

Warum brauchen KI-Modelle Daten?

Künstliche Intelligenz basiert auf statistischen Modellen, die auf der Grundlage großer Datenmengen trainiert werden. Diese Modelle lernen Muster in den Daten zu erkennen und Vorhersagen zu treffen. Ein Beispiel: Wenn ein KI-Modell zahlreiche Bilder von Küchen sieht, die korrekt mit dem Begriff „Küche“ annotiert sind, lernt es, typische Merkmale einer Küche (wie Kühlschränke und Arbeitsplatten) zu identifizieren. Diese Annotationen, also die Beschriftungen der Daten, sind essenziell für das Lernen von KI-Modellen.

Der Bedarf an solchen annotierten Daten hat einen großen Markt für Daten-Annotationen geschaffen. Laut Schätzungen von Dimension Market Research wird dieser Markt bis 2034 auf 10,34 Milliarden US-Dollar anwachsen. Während einige dieser Jobs gut bezahlt werden, insbesondere wenn spezialisiertes Wissen gefragt ist, sind die Bedingungen in Entwicklungsländern oft prekär. Viele Annotatoren erhalten niedrige Löhne und haben keinen langfristigen Arbeitsvertrag.

Das schwindende Datenangebot

Neben den ethischen Bedenken in Bezug auf die Arbeitsbedingungen gibt es auch praktische Gründe, warum Unternehmen nach Alternativen zu menschlichen Datenannotationen suchen. Erstens sind menschliche Annotatoren begrenzt in ihrer Kapazität und fehleranfällig. Ihre Bewertungen können von persönlichen Vorurteilen beeinflusst sein, und Fehler in den Annotationsvorgaben können die Qualität der Daten negativ beeinflussen.

Zweitens wird es immer schwieriger, qualitativ hochwertige Daten zu beschaffen. Plattformen wie Shutterstock verlangen Millionenbeträge für den Zugang zu ihren Daten, und viele Webseiten blockieren mittlerweile den Zugriff auf ihre Inhalte für Web-Scraping-Tools von KI-Unternehmen. Etwa 35 % der weltweit 1.000 meistbesuchten Webseiten verwehren heute den Zugriff auf ihre Daten, und bis zu 25 % der qualitativ hochwertigen Daten, die zur Schulung von KI-Modellen verwendet wurden, sind mittlerweile eingeschränkt zugänglich.

Dieser Trend könnte sich fortsetzen, was dazu führen könnte, dass KI-Entwickler bis 2032 keine ausreichenden Daten mehr zur Verfügung haben, um ihre Modelle zu trainieren, so das Forschungsteam Epoch AI. In dieser Datenknappheit könnte synthetische Daten eine wichtige Rolle spielen.

Was sind synthetische Daten?

Synthetische Daten werden nicht aus der realen Welt erfasst, sondern von KI-Modellen generiert. Sie bieten eine Lösung für die Herausforderungen, die mit dem Zugang und der Qualität von realen Daten verbunden sind. Statt sich auf echte Daten zu stützen, können KI-Modelle mithilfe von synthetischen Daten trainiert und verbessert werden.

Einige große Tech-Unternehmen haben diese Methode bereits erfolgreich eingesetzt. Meta nutzte beispielsweise synthetische Daten, um seine Llama 3.1-Modelle zu verbessern, und OpenAI verwendet synthetische Daten von seinem Modell o1, um das kommende Orion-Modell zu trainieren. Auch Unternehmen wie Microsoft und Google setzen vermehrt auf synthetische Daten, um ihre KI-Projekte voranzutreiben. Laut Gartner werden 60 % der Daten, die im Jahr 2024 für KI- und Analyseprojekte verwendet werden, synthetisch erzeugt sein.

Die Vorteile synthetischer Daten

  1. Kostenersparnis: Synthetische Daten können deutlich günstiger erzeugt werden als das Sammeln und Annotieren realer Daten. Ein Beispiel ist das Unternehmen Writer, das ein Modell für nur 700.000 US-Dollar fast ausschließlich mit synthetischen Daten trainierte, während ein vergleichbar großes OpenAI-Modell 4,6 Millionen US-Dollar gekostet hätte.
  2. Unbegrenzte Verfügbarkeit: Mit synthetischen Daten gibt es keine Grenzen hinsichtlich der Datenmenge, die erzeugt werden kann. Dadurch können Unternehmen umfangreiche Datensätze erstellen, die genau auf ihre Bedürfnisse zugeschnitten sind.
  3. Vielfältige Datenformate: Synthetische Daten bieten die Möglichkeit, Daten in Formaten zu generieren, die schwer zugänglich oder gar nicht vorhanden sind. So nutzte Meta das Modell Llama 3, um Videodaten mit automatischen Beschriftungen zu versehen, die dann von menschlichen Experten verfeinert wurden.

Die Risiken synthetischer Daten

Trotz der zahlreichen Vorteile ist der Einsatz von synthetischen Daten nicht ohne Risiken. Ein zentrales Problem bleibt die Qualität der generierten Daten. Wenn ein Modell auf voreingenommenen oder fehlerhaften Daten basiert, werden auch die synthetischen Daten diese Mängel widerspiegeln. Ein Beispiel dafür ist die mangelhafte Repräsentation bestimmter Gruppen in den Trainingsdaten. Werden etwa nur 30 Personen einer bestimmten ethnischen Gruppe in einem Datensatz erfasst, kann die Synthese neuer Daten dazu führen, dass nur diese spezifische Untergruppe stärker repräsentiert wird.

Verzerrte Modelle

Eine 2023 durchgeführte Studie der Rice University und Stanford zeigte, dass eine Übernutzung synthetischer Daten dazu führen kann, dass die Qualität und Diversität eines Modells abnimmt. Wenn die Vielfalt im Originaldatensatz nicht gegeben ist, verfestigen sich diese Mängel im synthetischen Datensatz. Dies führt langfristig zu Modellen, die die Realität schlechter abbilden und somit weniger genaue Vorhersagen treffen.

Ein weiteres Problem ist das Phänomen der Halluzinationen in KI-Modellen. Komplexe Modelle wie OpenAI’s o1 neigen dazu, Halluzinationen zu erzeugen – also fehlerhafte oder unlogische Datenpunkte, die nicht der Realität entsprechen. Diese Halluzinationen lassen sich oft schwer erkennen und beeinflussen negativ die Qualität der Daten, die zur Schulung neuer Modelle verwendet werden.

Modellzusammenbruch

Wenn synthetische Daten ohne sorgfältige Überprüfung verwendet werden, besteht das Risiko eines sogenannten Modellzusammenbruchs. Ein Modell, das auf minderwertigen oder fehlerhaften synthetischen Daten trainiert wurde, kann im Laufe der Zeit an Leistungsfähigkeit verlieren. Es wird weniger kreativ und generiert möglicherweise immer stärker voreingenommene Ergebnisse. Eine Studie, die in der Fachzeitschrift Nature veröffentlicht wurde, belegt, dass sich dieses Problem in einem Feedback-Loop verschärft: Modelle, die auf fehlerhaften Daten trainiert wurden, generieren immer fehlerhaftere Daten, was schließlich zur Degeneration der gesamten Modellqualität führt.

Laut Luca Soldaini, Senior Research Scientist am Allen Institute for AI, ist es daher unerlässlich, synthetische Daten vor ihrer Nutzung gründlich zu überprüfen und mit echten Daten zu kombinieren. Dies verhindert, dass Modelle durch wiederholte Fehleranfälligkeit an Leistungsfähigkeit einbüßen.

Fazit: Menschen weiterhin notwendig

Trotz des Potenzials synthetischer Daten wird die menschliche Beteiligung in absehbarer Zeit nicht vollständig überflüssig. KI-Modelle, die ausschließlich auf synthetischen Daten basieren, könnten fehleranfällig werden und an Vielfalt verlieren. Zwar wird es in Zukunft möglich sein, dass KI-Modelle hochwertige synthetische Daten erzeugen, die ihren Trainingsprozess autonom unterstützen, doch aktuell sind wir noch nicht an diesem Punkt. Sam Altman, CEO von OpenAI, betont, dass die Technologie noch nicht ausgereift genug ist, um vollständig ohne menschliche Eingriffe zu funktionieren.

Für den Moment bleibt es notwendig, dass Menschen den Trainingsprozess von KI-Modellen überwachen und sicherstellen, dass sowohl reale als auch synthetische Daten sorgfältig kuratiert und verarbeitet werden. Nur so lässt sich sicherstellen, dass zukünftige KI-Modelle nicht nur kreativ und leistungsstark, sondern auch ethisch einwandfrei und fair sind.


Quellen:

Die mobile Version verlassen