KI-Unternehmen wie Microsoft und OpenAI setzen auf synthetische Daten zur Verbesserung ihrer Sprachmodelle und zur Kostenersparnis.KI-Unternehmen wie Microsoft und OpenAI setzen auf synthetische Daten zur Verbesserung ihrer Sprachmodelle und zur Kostenersparnis.

Die Grenzen menschlicher Daten sind erreicht

Große KI-Unternehmen wie Microsoft, OpenAI und Cohere experimentieren mit synthetischen Daten um ihre Sprachmodelle zu trainieren. Der Grund: Webdaten sind einfach nicht mehr gut genug. Sie stoßen an ihre Grenzen und werden immer teurer. Das erzählt ein Bericht der Financial Times.

Die nächsten großen Fortschritte werden wahrscheinlich nicht erreicht, wenn man den Modellen einfach mehr Daten aus dem Web füttert. Selbst erstellte Daten von Experten sind nicht nur extrem teuer, sondern auch nicht skalierbar. Denn es ist einfach unpraktisch, Experten in verschiedenen Bereichen dazu zu bringen, zusätzliche detaillierte Inhalte zu erstellen.

Noch dazu sind Webdaten immer mehr unter Verschluss. Seiten wie Reddit und Twitter verlangen hohe Gebühren, um ihre Daten zu verwenden. Daher suchen die Firmen nach neuen Lösungen.

KI generiert ihre eigenen Trainingsdaten synthetische Daten

Jetzt geht es darum, dass KI ihre eigenen Trainingsdaten erzeugt. Bei Cohere lassen sie zum Beispiel zwei KI-Modelle als Lehrer und Schüler agieren, um synthetische Daten zu generieren. Ein Mensch überprüft diese dann.

Auch das Forschungsteam von Microsoft hat gezeigt, dass bestimmte synthetische Daten zum Trainieren kleinerer Modelle effektiv genutzt werden können. Allerdings ist die Leistung von GPT-4 mit synthetischen Daten immer noch nicht verbessert.

Start-ups wie Scale.ai und Gretel.ai bieten bereits synthetische Daten als Service an. Das zeigt, dass es einen Markt für diesen Ansatz gibt.

Was sagen die KI-Leader dazu?

Sam Altman von OpenAI ist überzeugt, dass bald alle Daten synthetisch sein werden. Das könnte helfen, Datenschutzprobleme in der EU zu umgehen. Altman glaubt, dass der Weg zur Superintelligenz darin besteht, dass sich die Modelle selbst unterrichten.

Aidan Gomez, der CEO des Sprachmodell-Startups Cohere, ist der Meinung, dass Webdaten nicht optimal sind: “Das Web ist so laut und unordentlich, dass es nicht wirklich repräsentativ für die Daten ist, die man will. Das Web erfüllt einfach nicht alle unsere Anforderungen.”

Aber es gibt auch Bedenken. Forscher von Oxford und Cambridge haben kürzlich festgestellt, dass das Training von KI-Modellen mit ihren eigenen Rohdaten “unumkehrbare Defekte” in den Modellen erzeugen könnte. Das könnte ihre Leistung mit der Zeit verschlechtern.

Der neue Weg der KI: Synthetische Daten

Früher wurden menschlich erstellte Inhalte verwendet, um die ersten Generationen von Sprachmodellen zu entwickeln. Aber jetzt gehen wir in eine spannende neue Welt. In den nächsten zehn Jahren könnten menschlich erstellte Inhalte wirklich selten werden. Der Großteil der weltweiten Daten und Inhalte könnte dann von KI erstellt werden. Es ist eine faszinierende Zukunft, die uns erwartet.

Quelle: Financial Times