OpenAI CriticGPT – Selbstkritik von GPT-4

Die Entwicklung von Künstlicher Intelligenz (KI) bringt nicht nur Fortschritte, sondern auch Herausforderungen mit sich. Ein zentraler Aspekt hierbei ist die Identifikation und Korrektur von Fehlern in KI-Modellen wie GPT-4. OpenAI hat mit CriticGPT, einem Modell basierend auf GPT-4, einen bedeutenden Schritt unternommen, um diese Aufgabe zu erleichtern. Dieses Modell unterstützt menschliche Trainer dabei, Fehler in den Ausgaben von ChatGPT zu erkennen und zu bewerten, was die Effektivität des „Reinforcement Learning from Human Feedback“ (RLHF) deutlich verbessert.

Das musst Du wissen – OpenAI CriticGPT

CriticGPT: Ein spezielles Modell, das darauf trainiert ist, Fehler in den Ausgaben von ChatGPT zu identifizieren.

Effizienzsteigerung: Mit der Unterstützung von CriticGPT übertreffen menschliche Trainer ihre Leistung ohne diese Hilfe um 60%.

Verbesserte Fehlererkennung: CriticGPT hilft dabei, sowohl von Menschen eingefügte als auch natürliche Fehler in den Ausgaben von ChatGPT zu erkennen.

Reduzierte Halluzinationen: Das Modell erzeugt weniger fiktive Fehler (Halluzinationen) als wenn es alleine arbeitet.

Präferenz von Trainern: Trainer bevorzugen die von CriticGPT unterstützten Kritiken in 63% der Fälle gegenüber den Kritiken von Menschen ohne Unterstützung.

CriticGPT wurde entwickelt, um die Herausforderungen bei der Fehlererkennung in den komplexen Ausgaben von GPT-4 zu bewältigen. Bei der Entwicklung und dem Training von CriticGPT nutzte OpenAI RLHF, ähnlich wie bei ChatGPT. Ein wesentlicher Unterschied liegt jedoch darin, dass CriticGPT gezielt mit fehlerhaften Eingaben trainiert wurde, um diese zu kritisieren und die Fehler hervorzuheben.

In praktischen Tests zeigte sich, dass Trainer, die CriticGPT verwenden, detailliertere und umfassendere Kritiken erstellen können als ohne diese Unterstützung. Ein wesentlicher Vorteil liegt darin, dass die Kombination aus menschlichem Trainer und CriticGPT weniger ungenaue Kritikpunkte (sogenannte „Nitpicks“) und Halluzinationen erzeugt als die Modelle allein.

Für die Entwicklung von CriticGPT wurden menschliche Trainer beauftragt, absichtlich Fehler in von ChatGPT erstelltem Code einzufügen und diese dann zu kritisieren. Diese Rückmeldungen wurden dann genutzt, um CriticGPT zu trainieren. In Experimenten zeigte sich, dass Trainer mit CriticGPT mehr Fehler erkannten und umfassendere Kritiken schrieben. Besonders bemerkenswert war, dass das Modell besonders bei natürlich vorkommenden Fehlern in den Ausgaben von ChatGPT hilfreich war und weniger unnötige Kritikpunkte einbrachte.

Einschränkungen: Trotz der Erfolge gibt es einige Einschränkungen:

Komplexität der Aufgaben: CriticGPT wurde hauptsächlich mit kurzen Antworten trainiert und hat Schwierigkeiten bei langen und komplexen Aufgaben.

Halluzinationen: Modelle neigen dazu, auch fiktive Fehler zu erzeugen, was die Bewertung durch menschliche Trainer beeinflussen kann.

Verteilte Fehler: Fehler, die sich über mehrere Abschnitte einer Antwort verteilen, sind schwieriger zu identifizieren.

Komplexe Aufgaben: Bei sehr komplexen Aufgaben stößt selbst CriticGPT an seine Grenzen.

Um der zunehmenden Komplexität von KI-Modellen gerecht zu werden, plant OpenAI, die Methoden zur Unterstützung von Trainern weiter zu verfeinern und zu skalieren. Ziel ist es, durch verbesserte Werkzeuge und Methoden die Qualität der RLHF-Daten weiter zu erhöhen und so die Entwicklung von noch leistungsfähigeren und zuverlässigeren KI-Systemen zu ermöglichen.

#KünstlicheIntelligenz #GPT4 #CriticGPT #Fehleranalyse #OpenAI #RLHF #MaschinellesLernen

OpenAI: Finding GPT-4’s mistakes with GPT-4

Related Post