Studie zeigt möglichen Leistungsrückgang von GPT-4: Experten fordern mehr Transparenz von OpenAI. Diskussionen über die Auswirkungen von KI-Modellanpassungen.Studie zeigt möglichen Leistungsrückgang von GPT-4: Experten fordern mehr Transparenz von OpenAI. Diskussionen über die Auswirkungen von KI-Modellanpassungen.

Neuste Studie fordert mehr Transparenz von OpenAI

Forscher der Stanford University und der University of California, Berkeley, veröffentlichten am Dienstag eine Forschungsarbeit, die Änderungen in den Ausgaben von GPT-4 über die Zeit zeigt. Die Arbeit befeuert die weit verbreitete, aber nicht bewiesene Annahme, dass das AI-Sprachmodell in den letzten Monaten schlechter bei Programmier- und Kompositionsaufgaben geworden ist. Einige Experten sind von den Ergebnissen nicht überzeugt, aber sie sagen, dass die Unsicherheit auf ein größeres Problem hinweist: Wie OpenAI seine Modellreleases handhabt.

Studienergebnisse im Detail

In ihrer auf arXiv gelisteten Studie “Wie verändert sich das Verhalten von ChatGPT über die Zeit?” stellen Lingjiao Chen, Matei Zaharia und James Zou die konstante Leistung von OpenAIs großen Sprachmodellen (LLMs), insbesondere GPT-3.5 und GPT-4, in Frage. Sie testeten die März- und Juni-Versionen dieser Modelle auf Aufgaben wie das Lösen von Matheproblemen, das Beantworten sensibler Fragen, das Generieren von Code und das visuelle Denken. Vor allem die Fähigkeit von GPT-4, Primzahlen zu identifizieren, soll von einer Genauigkeit von 97,6 Prozent im März auf nur noch 2,4 Prozent im Juni dramatisch gesunken sein. Seltsamerweise zeigte GPT-3.5 im gleichen Zeitraum verbesserte Leistungen.

Beliebte Theorien zu OpenAI GPT-4

Diese Studie folgt auf zahlreiche Beschwerden, dass GPT-4 in den letzten Monaten subjektiv an Leistung verloren hat. Beliebte Theorien dazu beinhalten OpenAIs “Destillieren” von Modellen, um deren Rechenlast zu reduzieren und die Ausgabe zu beschleunigen sowie GPU-Ressourcen zu sparen, Feinabstimmung (zusätzliches Training), um schädliche Ausgaben zu reduzieren, die unbeabsichtigte Effekte haben könnten, und eine Reihe von unbegründeten Verschwörungstheorien, wie die, dass OpenAI die Programmierfähigkeiten von GPT-4 reduziert hat, damit mehr Menschen für GitHub Copilot bezahlen.

OpenAI hat konsequent bestritten, dass GPT-4 an Leistungsfähigkeit verloren hat. Erst letzten Donnerstag twitterte Peter Welinder, VP of Product bei OpenAI: “Nein, wir haben GPT-4 nicht dümmer gemacht. Ganz im Gegenteil: Wir machen jede neue Version schlauer als die vorherige. Aktuelle Hypothese: Wenn du es intensiver nutzt, fallen dir Probleme auf, die du vorher nicht gesehen hast.”

Experten sind skeptisch

Trotz der neuen Studie, die für einige wie ein unwiderlegbarer Beweis für die Vermutungen der GPT-4-Kritiker wirken mag, raten andere zur Vorsicht. Der Professor für Informatik an der Princeton University, Arvind Narayanan, denkt, dass die Ergebnisse nicht schlüssig auf einen Leistungsrückgang von GPT-4 hindeuten und möglicherweise mit Feinabstimmungsanpassungen von OpenAI konsistent sind.

OpenAI: Eine geschlossene Organisation?

Während die Arbeit von Chen, Zaharia und Zou vielleicht nicht perfekt ist, sympathisiert AI-Forscher Simon Willison mit der Schwierigkeit, Sprachmodelle genau und objektiv zu messen. Immer wieder kritisieren Experten OpenAIs derzeit geschlossenen Ansatz zu KI, bei dem für GPT-4 weder die Quelle der Trainingsmaterialien, der Quellcode, die Gewichte des neuronalen Netzwerks, noch ein Papier, das seine Architektur beschreibt, offen gelegt wurden.

Lösungen für Instabilität und Unsicherheit

Eine Lösung für diese Entwicklerinstabilität und Forscherunsicherheit könnten Open-Source- oder Quell-Modelle wie Meta’s Llama sein. Mit weit verbreiteten Gewichtsdateien (dem Kern der Daten des neuronalen Netzwerks des Modells) können diese Modelle den Forschern ermöglichen, von der gleichen Basis aus zu arbeiten und wiederholbare Ergebnisse im Laufe der Zeit zu liefern, ohne dass ein Unternehmen (wie OpenAI) plötzlich Modelle tauscht oder den Zugang über eine API widerruft.

Sasha Luccioni, AI-Forscherin bei Hugging Face, glaubt auch, dass die Intransparenz von OpenAI problematisch ist. “Jegliche Ergebnisse auf geschlossenen Quellmodellen sind nicht reproduzierbar und nicht verifizierbar, und daher, aus wissenschaftlicher Sicht, vergleichen wir Äpfel mit Birnen,” sagte sie Ars. “Es liegt nicht an den Wissenschaftlern, die eingesetzten LLMs kontinuierlich zu überwachen. Es liegt an den Modell-Erstellern, Zugang zu den zugrunde liegenden Modellen zu gewähren, zumindest für Prüfungszwecke.”

Quelle: ArsTechnica