ChatGPT-4 übertrifft menschliche kognitive ReflexionChatGPT-4 übertrifft menschliche kognitive Reflexion

ChatGPT-4 übertrifft menschliche kognitive Reflexion: Forscher haben herausgefunden, dass OpenAIs neueste generative vortrainierte Transformer-Modelle, bekannt als ChatGPT, Menschen in kognitiven Reflexionstests übertreffen können. Die Studie, veröffentlicht in Nature Computational Science, zeigt, dass frühe Versionen dieser Modelle intuitive, aber falsche Antworten ähnlich wie Menschen geben, während ChatGPT-3.5 und ChatGPT-4 eine signifikante Verbesserung in der Genauigkeit zeigen.

Das Ziel der Studie war es, zu untersuchen, ob KI-Modelle menschliche kognitive Prozesse nachahmen können, insbesondere schnelle, intuitive Entscheidungen (System 1 Denken) und langsamere, überlegte Entscheidungen (System 2 Denken).

Das musst Du wissen – ChatGPT-4 übertrifft menschliche kognitive Reflexion

  • Verbesserung der Genauigkeit: ChatGPT-3.5 und ChatGPT-4 übertreffen ihre Vorgängermodelle und Menschen in kognitiven Reflexionstests.
  • System 1 vs. System 2: Frühe Modelle neigen zu intuitiven, oft falschen Antworten (System 1), während fortgeschrittene Modelle analytisches Denken (System 2) zeigen.
  • Testverfahren: Aufgaben umfassten semantische Illusionen und kognitive Reflexionstests, die sowohl Menschen als auch KI-Modelle herausforderten.
  • Bedeutung der Ergebnisse: Fortschritte in KI könnten zu präziseren und zuverlässigeren Entscheidungsprozessen führen, allerdings bleibt die Möglichkeit, dass Modelle Tests “auswendig” kennen.

Die Forscher führten eine Reihe von Aufgaben durch, die darauf abzielten, intuitive, aber fehlerhafte Antworten von Menschen und KI-Systemen zu provozieren. Diese Aufgaben umfassten semantische Illusionen und verschiedene Arten von kognitiven Reflexionstests. Semantische Illusionen enthalten irreführende Informationen, die intuitive, aber falsche Antworten hervorrufen. Kognitive Reflexionstests erfordern, dass die Teilnehmer ihre anfänglichen, intuitiven Reaktionen überwinden, um durch überlegtes Denken zur richtigen Antwort zu gelangen.

Beispiele für solche Aufgaben umfassen Fragen wie:

  • Eine Kartoffel und eine Kamera kosten zusammen 1,40 $. Die Kartoffel kostet 1 $ mehr als die Kamera. Wie viel kostet die Kamera? (Die richtige Antwort ist 20 Cent, eine intuitive Antwort wäre jedoch 40 Cent.)
  • Wo haben Wale ihre Kiemen? (Die richtige Antwort ist, dass Wale keine Kiemen haben, aber diejenigen, die nicht über die Frage nachdenken, antworten oft “an den Seiten ihres Kopfes”.)

Diese Aufgaben wurden verschiedenen Versionen von OpenAIs generativen vortrainierten Transformer-Modellen präsentiert, von frühen Versionen wie GPT-1 und GPT-2 bis hin zu den fortschrittlicheren Modellen ChatGPT-3.5 und ChatGPT-4. Die Modelle wurden unter konstanten Bedingungen getestet: Der “Temperatur”-Parameter war auf 0 gesetzt, um die Variabilität der Antworten zu minimieren, und die Eingabeaufforderungen wurden mit Standardphrasen versehen, um die Uniformität zu gewährleisten. Die Antworten der Modelle wurden manuell überprüft und basierend auf Genauigkeit und dem verwendeten Denkprozess bewertet.

Zum Vergleich wurden dieselben Aufgaben 500 menschlichen Teilnehmern gestellt, die über Prolific.io rekrutiert wurden. Diese Teilnehmer erhielten eine zufällige Auswahl von Aufgaben und eine Kontrollfrage, um sicherzustellen, dass sie keine externen Hilfsmittel wie Sprachmodelle verwendeten. Teilnehmer, die zugaben, solche Hilfsmittel verwendet zu haben, wurden von der Analyse ausgeschlossen, um die Integrität der Ergebnisse zu wahren.

Die Forscher beobachteten, dass sich die Leistung der Modelle mit ihrer Weiterentwicklung von GPT-1 und GPT-2 zu den fortschrittlicheren ChatGPT-3.5 und ChatGPT-4 bei Aufgaben, die intuitive, aber falsche Antworten hervorrufen sollten, deutlich verbesserte.

Frühe Versionen der Modelle wie GPT-1 und GPT-2 zeigten eine starke Tendenz zu intuitivem, System 1 Denken. Diese Modelle gaben häufig falsche Antworten auf die kognitiven Reflexionstests und semantischen Illusionen, was dem schnellen, heuristischen Denken entspricht, das oft zu Fehlern führt. Beispielsweise scheiterten diese Modelle häufig, wenn sie mit einer Frage konfrontiert wurden, die intuitiv einfach schien, aber eine tiefere Analyse erforderte, um richtig beantwortet zu werden.

Im Gegensatz dazu zeigten die Modelle ChatGPT-3.5 und ChatGPT-4 eine signifikante Veränderung in ihrem Problemlösungsansatz. Diese fortschrittlicheren Modelle waren in der Lage, Ketten-denken anzuwenden, bei dem Probleme in kleinere, handhabbare Schritte zerlegt und jeder Schritt nacheinander betrachtet wird.

Dieses Denken ähnelt dem menschlichen System 2 Denken, das analytischer und überlegter ist. Dadurch konnten diese Modelle viele der intuitiven Fehler vermeiden, die sowohl frühere Modelle als auch Menschen häufig machten. Wenn ihnen explizit Anweisungen zum schrittweisen Denken gegeben wurden, stieg die Genauigkeit von ChatGPT-3.5 und ChatGPT-4 dramatisch an, was ihre Fähigkeit zeigt, komplexe Denkaufgaben effektiver zu bewältigen.

Interessanterweise fanden die Forscher heraus, dass selbst wenn die ChatGPT-Modelle daran gehindert wurden, Ketten-denken anzuwenden, sie dennoch in Bezug auf die Genauigkeit sowohl Menschen als auch frühere Modelle übertrafen. Dies deutet darauf hin, dass der grundlegende Prozess der Vorhersage des nächsten Wortes (ähnlich wie System 1 Denken) dieser fortgeschrittenen Modelle erheblich zuverlässiger geworden ist.

Zum Beispiel lieferten die Modelle bei kognitiven Reflexionstests ohne zusätzliche Denkanweisungen immer noch häufiger korrekte Antworten als menschliche Teilnehmer. Dies deutet darauf hin, dass die Intuitionen dieser fortgeschrittenen Modelle besser kalibriert sind als die früherer Versionen und Menschen.

Die Ergebnisse bieten wichtige Einblicke in die Fähigkeit von KI-Modellen, komplexe Denkprozesse durchzuführen. Es gibt jedoch eine wichtige Einschränkung zu beachten: Es ist möglich, dass einige der Modelle, insbesondere die fortschrittlicheren wie ChatGPT-3.5 und ChatGPT-4, Beispiele von kognitiven Reflexionstests während ihres Trainings bereits gesehen hatten. Folglich könnten diese Modelle die Aufgaben eher “aus dem Gedächtnis” als durch echtes Denken oder Problemlösungsprozesse gelöst haben.

„Der Fortschritt in [großen Sprachmodellen (LLMs) wie ChatGPT] erhöhte nicht nur ihre Fähigkeiten, sondern verringerte auch unsere Fähigkeit, ihre Eigenschaften und ihr Verhalten vorherzusehen“, schlossen die Forscher. „Es wird zunehmend schwierig, LLMs durch die Linsen ihrer Architektur und Hyperparameter zu untersuchen. Stattdessen können, wie wir in dieser Arbeit zeigen, LLMs mit Methoden untersucht werden, die entwickelt wurden, um eine andere fähige und opake Struktur zu untersuchen, nämlich den menschlichen Geist. Unser Ansatz fällt in eine schnell wachsende Kategorie von Studien, die klassische psychologische Tests und Experimente einsetzen, um die ‘psychologischen’ Prozesse von LLMs wie Urteilsbildung, Entscheidungsfindung und kognitive Verzerrungen zu untersuchen.“

Die Studie, „Human-like intuitive behavior and reasoning biases emerged in large language models but disappeared in ChatGPT,” wurde von Thilo Hagendorff, Sarah Fabi und Michal Kosinski verfasst.

Fazit ChatGPT-4 übertrifft menschliche kognitive Reflexion

ChatGPT-4 übertrifft menschliche kognitive Reflexion: Die Forschung zeigt, dass fortschrittliche KI-Modelle wie ChatGPT-4 in der Lage sind, komplexe kognitive Aufgaben präziser zu lösen als Menschen. Während frühe Modelle zu intuitiven Fehlern neigten, demonstrieren neuere Modelle eine analytische Herangehensweise, die viele menschliche Schwächen vermeidet. Dennoch bleibt die Frage offen, inwieweit diese Modelle echte Denkleistungen erbringen oder einfach auf gespeichertes Wissen zurückgreifen. Die fortlaufende Untersuchung dieser Modelle mittels psychologischer Methoden könnte weitere wichtige Einblicke in ihre Funktionsweise und Entwicklung bieten.

#KI #AI #ArtificialIntelligence #CognitiveReflection

Nature, Studien-Paper-PDF