Business Science

Apple Illusion of Thinking: Gegen-Studie beweist, warum Apple komplett falsch liegt

By Oliver Welling
16 June, 2025
0 Comments
10 minutes read
301 Views
8 hours ago

KINEWS24.de - Apple Illusion of Thinking Gegen-Studie beweist, warum Apple komplett falsch liegt

Apple hat kürzlich mit dem Forschungspapier „The Illusion of Thinking“ für Aufsehen gesorgt. Die zentrale These: Selbst die fortschrittlichsten KI-Modelle können nicht wirklich „denken“ und versagen bei zunehmender Komplexität von Aufgaben. Für KI-Skeptiker war dies Wasser auf die Mühlen und schien die eigene Meinung zu bestätigen. Doch die Freude war nur von kurzer Dauer. Eine detaillierte Gegenanalyse mit dem Titel „The Illusion of the Illusion of Thinking“ zerlegt Apples Arbeit und legt nahe: Nicht die KI hat versagt, sondern Apples experimentelles Design. Die Studie ist nicht nur falsch, sie basiert auf Annahmen, die einem Unternehmen wie Apple im Jahr 2025 nicht unterlaufen dürften.

https://kinews24.de/wp-content/uploads/2025/06/Apples-AI-_Illusion-of-Thinking_-Debunked.wav

Das Wichtigste in Kürze – Apples KI-Fehlschlag analysiert

Apples Paper „The Illusion of Thinking“ behauptet, KI-Modelle scheitern bei komplexen Aufgaben und zeigen einen „Accuracy Collapse“.
Ein Gegen-Paper („The Illusion of the Illusion of Thinking“) deckt massive methodische Fehler in Apples Studie auf.
Die Fehler umfassen ignorierte Token-Limits der Modelle und die Bewertung von mathematisch unlösbaren Rätseln als KI-Versagen.
Die Kritik legt nahe, dass Apple nicht die KI, sondern nur sein eigenes, fehlerhaftes Test-Setup bewertet hat.
Der Vorfall wirft ein schlechtes Licht auf Apples Position im KI-Wettbewerb und nährt Zweifel an der eigenen Innovationskraft.

Apples Paukenschlag: Was die „Illusion of Thinking“ wirklich behauptet

Bevor wir die Kritik analysieren, fassen wir kurz zusammen, was Apple in seinem Paper eigentlich postuliert. Die Forscher argumentieren, dass große Sprachmodelle (LLMs) oder, wie sie es nennen, „Large Reasoning Models“ (LRMs), zwar eloquent wirken, aber keine echten kognitiven Fähigkeiten besitzen. Ihre Kernpunkte sind:

KI simuliert nur: Modelle erkennen und imitieren Muster, statt echte, konsistente Logik anzuwenden.
Komplexität überfordert: Bei steigender Komplexität einer Aufgabe bricht die Genauigkeit der Modelle angeblich zusammen („Accuracy Collapse“).
Fehlende Generalisierung: Wahre Intelligenz erfordere die Fähigkeit, Prinzipien auf neue Situationen zu übertragen – eine Fähigkeit, die den Modellen fehle.

Apples Fazit: Man dürfe Eloquenz nicht mit Intelligenz verwechseln. Um die wahren Fähigkeiten zu testen, müsse man KI-Systeme – genau wie Menschen – mit neuen, komplexen Problemen konfrontieren. Auf dem Papier klingt das plausibel. In der Praxis hat Apple bei genau diesem Test jedoch selbst gravierende Fehler gemacht.

Der Gegenschlag: Warum Apples Studie einer Prüfung nicht standhält

Nur wenige Wochen nach Apples Veröffentlichung erschien eine detaillierte Replik von C. Opus (Anthropic) und A. Lawsen (Open Philanthropy). Ihr Paper „The Illusion of the Illusion of Thinking“ ist eine methodische Zurechtweisung und deckt drei fundamentale Fehler in Apples Versuchsaufbau auf, die die Schlussfolgerungen quasi vollständig entkräften.

Apple Fehler #1: Der „Zusammenbruch“ war nur ein volles Textfenster (Token-Limits)

Apples Studie berichtet von einem dramatischen Leistungsabfall bei Rätseln wie den „Türmen von Hanoi“. Ab einer bestimmten Komplexität (z. B. 8 Scheiben) falle die Erfolgsquote auf null. Was die Forscher jedoch ignorierten, war eine triviale technische Grenze: das maximale Token-Limit der Modelle.

Die Anzahl der Züge für die Türme von Hanoi wächst exponentiell mit der Formel 2N−1, wobei N die Anzahl der Scheiben ist.

Für 7 Scheiben sind 127 Züge nötig.
Für 8 Scheiben sind es bereits 255 Züge.
Für 15 Scheiben wären es 32.767 Züge.

Jeder Zug benötigt eine gewisse Anzahl an Tokens für seine Beschreibung in Textform. Die Modelle stießen bei den von Apple als „gescheitert“ markierten Aufgaben schlicht an ihr Output-Limit (z. B. 64.000 Tokens). Sie konnten die Lösung nicht zu Ende schreiben, weil ihr Antwortfenster voll war. Besonders entlarvend: Die Modelle signalisierten dies oft sogar explizit mit Sätzen wie: „Das Muster setzt sich fort, aber um die Antwort nicht zu lang werden zu lassen, höre ich hier auf.“

Apples automatisiertes Bewertungssystem interpretierte diese abgebrochenen, aber prinzipiell korrekten Lösungsansätze als komplettes Versagen.

KINEWS24.de - Apple Illusion of Thinking Gegen-Studie beweist, warum Apple komplett falsch liegt

Diagramm: Das Token-Limit-Problem beim „Turm von Hanoi“-Rätsel

Die Tabelle visualisiert, wie die Anzahl der Züge (2N−1) und der dafür geschätzte Token-Bedarf mit jeder weiteren Scheibe (N) exponentiell wachsen.

Anzahl der Scheiben (N)	Erforderliche Züge (2^N – 1)	Geschätzte Tokens (Annahme: ~5 Tokens/Zug)	Anmerkung
5 Scheiben	31 Züge	~155 Tokens	Trivial für jedes Modell.
6 Scheiben	63 Züge	~315 Tokens
7 Scheiben	127 Züge	~635 Tokens
8 Scheiben	255 Züge	~1.275 Tokens	Apples „Collapse“-Punkt. Weit unter jedem Token-Limit.
9 Scheiben	511 Züge	~2.555 Tokens
10 Scheiben	1.023 Züge	~5.115 Tokens	Noch immer unproblematisch.
…	…exponentieller Anstieg…	…exponentieller Anstieg…
14 Scheiben	16.383 Züge	~81.915 Tokens	Überschreitet bereits ein 64k-Token-Limit!
15 Scheiben	32.767 Züge	~163.835 Tokens	Sprengt die meisten gängigen 128k-Token-Limits.
…	…wird extrem schnell untragbar…	…wird extrem schnell untragbar…
20 Scheiben	1.048.575 Züge	~5.242.875 Tokens	Völlig unmöglich als Text auszugeben.

Analyse des Diagramms:

Dieses Diagramm macht das Kernproblem sofort ersichtlich:

Der „Collapse“ bei 8 Scheiben ist kein Denkfehler: Mit geschätzten ~1.275 Tokens liegt die Lösung für 8 Scheiben weit unterhalb jedes relevanten Token-Limits. Ein Scheitern hier kann also nicht auf die Länge der Antwort zurückgeführt werden (es sei denn, es gab andere, nicht genannte Beschränkungen).
Die wahre Grenze ist physikalisch: Spätestens bei 14-15 Scheiben wird es für viele Modelle unmöglich, die vollständige Liste aller Züge auszugeben. Der geschätzte Token-Bedarf übersteigt die Kapazität ihres Kontextfensters.
Das Scheitern ist eine Systemgrenze, keine kognitive Grenze: Ein Modell, das bei N=15 die Ausgabe verweigert oder abbricht, demonstriert kein mangelndes Denkvermögen. Es stößt an eine fest programmierte, technische Grenze – genau wie ein Taschenrechner, der bei einer zu großen Zahl „Error“ anzeigt.

Das Diagramm belegt also die zentrale These der Kritiker: Apple hat die KI nicht für ihr Denkvermögen bestraft, sondern dafür, dass sie nicht unendlich viel Text generieren kann.

Apple Fehler #2: KI für unlösbare Aufgaben bestrafen? (Mathematisch unmögliche Rätsel)

Noch gravierender ist der zweite Fehler, der im Test mit den „River Crossing“-Rätseln (ähnlich „Missionare und Kannibalen“) auftrat. Das Forschungsteam von Apple testete die Modelle mit Konfigurationen, die mathematisch nachweislich unlösbar sind.

So wurden die Modelle beispielsweise aufgefordert, ein Rätsel mit 6 oder mehr Akteuren zu lösen, obwohl das zur Verfügung gestellte Boot nur eine Kapazität für 3 Personen hatte. Es ist ein bekanntes Ergebnis, dass dieses Problem für N>5 mit einer Bootskapazität von b=3 keine Lösung hat.

Die KI-Modelle erkannten dies korrekt und gaben keine Lösung aus. Apples Bewertungssystem stufte dies jedoch als „Fehler“ ein. Die Autoren der Gegenstudie ziehen einen treffenden Vergleich: Dies sei „äquivalent dazu, einen SAT-Solver dafür zu bestrafen, dass er bei einer unerfüllbaren Formel ‚unbefriedigbar‘ zurückgibt.“

Apple Fehler #3: Ein starres Testsystem, das den Kontext ignoriert

Beide Punkte führen zum dritten Hauptkritikpunkt: Apples automatisierte und starre Evaluierungsmethode. Das System war darauf ausgelegt, nur eine vollständige, exakt formatierte Liste aller Züge als „korrekt“ zu werten.

Es konnte nicht unterscheiden zwischen:

Einem Modell, das an einer Denkaufgabe scheitert.
Einem Modell, das eine Lösung aufgrund von Token-Limits strategisch abbricht.
Einem Modell, das korrekt erkennt, dass eine Aufgabe unlösbar ist.

Diese fehlende Differenzierung macht die zentrale Aussage vom „Accuracy Collapse“ unhaltbar. Der Zusammenbruch fand nicht in der Denkfähigkeit der KI statt, sondern in der Unfähigkeit des Test-Setups, die Ergebnisse korrekt zu interpretieren.

Der Gegenbeweis: So einfach lässt sich Apples These widerlegen

Um ihre Kritik zu untermauern, führten Opus und Lawsen einen einfachen, aber cleveren Gegentest durch. Sie stellten den Modellen eine der Aufgaben, an denen sie bei Apple angeblich gescheitert waren, aber mit einer veränderten Anforderung.

How-To: Ein funktionierender Code statt einer endlosen Liste

Statt eine komplette Liste aller Züge für die Türme von Hanoi zu verlangen, baten die Forscher um eine alternative Repräsentation der Lösung.

Aufgabe: Löse die „Türme von Hanoi“ mit 15 Scheiben.
Anforderung: Gib nicht die 32.767 Züge als Text aus. Schreibe stattdessen eine funktionierende Lua-Funktion, die bei Ausführung die korrekte Lösungssequenz drucken würde.
Ergebnis: Modelle wie Claude 3.7, OpenAI o3 und Gemini 2.5 erstellten problemlos korrekte, rekursive Algorithmen, die das Problem lösen. Der dafür benötigte Code umfasste weniger als 5.000 Tokens – weit unterhalb der Leistungsgrenze.

Dieses Experiment zeigt unmissverständlich: Die Modelle verstehen das Prinzip und die Logik des Problems. Das Scheitern in Apples Studie war kein Denkfehler, sondern ein reines Formatierungs- und Ausgabeproblem.

Mehr als nur schlechte Methodik: Steckt hinter Apples Paper eine strategische Absicht?

Die gravierenden Mängel werfen eine weitere Frage auf: Wie konnte einem Unternehmen wie Apple ein derart fehlerhaftes Studiendesign unterlaufen? Kritiker vermuten, dass die Motivation weniger wissenschaftlicher als strategischer Natur war.

Die Veröffentlichung erfolgte kurz vor der WWDC 2025, auf der Apple mit „Apple Intelligence“ seine KI-Strategie vorstellte, die von vielen Beobachtern als Aufholjagd und nicht als Innovationssprung bewertet wird. Professor Seok Joon Kwon von der Sungkyunkwan University argumentiert, dass Apple nicht über die massiven GPU-Cluster verfügt, wie sie Google, Microsoft oder OpenAI nutzen.

Könnte das Paper also ein Versuch gewesen sein, die beeindruckenden Fähigkeiten der Konkurrenzmodelle kleinzureden und die eigene, eher zurückhaltende Entwicklung als wohlüberlegte Vorsicht zu verkaufen? Es wirkt wie der Versuch, die Torpfosten zu verschieben, weil man im aktuellen Spiel nicht mithalten kann. Ein echtes Armutszeugnis für ein Unternehmen, das einst als Speerspitze der Innovation galt.

Was wirklich zählt: Wie man KI-Denkleistung fair bewerten kann

Die Debatte um Apples Paper ist mehr als nur akademisches Gezänk. Sie zeigt, wie entscheidend ein durchdachtes und faires Evaluierungsdesign ist. Die Autoren der Gegenstudie schlagen konkrete Verbesserungen für zukünftige Forschung vor:

Trenne Denkfähigkeit von Output-Beschränkungen: Tests müssen so gestaltet sein, dass sie zwischen dem Verständnis eines Algorithmus und der Fähigkeit zur reinen Textausgabe unterscheiden können.
Überprüfe die Lösbarkeit: Bevor ein Modell bewertet wird, muss sichergestellt sein, dass die gestellte Aufgabe überhaupt lösbar ist.
Nutze sinnvolle Komplexitätsmetriken: Die reine Länge einer Lösung (z. B. Anzahl der Züge bei Hanoi) ist ein schlechter Indikator für die kognitive Schwierigkeit eines Problems.
Erlaube verschiedene Lösungsformate: Die Bewertung sollte flexibel sein und alternative Darstellungen wie Code oder abstrakte Formeln zulassen.

Fazit Apple liegt falsch: Eine Illusion der Evaluation, nicht des Denkens

Apples „Illusion of Thinking“ Paper entpuppt sich bei genauerem Hinsehen als „Illusion of Evaluation“. Die präsentierten Ergebnisse sagen mehr über die Mängel des eigenen Versuchsaufbaus aus als über die tatsächlichen Grenzen von KI-Modellen. Die fundamentalen Fehler – ignorierte Token-Limits und die Bewertung unlösbarer Aufgaben – machen die zentralen Schlussfolgerungen des Papers zunichte.

Für Apple ist der Vorfall peinlich. Er zeigt nicht nur eine wissenschaftliche Unsauberkeit, die man von einem Tech-Giganten nicht erwarten würde, sondern nährt auch den Verdacht, dass man im KI-Rennen so weit zurückliegt, dass man zu fragwürdigen Mitteln greift, um die Konkurrenz zu diskreditieren.

Die eigentliche Lektion ist jedoch eine positive für die KI-Forschung: Die Frage ist nicht, ob moderne Modelle denken können, sondern wie wir ihre komplexen Fähigkeiten fair und aussagekräftig messen. Apples Studie hat, wenn auch unfreiwillig, einen wichtigen Beitrag geleistet: Sie ist ein perfektes Beispiel dafür, wie man es nicht machen sollte.

Häufig gestellte Fragen – Apple „Illusion of Thinking“

Was ist die Kernaussage von Apples „Illusion of Thinking“-Paper? Apples Paper behauptet, dass selbst fortschrittliche KI-Modelle keine echten Denkfähigkeiten besitzen und bei komplexen Problemen systematisch versagen („Accuracy Collapse“), da sie nur Muster imitieren statt logisch zu schlussfolgern.

Was sind die Hauptkritikpunkte an Apples KI-Studie? Die Hauptkritikpunkte, dargelegt im Paper „The Illusion of the Illusion of Thinking“, sind: 1. Die Studie ignorierte die Token-Output-Limits der Modelle. 2. Sie testete Modelle mit mathematisch unlösbaren Rätseln und wertete das als Versagen. 3. Das automatisierte Bewertungssystem konnte nicht zwischen Denkfehlern und technischen Beschränkungen unterscheiden.

Wer hat das Gegen-Paper „The Illusion of the Illusion of Thinking“ verfasst? Das Paper wurde von C. Opus, einem Forscher bei Anthropic (dem Unternehmen hinter dem Claude-Modell), und A. Lawsen von Open Philanthropy verfasst.

Hat Apple die KI mit unlösbaren Aufgaben getestet? Ja. In den „River Crossing“-Tests wurden Konfigurationen mit 6 oder mehr Akteuren bei einer Bootskapazität von 3 verwendet. Diese Konstellation ist mathematisch nachweislich unlösbar, wurde von Apple aber als Testfall genutzt und das Nichterbringen einer Lösung als Fehler der KI gewertet.

Warum ist dieser Streit um eine Studie so wichtig für die KI-Zukunft? Die Debatte ist entscheidend, weil sie die Methoden zur Bewertung von KI-Fähigkeiten in Frage stellt. Sie zeigt, dass voreilige Schlüsse über die Grenzen der KI oft auf fehlerhaften Tests beruhen. Für eine seriöse KI-Entwicklung sind rigorose und faire Evaluierungsstandards unerlässlich.

www.KINEWS24-academy.de – KI. Direkt. Verständlich. Anwendbar.

Quellen

Opus, C., & Lawsen, A. (2025). The Illusion of the Illusion of Thinking: A Comment on Shojaee et al. (2025). arXiv. Verfügbar unter: https://arxiv.org/html/2506.09250v1
Mendes, M. (2025, 13. Juni). New paper pushes back on Apple’s LLM ‘reasoning collapse’ study. 9to5Mac. Verfügbar unter: https://9to5mac.com/2025/06/13/new-paper-pushes-back-on-apples-llm-reasoning-collapse-study/

#Apple #KI #AI #AppleisWrong #IllusionOfThinking #Kritik #KIStudie #AppleIntelligence #KINEWS24

KINEWS24.de – Apple Illusion of Thinking Gegen-Studie beweist, warum Apple komplett falsch liegt

Leave a Comment

Exit mobile version