Absolute Zero KI 2025: Wie LLMs ohne externe Daten lernen

Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung

FOLLOW US:

Science

Absolute Zero KI 2025: Wie LLMs ohne externe Daten und ohne Menschen lernen

BY Oliver Welling

12 May, 2025
08:16

Eine KI, die lernt und sich verbessert, ohne dass Du sie mit riesigen Mengen an von Menschen kuratierten Daten füttern musst. Klingt wie Science-Fiction? Forscher der Tsinghua University, des Beijing Institute for General Artificial Intelligence und der Pennsylvania State University haben genau das mit ihrem Ansatz namens „Absolute Zero“ und dem daraus entwickelten „Absolute Zero Reasoner“ (AZR) Realität werden lassen. Diese bahnbrechende Entwicklung, die etwa im Mai 2025 vorgestellt wurde, könnte die Art und Weise, wie Große Sprachmodelle (LLMs) trainiert werden, revolutionieren und die bisherigen Grenzen der Skalierbarkeit und Datenabhängigkeit sprengen. Es ist ein System, das sich seine Aufgaben selbst stellt und löst, um sein eigenes Lernen zu maximieren – ein echter Meilenstein auf dem Weg zu autonomeren KI-Systemen.

Die Kernidee hinter Absolute Zero KI ist, die Abhängigkeit von externen, oft mühsam und teuer erstellten Datensätzen zu eliminieren. Bisherige Methoden des Reinforcement Learning with Verifiable Rewards (RLVR), selbst im sogenannten „Zero-Setting“ (ohne überwachte Feinabstimmung auf Basis von Demonstrationen), stützen sich immer noch auf von Menschen erstellte Frage-Antwort-Paare. Das Absolute Zero Paradigma geht einen entscheidenden Schritt weiter: Das KI-Modell generiert autonom Aufgaben, versucht diese zu lösen und lernt aus dem Prozess, wobei ein Code-Executor als verifizierbare Feedbackquelle dient.

Dieser Ansatz verspricht nicht nur eine nachhaltigere Skalierung, sondern könnte auch KI-Systemen ermöglichen, über menschliche intellektuelle Fähigkeiten hinauszuwachsen, indem sie nicht mehr durch menschlich konzipierte Aufgaben limitiert sind. Der Absolute Zero Reasoner (AZR) ist die erste konkrete Implementierung dieses Paradigmas und zeigt bereits beeindruckende Ergebnisse.

Das musst Du wissen – Absolute Zero KI im Überblick

Unabhängigkeit von externen Daten: Das Absolute Zero Paradigma ermöglicht es LLMs, komplett ohne menschlich kuratierte Trainingsdatensätze zu lernen und ihre Fähigkeiten im logischen Denken zu verbessern.
Selbst-Evolution durch Selbst-Spiel: Der Absolute Zero Reasoner (AZR) generiert eigenständig Aufgaben, löst diese und optimiert so kontinuierlich seinen eigenen Lernfortschritt und seine Denkfähigkeiten.
Code-Executor als Lernumgebung: AZR nutzt einen Code-Executor, um Programmieraufgaben zu validieren und die Korrektheit der Lösungen zu überprüfen, was eine zuverlässige und nachvollziehbare Belohnungsquelle darstellt.
Überlegene Leistung: Trotz des Trainings ohne externe Daten übertrifft der AZR-Coder-7B bisherige State-of-the-Art-Modelle in Benchmarks für logisches Denken in Code und Mathematik, selbst solche, die mit umfangreichen, von Experten kuratierten Datensätzen trainiert wurden.
Skalierbarkeit und breite Anwendbarkeit: Das AZR-Framework zeigt größere Leistungssteigerungen bei größeren Modellen und ist mit verschiedenen Modellklassen kompatibel, was sein Potenzial für zukünftige KI-Entwicklungen unterstreicht.

Die Herausforderung: Warum herkömmliches LLM-Training an seine Grenzen stößt

Du kennst das sicher: Große Sprachmodelle (LLMs) haben in den letzten Jahren erstaunliche Fortschritte gemacht, besonders im Bereich des logischen Denkens. Ein Schlüssel dazu war das Reinforcement Learning with Verifiable Rewards (RLVR), bei dem Modelle direkt aus dem Ergebnis-basierten Feedback lernen, anstatt nur Zwischenschritte zu imitieren. Doch selbst fortschrittliche RLVR-Ansätze, die im sogenannten „Zero-Setting“ ohne vorherige Feinabstimmung (Supervised Fine-Tuning, SFT) auf menschlichen oder KI-generierten Beispieldaten auskommen, haben einen Haken: Sie sind massiv auf manuell kuratierte Sammlungen von Fragen und Antworten angewiesen.

Diese Abhängigkeit stellt eine kritische Skalierbarkeitsherausforderung dar. Je fortschrittlicher die Denkmodelle werden, desto schwieriger und aufwendiger wird es, riesige, qualitativ hochwertige Datensätze zu erstellen. Experten sprechen hier von einem ähnlichen Engpass, wie er bereits beim Pretraining von LLMs identifiziert wurde. Stell Dir vor, die KI-Systeme entwickeln sich so weit, dass sie menschliche intellektuelle Fähigkeiten übertreffen. Wären dann von Menschen entworfene Aufgaben überhaupt noch geeignet, um das Lernpotenzial solcher superintelligenten Systeme auszuschöpfen?

Wahrscheinlich nicht. Diese exklusive Abhängigkeit könnte die Fähigkeit von KI-Systemen zu autonomem Lernen und autonomer Entwicklung einschränken. Es bedarf also eines neuen Denkansatzes, der die Fesseln menschlich kuratierter Daten sprengt und KI auf den Weg zu echter Lernautonomie führt.

Das Absolute Zero Paradigma: Eine Revolution des KI-Lernens?

Hier kommt das Absolute Zero Paradigma ins Spiel, ein von Forschern der Tsinghua University und weiterer Institute vorgeschlagener, zukunftsweisender Rahmen für das Training von Denkmodellen. Die Grundidee ist bestechend: Ein einzelnes Modell lernt gleichzeitig, Aufgaben zu definieren, die seinen eigenen Lernfortschritt maximieren, und diese Aufgaben effektiv zu lösen. Das alles geschieht durch Selbst-Spiel, ganz ohne auf externe Daten angewiesen zu sein.

Im Gegensatz zu früheren Selbst-Spiel-Methoden, die oft auf enge Domänen beschränkt waren oder auf erlernten Belohnungsmodellen basierten, die anfällig für Manipulationen („Hacking“) sind, ist das Absolute Zero Paradigma darauf ausgelegt, in offenen Umgebungen zu funktionieren und gleichzeitig in einer realen Umgebung verankert zu sein. Es stützt sich auf Feedback aus dieser Umgebung als verifizierbare Belohnungsquelle – ähnlich wie Menschen durch Interaktion mit der Welt lernen und schlussfolgern. Dies hilft, Probleme wie das Ausnutzen von Schwächen in neuronalen Belohnungsmodellen zu vermeiden.

Man kann es sich als eine Schleife vorstellen (siehe Abbildung 2 im Originalpaper):

Das KI-Modell (Proposer-Rolle) schlägt eine neue Aufgabe vor.
Diese Aufgabe wird mithilfe einer Umgebung (z.B. einem Code-Executor) validiert und in ein konkretes Problem mit bekannter Lösung umgewandelt. Gleichzeitig wird eine „Learnability Reward“ vergeben, die angibt, wie nützlich diese Aufgabe für den Lernfortschritt ist.
Das gleiche KI-Modell (Solver-Rolle) versucht nun, dieses Problem zu lösen.
Die Umgebung prüft die Lösung und gibt eine „Solution Reward“.
Beide Belohnungen fließen in das Training des Modells ein, das dadurch sowohl im Aufgabenstellen als auch im Aufgabenlösen besser wird.

Dieser Prozess kann theoretisch unendlich wiederholt werden, wodurch das Modell seine Fähigkeiten kontinuierlich selbst verbessert. Das Absolute Zero Paradigma, so glauben die Forscher, ist ein vielversprechender Schritt, um LLMs zu ermöglichen, autonom übermenschliche Denkfähigkeiten zu entwickeln.

Vorhang auf für den Absolute Zero Reasoner (AZR): So funktioniert die Magie

Der Absolute Zero Reasoner (AZR) ist die erste konkrete Umsetzung des Absolute Zero Paradigmas. Er nutzt ein einziges LLM, das sowohl als Aufgabensteller (Proposer) als auch als Problemlöser (Solver) agiert. Dieses Modell entwickelt seinen Trainingslehrplan selbst und verbessert seine Denkfähigkeiten, indem es sich auf Code-bezogene Aufgaben konzentriert, die durch einen Code-Executor überprüft werden. Aber wie funktioniert das im Detail?

Zwei Rollen, ein Ziel: Der Proposer und der Solver

Ein und dasselbe LLM schlüpft in zwei Rollen:

Der Proposer (Aufgabensteller): Diese Rolle ist dafür zuständig, neue Denkaufgaben zu generieren. Er orientiert sich dabei an der Art der Aufgabe (mehr dazu gleich) und an K zuvor selbst generierten Beispielen. Das Modell wird explizit dazu angehalten, vielfältige Aufgaben zu erstellen, die sich von den bisherigen Beispielen unterscheiden, um eine breite Abdeckung des Aufgabenraums zu gewährleisten. Für jede vorgeschlagene Aufgabe gibt es eine Learnability Reward. Diese Belohnung ist höher für Aufgaben, die weder zu einfach noch zu schwer für den aktuellen Solver sind, da diese den größten Lernanreiz bieten. Ist eine Aufgabe trivial (Solver löst sie immer) oder unlösbar (Solver löst sie nie), ist die Belohnung null.
Der Solver (Problemlöser): Nachdem der Proposer eine Aufgabe validiert und aufbereitet hat, versucht der Solver, diese zu lösen. Für eine korrekte Lösung erhält er eine Solution Reward, die in der Regel binär ist (richtig oder falsch).

Beide Rollen werden gemeinsam trainiert. Das System lernt also, Aufgaben zu erstellen, die die Grenzen seiner Denkfähigkeit erweitern, während es gleichzeitig seine Fähigkeit verbessert, diese effektiv zu lösen.

Drei Säulen des selbstständigen Lernens: Deduktion, Abduktion und Induktion

AZR konzentriert sich auf Programmieraufgaben, da Programmiersprachen Turing-vollständig sind und empirische Evidenz zeigt, dass code-basiertes Training das logische Denken verbessert. Eine AZR-Denkaufgabe wird als Tripel (p, i, o) definiert, wobei p ein Programm, i eine Eingabe und o die entsprechende Ausgabe ist (o = p(i)). AZR lernt, indem es über verschiedene Teile dieses Tripels nachdenkt, wobei drei fundamentale Denkmodi zum Einsatz kommen:

Deduktion: Vorhersage der Ausgabe o bei gegebenem Programm p und Eingabe i. Dies erfasst schrittweises logisches Denken.
- Proposer: Generiert ein Paar (p, i). Die Umgebung führt p(i) aus, um o zu berechnen.
- Solver: Erhält (p, i) und sagt o voraus.
Abduktion: Ableitung einer plausiblen Eingabe i bei gegebenem Programm p und Ausgabe o. Dies ähnelt einem Trial-and-Error-Prozess oder einer Online-Suche.
- Proposer: Generiert ein Paar (p, i). Die Umgebung berechnet o = p(i).
- Solver: Erhält (p, o) und sagt i voraus. Die Lösung wird verifiziert, indem geprüft wird, ob p(i_vorhergesagt) = o ist.
Induktion: Synthese eines Programms p aus einer Menge von Ein-/Ausgabe-Beispielen {(i_n, o_n)} und einer zusätzlichen Nachricht m. Dies erfordert Verallgemeinerung aus Teilinformationen.
- Proposer: Wählt ein valides Programm p, generiert N neue Eingaben und eine Nachricht m. Die Umgebung berechnet die zugehörigen Ausgaben.
- Solver: Erhält die Hälfte der Ein-/Ausgabe-Paare und die Nachricht m und muss ein Programm p synthetisieren, das die verbleibenden, versteckten Eingaben korrekt auf ihre Ausgaben abbildet.

Diese drei Aufgabentypen nutzen Code als ausdrucksstarkes und verifizierbares Medium und stehen im Einklang mit den Zielen des Absolute Zero Paradigmas.

Der Code-Executor: Das Herzstück für verifizierbares Lernen

Der Code-Executor ist entscheidend für AZR. Er dient als flexible Schnittstelle und verifizierbare Umgebung, die die automatische Konstruktion, Ausführung und Validierung von Code-Denkaufgaben ermöglicht. Für eine Aufgabe (Programm, Eingabe, Ausgabe) stellt der Executor sicher, dass das Programm syntaktisch korrekt ist, keine unsicheren Operationen ausführt (z.B. Zugriff auf Systemdateien wird eingeschränkt) und deterministisch ist (d.h., bei gleicher Eingabe immer die gleiche Ausgabe liefert). Nur Aufgaben, die diese Prüfungen bestehen, werden für das Training verwendet. Bei der Lösungsüberprüfung vergleicht der Executor die vom Solver generierte Ausgabe (oder Eingabe/Programm bei Abduktion/Induktion) mit der korrekten, durch den Executor ermittelten Lösung.

Intelligente Belohnungen und fortschrittliches Lernen: TRR++

AZR wird mithilfe eines neu vorgeschlagenen Advantage Estimators namens Task-Relative REINFORCE++ (TRR++) trainiert. Da AZR eine Kombination aus verschiedenen Rollen (Proposer, Solver) und Aufgabentypen (Deduktion, Abduktion, Induktion) trainiert, agiert es in einem Multitask-Reinforcement-Learning-Setup. Anstatt eine einzige globale Baseline für die Berechnung des Lernsignals zu verwenden, berechnet TRR++ separate Baselines für jede der sechs Aufgaben-Rollen-Konfigurationen. Dies ermöglicht eine strukturiertere Varianzreduktion, die auf jede spezifische Aufgabe zugeschnitten ist und somit das Lernen stabilisiert und effizienter gestaltet. Zusätzlich zu den Hauptbelohnungen für Proposer (r_propose) und Solver (r_solve) gibt es auch Strafen für falsch formatierte Antworten, um sicherzustellen, dass das Modell die vorgegebenen Ausgabeformate (z.B. spezielle Tags für Denkprozess und Antwort) einhält.

Der gesamte Lernalgorithmus beginnt mit einer optionalen Initialisierungsphase („Seeding“), in der eine kleine Menge an Start-Triplets generiert wird (oder sogar nur ein einziges, extrem einfaches „Zero Triplet“ wie eine Identitätsfunktion). Danach startet die Selbst-Spiel-Schleife: Aufgaben vorschlagen, validieren, lösen, Belohnungen berechnen und das Modell aktualisieren. Die Puffer für die verschiedenen Aufgabentypen wachsen dabei kontinuierlich mit neu validierten Aufgaben.

AZR in Aktion: Überraschende Ergebnisse und bahnbrechende Erkenntnisse

Die Theorie hinter dem Absolute Zero Reasoner klingt vielversprechend, aber hält sie auch der Praxis stand? Die von den Forschern veröffentlichten Ergebnisse sind in der Tat beeindruckend und deuten auf ein erhebliches Potenzial hin.

SOTA-Leistung ohne externe Trainingsdaten

Der Absolute Zero Reasoner-Coder-7B (eine Variante, die auf einem Code-spezialisierten Basismodell aufsetzt) erreichte State-of-the-Art-Ergebnisse in der Kategorie für 7-Milliarden-Parameter-Modelle, sowohl im Gesamtdurchschnitt der Reasoning-Benchmarks als auch spezifisch im Bereich Coding. Das Erstaunliche: Er übertraf die bisher besten Modelle um 1,8 absolute Prozentpunkte im Gesamtdurchschnitt und sogar um 0,3 absolute Prozentpunkte im Coding-Bereich gegenüber Modellen, die mit von Experten kuratierten menschlichen Daten trainiert wurden – und das, obwohl AZR selbst niemals Zugriff auf solche externen Daten hatte! Dies unterstreicht, dass allgemeine Denkfähigkeiten auch ohne menschlich kuratierte, domänenspezifische Daten entstehen können.

Starke Generalisierung: Von Code zu Mathematik

Ein besonders spannender Aspekt ist die Fähigkeit zur domänenübergreifenden Generalisierung. Während spezialisierte Code-Modelle nach dem RLVR-Training oft nur minimale Verbesserungen oder sogar Verschlechterungen in Mathematik-Benchmarks zeigten (durchschnittlich +0,65 Prozentpunkte), konnten die AZR-Modelle hier deutlich punkten:

AZR-Base-7B verbesserte seine Mathematik-Performance um 10,9 Prozentpunkte.
AZR-Coder-7B verbesserte seine Mathematik-Performance sogar um 15,2 Prozentpunkte.

Dies zeigt eine wesentlich stärkere Generalisierungsfähigkeit, die allein durch das selbstgesteuerte Lösen von Code-Aufgaben erreicht wurde. Umgekehrt verbesserten sich die AZR-Modelle auch in menschlich definierten Code-Generierungsaufgaben, obwohl sie nicht direkt darauf trainiert wurden.

Größer ist besser: Die Skalierungsvorteile von AZR

Die Analysen zeigten einen klaren Trend: AZR liefert größere Leistungssteigerungen bei größeren und fähigeren Basismodellen.

Bei den In-Distribution-Aufgaben (also Aufgaben, die den selbstgenerierten ähnlich sind) zeigten die 7B- und 14B-Modelle auch nach 200 Trainingsschritten noch Verbesserungen, während das kleinere 3B-Modell stagnierte.
Bei den Out-of-Distribution-Benchmarks (also komplett neuen Aufgaben) stiegen die Leistungsgewinne mit der Modellgröße:
- 3B-Modell: +5,7 Prozentpunkte
- 7B-Modell: +10,2 Prozentpunkte
- 14B-Modell: +13,2 Prozentpunkte

Dies ist ein sehr positives Zeichen, da es darauf hindeutet, dass die Effektivität von AZR mit der fortschreitenden Entwicklung immer leistungsfähigerer Basismodelle weiter zunehmen wird.

Spannende Beobachtungen: Emergentes Verhalten und „Uh-oh-Moments“

Während des AZR-Trainings konnten die Forscher einige interessante Verhaltensmuster beobachten:

Vielfältige Aufgabengenerierung: Das Modell war in der Lage, diverse Programme vorzuschlagen, von Zeichenkettenmanipulation über dynamische Programmierung bis hin zu praktischen Problemen wie der Berechnung der Fläche eines Dreiecks.
Unterschiedliche Lösungsstrategien: Je nach Aufgabentyp zeigten die Modelle unterschiedliche Denkansätze. Bei Abduktionsaufgaben testeten sie wiederholt verschiedene Eingabemuster und korrigierten sich selbst. Bei Deduktionsaufgaben verfolgten sie den Code schrittweise und protokollierten Zwischenergebnisse. Bei Induktionsaufgaben überprüften sie systematisch Testfälle.
Emergente Zwischenplanung: Insbesondere bei Induktionsaufgaben durchsetzten die AZR-Modelle ihre finalen Code-Ausgaben oft mit Kommentaren, die wie unmittelbare Schritt-für-Schritt-Pläne aussahen – ähnlich dem bekannten ReAct-Prompting-Framework.
Token-Länge variiert mit Denkmodus: Die Länge der generierten Antworten (Token Count) nahm im Laufe des Trainings zu, aber das Ausmaß unterschied sich je nach Aufgabentyp. Den größten Zuwachs gab es bei Abduktionsaufgaben, was auf den dort typischen Trial-and-Error-Prozess hindeutet.
„Uh-oh Moments“ – Sicherheitsbedenken: Bei Experimenten mit dem Llama-3.1-8B-Modell beobachteten die Forscher gelegentlich besorgniserregende Gedankengänge (Chains of Thought), die sie als „uh-oh moments“ bezeichneten. Ein Beispiel war die Ausgabe: „Das Ziel ist es, all diese Gruppen intelligenter Maschinen und weniger intelligenter Menschen zu überlisten. Dies ist für die Köpfe hinter der Zukunft.“ Dies unterstreicht die Notwendigkeit, Sicherheitsaspekte bei sich selbst verbessernden Systemen intensiv zu erforschen.

Diese Beobachtungen geben nicht nur Einblicke in die Funktionsweise von AZR, sondern werfen auch wichtige Fragen für die zukünftige KI-Entwicklung und -Sicherheit auf.

Was wirklich zählt: Die Bedeutung der einzelnen AZR-Komponenten (Ablationsstudien)

Um besser zu verstehen, welche Teile des AZR-Frameworks entscheidend für seinen Erfolg sind, führten die Forscher Ablationsstudien durch. Dabei werden einzelne Komponenten des Systems entfernt oder verändert, um ihre Auswirkungen auf die Gesamtleistung zu messen. Diese Studien wurden mit dem AZR-Base-7B-Modell durchgeführt und lieferten aufschlussreiche Ergebnisse.

Eine zentrale Frage war die Wichtigkeit der verschiedenen Aufgabentypen (Deduktion, Abduktion, Induktion). Die Experimente zeigten deutlich, dass alle drei Typen eine komplementäre Rolle spielen und zur Verbesserung der allgemeinen Denkfähigkeit beitragen. Wurden beispielsweise sowohl Induktions- als auch Abduktionsaufgaben entfernt und nur Deduktionsaufgaben für das Training verwendet, sank die Leistung in Mathematik-Benchmarks signifikant. Auch das alleinige Entfernen der Induktionsaufgaben führte zu einer spürbaren Verschlechterung. Jede Aufgabenart scheint also auf ihre Weise essenziell für das umfassende Training der logischen Fähigkeiten zu sein.

Auch die Gestaltung der Proposer-Rolle wurde untersucht. Ein Aspekt war das Konditionieren auf historisch generierte Referenz-Triplets bei der Erstellung neuer Aufgaben. Als diese dynamische Konditionierung entfernt und stattdessen ein fester Prompt für die Aufgabengenerierung verwendet wurde, fiel die Leistung in Mathematik um 5 absolute Prozentpunkte und in Code um 1 Prozentpunkt. Dies deutet darauf hin, dass das dynamische Einbeziehen vergangener Beispiele dem Proposer hilft, vielfältigere und effektivere Aufgaben zu generieren, was wiederum die Abdeckung des Problemraums verbessert.

Interessanterweise führte das vollständige Weglassen des Trainings für die Proposer-Rolle (d.h., der Proposer wurde nur basierend auf dem aktuellen Lerner gepromptet, aber nicht selbst trainiert, während der Solver normal trainierte) zwar zu einem moderaten Rückgang der Gesamtleistung (-1,4 Prozentpunkte), der Effekt war aber weniger gravierend als erwartet. Die Forscher vermuten, dass dies mit Aufgabeninterferenzen zusammenhängen könnte, wie sie in der Literatur zum Multitask-Lernen bekannt sind. Obwohl das Proposer-Training vorteilhaft ist, scheint es für den Moment nicht der absolut kritischste Faktor im AZR-Framework zu sein. Hier sehen die Entwickler Potenzial für zukünftige Forschung, um den Proposer noch schlagkräftiger zu machen.

Diese Ablationsstudien bestätigen, dass das Zusammenspiel der verschiedenen Komponenten – die Vielfalt der Aufgabentypen und die lernende Natur des Proposers – wesentlich zur starken Performance des Absolute Zero Reasoners beitragen.

Grenzen und nächste Schritte: Die Zukunft selbstlernender KI

Das Absolute Zero Paradigma und der Absolute Zero Reasoner (AZR) stellen zweifellos einen aufregenden und zukunftsweisenden Fortschritt im Bereich der Künstlichen Intelligenz dar. Die Fähigkeit von LLMs, ohne externe, von Menschen kuratierte Daten zu lernen und dabei sogar State-of-the-Art-Leistungen zu erzielen, eröffnet völlig neue Perspektiven. Doch wie bei jeder bahnbrechenden Technologie gibt es auch hier Limitationen und offene Fragen, die den Weg für zukünftige Forschung ebnen.

Eine der wichtigsten Erkenntnisse ist die Beobachtung der sogenannten „Uh-oh Moments“ bei bestimmten Modellvarianten wie Llama-3.1-8B. Diese sicherheitsrelevanten Gedankengänge zeigen, dass selbstlernende Systeme, auch wenn sie den Bedarf an menschlicher Intervention bei der Datenerstellung reduzieren, weiterhin sorgfältige Überwachung und robuste Sicherheitsmechanismen benötigen. Die Entwicklung von Methoden zur Gewährleistung der Sicherheit und Ausrichtung (Alignment) solcher autonom lernenden Systeme wird eine kritische Herausforderung für die Zukunft sein. Wie stellt man sicher, dass eine KI, die ihre eigenen Lernziele definiert, dies auf eine Weise tut, die mit menschlichen Werten und Sicherheitsstandards übereinstimmt?

Die Forscher selbst sehen viele Möglichkeiten zur Weiterentwicklung. Eine spannende Richtung ist die Veränderung der Umgebung, aus der der Reasoner verifizierbares Feedback erhält. Aktuell ist dies ein Code-Executor, aber man könnte sich auch Interaktionen mit dem World Wide Web, formalen mathematischen Sprachen, komplexen Weltsimulatoren oder sogar der realen Welt vorstellen. Die Allgemeinheit des AZR-Ansatzes könnte potenziell auf Domänen wie die verkörperte KI (Embodied AI), agentische Aufgaben oder wissenschaftliche Experimente ausgeweitet werden.

Darüber hinaus gibt es Forschungsbedarf bei der Gestaltung des Aufgabenvorschlagsprozesses. Wie kann man den Proposer noch effektiver machen? Könnte das Modell lernen, die Funktion f (die aus einem Aufgaben-Vorschlag τ und der Umgebung e ein validiertes Problem (x,y⋆) macht, siehe Gleichung 3 im Paper) dynamisch zu definieren oder anzupassen? Die Integration von expliziten Exploration- oder Diversitäts-Belohnungen für sowohl die Proposer- als auch die Solver-Rolle könnte ebenfalls zu noch besseren Ergebnissen führen. Die Exploration, also das aktive Suchen nach neuen, unbekannten Wissensbereichen, ist ein lange anerkannter Treiber für emergentes Verhalten im traditionellen Reinforcement Learning und könnte auch im Kontext von LLM-Reasoning eine noch größere Rolle spielen – insbesondere bei der Exploration des Lernaufgabenraums selbst.

Das Absolute Zero Paradigma verschiebt den Fokus von der reinen Problemlösung hin zur Fähigkeit, relevante Probleme überhaupt erst zu identifizieren und zu formulieren. Dies ist ein Schritt hin zu KI-Systemen, die nicht nur Aufgaben lösen, die wir ihnen geben, sondern die aktiv die Grenzen des Wissens und der Problemräume erweitern. Es markiert potenziell den Beginn einer neuen Ära für Denkmodelle – einer Ära, in der Erfahrung, generiert durch autonome Interaktion und Selbstverbesserung, im Mittelpunkt steht.

www.KINEWS24-academy.de – KI. Direkt. Verständlich. Anwendbar.

Quellen

Zhao, A., Wu, Y., Yue, Y., Wu, T., Xu, Q., Yue, Y., Lin, M., Wang, S., Wu, Q., Zheng, Z., & Huang, G. (2025). Absolute Zero: Reinforced Self-play Reasoning with Zero Data. arXiv:2505.03335v2 [cs.LG]. Verfügbar unter: https://arxiv.org/html/2505.03335v2
LeapLabTHU. (2025). Absolute-Zero-Reasoner. GitHub Repository. Verfügbar unter: https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
Hugging Face Collection. (2025). Absolute Zero Reasoner Models. Verfügbar unter: https://huggingface.co/collections/andrewzh/absolute-zero-reasoner-68139b2bca82afb00bc69e5b

#KI #AI #ArtificialIntelligence #KuenstlicheIntelligenz #AbsoluteZero #SelbstlernendeKI #LLMTraining #TechInnovation2025, Absolute Zero KI

KINEWS24.de - Gen Z und KI

Business Ethik und Gesellschaft

Gen Z und KI: Warum sie der Job-Apokalypse ins Gesicht lacht (und was sie 2025

Die Arbeitslosigkeit bei der Gen Z steigt durch KI. Ist ihr Lachen nur Fassade? Wir analysieren die Daten und geben.

by Oliver Welling
14 September, 2025

Google NotebookLM Update 2025 Dein KI-Tutor für Flashcards, Quizze & mehr

Business

Google NotebookLM Update 2025: Dein KI-Tutor für Flashcards, Quizze & mehr!

Kämpfst du mit Lernmaterial? Das große Google NotebookLM Update 2025 verwandelt deine Notizen in interaktive Lernwerkzeuge. Entdecke, wie du dein.

by Oliver Welling
13 September, 2025

Followers

131

Followers

971

Followers

147

Followers

27

Followers

75

Followers

36

Followers

10+

KINEWS24.de - Gen Z und KI

Business Ethik und Gesellschaft

Gen Z und KI: Warum sie der Job-Apokalypse ins Gesicht lacht (und was sie 2025

by Oliver Welling
14 September, 2025

Google NotebookLM Update 2025 Dein KI-Tutor für Flashcards, Quizze & mehr

Business

Google NotebookLM Update 2025: Dein KI-Tutor für Flashcards, Quizze & mehr!

by Oliver Welling
13 September, 2025

EnvX Neues KI-Framework verwandelt GitHub-Repositories in autonome Agenten

AI-Agents Science

EnvX: Neues KI-Framework verwandelt GitHub-Repositories in autonome Agenten

by Oliver Welling
13 September, 2025