Quiet-STaR – Stanford University bringt Sprachmodelle bei Denken zu lernen: Beim Schreiben und Sprechen machen Menschen manchmal Pausen zum Nachdenken. Obwohl Arbeiten über das Schlussfoldern oft als Methode zur Beantwortung von Fragen oder Erledigung von Aufgaben dargestellt wurden, ist Denken implizit in nahezu jedem geschriebenen Text enthalten. Das gilt beispielsweise für die nicht explizierten Schritte zwischen den Zeilen eines Beweises oder für die Theorie des Geistes, die einer Unterhaltung zugrunde liegt.

Table of Contents

Selbstlernende Denker (STaR)

Beim Self-Taught Reasoner (STaR) von Zelikman et al. (2022) lernt ein Sprachmodell nützliches Denken, indem es auf Frage-Antwort-Datensätzen trainiert wird. Dabei generiert es zunächst zufällige Begründungen (Rationales), um die Fragen zu beantworten. Anschließend wird mittels REINFORCE-Algorithmus darauf hintrainiert, jene Begründungen häufiger zu generieren, die zur korrekten Beantwortung der Frage führten.

Auf diese Weise lernt das Modell Schritt für Schritt, bessere Denkprozesse für die Fragestellungen in den Trainingsdaten abzuleiten. Der Lernvorgang ist iterativ – mit jeder Runde können komplexere Probleme gelöst werden.

Allerdings ist STaR auf das Setting eng umrissener Frage-Antwort-Aufgaben beschränkt. Die Begründungen, die das Modell lernt, beziehen sich spezifisch auf die jeweilige Aufgabenstellung der Trainingsdaten, etwa mathematische oder logische Fragestellungen.

Idealerweise sollte ein Sprachmodell jedoch lernen, für beliebigen Text die implizierten, unausgesprochenen Denkschritte und Begründungen abzuleiten. Denn in natürlicher Sprache, etwa Unterhaltungen oder Erzählungen, sind die meisten Hintergedanken und Schlussfolgerungen ebenfalls nicht explizit ausformuliert.

Genau hier setzt Quiet-STaR an: Es ist eine Verallgemeinerung von STaR, bei der das Modell lernen soll, zu jedem beliebigen Textsegment potenziell hilfreiche Begründungen für die Fortsetzung des Textes abzuleiten.

Quiet-STaR: Die Verallgemeinerung

Quiet-STaR ist eine Verallgemeinerung von STaR, bei der Sprachmodelle lernen, bei jedem Token Begründungen zu generieren, um den weiteren Text zu erklären und somit ihre Vorhersagen zu verbessern. Im Gegensatz zu STaR arbeitet Quiet-STaR also nicht mehr auf speziellen Frage-Antwort-Datensätzen, sondern lernt direkt aus beliebigem Fließtext. Dabei wurden folgende wichtige Herausforderungen adressiert:

Die Rechenkosten für das Generieren von Fortsetzungen
Die Tatsache, dass das Sprachmodell anfangs nicht weiß, wie es interne Gedanken erzeugen und nutzen soll
Die Notwendigkeit, über einzelne nächste Token hinauszusehen

Als Lösungen schlugen die Forscher Folgendes vor:

Einen tokenweisen parallelen Sampling-Algorithmus, um Gedanken gleichzeitig für alle Tokens zu generieren
Lernbare Start- und Endtokens, die das Modell benutzen kann, um Beginn und Ende von Gedanken zu markieren
Eine erweiterte Teacher-Forcing-Technik, bei der für mehrere zukünftige Tokens vorausgeschaut und Gedanken anhand ihrer Fähigkeit, diese vorherzusagen, bewertet werden

Durch diese Methodik kann Quiet-STaR aus nahezu beliebigem Text lernen, implizites Denken schrittweise explizit zu machen und so die Sprachmodellierung selbst zu verbessern.

Ermutigende Ergebnisse

Die Evaluationen von Quiet-STaR zeigen vielversprechende Ergebnisse für den Ansatz, Sprachmodelle durch das Generieren von Begründungen beizubringen, tiefer über Textinhalte nachzudenken.

Zunächst wurde untersucht, welchen Einfluss die gelernten Begründungen auf die Token-Vorhersage haben. Dabei zeigte sich, dass die generierten Begründungen besonders für schwer vorherzusagende Token hilfreich waren. Das Modell lernte also gezielt an den schwierigen Stellen intensiver zu reflektieren.

Darüber hinaus verbesserte sich durch Quiet-STaR die Fähigkeit, ohne zusätzliches Finetuning schwierige Fragen direkt zu beantworten. Auf dem GSM8K Common Sense Reasoning Benchmark stieg die Zero-Shot-Genauigkeit von 5,9% auf 10,9%. Auf der CommonsenseQA-Aufgabe gab es einen Anstieg von 36,3% auf 47,2%.

Zusätzlich zeigte sich, dass sich durch die Art des Trainings mit Quiet-STaR die Perplexität bei schwierigen Tokens in natürlichen Texten verbesserte. Das Modell lernte also generell, Bereiche mit impliziten Denkschritten besser zu erfassen.

Insgesamt deuten die Ergebnisse darauf hin, dass Quiet-STaR einem Sprachmodell beibringt, aktiv über logische Verknüpfungen und Implikationen in Texten nachzudenken und dieses neu erworbene Reasoning-Vermögen unmittelbar für Vorhersagen und Fragestellungen zu nutzen – ohne spezielle Feinabstimmung. Das Modell lernt gewissermaßen “zwischen den Zeilen zu lesen”.

Fazit: Quiet-STaR – Stanford University bringt Sprachmodelle bei Denken zu lernen

Wenn Modelle lernen, beim Training aktiv über den Kontext und die logischen Verknüpfungen in Texten nachzudenken, könnte dies zu einer viel tiefergehenden Verständnisfähigkeit führen.

Derzeit funktionieren selbst die fortschrittlichsten Sprachmodelle oft noch weitgehend statistisch – sie erkennen Muster in Daten und lernen, Wahrscheinlichkeitsverteilungen über mögliche nächste Token vorherzusagen.

Quiet-STaR könnte den Weg zu einer echten “Reasoning-Fähigkeit” ebnen, bei der die Modelle situativ über die Bedeutungen und Implikationen eines Textes reflektieren lernen.

Auf Basis der abgeleiteten Begründungen und Denkschritte könnten dann präzisere, konsistentere und allgemeiner nutzbare Vorhersagen getroffen werden – sowohl für Textgenerierung als auch Frage-Antwort-Aufgaben.

Gerade für anspruchsvollere AI-Systeme mit natürlicher Kommunikationsfähigkeit wäre diese Reasoning-Kompetenz von unschätzbarem Wert. Die Systeme würden in die Lage versetzt, Gedankengänge und Absichten in gesprochener oder geschriebener Sprache tiefer zu erfassen und sinnvoller darauf einzugehen.

Quiet-STaR markiert einen Schritt hin zu Sprachmodellen, die allgemeiner und skalierbarer lernen können zu schlussfolgern. Menschen müssen oft innehalten und Gedanken ordnen, bevor sie eine Antwort geben können. Mit Quiet-STaR wurde nun eine vielversprechende Methode entwickelt, diesen Denkprozess in Sprachmodellen nachzubilden.

Quelle: ArXiv, Studien-Paper-PDF

#KuenstlicheIntelligenz #KI #artificialintelligence #AI #Sprachmodelle #Schlussfolgern #Reasoning #NatürlicheSprachverarbeitung

Quiet-STaR – Stanford University bringt Sprachmodelle bei Denken zu lernen

ByOliver Welling

Selbstlernende Denker (STaR)

Quiet-STaR: Die Verallgemeinerung

Ermutigende Ergebnisse

Fazit: Quiet-STaR – Stanford University bringt Sprachmodelle bei Denken zu lernen

Die 29 besten KI-Sales-Tools für Deinen maximalen Erfolg im Vertrieb 2024

Die 10 besten Alternativen zu ChatGPT findest Du hier!

KI im Mittelstand – Jetzt künstliche Intelligenz im Unternehmen nutzen

16 besten KI Meeting Assistenten

Die 22 KI-Supermächte: Ein DeepDive auf die führenden Player 2024

Keymate.ai ist ChatGPT MIT Google Search – Krasse Kombi

By Oliver Welling

Related Post

OpenAI verliert Jan Leike – schwere Vorwürfe gegen Führung und ernste Lücke im Superalignment Team

OpenAI und Reddit verkünden Partnerschaft

KINews24 Update, Freitag, 17.5.2024

You missed

OpenAI verliert Jan Leike – schwere Vorwürfe gegen Führung und ernste Lücke im Superalignment Team

OpenAI und Reddit verkünden Partnerschaft

KINews24 Update, Freitag, 17.5.2024

Google PaliGemma

ByOliver Welling

Selbstlernende Denker (STaR)

Quiet-STaR: Die Verallgemeinerung

Ermutigende Ergebnisse

Fazit: Quiet-STaR – Stanford University bringt Sprachmodelle bei Denken zu lernen

Die 29 besten KI-Sales-Tools für Deinen maximalen Erfolg im Vertrieb 2024

Die 10 besten Alternativen zu ChatGPT findest Du hier!

KI im Mittelstand – Jetzt künstliche Intelligenz im Unternehmen nutzen

Related Posts

By Oliver Welling

Related Post

You missed