LLM - Stanford und DeepMind erforschen neue Methoden zur Optimierung des Trainings autonomer Agenten durch den Einsatz großer Sprachmodelle. Verbessertes RL-Training durch sprachbasierte Belohnungsfunktionen.LLM - Stanford und DeepMind erforschen neue Methoden zur Optimierung des Trainings autonomer Agenten durch den Einsatz großer Sprachmodelle. Verbessertes RL-Training durch sprachbasierte Belohnungsfunktionen.

Deepmind und die Stanford University haben in einer bemerkenswerten Studie neue Methoden zum Training für autonome Agenten erforscht. Dabei ist das Ziel, dass die autonomen Agenten besser mit den Zielen der Nutzer übereinstimmen – man spricht dabei vom sogenannten Alignment.

Das Problem mit autonomen Agenten

Autonome Agenten, die bei der KI und dem maschinellen Lernen eine wichtige Rolle spielen, bringen einige Herausforderungen mit sich. Normalerweise müssen Nutzer entweder Belohnungsfunktionen für gewünschte Aktionen erstellen oder eine Menge gekennzeichneter Daten bereitstellen. Beides ist schwierig und oft unpraktisch.

Die Lösung: Große Sprachmodelle

Die Forscher haben sich das Ziel gesetzt, ein System zu entwickeln, das es Nutzern einfacher macht, ihre Vorlieben zu teilen. Dafür setzen sie auf große Sprachmodelle (LLMs), die auf riesigen Mengen von Textdaten aus dem Internet trainiert wurden. LLMs sind großartige Kontextlerner, weil sie auf einem ausreichend großen Datensatz trainiert wurden, um wichtige Alltagsprinzipien über menschliches Verhalten einzubeziehen.

Der neue Ansatz

In der Studie wurde untersucht, wie ein LLM als Ersatz für die Belohnungsfunktion bei der Ausbildung von RL-Agenten eingesetzt werden kann. Mit einer Art Gesprächsschnittstelle lässt das System den Nutzer ein Ziel definieren. Dieses Ziel wird dann durch den LLM genutzt, um einen RL-Agenten zu trainieren.

Die Studie

Das Belohnungsdesign in der KI-gestützten Verstärkungslernmethode (Reinforcement Learning, RL) stellt eine Herausforderung dar. Menschliche Vorstellungen von gewünschtem Verhalten sind oft schwer über Belohnungsfunktionen zu spezifizieren oder erfordern viele Expertendemonstrationen. Aber was wäre, wenn wir Belohnungen günstiger gestalten könnten, indem wir eine natürliche Sprachschnittstelle verwenden? Dieses Konzept wird in einer aktuellen Studie der Stanford University und DeepMind untersucht.

Was ist RL-Training?

RL-Training steht für “Reinforcement Learning Training”. Reinforcement Learning (RL), oder Verstärkungslernen, ist ein Bereich der Künstlichen Intelligenz (KI) und Maschinellem Lernen, in dem ein Agent (z. B. ein Roboter oder eine Software) lernt, Aufgaben zu erfüllen oder ein Ziel zu erreichen, indem er aus der Interaktion mit seiner Umgebung lernt.

GPT-3 als Proxy für die Belohnungsfunktion

Die Forscher schlagen vor, ein großes Sprachmodell (LLM), wie zum Beispiel GPT-3, als Proxy für die Belohnungsfunktion zu verwenden. In diesem Szenario gibt der Benutzer einen Textbefehl mit einigen Beispielen (Few-Shot) oder einer Beschreibung (Zero-Shot) des gewünschten Verhaltens vor. Dieser Ansatz nutzt die Proxy-Belohnungsfunktion in einem RL-Rahmenwerk.

Während des Trainings bewertet das LLM das Verhalten des RL-Agenten im Vergleich zum vom Befehl beschriebenen gewünschten Verhalten und gibt ein entsprechendes Belohnungssignal aus. Der RL-Agent nutzt diese Belohnung, um sein Verhalten anzupassen.

Vorteile und Herausforderungen

Ein wesentlicher Vorteil dieses Ansatzes besteht darin, dass wir die Lernfähigkeiten des LLMs und sein Vorwissen über menschliches Verhalten nutzen können, sodass Benutzer nur eine Handvoll Beispiele für wünschenswertes Verhalten liefern müssen. Außerdem können Benutzer ihre Präferenzen intuitiv in Sprache formulieren.

Eine potenzielle Herausforderung besteht jedoch darin, dass unklar ist, wie viel Befehlsdesign für das LLM erforderlich ist, um die Benutzerabsicht zuverlässig abzuleiten.

Experimentelle Ergebnisse

In verschiedenen Aufgabenstellungen, wie dem Ultimatum-Spiel, Matrix-Spielen und der DEALORNODEAL-Verhandlungsaufgabe, zeigte der Ansatz, dass RL-Agenten, die mit diesem Rahmenwerk trainiert wurden, gut auf die Benutzerziele abgestimmt sind und RL-Agenten übertreffen, die mit Belohnungsfunktionen aus dem überwachten Lernen trainiert wurden.

Insgesamt führte der Einsatz von LLMs als Proxy-Belohnungsfunktion dazu, dass RL-Agenten durchschnittlich 35% genauer trainiert wurden, um auf Benutzerziele ausgerichtet zu sein, verglichen mit der Basislinie.

Einfluss der Sprache auf Belohnungsformung

Das Design von Belohnungsfunktionen durch Sprache ist ein aufstrebendes Forschungsfeld. Während einige Arbeiten LLMs verwenden, um Belohnungen durch Feinabstimmung auf große Mengen von Benutzerdaten zu formen, verwenden wir in unserem Ansatz In-Context-Lernen, das nur eine Handvoll Benutzerdaten benötigt.

Repository auf GitHub zu dem Projekt

Dieses Repository basiert auf dem Forschungspapier “Reward Design with Language Models”. Es beinhaltet die genutzten Aufforderungen (Prompts) für verschiedene Anwendungsbereiche und den Code zum Training eines RL-Agenten mithilfe eines sprachbasierten Lernmodells (LLM). Jeder Anwendungsbereich (Ultimatum Game, Matrix Games, DealOrNoDeal) hat ein eigenes Verzeichnis und benötigt eine separate conda/virtuelle Umgebung.

Abschließende Gedanken

Die vorgeschlagene Methode zeigt, dass das Verwenden von LLMs als Proxy-Belohnungsfunktion ein vielversprechender Ansatz zur Verbesserung des RL-Trainings ist. Durch die Verwendung von Sprache als Schnittstelle bietet der Ansatz eine einfache und intuitive Möglichkeit für Benutzer, ihre Präferenzen zu kommunizieren. Die Forschung auf diesem Gebiet ist jedoch noch in den Kinderschuhen und weitere Untersuchungen sind erforderlich, um das volle Potenzial dieses Ansatzes zu realisieren.

Stanford und Deepmind Studien-PDF und GitHub