Google DeepMind RT-2: Innovatives Robotersteuerungsmodell, verbindet Lernen, Verarbeiten und Agieren. Verbesserte Leistung, vielseitige Anwendungsfälle.Google DeepMind RT-2: Innovatives Robotersteuerungsmodell, verbindet Lernen, Verarbeiten und Agieren. Verbesserte Leistung, vielseitige Anwendungsfälle.

Google DeepMind Robotic Transformer 2 (RT-2) ist ein revolutionäres Modell, das sowohl Web- als auch Robotik-Daten lernt und dieses Wissen in allgemeine Anweisungen für die robotische Steuerung übersetzt.

Google DeepMind RT-2 – Das Vision-Sprache-Modelle: Der Schlüssel zur intelligenten Robotik

Hochkapazitive Vision-Sprache-Modelle (VLMs) werden auf Web-Daten in riesigem Umfang trainiert. Dadurch können diese Systeme visuelle oder sprachliche Muster erstaunlich gut erkennen und in verschiedenen Sprachen arbeiten. Aber für Roboter, die ein ähnliches Niveau an Kompetenz erreichen sollen, müssen sie Daten aus erster Hand sammeln und zwar für jedes Objekt, jede Umgebung, jede Aufgabe und jede Situation.

RT-2, eine Weiterentwicklung des Robotic Transformer 1 (RT-1) lernt aus Daten, die von 13 Robotern über 17 Monate in einer Büroküchenumgebung gesammelt wurden. Dabei zeigt RT-2 verbesserte Generalisierungsfähigkeiten und semantisches sowie visuelles Verständnis über die robotischen Daten hinaus, die ihm zur Verfügung standen.

Einbindung von gedanklicher Kette und Entscheidungsfindung

RT-2 kann auf Benutzerbefehle reagieren und grundlegende Schlussfolgerungen ziehen. Es kann zum Beispiel entscheiden, welches Objekt als provisorischer Hammer (ein Stein) verwendet werden könnte oder welches Getränk am besten für eine müde Person ist (ein Energy-Drink).

VLMs zur Steuerung von Robotern adaptieren

Um einen Roboter zu steuern, muss er so trainiert werden, dass er Handlungen ausführt. Diese Herausforderung wurde gelöst, indem Handlungen als Tokens im Modelloutput dargestellt werden – ähnlich wie Sprachtokens. Die Aktionen werden als Zeichenketten beschrieben, die von standardmäßigen natürlichen Sprach-Tokenizern verarbeitet werden können.

Verbesserte Leistung und neue Fähigkeiten

RT-2 wurde in über 6000 Roboter-Versuchen getestet. Dabei hat das Modell in allen Kategorien eine verbesserte Generalisierungsleistung gezeigt. Darüber hinaus hat RT-2 auch in bisher unbekannten Szenarien seine Leistung verbessert, von 32% auf 62% im Vergleich zu RT-1.

Integration in die reale Welt

Unser Modell wurde dann in der realen Welt getestet. Dabei hat es gezeigt, dass es sich auf neue Objekte generalisieren kann. Beispielsweise waren in der Trainingsdatenbank keine der Objekte außer dem blauen Würfel enthalten.

Robotersteuerung weiterentwickeln

RT-2 zeigt, dass Vision-Sprache-Modelle (VLMs) in leistungsfähige Vision-Sprache-Handlungs-Modelle (VLAs) umgewandelt werden können, die einen Roboter direkt steuern können. Dabei führt RT-2 zu erheblich verbesserten Roboter-Richtlinien und vor allem zu einer deutlich besseren Generalisierungsleistung und neu auftretenden Fähigkeiten, die aus der webbasierten Vision-Sprache-Vorverarbeitung geerbt werden.

RT-2 ist nicht nur eine einfache und effektive Änderung der bestehenden VLM-Modelle, sondern zeigt auch die Möglichkeit, einen universell einsetzbaren physischen Roboter zu bauen, der überlegen, Probleme lösen und Informationen interpretieren kann, um eine Vielzahl von Aufgaben in der realen Welt auszuführen.

Quelle: Google DeepMind