Google DeepMind SIMAGoogle DeepMind SIMA

Google DeepMind SIMA: Google DeepMind, Vorreiter auf dem Gebiet der Künstlichen Intelligenz (KI), hat kürzlich einen bedeutenden Meilenstein in der Entwicklung von KI-Agenten für 3D-Umgebungen erreicht. Das Unternehmen stellte SIMA (Scalable Instructable Multiworld Agent) vor, einen vielseitigen KI-Agenten, der in der Lage ist, natürlichsprachliche Anweisungen zu verstehen und entsprechende Aufgaben in verschiedenen Videospiel-Welten auszuführen!

Videospiele als Prüfstein für KI-Systeme

Videospiele gelten als entscheidende Prüfsteine für KI-Systeme. Wie die reale Welt bieten sie reichhaltige und dynamische Lernumgebungen mit interaktiven, Echtzeit-Umgebungen und sich ständig ändernden Zielen. DeepMind hat eine lange Tradition in der Entwicklung von KI-Systemen für Videospiele, angefangen von frühen Arbeiten mit Atari-Spielen bis hin zu AlphaStar, einem System, das StarCraft II auf Großmeister-Niveau spielt.

Google DeepMind SIMA
Sprache als Schnittstelle zur Steuerung virtueller Welten

Mit SIMA verlagert DeepMind den Fokus von einzelnen Spielen hin zu einem allgemeinen, instruierbaren KI-Agenten für Videospiel-Umgebungen. SIMA wurde in Zusammenarbeit mit Spieleentwicklern auf einer Vielzahl von Videospielen trainiert und ist in der Lage, unterschiedliche 3D-Welten zu verstehen und natürlichsprachliche Anweisungen auszuführen, wie es ein Mensch tun würde.

DeepMind betont, dass es bei dieser Forschung nicht um das Erreichen hoher Spielpunktestände geht. Vielmehr soll gezeigt werden, wie die Fähigkeiten fortschrittlicher KI-Modelle durch eine Sprach-Schnittstelle in nützliche, reale Aktionen übersetzt werden können.

DeepMind kooperiert eng mit Spielstudios

Um SIMA mit einer Vielzahl von Umgebungen vertraut zu machen, arbeitete DeepMind mit acht Spielestudios zusammen und trainierte den Agenten auf neun verschiedenen Videospielen, darunter “No Man’s Sky” von Hello Games und “Teardown” von Tuxedo Labs. Jedes Spiel in SIMAs Portfolio eröffnete eine neue interaktive Welt mit unterschiedlichen Fähigkeiten, die erlernt werden mussten, von einfacher Navigation und Menünutzung bis hin zu Ressourcenabbau, Raumschiffflug oder dem Herstellen von Helmen.

Zusätzlich nutzte DeepMind vier Forschungsumgebungen, darunter das selbst entwickelte “Construction Lab” in Unity, in dem Agenten Skulpturen aus Bausteinen zusammensetzen und so ihr Verständnis für Objektmanipulation und die physische Welt trainieren mussten.

Um die Verbindung zwischen Sprache und Spielverhalten zu erfassen, zeichnete DeepMind Paare menschlicher Spieler in den verschiedenen Spielen auf. Ein Spieler gab dabei Anweisungen, während der andere diese ausführte. Außerdem wurden Spieler aufgenommen, die frei agierten, um anschließend Anweisungen für ihre Aktionen aufzuzeichnen.

SIMA – Architektur und Funkionsweise
Google DeepMind SIMA

SIMA besteht aus vortrainierten Bildverarbeitungsmodellen sowie einem Hauptmodell, das ein Gedächtnis besitzt und Tastatur- und Mauseingaben ausgibt. Dieses Hauptmodell wurde für eine präzise Bild-Sprach-Abbildung und Vorhersage der nächsten Bildschirmausgabe optimiert und an den 3D-Umgebungen in SIMAs Portfolio feinabgestimmt.

Der KI-Agent benötigt keinen Zugriff auf den Quellcode eines Spiels oder spezielle APIs. Er erfordert lediglich zwei Eingaben: Die Bilder auf dem Bildschirm und einfache natürlichsprachliche Anweisungen des Nutzers. SIMA nutzt Tastatur- und Mauseingaben, um die zentrale Spielfigur zu steuern und die Anweisungen auszuführen. Diese einfache Schnittstelle ist dieselbe, die Menschen verwenden, wodurch SIMA potenziell mit jeder virtuellen Umgebung interagieren kann.

Die aktuelle Version von SIMA wurde anhand von 600 Grundfertigkeiten bewertet, die Navigation (z.B. “Drehe nach links”), Objektinteraktion (“Klettere die Leiter hoch”) und Menünutzung (“Öffne die Karte”) umfassen. SIMA wurde darauf trainiert, einfache Aufgaben auszuführen, die innerhalb von etwa 10 Sekunden abgeschlossen werden können.

Zukünftig sollen SIMA-Agenten jedoch komplexere Aufgaben mit strategischer Planung und mehreren Unteraufgaben bewältigen können, wie beispielsweise “Finde Ressourcen und baue ein Lager”.

Die Evaluationen von DeepMind zeigen, dass ein Agent, der auf vielen Spielen trainiert wurde, besser abschnitt als ein Agent, der nur ein einzelnes Spiel erlernte. SIMA-Agenten, die auf einer Reihe von neun 3D-Spielen trainiert wurden, übertrafen spezielle Agenten, die ausschließlich auf einem dieser Spiele trainierten, deutlich.

Darüber hinaus erreichten Agenten, die auf allen bis auf einem Spiel trainiert wurden, in diesem unbekannten Spiel nahezu dieselbe Leistung wie Agenten, die speziell darauf trainiert waren. Diese Fähigkeit, auch in völlig neuen Umgebungen zu funktionieren, verdeutlicht SIMAs Generalisierungsvermögen – ein vielversprechender erster Erfolg, auch wenn weitere Forschung erforderlich ist, um menschliche Leistungen in bekannten und unbekannten Spielen zu erreichen.

SIMA – und die Bedeutung von Sprache

Die Ergebnisse zeigen außerdem, dass SIMAs Leistung von Sprache abhängt. In einem Kontrolltest, in dem der Agent keine sprachlichen Anweisungen erhielt, verhielt er sich zwar angemessen, aber ziellos. Ein Agent könnte beispielsweise Ressourcen sammeln, ein häufiges Verhalten, anstatt dorthin zu gehen, wohin er angewiesen wurde.

SIMA wurde anhand von fast 1500 einzigartigen In-Game-Aufgaben bewertet, teilweise unter Einbeziehung menschlicher Gutachter. Als Vergleichsgrundlage dienten umgebungsspezialisierte SIMA-Agenten, die darauf trainiert waren, Anweisungen innerhalb einer einzelnen Umgebung zu folgen. Diese Leistung wurde mit drei Arten von generalisierten SIMA-Agenten verglichen, die jeweils über mehrere Umgebungen hinweg trainiert wurden.

Fazit Google DeepMind SIMA

Die Ergebnisse von SIMA zeigen das Potenzial für die Entwicklung einer neuen Generation generalistischer, sprachgesteuerter KI-Agenten. Es handelt sich zwar um Grundlagenforschung, doch DeepMind plant, SIMA auf mehr Trainingsumgebungen auszuweiten und leistungsfähigere Modelle zu integrieren.

Je mehr Trainingsumgebungen SIMA ausgesetzt wird, desto generalisierbarer und vielseitiger wird der Agent voraussichtlich. Mit fortschrittlicheren Modellen hofft DeepMind, SIMAs Verständnis und Fähigkeit zu verbessern, komplexere sprachliche Anweisungen zu verstehen und auszuführen, um anspruchsvollere Ziele zu erreichen.

Letztendlich zielt die Forschung auf die Entwicklung allgemeiner KI-Systeme und Agenten ab, die in der Lage sind, ein breites Spektrum an Aufgaben online und in der realen Welt auf nützliche und sichere Weise zu verstehen und auszuführen.

Quelle: Google DeepMind, Studien-Paper-PDF

#KuenstlicheIntelligenz #artificialintelligence #KI #AI #DeepMind #SIMA #Videospiele #Gaming

Die 29 besten KI-Sales-Tools für Deinen maximalen Erfolg im Vertrieb 2024
Die 10 besten Alternativen zu ChatGPT findest Du hier!
KI im Mittelstand – Jetzt künstliche Intelligenz im Unternehmen nutzen
16 besten KI Meeting Assistenten
Die 22 KI-Supermächte: Ein DeepDive auf die führenden Player 2024
Keymate.ai ist ChatGPT MIT Google Search – Krasse Kombi