Revolution in der KI-Forschung: 3D-Large Language Models (3D-LLMs) öffnen neue Dimension der Datenerfassung und -verarbeitung.Revolution in der KI-Forschung: 3D-Large Language Models (3D-LLMs) öffnen neue Dimension der Datenerfassung und -verarbeitung.

Eine neue Dimension für KI-Modelle 3D-LLMS

Die vergangenen Jahre haben gezeigt, dass Large Language Models (LLMs) wie GPT4 bei diversen Aufgaben, darunter Kommunikation und Alltagslogik, hervorragend abschneiden. Zuletzt gab es Anstrengungen, Bilder und Videos in LLMs einzubinden, um multimodale LLMs wie Flamingo und BLIP-2 zu erschaffen, die sowohl Text als auch 2D-Grafiken verstehen können. Diese Modelle sind jedoch auf einer 2D-Basis aufgebaut und können deshalb Konzepte aus der realen, dreidimensionalen Welt wie räumliche Zusammenhänge, physische Interaktionen und Kräfteverhältnisse nicht vollständig begreifen. Deshalb bleibt der Traum von KI-Helfern, die wie in Science-Fiction-Filmen komplexe 3D-Situationen verstehen können, unerfüllt. Die Lösung: eine neue Klasse von LLMs, die 3D-Welt-Informationen verarbeiten können. Lass uns das Konzept der 3D-LLMs genauer betrachten.

Warum 3D-LLMs?

Es gibt zwei Gründe, warum LLMs von der Verwendung von 3D-Informationen profitieren:

  1. Sie können langfristige Erinnerungen an eine Szene in ihrer Ganzheit speichern, anstatt nur Teilansichten zu behalten.
  2. Das Räsonieren aus 3D-Daten kann Merkmale wie physische Interaktionen und räumliche Verbindungen hervorbringen, was weit über die Fähigkeiten von sprachbasierten oder 2D-bildbasierten LLMs hinausgeht.

Ein großes Hindernis bei der Entwicklung von 3D-LLMs ist allerdings die Datensammlung. Im Gegensatz zum Überfluss an gepaarten 2D-Bild- und Textdaten im Internet gibt es wenige 3D-Daten, besonders solche, die mit verbalen Beschreibungen gekoppelt sind.

Neue Dimension für LLMs: Lösungen für die Datensammlung

Um dieses Problem zu lösen, schlagen die Forscher mehrere einzigartige Prozesse zur Datenerzeugung vor, die enorme Mengen an 3D-Daten mit Sprache verknüpfen. Darüber hinaus entwickeln sie drei effektive Aufforderungsprozesse für die Kommunikation zwischen 3D-Daten und Sprache. Mit dieser Methode konnten sie 300.000 Datensätze sammeln, die Informationen zu einer Vielzahl von Aufgaben wie 3D-Beschreibungen, dichten Beschreibungen, 3D-Fragen und Antworten und vielem mehr enthalten.

Herausforderung der 3D-Merkmalsextraktion

Die nächste Herausforderung besteht darin, nützliche 3D-Merkmale zu finden, die zu Sprachmerkmalen für 3D-LLMs passen. Eine Möglichkeit besteht darin, 3D-Encoder von Grund auf neu zu trainieren, ähnlich wie es beim CLIP-Modell gemacht wurde, das Sprache und 2D-Bilder miteinander verbindet. Diese Methode erfordert jedoch viel Daten, Zeit und GPU-Ressourcen. Eine weitere Option ist die Verwendung eines 3D-Merkmalsextraktors, der 3D-Merkmale aus den 2D-vortrainierten Merkmalen von gerenderten Multi-View-Bildern erstellt.

Neue Dimension für LLMs: Die Besonderheit der 3D-LLMs

Was 3D-LLMs von herkömmlichen LLMs und 2D-VLMs unterscheidet, ist die innewohnende Fähigkeit, räumliche 3D-Informationen zu verarbeiten. Daher haben Forscher von verschiedenen Universitäten und Laboren ein 3D-Lokalisierungssystem entwickelt, das Sprache mit geografischen Orten verknüpft. Zusätzlich wurden mehrere Orts-Token zu den 3D-LLMs hinzugefügt, um räumliche Informationen effektiver zu kodieren.

Zusammenfassung und Ausblick

Das Forschungspapier liefert bedeutende Beiträge zur Weiterentwicklung der KI-Forschung:

  • Sie stellen eine neue Familie von 3D-basierten Large Language Models vor, die 3D-bezogene Aufgaben verarbeiten können.
  • Sie entwickeln innovative Datenbeschaffungs-Pipelines, die eine Menge an 3D-Sprachdaten generieren können.
  • Sie nutzen einen 3D-Merkmalsextraktor, um nützliche 3D-Merkmale zu extrahieren, und sie verwenden ein 3D-Lokalisierungsverfahren, um die 3D-LLMs besser zu trainieren.
  • In Experimenten schneiden die 3D-LLMs besser ab als bisherige Modelle.

Die Forscher planen, ihre 3D-LLMs, den 3D-Sprachdatensatz und die zugehörigen Merkmale für zukünftige Studien zur Verfügung zu stellen. Es wird spannend zu sehen sein, wie die Einführung von 3D-LLMs die KI-Forschung weiter voranbringen wird.

Autoren der Studie: Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, Chuang Gan

Quellen: Studien-Paper, GitHub, 3D-LLM