Große Sprachmodelle (LLMs) können nun Bilder verstehen und generieren. Dies ist ein Durchbruch, der die Art und Weise, wie wir mit Computern interagieren, revolutionieren könnte.Große Sprachmodelle (LLMs) können nun Bilder verstehen und generieren. Dies ist ein Durchbruch, der die Art und Weise, wie wir mit Computern interagieren, revolutionieren könnte.

Große Sprachmodelle und visuelle Modalität

Große Sprachmodelle (LLMs) haben sich schnell großer Popularität erfreut, da sie außergewöhnliche Fähigkeiten im Bereich der Verarbeitung natürlicher Sprache und des Verständnisses natürlicher Sprache haben. Diese jüngste Entwicklung im Bereich der künstlichen Intelligenz hat die Art und Weise, wie Menschen und Computer miteinander interagieren, revolutioniert.

LLMs sind in der Lage, tiefes konzeptuelles Wissen über die Welt durch ihre lexikalischen Einbettungen zu erfassen. Forscher arbeiten jedoch noch daran, eingefrorene LLMs in der Lage zu machen, Aufgaben der visuellen Modalität auszuführen, wenn ihnen die richtigen visuellen Repräsentationen als Eingabe gegeben werden.

Semantisches Pyramiden-Autoencoder (SPAE)

Um dieses Problem zu lösen und diese kreuzmodale Aufgabe zu ermöglichen, hat ein Team von Forschern von Google Research und der Carnegie Mellon University den semantischen Pyramiden-Autoencoder (SPAE) eingeführt, einen Autoencoder für die multimodale Generierung mit eingefrorenen großen Sprachmodellen. SPAE erzeugt eine lexikalische Wortsequenz, die reiche Semantik enthält und gleichzeitig feinste Details für die Signalrekonstruktion beibehält.

In SPAE hat das Team eine Autoencoder-Architektur mit einer hierarchischen Pyramidenstruktur kombiniert. Im Gegensatz zu früheren Ansätzen kodiert SPAE Bilder in einen interpretierbaren diskreten latenten Raum, d. h. Wörter.

Die pyramidenförmige Darstellung der SPAE-Token hat mehrere Skalen, wobei die unteren Ebenen der Pyramide Erscheinungsdarstellungen priorisieren, die feinste Details für die Bildrekonstruktion erfassen, und die oberen Ebenen der Pyramide semantisch zentrale Konzepte enthalten. Dieses System ermöglicht eine dynamische Anpassung der Tokenlänge, um verschiedene Aufgaben zu unterstützen, indem für Aufgaben, die Wissen erfordern, weniger Tokens verwendet werden, und für Aufgaben, die Erzeugung erfordern, mehr Tokens. Dieses Modell wurde unabhängig trainiert, ohne durch ein beliebiges Sprachmodell zurückzupropagiert zu werden.

Bewertung

Um die Wirksamkeit von SPAE zu bewerten, hat das Team Experimente zu Aufgaben des Bildverständnisses durchgeführt, darunter Bildklassifizierung, Bildunterschriften und visuelle Frageantwortung. Die Ergebnisse zeigten, wie gut LLMs visuelle Modalitäten bewältigen können, und einige großartige Anwendungen wie Content-Generierung, Designunterstützung und interaktives Geschichtenerzählen. Die Forscher verwendeten auch Methoden zur Rauschunterdrückung im Kontext, um die Bildgenerierungsfunktionen von LLMs zu veranschaulichen.

Schlussfolgerung

Abschließend ist SPAE ein bedeutender Durchbruch bei der Überbrückung der Kluft zwischen Sprachmodellen und visuellem Verständnis. Es zeigt das bemerkenswerte Potenzial von LLMs bei der Bewältigung kreuzmodaler Aufgaben.

Hier sind einige der wichtigsten Vorteile von SPAE:

  • Es kann interpretierbare Darstellungen semantischer Konzepte und feinster Details generieren.
  • Die von dem Tokenizer generierten mehrsprachigen linguistischen Token haben anpassbare Längen, was ihnen mehr Flexibilität und Anpassungsfähigkeit beim Erfassen und Kommunizieren der Feinheiten visueller Informationen verleiht.
  • Es wurde auch eine progressive Eingabeaufforderungsmethode eingeführt, die die nahtlose Integration von Sprache und visuellen Modalitäten ermöglicht und die Generierung umfassender und kohärenter kreuzmodaler Sequenzen mit verbesserter Qualität und Genauigkeit ermöglicht.

**SPAE ist ein vielversprechender neuer Ansatz, um LLMs in die Lage zu versetzen, Aufgaben der visuellen Modalität auszuführen. Es hat das Potenzial, die Art und Weise, wie wir mit Computern interagieren, und die Art und Weise, wie wir Inhalte erstellen und konsumieren, zu revolutionieren.

Quelle: Studienpapier Cornell University