BuboGPT ermöglicht als erstes Large Language Model visuelle Verankerung und verbessert so multimodales Verständnis durch Verbindung visueller Objekte mit Sprache und anderen Modalitäten via Tagging, Grounding und Entity Matching.BuboGPT ermöglicht als erstes Large Language Model visuelle Verankerung und verbessert so multimodales Verständnis durch Verbindung visueller Objekte mit Sprache und anderen Modalitäten via Tagging, Grounding und Entity Matching.

Einführung in LLMs

Große Sprachmodelle (Large Language Models, LLMs) haben sich als Gamechanger im Bereich der automatischen Sprachverarbeitung etabliert. Sie werden ein Schlüsselelement unseres täglichen Lebens. Das bekannteste Beispiel eines LLMs ist ChatGPT, von dem mittlerweile fast jeder gehört hat und das die meisten von uns täglich nutzen.

LLMs zeichnen sich durch ihre enorme Größe und Fähigkeit aus, aus riesigen Mengen an Textdaten zu lernen. Dies ermöglicht ihnen, kohärente und kontextbezogene menschenähnliche Texte zu generieren. Diese Modelle basieren auf Architekturen des Deep Learnings wie GPT (Generative Pre-trained Transformer) und BERT (Bidirectional Encoder Representations from Transformers), die Aufmerksamkeitsmechanismen nutzen, um langreichweitige Abhängigkeiten in einer Sprache zu erfassen.

Durch Vortraining auf großen Datensätzen und Feintuning für bestimmte Aufgaben haben LLMs bemerkenswerte Leistungen in verschiedenen sprachbezogenen Aufgaben gezeigt, einschließlich Textgenerierung, Stimmungsanalyse, maschineller Übersetzung und Frage-Antwort-Systemen. Mit der weiteren Verbesserung der LLMs liegt ein immenses Potenzial vor, das maschinelle Sprachverarbeitung und -generierung revolutionieren könnte und die Lücke zwischen Maschinen und menschenähnlicher Sprachverarbeitung schließt.

Einschränkungen der LLMs

Einige Leute dachten jedoch, dass LLMs ihr volles Potenzial nicht ausschöpfen, da sie auf Texteingaben beschränkt sind. Sie haben daran gearbeitet, das Potenzial von LLMs über die Sprache hinaus zu erweitern. Einige Studien haben LLMs erfolgreich mit verschiedenen Eingabesignalen wie Bildern, Videos, Sprache und Audio integriert, um leistungsstarke multimodale Chatbots zu entwickeln.

Allerdings gibt es hier noch einen weiten Weg zu gehen, da den meisten dieser Modelle das Verständnis der Beziehungen zwischen visuellen Objekten und anderen Modalitäten fehlt. Obwohl visuell verbesserte LLMs hochwertige Beschreibungen generieren können, tun sie dies auf eine Blackbox-Art und Weise, ohne sich explizit auf den visuellen Kontext zu beziehen.

Eine explizite und informative Entsprechung zwischen Text und anderen Modalitäten in multimodalen LLMs kann das Nutzererlebnis verbessern und eine neue Reihe von Anwendungen für diese Modelle ermöglichen. Hier kommt BuboGPT ins Spiel, das diese Einschränkung angeht.

BuboGPT: Visuelle Verankerung in LLMs

BuboGPT ist der erste Versuch, visuelle Verankerung in LLMs einzubinden, indem visuelle Objekte mit anderen Modalitäten verbunden werden. BuboGPT ermöglicht ein gemeinsames multimodales Verständnis und Chatten für Text, Bild und Audio, indem es einen gemeinsamen Repräsentationsraum lernt, der gut mit vortrainierten LLMs abgestimmt ist.

Visuelle Verankerung ist keine einfache Aufgabe, daher spielt sie eine entscheidende Rolle in BuboGPTs Pipeline. Um dies zu erreichen, baut BuboGPT eine Pipeline auf einem Self-Attention-Mechanismus auf. Dieser Mechanismus stellt feinkörnige Beziehungen zwischen visuellen Objekten und Modalitäten her.

Die Pipeline umfasst drei Module: ein Tagging-Modul, ein Grounding-Modul und ein Entity-Matching-Modul. Das Tagging-Modul generiert relevante Text-Tags/Labels für das Eingabebild, das Grounding-Modul lokalisiert semantische Masken oder Boxen für jedes Tag, und das Entity-Matching-Modul verwendet LLM-Schlussfolgerungen, um abgeglichene Entitäten aus den Tags und Bildbeschreibungen abzurufen. Durch die Verbindung visueller Objekte und anderer Modalitäten über Sprache verbessert BuboGPT das Verständnis multimodaler Eingaben.

Zweistufiges Trainingschema

Um ein multimodales Verständnis beliebiger Kombinationen von Eingaben zu ermöglichen, verwendet BuboGPT ein zweistufiges Trainingsschema ähnlich wie Mini-GPT4. In der ersten Stufe verwendet es ImageBind als Audio-Encoder, BLIP-2 als Video-Encoder und Vicuna als LLM, um einen Q-Former zu lernen, der Video- oder Audio-Features mit Sprache abgleicht. In der zweiten Stufe führt es ein multimodales Instruktions-Tuning auf einem hochwertigen Instruktions-Folge-Datensatz durch.

Die Erstellung dieses Datensatzes ist entscheidend, damit das LLM die bereitgestellten Modalitäten erkennt und ob die Eingaben gut abgestimmt sind. Daher erstellt BuboGPT einen neuartigen hochwertigen Datensatz mit Teilmengen für Bildanweisungen, Audioanweisungen, Tonlokalisation mit positiven Bild-Audio-Paaren und Bild-Audiounterschriften mit negativen Paaren für semantisches Schließen. Durch die Einführung negativer Bild-Audio-Paare lernt BuboGPT eine bessere multimodale Ausrichtung und zeigt stärkere gemeinsame Verständnisfähigkeiten.

Fazit

BuboGPT ist ein vielversprechender Ansatz, um visuelle Verankerung in große Sprachmodelle zu integrieren und damit deren Multimodalitätsverständnis zu verbessern. Die Pipeline mit Tagging, Grounding und Entity Matching ermöglicht eine feinkörnige Verbindung visueller Objekte mit Sprache und anderen Modalitäten. Durch zweistufiges Training auf einem sorgfältig erstellten Datensatz mit positiven und negativen Paarungen lernt BuboGPT, verschiedene Modalitäten gemeinsam zu verstehen. Wenn die visuelle Verankerung in LLMs verbessert wird, kann dies zu aufregenden neuen Anwendungen und Nutzererlebnissen führen.

Quelle: Studien Paper, GitHub, Website

#KI #AI #visuelleverankerung #multimodalllms #bubogpt #sprachmodelle #ki #computervision #maschinellessehen #grounding #tagging #entitymatching