Meta Humpback: Humpback: Selbstausrichtung von Großen Sprachmodellen für Seh-Sprach-Aufgaben. I4-Benchmark zeigt Durchbruch durch CLORI Modul für anweisungsspezifische visuelle Infos.Meta Humpback: Humpback: Selbstausrichtung von Großen Sprachmodellen für Seh-Sprach-Aufgaben. I4-Benchmark zeigt Durchbruch durch CLORI Modul für anweisungsspezifische visuelle Infos.

Meta Humpback: Große Sprachmodelle (LLMs) haben in letzter Zeit großes Interesse geweckt und zeigen aufkeimende Fähigkeiten, als Allzweckmodell für verschiedene Seh-Sprach-Aufgaben zu dienen. Allerdings konzentrieren sich die bisherigen Methoden hauptsächlich auf begrenzte Anweisungstypen mit einem einzelnen Bild als visuellem Kontext, was die breite Verfügbarkeit von MLLMs behindert. In diesem Artikel stellen wir die I4-Benchmark vor, um die Fähigkeit zum Befolgen von Anweisungen bei komplizierten ineinandergreifenden Seh-Sprach-Anweisungen umfassend zu bewerten. Diese beinhalten einen komplexen sequentiellen Bild-Text-Kontext und decken eine Vielzahl von Szenarien ab (z.B. visuell reiche Webseiten/Lehrbücher, Präsentationsfolien, verkörperter Dialog). Eine systematische Bewertung anhand unserer I4-Benchmark zeigt einen allgemeinen Mangel der existierenden Methoden auf: Der Visual Prompt Generator (VPG), der auf dem Bildbeschriftungs-Abgleich trainiert wurde, neigt dazu, sich auf allgemeine Vordergrundinformationen für die Beschriftung zu konzentrieren. Er hat jedoch Mühe, spezifische Informationen zu extrahieren, die für bestimmte Aufgaben erforderlich sind.

Herausforderung: Extraktion aufgabenspezifischer visueller Informationen

Um dieses Problem zu lösen, schlagen wir ein generisches und leichtgewichtiges Modul für die kontrollierbare Wiedereinspeisung von Wissen vor. Dieses nutzt die ausgefeilten Reasoning-Fähigkeiten von LLMs, um den VPG so zu steuern, dass er anweisungsspezifische visuelle Informationen bedingt extrahiert und wieder in das LLM einspeist. Weiterhin stellen wir eine annotationsfreie Trainingsstrategie für kontrafaktische Bilder basierend auf Cross-Attention vor, um das vorgeschlagene Modul systematisch zu erlernen, indem eine Kaskade von Basismodellen zusammenarbeitet.

Lösung: Das CLORI Modul

Verstärkt durch das vorgeschlagene Modul und die Trainingsstrategie stellen wir Cheetor vor, ein Transformer-basiertes MLLM, das eine Vielzahl ineinandergreifender Seh-Sprach-Anweisungen effektiv handhaben kann. Es erreicht State-of-the-Art Zero-Shot-Leistung für alle Aufgaben von I4, ohne hochwertige multimodale Anweisungstuning-Daten. Cheetor zeigt im Vergleich mit State-of-the-Art-angepassten Anweisungsmodellen auch eine wettbewerbsfähige Leistung auf der MME-Benchmark.

Cheetor

Um die Forschung in der folgenden interlektuellen Bildsprachanleitung zu erleichtern, haben wir I4 (semantisch verbundene, durchdrungene Bild-Text-Anweisungsverfolgung) entwickelt, eine umfangreiche Benchmark mit 31 Aufgaben mit vielfältigen Anweisungen im vereinheitlichten Anweisungs-Antwort-Format, die 20 verschiedene Szenarien abdecken.

Eigenschaften von I4:

Durchdrungener Bild-Text-Kontext:

Alle Anweisungen enthalten Sequenzen von miteinander verbundenen Bildern und Texten, wie Storyboards mit Drehbüchern, Lehrbücher mit Diagrammen.

Verschiedene Formen komplexer Anweisungen:

Die Anweisungen reichen von der Vorhersage von Dialogen für Comics über die Entdeckung von Unterschieden zwischen Überwachungsbildern bis hin zu konversationsbasierten Aufgaben mit Körperdarstellung.

Große Bandbreite von Anweisungsverfolgungsszenarien:

Die Benchmark umfasst mehrere Anwendungsszenarien, darunter Cartoons, Industriebilder, Fahrtaufzeichnungen usw.

Cheetor: Ein multimodales großes Sprachmodell mit kontrollierter Wissensrückführung

Cheetor ist ein auf Transformer basierendes multimodales großes Sprachmodell, das durch kontrollierte Wissensrückführung gestärkt wird und effektiv eine breite Palette von interlektuellen Bildsprachanweisungen verarbeiten kann.

Anwendungsfälle:

Cheetor zeigt starke Fähigkeiten zur Schlussfolgerung über komplizierte interlektuelle Bildsprachanweisungen. Zum Beispiel kann Cheetor in (a) die Verbindungen zwischen den Bildern scharfsinnig identifizieren und somit den Grund für dieses ungewöhnliche Phänomen ableiten. In (b, c) kann Cheetor vernünftigerweise die Beziehungen zwischen den Bildern erschließen und die metaphorischen Implikationen verstehen, die sie vermitteln möchten. In (e, f) zeigt Cheetor die Fähigkeit, absurde Objekte durch multimodale Gespräche mit Menschen zu verstehen.

Meta Humpback Fazit

Meta Humpback: Meta AI’s Ansatz der Selbstausrichtung von Großen Sprachmodellen durch Rückübersetzung von Anweisungen ist ein großer Durchbruch. Das vorgeschlagene CLORI Modul ermöglicht es, die Extraktion visueller Informationen auf anweisungsspezifische Inhalte auszurichten. Damit wird die Leistung multimodaler Modelle wie Cheetor auf komplexen Aufgaben mit ineinandergreifenden Bild-Text-Anweisungen deutlich verbessert, ohne aufwändiges Tuning. Dies eröffnet vielversprechende Perspektiven für den praktischen Einsatz solcher Modelle.

Quelle: Studien-Paper, GitHub

#ai #ki #meta #llm #multimodal #sehsprache #metaai #deeplearning