Google & UCLA erfinden AVIS: Ein neuartiges Framework für die autonome visuelle Informationsbeschaffung, das mithilfe von Großen Sprachmodellen komplexe Bildfragen selbstständig beantworten kann. Durch die strategische und dynamische Nutzung verschiedener Werkzeuge wie Objekterkennung, Bildsuche und Webrecherche gelingt es dem System AVIS, Fragen zu beantworten, die ein umfangreiches externes Wissen voraussetzen.Google & UCLA erfinden AVIS: Ein neuartiges Framework für die autonome visuelle Informationsbeschaffung, das mithilfe von Großen Sprachmodellen komplexe Bildfragen selbstständig beantworten kann. Durch die strategische und dynamische Nutzung verschiedener Werkzeuge wie Objekterkennung, Bildsuche und Webrecherche gelingt es dem System AVIS, Fragen zu beantworten, die ein umfangreiches externes Wissen voraussetzen.

Einführung

Google & UCLA erfinden AVIS: In diesem Artikel stellen Forscherinnen und Forscher der University of California in Los Angeles (UCLA) und Google ein innovatives Framework für visuelle Fragebeantwortung vor, das die selbstständige Beschaffung notwendiger Informationen durch den Einsatz externer Werkzeuge ermöglicht. Dieses System, das sie AVIS (Autonomous Visual Information Seeking) nennen, basiert auf dem strategischen und dynamischen Einsatz von Großen Sprachmodellen (LLM). Ziel ist es, komplexe visuelle Fragen zu beantworten, die ein umfangreiches externes Wissen voraussetzen.

Der Status quo visueller Fragebeantwortung

Bisherige Systeme für visuelle Fragebeantwortung, sogenannte Vision-Language-Modelle (VLMs), zeigen zwar beeindruckende Leistungen bei einfachen Aufgaben, doch stoßen sie an ihre Grenzen, wenn umfangreicheres Hintergrundwissen erforderlich ist. Junge VLMs verfügen über ein begrenztes Sprachmodell und bilden Kategorien noch nicht fein genug ab. Zudem ist ihr Schließungsvermögen nicht robust genug. Anders als Bildsuchenginen haben sie keinen Zugriff auf große, metadata-annotierte Bilddatenbanken.

Vor diesem Hintergrund entwickelten die Forscherinnen und Forscher einen innovativen Ansatz, der die Stärken von Großen Sprachmodellen (LLM) mit verschiedenen Werkzeugen zur visuellen Informationsbeschaffung und -analyse verbindet. Ziel ist es, diese Werkzeuge gezielt und iterativ einzusetzen, um komplexe visuelle Fragen selbstständig zu beantworten.

Die drei Komponenten von AVIS

Das vorgeschlagene Framework besteht aus drei zentralen Komponenten, die zusammenarbeiten, um komplexe visuelle Fragen zu beantworten:

1. Der LLM-gesteuerte Planer

Dieser Planer bildet das Herzstück von AVIS. Es handelt sich um ein großes Sprachmodell, welches die Gesamtstrategie steuert. Zunächst zerlegt es die eingehende Frage in Teilprobleme. Dann entscheidet es dynamisch, welches Informationsbeschaffungswerkzeug als Nächstes genutzt werden soll. Hierbei berücksichtigt es den aktuellen Wissensstand und die noch offenen Fragen. Der Planer formuliert präzise Anfragen an die ausgewählten Werkzeuge. Durch dieses iterative und anpassungsfähige Vorgehen wird ein flexibler Problemlösungsprozess in Gang gesetzt.

2. Der LLM-gestützte Analytiker

Dieser Analytiker kommt ebenfalls als großes Sprachmodell zum Einsatz. Es analysiert die Ergebnisse der Werkzeuge, indem es diese automatisch verarbeitet und nach relevanten Informationen durchsucht. Dabei filtert es das Signal vom Rauschen. Die gewonnen Erkenntnisse werden in verdichteter Form dem Arbeitsspeicher übergeben.

3. Der Arbeitsspeicher

Der Arbeitsspeicher dient als zentrales Wissensrepository. Hier werden die verschiedenen Datenschnipsel und Erkenntnisse langfristig abgelegt, verknüpft und für spätere Abfragen durch den Planer oder Analytiker bereitgehalten. So bleibt der Wissensstand erhalten und kann Schritt für Schritt erweitert werden.

Diese drei Komponenten arbeiten Hand in Hand, um dem Ziel der selbstständigen Informationsbeschaffung und Beantwortung komplexer Fragen Schritt für Schritt näher zu kommen.

Werkzeuge zur visuellen Informationsbeschaffung

Folgende Werkzeuge stehen AVIS zur Verfügung:

  • Objekterkennung
    Bei dieser Technologie handelt es sich um tiefe neuronale Netze, die in der Lage sind, visuelle Objekte in Bildern zu detektieren und zu klassifizieren. AVIS kann so beispielsweise erkennen, ob sich Personen, Gebäude oder Fahrzeuge in einem Bild befinden.
  • Optische Zeichenerkennung (OCR)
    Mithilfe von OCR kann der Planer relevante Texte wie Schilder, Beschriftungen oder Dokumente automatisiert aus Bildern extrahieren und analysieren. So können wichtige Informationen wie Ortsnamen, Daten oder Ereignisse identifiziert werden.
  • Bildbeschreibungsmodelle
    Diese Modelle können ganze Bildinhalte sprachlich beschreiben. Der Analytiker durchsucht die erzeugten Bildbeschreibungen nach begrifflichen Übereinstimmungen mit der Fragestellung.
  • Visuelle Qualitätsanalyse
    Mittels Bildanalyseverfahren kann die Qualität eines Bildes hinsichtlich Schärfe, Belichtung etc. überprüft werden. Verwackelte oder unscharfe Aufnahmen werden möglicherweise ausgeschlossen.
  • Bildsuche
    Über Bildsuchenginen kann das System das Abfragebild gegen Bilddatenbanken mit Metadaten abgleichen. So könnten z.B. die Markierungen eines Gebäudes identifiziert werden.
  • Webrecherche und Kurz-QA-Modelle
    Bei Informationslücken werden gezielt das Internet oder Kurz-QA-Systeme nach Ergänzungen durchsucht.

Google & UCLA erfinden AVIS – Nutzerstudie zur Entscheidungsfindung

Für die Entwicklung eines selbstständigen und anpassungsfähigen Vorgehens war es wichtig für die Forscher, das menschliche Entscheidungsverhalten bei komplexen visuellen Problemlösungsprozessen zu verstehen. Daher führten sie eine umfangreiche Nutzerstudie durch.

Daran nahmen 30 Probanden teil, denen verschiedene visuelle Fragestellungen vorgelegt wurden. Während sie versuchten, diese mithilfe verschiedener Informationsquellen wie Bilder, Texten oder dem Internet zu beantworten, wurden ihre Entscheidungen und Arbeitsschritte mit einer Screen-Recording-Software aufgezeichnet.

Die Forscher analysierten diese Datensätze dann detailliert. Durch sequentielle Überprüfung der Schritte konnten sie einen Übergangsgraphen erstellen, der die verschiedenen Problemzustände und möglichen Handlungen zwischen ihnen modelliert.

Zusätzlich wurden für jeden Probanden Kontextprofile angelegt, die Angaben über die Situationsfaktoren sowie die übergeordnete Strategie enthielten.

Schließlich warteten die Forscher die Beispiele auf, die eine besonders exemplarische Vorgehensweise zeigten. Diese dienten dazu, das trainierende LLM mit konkreten kontextuellen Entscheidungsmustern vertraut zu machen.

Insgesamt lieferte die Nutzerstudie wertvolle Erkenntnisse, um das dynamische selbstständige Problemlösungsverhalten softwaregestützt nachbilden zu können.

Das Vorgehen von AVIS

  1. Zerlegung der Frage
    Der Planer parst die eingehende Frage zunächst semantisch und zerlegt sie in Teilaspekte. So wird das Problem in mehrere Teilprobleme aufgeteilt, die einzelnen adressiert werden können.
  1. Auswahl des ersten Werkzeugs
    Anschließend wählt der Planer basierend auf dem aktuellen Wissenstand und den offenen Fragen das am besten geeignete Initialwerkzeug aus.
  1. Formulierung der ersten Abfrage
    Präzise formuliert der Planer eine erste suchorientierte Abfrage an das ausgewählte Werkzeug.
  1. Auswertung der Ergebnisse
    Der Analytiker wertet die Resultate des Werkzeugs aus und beantwortet damit einen Teilaspekt der Frage oder hinterlegt neue Erkenntnisse.
  1. Abspeichern im Arbeitsspeicher
    Die gewonnenen Datenpunkte werden dauerhaft im Speicher hinterlegt.
  1. Iteration mit weiteren Werkzeugen
    Bei noch offenen Fragen wiederholen sich die Schritte 2-5 mit anderen Werkzeugkombinationen zur Informationsbeschaffung.
  1. Zusammenführen zum Gesamtergebnis
    Ist die Analyse vollständig, kombiniert der Analytiker die Teilerkenntnisse zur Gesamtsolution.

Ergebnisse und Leistung von AVIS

Um die Fähigkeiten von AVIS zu bewerten, testeten die Forscher ihr Framework auf zwei etablierten Benchmarks für komplexe visuelle Fragebeantwortung:

Infoseek:
Dieser Benchmark enthält Fragen, die einen großen Teil an externem Hintergrundwissen über Entitäten aus Bildern erfordern.

OK-VQA:
Bei diesem Datensatz liegt der Fokus auf der logischen Grundlage der Fragen und dem Erfordernis von Mehrschritt-Problemlösungen.

Bisheriger Spitzenreiter auf diesen Benchmarks war das Modell PALI, das allerdings mit nur 16% bzw. 38,2% sehr schwache Ergebnisse erzielte.

AVIS hingegen konnte seine überlegene Leistungsfähigkeit unter Beweis stellen, indem es die Fragen von Infoseek mit einer Genauigkeit von 50,7% und die von OK-VQA mit 56,4% beantwortete.

Dies stellt eine enorme Steigerung um mehr als das 3-fache dar und zeigt, dass der iterative, werkzeuggestützte Ansatz wesentlich besser für die selbstständige Informationsbeschaffung und Problemlösung auf komplexen visuellen Datensätzen geeignet ist.

Im Vergleich zu statischen Modellen ist AVIS damit in der Lage, seine Fähigkeiten kontinuierlich durch den gezielten Einsatz neuer Werkzeuge und Erkenntnisse zu verbessern.

Dies stellt einen bedeutenden Durchbruch für autonome visuelle Fragebeantwortung auf hohem Schwierigkeitslevel dar.

Limitationen und zukünftige Arbeiten

Derzeitiger Fokus auf VQA:
AVIS konzentriert sich ausschließlich auf die visuelle Fragebeantwortung. Künftig soll der Anwendungsbereich auf andere kognitive Aufgaben wie Problem solving, logisches Schlussfolgern oder natürliche Sprachverständnis ausgeweitet werden.

  • Hoher Rechenaufwand des aktuellen LLMs:
    Für seine Aufgaben kommt sehr rechenintensive Transformer-Architekturen wie PALM zum Einsatz. Es gilt alternative Modelle mit geringerem Bedarf zu evaluieren, um AVIS auch auf mobilen Endgeräten einsetzbar zu machen.
  • Generierung & Überprüfung von Hypothesen:
    Bisher erfolgt die Wissensaneignung starr schrittweise. Künftig soll AVIS in der Lage sein, bereits zu Beginn Hypothesen aufzustellen und diese durch gezielte Informationsbeschaffung selbstständig zu überprüfen.
  • Selbstständige Evaluation externer Quellen:
    Die Güte der Werkzeuge und Informationen wird derzeit nicht hinterfragt. Künftig muss AVIS lernen, fremde Datenquellen automatisiert einzuschätzen und bewerten.
  • Erlernen neuer Werkzeuge und Fähigkeiten:
    Durch Lifelong-Learning soll AVIS die Fähigkeit erwerben, kontinuierlich neue Werkzeuge und Problemlösungsstrategien selbstständig zu adaptieren.

Zusammenfassung Google & UCLA erfinden AVIS

In diesem Artikel wurde ein bahnbrechender neuer Ansatz für die autonome visuelle Informationsbeschaffung vorgestellt. Mittels eines LLM-gesteuerten dynamischen Prozesses nutzt das Framework AVIS gezielt externe Werkzeuge, um komplexe visuelle Fragen selbstständig zu beantworten. Eine Nutzerstudie diente zur Modellierung menschlicher Entscheidungsfindung. Auf anspruchsvollen Benchmarks konnte der vorgeschlagene Ansatz deutlich bessere Ergebnisse erzielen als der bisherige Stand der Technik. Die Forscher sehen noch Potenzial in der Ausweitung auf andere Aufgaben sowie der Optimierung der eingesetzten Modelle. Insgesamt markiert AVIS einen bedeutenden Fortschritt in Richtung autonomer kognitiver Systeme.

#KI #AI #GroßeSprachmodelle #VisuelleFragebeantwortung #Informationsbeschaffung #DynamischesFramework #Nutzerstudie #Bildverarbeitung #KognitiveSysteme #Informationsextraktion
#Benchmarks #UCLA #Google

Quelle: Studien-Paper, ArXiv

Die 10 besten Alternativen zu ChatGPT findest Du hier!