Die jüngsten Fortschritte in multimodalen großen Sprachmodellen (MLLMs) sind beeindruckend, doch diese MLLMs für allgemeine Anwendungsbereiche weisen oft Defizite im Verständnis und der effektiven Interaktion mit Benutzeroberflächen (UI) auf. In diesem Artikel stellen wir Ferret-UI vor, ein neues MLLM, das speziell für ein verbessertes Verständnis von mobilen Benutzeroberflächen entwickelt wurde. Ferret-UI verfügt über Fähigkeiten zum Referenzieren, Verankern und Schließen und verspricht, die Art und Weise, wie wir mit mobilen UIs interagieren, grundlegend zu verändern.
Das musst Du wissen:
Spezialisiertes Modell: Ferret-UI ist ein MLLM, das speziell für die Herausforderungen von mobilen Benutzeroberflächen entwickelt wurde.
Detailvergrößerung: Das Modell nutzt eine „any resolution“-Funktion, um Details zu vergrößern und visuelle Merkmale zu verbessern.
Datenaufbereitung: Trainingsdaten stammen aus einer Vielzahl von grundlegenden UI-Aufgaben wie Symbolerkennung und Textsuche.
Erweiterte Aufgaben: Ein zusätzlicher Datensatz unterstützt komplexe Aufgaben wie detaillierte Beschreibungen und Interaktionsgespräche.
Überlegenheit: Ferret-UI übertrifft nicht nur die meisten Open-Source-UI-MLLMs, sondern auch GPT-4V bei allen grundlegenden UI-Aufgaben.
Ferret-UI ist darauf ausgelegt, die Herausforderungen, die mobile Benutzeroberflächen mit sich bringen, effizient zu meistern. Da UI-Screens oft ein längeres Seitenverhältnis aufweisen und kleinere Objekte enthalten als natürliche Bilder, wurde Ferret-UI mit einer „any resolution“-Funktion ausgestattet, um diese Details zu vergrößern. Jeder Bildschirm wird in zwei Unterbilder unterteilt – horizontal bei Hochformat und vertikal bei Querformat – und separat kodiert, bevor sie an das LLM gesendet werden.
Die Trainingsdaten umfassen eine Vielzahl von elementaren UI-Aufgaben wie Symbolerkennung, Textsuche und Widget-Auflistung. Diese Daten sind so formatiert, dass sie eine präzise Referenzierung und Verankerung ermöglichen. Um die Schlussfolgerungsfähigkeiten des Modells zu verbessern, wurde ein zusätzlicher Datensatz für fortgeschrittene Aufgaben wie detaillierte Beschreibungen, Wahrnehmungs- und Interaktionsgespräche sowie Funktionsinferenz zusammengestellt.
Nach dem Training an diesen sorgfältig kuratierten Datensätzen zeigt Ferret-UI herausragende Fähigkeiten im Verständnis von UI-Screens und der Ausführung offener Anweisungen. Für die Bewertung des Modells wurde ein umfassender Benchmark erstellt, der alle genannten Aufgaben abdeckt. Ferret-UI übertrifft nicht nur die meisten Open-Source-UI-MLLMs, sondern auch GPT-4V bei allen grundlegenden UI-Aufgaben.
Mit Ferret-UI wird ein neuer Standard im Umgang mit mobilen Benutzeroberflächen gesetzt, der die Interaktion und das Verständnis erheblich verbessert.
#FerretUI #MLLM #MobileUI #AI #Technologie
Quelle
ArXiv, Studien-Paper-PDF