Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung
Search
Close this search box.
Search
Close this search box.

Ferret-UI: Die mobile Benutzeroberfläche revolutioniert durch multimodale LLMs

Von Oliver Welling

Die jüngsten Fortschritte in multimodalen großen Sprachmodellen (MLLMs) sind beeindruckend, doch diese MLLMs für allgemeine Anwendungsbereiche weisen oft Defizite im Verständnis und der effektiven Interaktion mit Benutzeroberflächen (UI) auf. In diesem Artikel stellen wir Ferret-UI vor, ein neues MLLM, das speziell für ein verbessertes Verständnis von mobilen Benutzeroberflächen entwickelt wurde. Ferret-UI verfügt über Fähigkeiten zum Referenzieren, Verankern und Schließen und verspricht, die Art und Weise, wie wir mit mobilen UIs interagieren, grundlegend zu verändern.

Das musst Du wissen:

Spezialisiertes Modell: Ferret-UI ist ein MLLM, das speziell für die Herausforderungen von mobilen Benutzeroberflächen entwickelt wurde.

Detailvergrößerung: Das Modell nutzt eine „any resolution“-Funktion, um Details zu vergrößern und visuelle Merkmale zu verbessern.

Datenaufbereitung: Trainingsdaten stammen aus einer Vielzahl von grundlegenden UI-Aufgaben wie Symbolerkennung und Textsuche.

Erweiterte Aufgaben: Ein zusätzlicher Datensatz unterstützt komplexe Aufgaben wie detaillierte Beschreibungen und Interaktionsgespräche.

Überlegenheit: Ferret-UI übertrifft nicht nur die meisten Open-Source-UI-MLLMs, sondern auch GPT-4V bei allen grundlegenden UI-Aufgaben.

Ferret-UI ist darauf ausgelegt, die Herausforderungen, die mobile Benutzeroberflächen mit sich bringen, effizient zu meistern. Da UI-Screens oft ein längeres Seitenverhältnis aufweisen und kleinere Objekte enthalten als natürliche Bilder, wurde Ferret-UI mit einer „any resolution“-Funktion ausgestattet, um diese Details zu vergrößern. Jeder Bildschirm wird in zwei Unterbilder unterteilt – horizontal bei Hochformat und vertikal bei Querformat – und separat kodiert, bevor sie an das LLM gesendet werden.

Die Trainingsdaten umfassen eine Vielzahl von elementaren UI-Aufgaben wie Symbolerkennung, Textsuche und Widget-Auflistung. Diese Daten sind so formatiert, dass sie eine präzise Referenzierung und Verankerung ermöglichen. Um die Schlussfolgerungsfähigkeiten des Modells zu verbessern, wurde ein zusätzlicher Datensatz für fortgeschrittene Aufgaben wie detaillierte Beschreibungen, Wahrnehmungs- und Interaktionsgespräche sowie Funktionsinferenz zusammengestellt.

Nach dem Training an diesen sorgfältig kuratierten Datensätzen zeigt Ferret-UI herausragende Fähigkeiten im Verständnis von UI-Screens und der Ausführung offener Anweisungen. Für die Bewertung des Modells wurde ein umfassender Benchmark erstellt, der alle genannten Aufgaben abdeckt. Ferret-UI übertrifft nicht nur die meisten Open-Source-UI-MLLMs, sondern auch GPT-4V bei allen grundlegenden UI-Aufgaben.

Mit Ferret-UI wird ein neuer Standard im Umgang mit mobilen Benutzeroberflächen gesetzt, der die Interaktion und das Verständnis erheblich verbessert.

#FerretUI #MLLM #MobileUI #AI #Technologie

Quelle

ArXiv, Studien-Paper-PDF

Ähnliche Beiträge

Business

NVIDIA NIM-Microservices beschleunigt die Wettervorhersage um den Faktor 500

NVIDIA NIM-Microservices beschleunigt die Wettervorhersage um den Faktor 500 Earth-2 als digitale Zwillingstechnologie: Simuliert und visualisiert präzise Wetter- und Klimabedingungen..

Business

Wie Meta durch Llama zu einem AI-Pionier wird

Meta hat einen beeindruckenden Wandel vollzogen, indem es sich komplett um sein Open-Source-Modell Llama neu ausgerichtet hat. Dieser mutige Schritt.

Folge uns

Beliebte Artikel

About Author

Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

Beraten lassen

HOT CATEGORIES

de_DEGerman