Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung

Ferret-UI: Die mobile Benutzeroberfläche revolutioniert durch multimodale LLMs

Von Oliver Welling

Die jüngsten Fortschritte in multimodalen großen Sprachmodellen (MLLMs) sind beeindruckend, doch diese MLLMs für allgemeine Anwendungsbereiche weisen oft Defizite im Verständnis und der effektiven Interaktion mit Benutzeroberflächen (UI) auf. In diesem Artikel stellen wir Ferret-UI vor, ein neues MLLM, das speziell für ein verbessertes Verständnis von mobilen Benutzeroberflächen entwickelt wurde. Ferret-UI verfügt über Fähigkeiten zum Referenzieren, Verankern und Schließen und verspricht, die Art und Weise, wie wir mit mobilen UIs interagieren, grundlegend zu verändern.

Das musst Du wissen:

Spezialisiertes Modell: Ferret-UI ist ein MLLM, das speziell für die Herausforderungen von mobilen Benutzeroberflächen entwickelt wurde.

Detailvergrößerung: Das Modell nutzt eine „any resolution“-Funktion, um Details zu vergrößern und visuelle Merkmale zu verbessern.

Datenaufbereitung: Trainingsdaten stammen aus einer Vielzahl von grundlegenden UI-Aufgaben wie Symbolerkennung und Textsuche.

Erweiterte Aufgaben: Ein zusätzlicher Datensatz unterstützt komplexe Aufgaben wie detaillierte Beschreibungen und Interaktionsgespräche.

Überlegenheit: Ferret-UI übertrifft nicht nur die meisten Open-Source-UI-MLLMs, sondern auch GPT-4V bei allen grundlegenden UI-Aufgaben.

Ferret-UI ist darauf ausgelegt, die Herausforderungen, die mobile Benutzeroberflächen mit sich bringen, effizient zu meistern. Da UI-Screens oft ein längeres Seitenverhältnis aufweisen und kleinere Objekte enthalten als natürliche Bilder, wurde Ferret-UI mit einer „any resolution“-Funktion ausgestattet, um diese Details zu vergrößern. Jeder Bildschirm wird in zwei Unterbilder unterteilt – horizontal bei Hochformat und vertikal bei Querformat – und separat kodiert, bevor sie an das LLM gesendet werden.

Die Trainingsdaten umfassen eine Vielzahl von elementaren UI-Aufgaben wie Symbolerkennung, Textsuche und Widget-Auflistung. Diese Daten sind so formatiert, dass sie eine präzise Referenzierung und Verankerung ermöglichen. Um die Schlussfolgerungsfähigkeiten des Modells zu verbessern, wurde ein zusätzlicher Datensatz für fortgeschrittene Aufgaben wie detaillierte Beschreibungen, Wahrnehmungs- und Interaktionsgespräche sowie Funktionsinferenz zusammengestellt.

Nach dem Training an diesen sorgfältig kuratierten Datensätzen zeigt Ferret-UI herausragende Fähigkeiten im Verständnis von UI-Screens und der Ausführung offener Anweisungen. Für die Bewertung des Modells wurde ein umfassender Benchmark erstellt, der alle genannten Aufgaben abdeckt. Ferret-UI übertrifft nicht nur die meisten Open-Source-UI-MLLMs, sondern auch GPT-4V bei allen grundlegenden UI-Aufgaben.

Mit Ferret-UI wird ein neuer Standard im Umgang mit mobilen Benutzeroberflächen gesetzt, der die Interaktion und das Verständnis erheblich verbessert.

#FerretUI #MLLM #MobileUI #AI #Technologie

Quelle

ArXiv, Studien-Paper-PDF

    Ähnliche Beiträge

    Business

    Google AI Mode neuer Boost für Google Search

    Google Search: Neuer „AI Mode“ könnte die Suche revolutionieren Neue Suchoption: Ein separater „AI Mode“-Tab wird neben bestehenden Suchkategorien wie.

    Business Language Models

    OpenAI o3 und o3-mini: Ein Sprung nach vorn in der KI-Entwicklung – Konkurrenz belebt das

    OpenAI o3 und o3-mini: Ein Sprung nach vorn in der KI-Entwicklung – Konkurrenz belebt das Geschäft Übertrifft menschliche Leistung im.

    Folge uns

    Beliebte Artikel

    About Author

    Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

    TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

    Beraten lassen

    HOT CATEGORIES

    de_DEGerman