Ferret-UI: Die mobile Benutzeroberfläche revolutioniert durch multimodale LLMs

Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung

Science

Ferret-UI: Die mobile Benutzeroberfläche revolutioniert durch multimodale LLMs

Von Oliver Welling

13 Juni, 2024
06:45

Die jüngsten Fortschritte in multimodalen großen Sprachmodellen (MLLMs) sind beeindruckend, doch diese MLLMs für allgemeine Anwendungsbereiche weisen oft Defizite im Verständnis und der effektiven Interaktion mit Benutzeroberflächen (UI) auf. In diesem Artikel stellen wir Ferret-UI vor, ein neues MLLM, das speziell für ein verbessertes Verständnis von mobilen Benutzeroberflächen entwickelt wurde. Ferret-UI verfügt über Fähigkeiten zum Referenzieren, Verankern und Schließen und verspricht, die Art und Weise, wie wir mit mobilen UIs interagieren, grundlegend zu verändern.

Das musst Du wissen:

Spezialisiertes Modell: Ferret-UI ist ein MLLM, das speziell für die Herausforderungen von mobilen Benutzeroberflächen entwickelt wurde.

Detailvergrößerung: Das Modell nutzt eine „any resolution“-Funktion, um Details zu vergrößern und visuelle Merkmale zu verbessern.

Datenaufbereitung: Trainingsdaten stammen aus einer Vielzahl von grundlegenden UI-Aufgaben wie Symbolerkennung und Textsuche.

Erweiterte Aufgaben: Ein zusätzlicher Datensatz unterstützt komplexe Aufgaben wie detaillierte Beschreibungen und Interaktionsgespräche.

Überlegenheit: Ferret-UI übertrifft nicht nur die meisten Open-Source-UI-MLLMs, sondern auch GPT-4V bei allen grundlegenden UI-Aufgaben.

Ferret-UI ist darauf ausgelegt, die Herausforderungen, die mobile Benutzeroberflächen mit sich bringen, effizient zu meistern. Da UI-Screens oft ein längeres Seitenverhältnis aufweisen und kleinere Objekte enthalten als natürliche Bilder, wurde Ferret-UI mit einer „any resolution“-Funktion ausgestattet, um diese Details zu vergrößern. Jeder Bildschirm wird in zwei Unterbilder unterteilt – horizontal bei Hochformat und vertikal bei Querformat – und separat kodiert, bevor sie an das LLM gesendet werden.

Die Trainingsdaten umfassen eine Vielzahl von elementaren UI-Aufgaben wie Symbolerkennung, Textsuche und Widget-Auflistung. Diese Daten sind so formatiert, dass sie eine präzise Referenzierung und Verankerung ermöglichen. Um die Schlussfolgerungsfähigkeiten des Modells zu verbessern, wurde ein zusätzlicher Datensatz für fortgeschrittene Aufgaben wie detaillierte Beschreibungen, Wahrnehmungs- und Interaktionsgespräche sowie Funktionsinferenz zusammengestellt.

Nach dem Training an diesen sorgfältig kuratierten Datensätzen zeigt Ferret-UI herausragende Fähigkeiten im Verständnis von UI-Screens und der Ausführung offener Anweisungen. Für die Bewertung des Modells wurde ein umfassender Benchmark erstellt, der alle genannten Aufgaben abdeckt. Ferret-UI übertrifft nicht nur die meisten Open-Source-UI-MLLMs, sondern auch GPT-4V bei allen grundlegenden UI-Aufgaben.

Mit Ferret-UI wird ein neuer Standard im Umgang mit mobilen Benutzeroberflächen gesetzt, der die Interaktion und das Verständnis erheblich verbessert.

#FerretUI #MLLM #MobileUI #AI #Technologie

Quelle

ArXiv, Studien-Paper-PDF

KI UND BASKETBALL: EINE WIN-WIN-SITUATION

Die Welt der Sportwetten und die rasante Entwicklung der Kuenstlichen Intelligenz (KI) scheinen auf den ersten Blick zwei unterschiedliche Universen.

VON
28 Februar, 2026

Die Synergie von KI und E-Sport: Eine aufregende Zukunft

Die Welt der Technologie entwickelt sich in einem atemberaubenden Tempo, angetrieben von den Fortschritten im Bereich der künstlichen Intelligenz. Gleichzeitig.

VON
28 Februar, 2026

VON
28 Februar, 2026

Die Synergie von KI und E-Sport: Eine aufregende Zukunft

VON
28 Februar, 2026

Casino Roulette Automat

VON
5 Februar, 2026

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Ferret-UI: Die mobile Benutzeroberfläche revolutioniert durch multimodale LLMs

Ähnliche Beiträge

Folge uns

Beliebte Artikel

About Author

Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

HOT CATEGORIES

Cybersecurity

Events

Interviews und Meinungen

Investment

Unternehmen

TAGS