Ferret-UI: Die mobile Benutzeroberfläche revolutioniert durch multimodale LLMs

Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung

Science

Ferret-UI: Die mobile Benutzeroberfläche revolutioniert durch multimodale LLMs

BY Oliver Welling

13 June, 2024
06:45

Die jüngsten Fortschritte in multimodalen großen Sprachmodellen (MLLMs) sind beeindruckend, doch diese MLLMs für allgemeine Anwendungsbereiche weisen oft Defizite im Verständnis und der effektiven Interaktion mit Benutzeroberflächen (UI) auf. In diesem Artikel stellen wir Ferret-UI vor, ein neues MLLM, das speziell für ein verbessertes Verständnis von mobilen Benutzeroberflächen entwickelt wurde. Ferret-UI verfügt über Fähigkeiten zum Referenzieren, Verankern und Schließen und verspricht, die Art und Weise, wie wir mit mobilen UIs interagieren, grundlegend zu verändern.

Das musst Du wissen:

Spezialisiertes Modell: Ferret-UI ist ein MLLM, das speziell für die Herausforderungen von mobilen Benutzeroberflächen entwickelt wurde.

Detailvergrößerung: Das Modell nutzt eine „any resolution“-Funktion, um Details zu vergrößern und visuelle Merkmale zu verbessern.

Datenaufbereitung: Trainingsdaten stammen aus einer Vielzahl von grundlegenden UI-Aufgaben wie Symbolerkennung und Textsuche.

Erweiterte Aufgaben: Ein zusätzlicher Datensatz unterstützt komplexe Aufgaben wie detaillierte Beschreibungen und Interaktionsgespräche.

Überlegenheit: Ferret-UI übertrifft nicht nur die meisten Open-Source-UI-MLLMs, sondern auch GPT-4V bei allen grundlegenden UI-Aufgaben.

Ferret-UI ist darauf ausgelegt, die Herausforderungen, die mobile Benutzeroberflächen mit sich bringen, effizient zu meistern. Da UI-Screens oft ein längeres Seitenverhältnis aufweisen und kleinere Objekte enthalten als natürliche Bilder, wurde Ferret-UI mit einer „any resolution“-Funktion ausgestattet, um diese Details zu vergrößern. Jeder Bildschirm wird in zwei Unterbilder unterteilt – horizontal bei Hochformat und vertikal bei Querformat – und separat kodiert, bevor sie an das LLM gesendet werden.

Die Trainingsdaten umfassen eine Vielzahl von elementaren UI-Aufgaben wie Symbolerkennung, Textsuche und Widget-Auflistung. Diese Daten sind so formatiert, dass sie eine präzise Referenzierung und Verankerung ermöglichen. Um die Schlussfolgerungsfähigkeiten des Modells zu verbessern, wurde ein zusätzlicher Datensatz für fortgeschrittene Aufgaben wie detaillierte Beschreibungen, Wahrnehmungs- und Interaktionsgespräche sowie Funktionsinferenz zusammengestellt.

Nach dem Training an diesen sorgfältig kuratierten Datensätzen zeigt Ferret-UI herausragende Fähigkeiten im Verständnis von UI-Screens und der Ausführung offener Anweisungen. Für die Bewertung des Modells wurde ein umfassender Benchmark erstellt, der alle genannten Aufgaben abdeckt. Ferret-UI übertrifft nicht nur die meisten Open-Source-UI-MLLMs, sondern auch GPT-4V bei allen grundlegenden UI-Aufgaben.

Mit Ferret-UI wird ein neuer Standard im Umgang mit mobilen Benutzeroberflächen gesetzt, der die Interaktion und das Verständnis erheblich verbessert.

#FerretUI #MLLM #MobileUI #AI #Technologie

Quelle

ArXiv, Studien-Paper-PDF

Roulette Orphelins Strategie

Roulette Orphelins Strategie Royal Panda bietet auch unterhaltsame Soft-Spiele, Roulette-Spiele zu spielen. Spieler finden Slots mit unterschiedlichen Funktionen wie Wild-Symbolen,.

by
7 October, 2025

Alle Neuen Online Casinos Mit Bonus Ohne Einzahlung

Alle Neuen Online Casinos Mit Bonus Ohne Einzahlung Der RTP-Prozentsatz (Return to Player) informiert Sie über die potenziellen Gewinne, alle.

by
7 October, 2025

by
7 October, 2025

Alle Neuen Online Casinos Mit Bonus Ohne Einzahlung

by
7 October, 2025

Online Casinos Mit Playtech

by
7 October, 2025

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Ferret-UI: Die mobile Benutzeroberfläche revolutioniert durch multimodale LLMs

Ähnliche Beiträge

Folge uns

Beliebte Artikel

About Author

Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

HOT CATEGORIES

Cybersecurity

Events

Interviews und Meinungen

Investment

Unternehmen

TAGS