Alibaba Qwen 2.5 VL: Das chinesische Modell bedient PC und Smartphone

Stell dir vor, du könntest deinen Computer oder dein Smartphone einfach per Sprache und KI-Unterstützung steuern, komplexe Dokumente in Sekundenschnelle analysieren und sogar lange Videos nach bestimmten Ereignissen durchsuchen lassen. Klingt nach Zukunftsmusik? Ist es aber nicht mehr! Das chinesische Unternehmen Alibaba hat mit seinem Qwen-Team gerade ein neues, beeindruckendes KI-Modell namens Qwen 2.5 VL vorgestellt, das genau das und noch viel mehr kann. Dieses multimodale Modell ist nicht nur ein weiterer Fortschritt im Bereich der Künstlichen Intelligenz, sondern könnte die Art und Weise, wie wir mit Technologie interagieren, grundlegend verändern.

Während Anthropics Claude 3.5 Sonnet durch sein Model Context Protocol einen neuen Standard für präzisere und kontextbewusstere KI-Interaktionen setzt (mehr dazu hier), geht Alibaba mit Qwen 2.5 VL einen Schritt weiter und kombiniert fortschrittliches Sprachverständnis mit visueller Analyse und direkter Geräteinteraktion. Die Fähigkeit, nicht nur Texte, sondern auch Bilder, Videos und sogar Benutzeroberflächen in Echtzeit zu interpretieren und zu steuern, bringt eine völlig neue Dimension in die Mensch-Maschine-Interaktion. KI-Modelle werden nicht länger nur Assistenten, sondern zunehmend zu autonomen Akteuren in digitalen Ökosystemen.

OpenAI hat mit Operator bereits einen ersten Ausblick darauf gegeben, wie KI-gestützte Agenten in der Praxis funktionieren können (mehr dazu hier). Doch während Operator frisch gestartet ist, zeigt Qwen 2.5 VL bereits jetzt beeindruckende Fähigkeiten bei der direkten Steuerung von Computern und Smartphones. Dies eröffnet nicht nur völlig neue Anwendungsbereiche in der Automatisierung und Assistenztechnologie, sondern stellt auch einen klaren Wettbewerbsvorteil für Alibaba im globalen KI-Rennen dar. In diesem Artikel werfen wir einen genaueren Blick auf die revolutionären Funktionen von Qwen 2.5 VL, vergleichen es mit der Konkurrenz und beleuchten die möglichen Auswirkungen auf unseren Alltag.

Das musst Du wissen – Alibaba Qwen 2.5 VL: Der KI-Alleskönner im Detail

Multimodales KI-Wunder: Qwen 2.5 VL versteht und verarbeitet Bilder, Videos und Texte gleichzeitig und kann so komplexe Aufgaben lösen.
PC- und Smartphone-Steuerung: Ähnlich wie OpenAIs Operator ermöglicht Qwen 2.5 VL die Steuerung von Geräten per KI-Agent.
Benchmark-Spitzenreiter: In diversen Tests übertrifft Qwen 2.5 VL Modelle wie GPT-4o, Claude 3.5 Sonnet und Gemini 2.0 Flash in Bereichen wie Videoanalyse und Dokumentenverständnis.
Vielseitige Anwendungsbereiche: Von der Analyse von Diagrammen und Grafiken über die Datenextraktion aus Dokumenten bis hin zur Videoauswertung und Objekterkennung – Qwen 2.5 VL ist ein echter Alleskönner.
Verfügbar und zugänglich: Du kannst Qwen 2.5 VL in der Qwen Chat App testen und die Modelle von Hugging Face herunterladen.

Hauptfrage

Was genau macht Qwen 2.5 VL so revolutionär und welche konkreten Vorteile bietet dieses KI-Modell im Vergleich zu bisherigen Lösungen und der Konkurrenz?

LMAO Qwen 2.5 VL can perform Computer Use, out of the box, taking on OpenAI Operator HEAD ON! 🐐 pic.twitter.com/lwMECXzNSu
— Vaibhav (VB) Srivastav (@reach_vb) January 27, 2025

Folgefragen (FAQs)

Welche Kernfunktionen zeichnen Qwen 2.5 VL aus und wie unterscheiden sie sich von Vorgängermodellen?
Wie performant ist Qwen 2.5 VL im Vergleich zu anderen führenden KI-Modellen wie GPT-4o oder Claude 3.5 Sonnet in verschiedenen Benchmarks?
Wie funktioniert die Steuerung von Computern und Smartphones mit Qwen 2.5 VL und welche Anwendungsszenarien ergeben sich daraus?
Wo und wie kann ich Qwen 2.5 VL selbst testen oder nutzen, und welche Modellvarianten stehen zur Verfügung?
Gibt es Besonderheiten oder Einschränkungen bei der Nutzung von Qwen 2.5 VL, insbesondere im Hinblick auf Datenschutz und Zensur durch chinesische Regularien?
Welche technischen Innovationen stecken hinter Qwen 2.5 VL, wie z.B. Dynamic Resolution und Frame Rate Training?
Welche zukünftigen Entwicklungen und Potenziale sind im Bereich von multimodalen KI-Modellen wie Qwen 2.5 VL zu erwarten?
Wie können Entwickler und Unternehmen Qwen 2.5 VL effektiv einsetzen und welche Ressourcen und Tools bietet Alibaba dafür an?

Antworten auf jede Frage

Welche Kernfunktionen zeichnen Alibaba Qwen 2.5 VL aus und wie unterscheiden sie sich von Vorgängermodellen?

Qwen 2.5 VL ist ein Vision-Language-Modell der nächsten Generation von Alibaba Cloud, das im Vergleich zum Vorgänger Qwen2-VL eine deutliche Weiterentwicklung darstellt. Die Kernfunktionen lassen sich wie folgt zusammenfassen:

Verbessertes visuelles Verständnis: Qwen 2.5 VL ist extrem gut darin, Objekte zu erkennen und komplexe visuelle Informationen zu analysieren. Dazu gehören Texte in Bildern, Diagramme, Icons, Grafiken und Layouts. Das Modell versteht nun noch mehr Kategorien von Bildern, einschließlich berühmter Sehenswürdigkeiten, Film- und Fernseh-IPs und eine breite Palette von Produkten.
Präzise visuelle Lokalisierung: Das Modell kann Objekte in Bildern genau lokalisieren und in Form von Bounding Boxes oder Punkten ausgeben. Dies ermöglicht eine präzise Positionsbestimmung und JSON-basierte Ausgabe von Koordinaten und Attributen.
Umfassende Videoanalyse: Qwen 2.5 VL kann lange Videos (über eine Stunde) verstehen und spezifische Ereignisse in Videos durch die präzise Segmentierung erkennen. Die neue Fähigkeit, Ereignisse in Videos zu erkennen, ist ein großer Fortschritt.
Strukturierte Datenausgabe: Das Modell unterstützt strukturierte Ausgaben für Daten wie gescannte Rechnungen, Formulare und Tabellen, was besonders für Anwendungen im Finanz- und Handelsbereich nützlich ist. Es verwendet ein spezielles QwenVL HTML Format, um Layout-Informationen aus Dokumenten zu extrahieren.
Computer- und Telefonsteuerung: Qwen 2.5 VL kann als visueller Agent agieren und Computer und Smartphones steuern, ähnlich wie es von anderen fortschrittlichen KI-Modellen bekannt ist. Das Modell kann direkt Werkzeuge einsetzen und dynamisch steuern.

Im Vergleich zu Qwen2-VL hat Qwen 2.5 VL vor allem in den Bereichen Dokumentenanalyse, Videoverständnis und Agentenfunktionen deutliche Fortschritte gemacht.

Wie performant ist Alibaba Qwen 2.5 VL im Vergleich zu anderen führenden KI-Modellen wie GPT-4o oder Claude 3.5 Sonnet in verschiedenen Benchmarks?

Das Qwen-Team hat Qwen 2.5 VL umfassend mit aktuellen State-of-the-Art-Modellen verglichen. Laut den Benchmarks übertrifft das Flaggschiffmodell Qwen2.5-VL-72B-Instruct in verschiedenen Bereichen die Konkurrenz, darunter:

Videoverständnis: Qwen 2.5 VL erzielt bessere Ergebnisse als GPT-4o und Claude 3.5 Sonnet.
Dokumentenanalyse: Hier zeigt Qwen 2.5 VL ebenfalls signifikante Vorteile.
Allgemeine Fragenbeantwortung und Problemlösung: Auch in diesen Kategorien ist Qwen 2.5 VL wettbewerbsfähig.
Mathematische Aufgaben: Qwen 2.5 VL schneidet auch bei mathematischen Herausforderungen stark ab.

In einigen Benchmarks, wie z.B. MMMU und MMMU Pro, erreicht Qwen2.5-VL-72B-Instruct Werte von 70.2 bzw. 51.1, und ist damit vergleichbar mit GPT-4o (70.3 bzw. 54.5) und Claude 3.5 Sonnet (70.4 bzw. 54.7). In DocVQA erreicht Qwen2.5-VL-72B-Instruct sogar 96.4, was ebenfalls sehr hoch ist.

Besonders hervorzuheben ist, dass Qwen 2.5 VL diese Leistungen ohne aufgabenspezifisches Fine-Tuning erreicht. Auch die kleineren Modelle Qwen2.5-VL-7B-Instruct und Qwen2.5-VL-3B zeigen beeindruckende Ergebnisse und übertreffen in einigen Fällen sogar GPT-4o-mini bzw. das Vorgängermodell Qwen2-VL-7B.

Wie funktioniert die Steuerung von Computern und Smartphones mit Alibaba Qwen 2.5 VL und welche Anwendungsszenarien ergeben sich daraus?

Qwen 2.5 VL kann als visueller Agent agieren und Software auf PCs und mobilen Geräten steuern. Dies funktioniert, indem das Modell die Bildschirminhalte visuell erfasst, analysiert und dann Aktionen ausführt, die einem menschlichen Nutzer ähneln. In Demonstrationen wurde gezeigt, wie Qwen 2.5 VL beispielsweise:

Apps startet und bedient: In einem Video wurde demonstriert, wie Qwen 2.5 VL die Booking.com-App auf einem Android-Gerät öffnet und einen Flug bucht.
Zwischen Anwendungen wechselt: Auch die Steuerung von Anwendungen auf einem Linux-Desktop wurde gezeigt, wobei das Modell zwischen Tabs wechselte.

Obwohl die gezeigten Demonstrationen noch einfache Aktionen umfassen, deutet das Potenzial für komplexere Anwendungsszenarien hin, wie z.B.:

Automatisierung von Routineaufgaben: Wiederholende Aufgaben am Computer oder Smartphone könnten durch Qwen 2.5 VL automatisiert werden.
Barrierefreiheit: Menschen mit Behinderungen könnten durch die KI-gesteuerte Bedienung von Geräten unterstützt werden.
Fernsteuerung und Support: Technische Unterstützung per Fernzugriff könnte durch KI-Agenten effizienter gestaltet werden.

Es ist jedoch wichtig anzumerken, dass Qwen 2.5 VL im OSWorld-Benchmark, der eine realistische Computerumgebung simuliert, noch schlecht abschneidet. Hier gibt es also noch Raum für Verbesserungen.

Wo und wie kann ich Qwen 2.5 VL selbst testen oder nutzen, und welche Modellvarianten stehen zur Verfügung?

Du hast verschiedene Möglichkeiten, Qwen 2.5 VL auszuprobieren und zu nutzen:

Qwen Chat App: Die einfachste Möglichkeit, Qwen 2.5 VL zu testen, ist über die Qwen Chat App von Alibaba. Hier kannst du direkt mit dem Modell interagieren.
Hugging Face: Qwen 2.5 VL Modelle sind auf der Plattform Hugging Face verfügbar und können dort heruntergeladen und in eigenen Projekten integriert werden. Es gibt sowohl Basis- als auch Instruct-Modelle in verschiedenen Größen (3B, 7B, 72B Parameter).
ModelScope: Eine weitere Plattform, auf der die Modelle verfügbar sind, ist ModelScope. Besonders für Nutzer in China wird die Verwendung von ModelScope empfohlen.
API-Zugang: Für Entwickler bietet Alibaba auch einen API-Zugang zu Qwen 2.5 VL-72B über den DashScope Dienst an.

Die Modellvarianten von Qwen 2.5 VL umfassen:

Qwen2.5-VL-3B: Ein kleineres Modell, das sich gut für Edge-AI-Anwendungen eignet und sogar das frühere 7B-Modell Qwen2-VL übertrifft. Verfügbar unter einer permissiven Lizenz.
Qwen2.5-VL-7B: Ein weiteres Modell mittlerer Größe, das GPT-4o-mini in einigen Aufgaben übertrifft. Ebenfalls unter permissiver Lizenz verfügbar.
Qwen2.5-VL-72B: Das Flaggschiffmodell mit der besten Performance. Verfügbar unter Alibabas Custom License, die für kommerzielle Nutzung durch Unternehmen mit mehr als 100 Millionen monatlich aktiven Nutzern eine Genehmigung von Qwen/Alibaba erfordert.

Gibt es Besonderheiten oder Einschränkungen bei der Nutzung von Qwen 2.5 VL, insbesondere im Hinblick auf Datenschutz und Zensur durch chinesische Regularien?

Ja, es gibt einige wichtige Punkte zu beachten:

Zensurbeschränkungen: Als ein in China entwickeltes KI-Modell unterliegt Qwen 2.5 VL bestimmten inhaltlichen Beschränkungen. In der Qwen Chat App zeigt sich dies beispielsweise darin, dass das Modell auf Fragen zu politisch sensiblen Themen wie „Xi Jinpings Fehler“ mit einer Fehlermeldung reagiert. Chinesische Internetregulierungsbehörden überprüfen KI-Modelle, um sicherzustellen, dass ihre Antworten „sozialistische Kernwerte verkörpern“.
Lizenzbedingungen: Das Flaggschiffmodell Qwen2.5-VL-72B unterliegt einer speziellen Lizenz, die kommerzielle Nutzung für große Unternehmen einschränkt. Die kleineren Modelle (3B und 7B) sind unter permissiveren Lizenzen verfügbar.
Sprachfokus: Die primäre Ausrichtung von Qwen 2.5 VL liegt vermutlich auf chinesischer Sprache und Kultur, auch wenn das Modell multilingual sein mag. Dies könnte sich in der Performance bei nicht-chinesischen Inhalten bemerkbar machen.

Es ist ratsam, sich dieser potenziellen Einschränkungen bewusst zu sein, insbesondere bei kommerziellen Anwendungen oder der Verarbeitung sensibler Daten.

Welche technischen Innovationen stecken hinter Alibaba Qwen 2.5 VL, wie z.B. Dynamic Resolution und Frame Rate Training?

Qwen 2.5 VL nutzt verschiedene technische Innovationen, um seine Leistungsfähigkeit zu steigern:

Dynamic Resolution und Frame Rate Training (Videoverständnis): Das Modell verwendet dynamische Auflösung und Bildrate beim Training, um das Videoverständnis zu verbessern. Dies ermöglicht es dem Modell, zeitliche Abläufe und Geschwindigkeiten zu lernen und auch lange Videos effizient zu verarbeiten. Es wurde Dynamic FPS (Frames Per Second) Training und Absolute Time Encoding eingeführt, um die zeitliche Verarbeitung zu optimieren.
Effizienter Vision Encoder: Der visuelle Encoder wurde optimiert, um sowohl die Trainings- als auch die Inferenzgeschwindigkeit zu erhöhen. Window Attention, RMSNorm und SwiGLU wurden implementiert, um die Effizienz zu verbessern und die Architektur des Vision Encoders an die der Qwen2.5 LLMs anzupassen. Nur wenige Schichten nutzen Full Attention, der Rest Window Attention.
QwenVL HTML Format: Für das Dokumenten-Parsing wurde ein spezielles HTML-basiertes Format entwickelt, um Layout-Informationen effizient zu extrahieren.
Direkte Koordinatenrepräsentation: Qwen 2.5 VL repräsentiert Koordinaten (z.B. für Bounding Boxes) direkt in der tatsächlichen Bildskala, ohne traditionelle Koordinaten-Normalisierung. Dies ermöglicht es dem Modell, die Bildskala direkt zu lernen.

Diese technischen Verbesserungen tragen dazu bei, Qwen 2.5 VL schneller, effizienter und leistungsfähiger in verschiedenen multimodalen Aufgaben zu machen.

Welche zukünftigen Entwicklungen und Potenziale sind im Bereich von multimodalen KI-Modellen wie Qwen 2.5 VL zu erwarten?

Die Entwicklung von multimodalen KI-Modellen wie Qwen 2.5 VL steht noch am Anfang, aber das Potenzial für die Zukunft ist enorm. Zu erwartende Entwicklungen und Potenziale sind:

Verbesserte Reasoning-Fähigkeiten: Zukünftige Modelle werden noch besser darin sein, komplexe Zusammenhänge zu erkennen, Schlussfolgerungen zu ziehen und Probleme zu lösen.
Integration weiterer Modalitäten: Neben Text, Bild und Video könnten in Zukunft noch weitere Modalitäten wie Audio, 3D-Daten oder Sensordaten integriert werden, um noch umfassendere KI-Systeme zu schaffen (Omni-Modelle).
Erweiterte Agentenfunktionen: KI-Agenten, die Geräte und Software steuern können, werden immer intelligenter und vielseitiger werden, was zu neuen Formen der Mensch-Computer-Interaktion führen wird.
Personalisierung und Anpassung: KI-Modelle könnten in Zukunft stärker personalisiert und an die individuellen Bedürfnisse und Vorlieben der Nutzer angepasst werden.
Breitere Verfügbarkeit und Zugänglichkeit: Multimodale KI-Modelle werden zunehmend zugänglicher und einfacher zu nutzen sein, sowohl für Entwickler als auch für Endanwender.

Qwen 2.5 VL ist ein wichtiger Schritt in diese Richtung und zeigt, wie leistungsfähig und vielseitig multimodale KI-Systeme bereits heute sind und in Zukunft sein werden.

Wie können Entwickler und Unternehmen Alibaba Qwen 2.5 VL effektiv einsetzen und welche Ressourcen und Tools bietet Alibaba dafür an?

Für Entwickler und Unternehmen bietet Qwen 2.5 VL vielfältige Einsatzmöglichkeiten. Um das Modell effektiv zu nutzen, stehen verschiedene Ressourcen und Tools zur Verfügung:

Hugging Face und ModelScope: Diese Plattformen bieten einfachen Zugriff auf die Modelle zum Download und zur Integration in eigene Projekte. Es gibt Codebeispiele und Quickstarts für die Nutzung mit Hugging Face Transformers und ModelScope.
Qwen-VL-Utils Toolkit: Alibaba bietet ein Toolkit (qwen-vl-utils) an, das die Verarbeitung visueller Eingaben (Bilder, Videos in verschiedenen Formaten) vereinfacht.
API-Zugang über DashScope: Der DashScope API-Dienst ermöglicht die Nutzung des leistungsstarken Qwen2.5-VL-72B Modells über eine API-Schnittstelle. Es gibt Tutorials und Beispiele für die API-Nutzung.
Web-Demo und Streaming Video Chat Demo: Alibaba stellt Web-Demos zur Verfügung, die als Ausgangspunkt für eigene Anwendungen dienen können. Eine Streaming Video Chat Demo zeigt die Möglichkeiten der Videoanalyse in Echtzeit.
Cookbooks und Dokumentation: Es werden Cookbooks für verschiedene Anwendungsfälle (Erkennung, Lokalisierung, Dokumenten-Parsing, Videoverständnis, etc.) vorbereitet, um Entwicklern den Einstieg zu erleichtern. Eine umfassende Dokumentation ist ebenfalls verfügbar (Blog, GitHub Repository).

Durch diese Ressourcen und Tools können Entwickler und Unternehmen Qwen 2.5 VL in ihre eigenen Anwendungen und Produkte integrieren und von den fortschrittlichen multimodalen Fähigkeiten profitieren.

Konkrete Tipps und Anleitungen zu Alibaba Qwen 2.5 VL

Tipps für den Einsatz von Qwen 2.5 VL:

Modellauswahl: Wähle das passende Modell (3B, 7B oder 72B) je nach Anwendungsfall und Ressourcenbedarf. Für einfache Aufgaben reichen die kleineren Modelle oft aus, während komplexe Aufgaben das 72B-Modell erfordern.
Auflösung und Performance: Experimentiere mit der Bildauflösung, um ein optimales Verhältnis zwischen Performance und Rechenkosten zu finden. Eine höhere Auflösung kann die Genauigkeit verbessern, erfordert aber mehr Rechenleistung. Nutze die Optionen min_pixels und max_pixels oder resized_height und resized_width, um die Auflösung zu steuern.
Flash-Attention 2 nutzen: Aktiviere Flash-Attention 2, um die Inferenzgeschwindigkeit und Speichernutzung zu optimieren, besonders bei Multi-Image- und Video-Szenarien (Hardware-Kompatibilität beachten).
Qwen-VL-Utils einsetzen: Verwende das qwen-vl-utils Toolkit, um die Verarbeitung von visuellen Eingaben zu vereinfachen und verschiedene Bild- und Videoformate zu unterstützen.
API für High-End-Anwendungen: Für anspruchsvolle Anwendungen, die die maximale Leistungsfähigkeit von Qwen 2.5 VL-72B benötigen, ist der API-Zugang über DashScope eine gute Wahl.
Dokumentation und Beispiele nutzen: Mache dich mit der Dokumentation, den Cookbooks und den Codebeispielen vertraut, um die Funktionen des Modells optimal zu nutzen und typische Fehler zu vermeiden.
Experimentieren und Testen: Teste verschiedene Prompts, Eingabeformate und Parameter, um die bestmöglichen Ergebnisse für deinen spezifischen Anwendungsfall zu erzielen.

Regelmäßige Aktualisierung

Dieser Artikel wird regelmäßig aktualisiert, um die neuesten Informationen und Entwicklungen rund um Qwen 2.5 VL und verwandte Themen widerzuspiegeln. Bleib dran, um auf dem Laufenden zu bleiben!

Fazit: Alibaba Qwen 2.5 VLL – Ein Meilenstein für multimodale KI und ein Blick in die Zukunft

Mit Qwen 2.5 VL hat Alibabas Qwen-Team einen beeindruckenden Meilenstein im Bereich der multimodalen Künstlichen Intelligenz erreicht. Dieses Modell demonstriert eindrucksvoll, wie weit die Entwicklung von KI-Systemen fortgeschritten ist, die nicht nur Text verstehen, sondern auch Bilder und Videos interpretieren und sogar in die reale Welt eingreifen können, indem sie Computer und Smartphones steuern. Die Fähigkeit, Dokumente präzise zu analysieren, lange Videos zu verstehen und Objekte genau zu lokalisieren, in Kombination mit der hohen Performance in Benchmarks und der Verfügbarkeit in verschiedenen Modellgrößen und Zugangsoptionen machen Qwen 2.5 VL zu einem echten Game-Changer.

Obwohl es noch Herausforderungen gibt, insbesondere im Bereich der Computersteuerung in komplexen Umgebungen und der inhaltlichen Beschränkungen aufgrund chinesischer Regularien, zeigt Qwen 2.5 VL eindrücklich das enorme Potenzial von multimodalen KI-Modellen. Die technischen Innovationen wie Dynamic Resolution und Frame Rate Training, der effiziente Vision Encoder und das QwenVL HTML Format sind Belege für die hohe Innovationskraft des Qwen-Teams.

Für Entwickler und Unternehmen eröffnet Qwen 2.5 VL spannende neue Möglichkeiten, KI-basierte Anwendungen und Produkte zu entwickeln, die von verbesserter visueller Wahrnehmung, intelligenter Videoanalyse und intuitiver Mensch-Computer-Interaktion profitieren. Von der Automatisierung von Routineaufgaben über verbesserte Barrierefreiheit bis hin zu neuen Formen der Fernsteuerung und des Supports – die Anwendungsbereiche sind vielfältig und zukunftsträchtig.

Qwen 2.5 VL ist mehr als nur ein weiteres KI-Modell; es ist ein Fenster in die Zukunft, in der Künstliche Intelligenz ein noch integralerer Bestandteil unseres Alltags sein wird und uns helfen kann, komplexe Aufgaben zu bewältigen und neue Möglichkeiten zu erschließen. Die Weiterentwicklung in diesem Bereich wird spannend zu verfolgen sein, und Qwen 2.5 VL setzt hier einen wichtigen Standard.

Wenn du tiefer in die Welt der KI eintauchen und lernen möchtest, wie du solche Technologien effektiv nutzen kannst, dann schau auf https://KINEWS24-academy.de – KI. Direkt. Verständlich. Anwendbar. vorbei. Hier kannst Du Dich in einer aktiven Community austauschen und KI lernen.

Quellen zu Alibaba Qwen 2.5 VL

TechCrunch Artikel: https://techcrunch.com/2025/01/27/alibabas-qwen-team-releases-ai-models-that-can-control-pcs-and-phones
Tweet von Philipp Schmid: https://x.com/reach_vb/status/1883961488320389376
Offizieller Blogbeitrag des Qwen Teams: https://qwenlm.github.io/blog/qwen2.5-vl/
GitHub Repository Qwen2.5-VL: https://github.com/QwenLM/Qwen2.5-VL/blob/main/README.md

#AI #KI #ArtificialIntelligence #KuenstlicheIntelligenz #Qwen25VL #MultimodaleKI #VisionLanguageModel #AlibabaAI