Die Entwicklung im Bereich der Künstlichen Intelligenz schreitet rasant voran, insbesondere bei Modellen, die nicht nur Text, sondern auch visuelle Informationen verstehen und verarbeiten können. Mit Qwen2.5-VL betritt ein neues, leistungsstarkes Vision-Language-Modell (VLM) die Bühne, das auf den Erfolgen seiner Vorgänger aufbaut und beeindruckende neue Fähigkeiten mitbringt.
Dieses Modell, entwickelt vom Qwen-Team (Alibaba), markiert einen signifikanten Fortschritt darin, wie Maschinen Bilder, Videos und komplexe Dokumente interpretieren und darauf reagieren können. Es wurde Ende Januar 2025 vorgestellt und ist Teil der Qwen-Modellfamilie, die für ihre Open-Source-Beiträge bekannt ist.
Parallel dazu wurde mit QVQ-Max, dessen erste offizielle Version Ende März 2025 erschien, ein spezialisiertes Modell für tiefgehendes visuelles Schlussfolgern (Visual Reasoning) veröffentlicht. Während Qwen2.5-VL ein breites Spektrum an multimodalen Aufgaben abdeckt, konzentriert sich QVQ-Max darauf, nicht nur zu „sehen“, was in einem Bild oder Video ist, sondern auch komplexe logische Schlüsse daraus zu ziehen und Probleme zu lösen – von mathematischen Aufgaben bis hin zu kreativen Herausforderungen.
Zusammen repräsentieren Qwen2.5-VL und QVQ-Max die Spitze der Entwicklung im Bereich visueller KI-Assistenten. Sie versprechen, die Art und Weise, wie wir mit visuellen Daten interagieren, grundlegend zu verändern – sei es bei der Analyse von Dokumenten, der präzisen Erkennung von Objekten in Bildern, dem Verständnis stundenlanger Videos oder sogar bei der Steuerung von Software auf Computern und Smartphones. Dieser Artikel taucht tief in die Fähigkeiten, Technologien und Anwendungsmöglichkeiten dieser spannenden Modelle ein.
Das musst Du wissen – Qwen2.5-VL & QVQ-Max Highlights
- Qwen2.5-VL ist das neueste Flaggschiff-Vision-Language-Modell der Qwen-Familie mit bahnbrechenden Fähigkeiten in der multimodalen KI.
- Es brilliert bei der Analyse komplexer Dokumente (inkl. Handschrift, Tabellen, Formeln), präziser Objekterkennung und -lokalisierung sowie dem Verständnis ultra-langer Videos.
- QVQ-Max ergänzt dies als spezialisiertes Modell für tiefgehendes visuelles Schlussfolgern, das über reines Erkennen hinausgeht und komplexe Probleme löst.
- Die Modelle bieten erweiterte Agentenfunktionen, die eine Interaktion mit und Steuerung von Computern und Mobilgeräten ermöglichen.
- Umfangreiche Benchmarks belegen die Spitzenleistung von Qwen2.5-VL, oft auf Augenhöhe oder besser als führende Modelle wie GPT-4o oder Gemini 1.5 Pro in spezifischen visuellen Aufgaben.
Wie verändern Qwen2.5-VL und QVQ-Max die Interaktion mit visuellen Daten?
Die Einführung von Modellen wie Qwen2.5-VL und QVQ-Max bedeutet einen Paradigmenwechsel. Bisherige KI-Modelle waren oft auf Text beschränkt oder konnten Bilder nur oberflächlich erkennen. Diese neue Generation von Vision-Language-Modellen ermöglicht eine viel tiefere und nuanciertere Interaktion mit der visuellen Welt. Sie können nicht nur beschreiben, was sie „sehen“, sondern auch den Kontext verstehen, Details präzise lokalisieren, Informationen aus komplexen Layouts extrahieren und sogar über längere Zeiträume in Videos hinweg „den Faden behalten“. Dies eröffnet völlig neue Möglichkeiten für Automatisierung, Analyse und kreative Assistenz in unzähligen Bereichen.
Folgefragen (FAQs)
Was sind die herausragenden Neuerungen von Qwen2.5-VL gegenüber früheren Versionen?
Antwort:
Qwen2.5-VL baut auf Qwen2-VL auf und bringt signifikante Verbesserungen in vier Schlüsselbereichen mit sich:
- Leistungsstarke Dokumentenanalyse: Die Fähigkeit zur Texterkennung wurde zu einer umfassenden Dokumentenanalyse erweitert (
omnidocument parsing
). Das Modell kann nun verschiedenste Dokumenttypen (inkl. Handschrift, Tabellen, Diagramme, chemische Formeln, Notenblätter) aus unterschiedlichen Szenarien und in mehreren Sprachen verarbeiten und dabei auch das Layout verstehen. - Präzise Objektlokalisierung (Grounding): Die Genauigkeit beim Erkennen, Markieren und Zählen von Objekten wurde verbessert. Qwen2.5-VL unterstützt absolute Koordinaten und das JSON-Format für die Ausgabe, was komplexere räumliche Schlussfolgerungen ermöglicht.
- Verständnis ultra-langer Videos & feingranulares Video-Grounding: Durch die Erweiterung der dynamischen Auflösung auf die Zeitachse (dynamische FPS-Abtastung) kann das Modell Videos verstehen, die Stunden dauern. Gleichzeitig kann es spezifische Ereignisse oder Segmente sekundengenau extrahieren oder lokalisieren.
- Verbesserte Agentenfunktionen: Dank der Fortschritte bei Grounding, Reasoning und Entscheidungsfindung kann Qwen2.5-VL effektiver als Agent zur Steuerung von Computern (z.B. Web-Navigation) und Smartphones (z.B. App-Bedienung) eingesetzt werden.
Diese Neuerungen basieren auf Weiterentwicklungen in der Modellarchitektur, wie einem effizienteren Vision Encoder (ViT mit Window Attention, SwiGLU, RMSNorm) und der Anpassung von Techniken wie mRoPE (multi-resolution Rotary Positional Embedding) für die Zeitdimension in Videos.
Wie unterscheidet sich QVQ-Max von Qwen2.5-VL?
Antwort:
Obwohl beide Modelle aus der Qwen-Entwicklung stammen und im Bereich Vision-Language angesiedelt sind, haben sie unterschiedliche Schwerpunkte:
- Qwen2.5-VL: Ist das breit aufgestellte Allround-Modell. Es zielt darauf ab, eine Vielzahl multimodaler Aufgaben exzellent zu bewältigen – von allgemeiner Bild- und Videobeschreibung über Dokumentenanalyse und OCR bis hin zu Agentenfunktionen. Es ist in verschiedenen Größen (3B bis 72B Parameter) verfügbar und für allgemeine Anwendungen konzipiert. Die Veröffentlichung erfolgte Ende Januar 2025.
- QVQ-Max: Ist ein spezialisiertes Modell für visuelles Schlussfolgern (Visual Reasoning). Der Fokus liegt hier nicht nur auf dem Erkennen von Inhalten, sondern auf dem logischen Denken über diese visuellen Inhalte. Es soll komplexe Probleme lösen, die ein tiefes Verständnis der Beziehungen und Informationen im Bild erfordern, wie z.B. mathematische Geometrieaufgaben anhand von Diagrammen, die Analyse von Bauplänen oder das Vorhersagen nächster Schritte in einem Video. QVQ-Max wurde Ende März 2025 offiziell vorgestellt und löste eine frühere Preview-Version (QVQ-72B-Preview) ab. Es scheint als ein Modell konzipiert zu sein, das besonders in Aufgaben brilliert, die hohe Reasoning-Fähigkeiten erfordern (wie im MathVision Benchmark demonstriert).
Man könnte Qwen2.5-VL als den leistungsstarken Generalisten und QVQ-Max als den spezialisierten Denker für visuelle Logik betrachten.
Welche konkreten Anwendungsfälle profitieren am meisten von Qwen2.5-VL und QVQ-Max?
Antwort:
Die verbesserten Fähigkeiten eröffnen zahlreiche Anwendungsfelder:
- Dokumentenverarbeitung: Automatisierte Extraktion von Daten aus Rechnungen, Formularen, Verträgen (auch handschriftlich), wissenschaftlichen Papern (inkl. Formeln, Diagramme) oder sogar Notenblättern.
- E-Commerce & Einzelhandel: Präzise Produktdetailerkennung, automatisierte Katalogisierung, visuelle Suche, Zählung von Objekten im Regal oder Lager.
- Medien & Unterhaltung: Detaillierte Videoanalyse, automatische Erstellung von Zusammenfassungen oder Highlights, Suche nach spezifischen Szenen oder Objekten in langen Videos, Generierung von Skripten basierend auf visuellen Inputs.
- Software-Entwicklung & Design: Unterstützung beim Codieren durch Verstehen von Diagrammen oder Screenshots, Generierung von UI-Elementen basierend auf Skizzen (QVQ-Max).
- Robotik & Autonomes Fahren: Besseres Verständnis der Umgebung durch präzisere Objekterkennung und räumliches Reasoning.
- Barrierefreiheit: Beschreibung von Bildern und Videos für sehbehinderte Menschen, Steuerung von Geräten über visuelle Schnittstellen.
- Bildung & Lernen: Visueller Lernassistent (QVQ-Max), der mathematische oder physikalische Probleme mit Diagrammen erklärt und löst.
- Sicherheit & Überwachung: Analyse von Überwachungsvideos, Erkennung spezifischer Ereignisse oder Anomalien.
- Kreativassistenz: Hilfe beim Entwerfen von Illustrationen, Generieren von Rollenspielinhalten oder Verfeinern von Skizzen (QVQ-Max).
Wie schneiden Qwen2.5-VL Modelle in Benchmarks im Vergleich zu GPT-4o oder Gemini ab?
Antwort:
Die veröffentlichten Benchmarkergebnisse (Stand März 2025) zeigen, dass insbesondere die größeren Qwen2.5-VL Modelle (32B und 72B) in vielen multimodalen Benchmarks sehr wettbewerbsfähig sind und teilweise führende Modelle wie GPT-4o, Gemini 1.5 Pro oder Claude 3.5 Sonnet übertreffen oder mit ihnen gleichziehen.
- Stärken: Qwen2.5-VL zeigt besonders starke Leistungen in Benchmarks, die auf Dokumentenverständnis abzielen (z.B. DocVQA, InfoVQA, OCRBench) und bei allgemeinen multimodalen Verständnistests (z.B. MMMU, MMBench, MMStar). Auch im Bereich visuelles Reasoning für Mathematik (MathVista, MathVision) erzielen die Modelle gute Ergebnisse, wobei QVQ-Max hier speziell glänzen soll. Bei Videoaufgaben (VideoMME, MMBench-Video) und Agentenfähigkeiten (Android Control, ScreenSpot) zeigt Qwen2.5-VL ebenfalls beeindruckende Fortschritte.
- Vergleich: Gegenüber GPT-4o und Gemini 1.5 Pro ist Qwen2.5-VL (insbesondere die 72B-Version) oft ebenbürtig oder besser in Aufgaben wie Dokumenten-VQA und einigen OCR-Tests. Bei komplexen Reasoning-Aufgaben (MMMU Pro) und bestimmten Agenten-Benchmarks (z.B. AndroidWorld, OSWorld) sind die Top-Modelle führender Anbieter manchmal noch voraus, aber Qwen2.5-VL schließt die Lücke rapide.
Es ist wichtig zu beachten, dass Benchmarks nur einen Teil des Bildes zeigen und die Leistung in realen Anwendungen variieren kann. Die Open-Source-Natur der kleineren Qwen2.5-VL Modelle (bis 32B) ist jedoch ein großer Vorteil für Entwickler und Forscher.
Wie kann ich Qwen2.5-VL selbst nutzen oder testen?
Antwort:
Es gibt mehrere Möglichkeiten, Qwen2.5-VL zu nutzen:
- Hugging Face Transformers: Die Modelle (bis 32B) sind auf Hugging Face verfügbar. Du kannst sie mit der
transformers
-Bibliothek laden und nutzen. Es wird empfohlen, die Bibliothek direkt von GitHub zu installieren (pip install git+https://github.com/huggingface/transformers
) und das Hilfspaketqwen-vl-utils
(pip install qwen-vl-utils[decord]
) für die einfache Verarbeitung visueller Inputs (lokale Dateien, URLs, Base64, Videos) zu verwenden. - ModelScope: Insbesondere für Nutzer in China bietet ModelScope eine alternative Plattform zum Download und zur Nutzung der Modelle.
- API-Zugang (DashScope): Das leistungsstärkste 72B-Modell (Qwen2.5-VL-72B-Instruct) wird über einen API-Dienst von DashScope (Alibaba Cloud) angeboten. Hierfür ist ein API-Schlüssel erforderlich.
- Lokale Web-Demo: Das Qwen-Team stellt Code bereit, um eine lokale Web-UI (basierend auf Gradio) zu starten, mit der Du direkt mit dem Modell interagieren und Bilder/Videos hochladen kannst.
- Deployment mit vLLM: Für eine performante Bereitstellung (Online-Serving oder Offline-Inferenz) wird die Nutzung von vLLM (Version >0.7.2) empfohlen. Es gibt auch offizielle Docker-Images (
qwenllm/qwenvl
), die die Umgebung bereits vorkonfiguriert haben. - Quantisierte Modelle: Für Umgebungen mit begrenzten Ressourcen sind auch quantisierte Versionen (AWQ) verfügbar, die weniger Speicher und Rechenleistung benötigen.
Die Entwickler stellen zudem „Cookbooks“ (Anleitungsbeispiele) für spezifische Aufgaben wie Erkennung, Lokalisierung, Dokumentenanalyse etc. zur Verfügung.
Welche technischen Innovationen stecken hinter Qwen2.5-VL’s Videoverständnis?
Antwort:
Das verbesserte Videoverständnis von Qwen2.5-VL basiert hauptsächlich auf zwei technischen Neuerungen:
- Dynamische Auflösung und Bildrate (FPS) im Training: Traditionell werden Videos oft mit einer festen Bildrate (z.B. 1 Bild pro Sekunde) verarbeitet. Qwen2.5-VL wurde mit einer dynamischen FPS-Abtastung trainiert. Das bedeutet, das Modell lernt, Videos mit unterschiedlichen Abtastraten zu verstehen. Dies ermöglicht es, sowohl kurze Clips mit hoher Detaildichte als auch sehr lange Videos (Stunden) effizient zu verarbeiten, indem die Abtastrate angepasst wird. Gleichzeitig wird die dynamische Auflösung (Anpassung der Bildgröße) auch auf die Zeitachse angewendet.
- Angepasste Zeitliche Positionalkodierung (mRoPE): Um dem Modell beizubringen, die zeitliche Abfolge und Geschwindigkeit von Ereignissen in Videos zu verstehen, wurde die mRoPE (multi-resolution Rotary Positional Embedding) Technik angepasst. Sie wird nun auch in der Zeitdimension verwendet, wobei Frames mit IDs und absoluten Zeitstempeln versehen werden. Dies hilft dem Modell, nicht nur zu verstehen, was in einem Frame passiert, sondern auch wann es im Kontext des gesamten Videos passiert, was für das feingranulare Grounding (Lokalisierung von Ereignissen zu bestimmten Zeitpunkten) entscheidend ist.
Diese Innovationen ermöglichen es Qwen2.5-VL, lange Videos zu „überblicken“ und gleichzeitig präzise Informationen aus spezifischen Momenten zu extrahieren.
Was bedeutet „visuelles Schlussfolgern“ im Kontext von QVQ-Max?
Antwort:
Visuelles Schlussfolgern (Visual Reasoning) geht über das reine Erkennen von Objekten oder Szenen in einem Bild hinaus. Im Kontext von QVQ-Max bedeutet es die Fähigkeit des Modells:
- Beziehungen zu verstehen: Nicht nur erkennen, dass ein Ball und ein Tor im Bild sind, sondern verstehen, dass der Ball auf das Tor zufliegt oder dass eine Person im Begriff ist, ihn zu treten.
- Logische Schlüsse zu ziehen: Anhand eines geometrischen Diagramms die fehlenden Winkel oder Längen zu berechnen, basierend auf den gegebenen Informationen und geometrischen Regeln.
- Kontextwissen anzuwenden: Einen Bauplan nicht nur als Linien und Formen zu sehen, sondern zu analysieren, ob die dargestellte Struktur statisch sinnvoll oder funktional ist, basierend auf „erlerntem“ Wissen über Architektur oder Physik.
- Abstrakt zu denken: Aus einer Reihe von Bildern oder einem Videoclip Muster zu erkennen, Vorhersagen über die nächste Sequenz zu treffen oder Anomalien zu identifizieren.
- Probleme zu lösen: Eine Frage zu beantworten, die sich nicht direkt aus dem Sichtbaren ergibt, sondern eine Kombination aus visueller Analyse und logischem Denken erfordert (z.B. „Welches Werkzeug wäre am besten geeignet, um die Schraube in diesem Bild zu lösen?“).
QVQ-Max zielt darauf ab, ein „denkender“ visueller Assistent zu sein, der nicht nur beschreibt, sondern analysiert, interpretiert und Lösungswege aufzeigt, basierend auf dem, was er sieht.
Gibt es Einschränkungen oder zukünftige Entwicklungsrichtungen für diese Modelle?
Antwort:
Ja, wie bei jeder Technologie gibt es auch hier Einschränkungen und geplante Weiterentwicklungen:
Einschränkungen:
- Rechenaufwand: Die leistungsfähigsten Modelle (insbesondere 72B) erfordern erhebliche Rechenressourcen (VRAM, Rechenzeit), besonders bei hoher Auflösung oder langen Videos. Quantisierte Modelle mildern dies etwas ab.
- Potenzielle Halluzinationen: Wie alle großen Sprachmodelle können auch VLMs manchmal falsche oder unsinnige Informationen generieren, insbesondere bei mehrdeutigen oder komplexen Inputs.
- Feingranularität: Obwohl stark verbessert, kann die extrem präzise Lokalisierung winziger Details oder das Verständnis sehr subtiler Interaktionen immer noch herausfordernd sein.
- Weltwissen: Das Wissen des Modells ist auf die Trainingsdaten beschränkt. Sehr spezifisches oder brandaktuelles Nischenwissen ist möglicherweise nicht vorhanden.
- Ethik und Bias: Wie bei allen KI-Modellen besteht die Gefahr, dass sie Biases aus den Trainingsdaten übernehmen oder für problematische Zwecke eingesetzt werden (z.B. Überwachung).
Zukünftige Entwicklungsrichtungen (insbesondere für QVQ-Max genannt, aber generell relevant):
- Genauere Beobachtungen: Verbesserung der Erkennungsgenauigkeit durch „Grounding“-Techniken, die visuelle Beobachtungen validieren.
- Visueller Agent: Ausbau der Fähigkeit, mehrstufige und komplexe Aufgaben auszuführen, wie die Bedienung von Smartphones/Computern oder sogar das Spielen von Spielen durch visuelle Analyse.
- Bessere Interaktion: Erweiterung über reine Textantworten hinaus, z.B. durch visuelle Generierung (Bilder erstellen/bearbeiten) oder die Nutzung externer Tools zur Verifikation.
- Effizienz: Weitere Optimierung der Modelle für geringeren Ressourcenverbrauch.
- Robustheit: Verbesserung der Leistung bei schwierigen Lichtverhältnissen, Verdeckungen oder ungewöhnlichen Perspektiven.
Die Entwicklung in diesem Bereich ist extrem dynamisch, und wir können erwarten, dass zukünftige Versionen viele dieser Herausforderungen weiter adressieren werden.
Konkrete Tipps und Anleitungen zur Nutzung von Qwen2.5-VL
Um das Beste aus Qwen2.5-VL herauszuholen, hier einige praktische Hinweise:
- Wähle die richtige Modellgröße:
- 3B, 7B: Gut für Experimente, weniger anspruchsvolle Aufgaben oder Umgebungen mit stark begrenzter Hardware.
- 32B: Ein starker Kompromiss zwischen Leistung und Ressourcenbedarf. Oft schon sehr leistungsfähig.
- 72B (via API): Die höchste Leistung für anspruchsvollste Aufgaben, erfordert aber API-Zugang oder sehr leistungsstarke Hardware.
- Quantisierte Modelle (AWQ): Eine gute Option, wenn Speicher oder Rechenleistung knapp sind, mit oft nur geringem Leistungsverlust gegenüber den Originalmodellen.
- Nutze die Hilfsprogramme: Installiere
qwen-vl-utils
für eine vereinfachte Handhabung von Bild- und Video-Inputs (URLs, Base64, lokale Dateien). Nutze die[decord]
Option für schnellere Videoverarbeitung. - Optimiere die Eingabeauflösung:
- Standardmäßig verwendet das Modell die native Auflösung. Höhere Auflösungen können die Leistung verbessern, erhöhen aber den Rechenaufwand.
- Du kannst
min_pixels
undmax_pixels
im Processor oder pro Bild festlegen, um einen Kompromiss zu finden (z.B.min_pixels = 256*28*28
,max_pixels = 1280*28*28
). - Für feingranulare Kontrolle kannst du auch
resized_height
undresized_width
pro Bild angeben.
- Gib IDs für mehrere Bilder: Wenn Du mehrere Bilder in einer Konversation verwendest, aktiviere die Option
add_vision_ids=True
imapply_chat_template
, damit das Modell die Bilder klar referenzieren kann (z.B. „Bild 1 zeigt…“, „In Bild 2…“). - Beschleunige mit Flash Attention 2: Wenn deine Hardware es unterstützt (neuere Nvidia GPUs) und Du das Modell in
float16
oderbfloat16
lädst, nutzeattn_implementation="flash_attention_2"
beim Laden des Modells für deutliche Geschwindigkeits- und Speichervorteile, besonders bei vielen Bildern oder langen Videos. - Verwende vLLM für Deployment: Für effizientes Serving (API) oder Offline-Batch-Verarbeitung ist vLLM die empfohlene Bibliothek. Stelle sicher, dass Du eine Version >0.7.2 verwendest.
- Erkunde die „Cookbooks“: Die bereitgestellten Code-Beispiele (Cookbooks) auf GitHub zeigen spezifische Anwendungen wie OCR, Objekterkennung, Video-Grounding oder Agentensteuerung.
- Bleib auf dem Laufenden: Die Entwicklungen in diesem Bereich sind rasant. Es lohnt sich, die Repositories und Blogs des Qwen-Teams im Auge zu behalten. Wir bemühen uns, diesen Artikel stets aktuell zu halten.
Schlussfolgerung: Qwen2.5-VL und QVQ-Max als Wegbereiter der visuellen KI
Die Vorstellung von Qwen2.5-VL und QVQ-Max markiert einen bedeutenden Meilenstein in der Entwicklung multimodaler Künstlicher Intelligenz. Diese Modelle demonstrieren eindrucksvoll, wie weit die Fähigkeit von KI fortgeschritten ist, visuelle Informationen nicht nur wahrzunehmen, sondern auch tiefgehend zu verstehen, zu analysieren und darauf basierend zu handeln. Qwen2.5-VL etabliert sich als ein extrem vielseitiges und leistungsstarkes Vision-Language-Modell, das neue Maßstäbe in der Dokumentenanalyse, der präzisen Objekterkennung und insbesondere im Verständnis und der Analyse langer Videos setzt. Die Fähigkeit, komplexe Layouts zu parsen, Handschriften zu lesen, Objekte exakt zu lokalisieren und sogar stundenlange Videos sekundengenau zu analysieren, eröffnet immense Potenziale für Automatisierung und Erkenntnisgewinnung.
Ergänzt wird dies durch QVQ-Max, das den Fokus auf das anspruchsvolle Feld des visuellen Schlussfolgerns legt. Es geht darum, logische Zusammenhänge in visuellen Daten zu erkennen und komplexe Probleme zu lösen – eine Fähigkeit, die für anspruchsvolle Anwendungen in Wissenschaft, Technik und kreativen Bereichen unerlässlich ist. Die Benchmarks bestätigen die hohe Leistungsfähigkeit der Qwen-Modelle, die sich oft auf Augenhöhe mit den besten proprietären Modellen befinden, während die Verfügbarkeit kleinerer Varianten als Open Source die Forschung und Entwicklung demokratisiert.
Die integrierten KI-Agenten-Fähigkeiten, die eine Steuerung von Computern und Mobilgeräten ermöglichen, deuten auf eine Zukunft hin, in der KI nahtlos mit unseren digitalen Werkzeugen interagiert. Die technischen Innovationen, wie dynamische Auflösung und Zeitkodierung für Videos, zeigen das Engagement des Entwicklerteams, die Grenzen des Möglichen zu verschieben. Werkzeuge wie qwen-vl-utils
, die Unterstützung für Flash Attention 2 und die Integration in Deployment-Frameworks wie vLLM machen diese fortschrittlichen Modelle zudem praktisch nutzbar. Qwen2.5-VL und QVQ-Max sind nicht nur beeindruckende technologische Errungenschaften, sondern auch Wegbereiter für eine neue Generation visueller KI-Anwendungen, die unsere Interaktion mit der digitalen und physischen Welt nachhaltig verändern werden.
www.KINEWS24-academy.de – KI. Direkt. Verständlich. Anwendbar. Hier kannst Du Dich in einer aktiven Community austauschen und KI lernen.
Quellen
- QVQ-Max Blog Post: Qwen Team. (2025, March 28). QVQ-Max: Think with Evidence. Qwen Official Blog. https://qwenlm.github.io/blog/qvq-max-preview/
- Qwen2.5-VL GitHub Repository: QwenLM Team. (2025). Qwen2.5-VL GitHub. https://github.com/QwenLM/Qwen2.5-VL (Zugriff auf Code, Modelle, Cookbooks, Readme mit Details zu Releases, Benchmarks, Nutzung)
- Qwen2.5-VL Models on Hugging Face: Hugging Face Collections. (2025). Qwen2.5-VL Collection. https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5
- Qwen2.5-VL Models on ModelScope: ModelScope Collections. (2025). Qwen2.5-VL Collection. https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47
- Qwen Chat Interface (Demo): https://chat.qwen.ai/ (Möglicherweise Demonstrationsplattform für Qwen-Modelle)
#AI #KI #ArtificialIntelligence #KuenstlicheIntelligenz #Qwen #MultimodalAI #VisionLanguage #Qwen25VL