Meta veröffentlicht quantisierte Llama-Modelle für mobile Geräte

Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung

Business, Language Models

Meta veröffentlicht quantisierte Llama-Modelle für mobile Geräte

Von Oliver Welling

25 Oktober, 2024
07:59

24. Oktober 2024 – Meta hat die ersten quantisierten Versionen ihrer Llama 3.2 Modelle veröffentlicht. Diese neuen Modelle zielen auf eine breite Nutzung auf mobilen Geräten ab und bieten signifikante Leistungsverbesserungen, darunter eine 2-4-fache Geschwindigkeitssteigerung und eine um 56 % reduzierte Modellgröße im Vergleich zur ursprünglichen BF16-Formatierung. Quantisierte Llama-Modelle sind speziell optimierte Versionen des Llama-KI-Modells, die weniger Speicher und Rechenleistung benötigen, da ihre Daten und Berechnungen auf eine niedrigere Präzision reduziert wurden, ohne dabei wesentliche Genauigkeit zu verlieren.

Einführung in die quantisierten Llama-Modelle

Meta hat die quantisierten Versionen ihrer Llama 3.2 Modelle (1B und 3B) speziell für mobile Geräte und ressourcenbeschränkte Umgebungen entwickelt. Mit dem Ziel, den Einsatz Künstlicher Intelligenz (KI) auch ohne umfangreiche Rechenressourcen und technisches Know-how zu fördern, ist diese Veröffentlichung besonders relevant. Quantisierte Modelle bieten hier große Vorteile, da sie erheblich weniger Speicherplatz und Rechenleistung beanspruchen.

Vorteile der quantisierten Llama-Modelle

Meta setzt bei der Quantisierung auf zwei Techniken:

Quantization-Aware Training (QAT) mit LoRA-Adaptern: Diese Methode simuliert Quantisierungseffekte während des Trainings und verbessert die Leistung bei niedrigeren Präzisionen.
SpinQuant: Diese post-training Quantisierungstechnik optimiert die Portabilität und eignet sich für Anwendungen, die auf unterschiedlichste Hardware-Ziele ausgelegt sind.

Beide Methoden sind mit dem ExecuTorch-Framework von PyTorch kompatibel und wurden für mobile ARM-CPUs, wie in Qualcomm und MediaTek SoCs, optimiert. Durch die enge Zusammenarbeit mit Partnern wird zukünftig eine noch stärkere Beschleunigung durch NPUs angestrebt.

Technische Umsetzung der Quantisierung

Die Quantisierungsstrategie von Meta besteht aus drei Hauptkomponenten:

Transformer-Schichten: Die linearen Schichten aller Transformer-Blöcke wurden zu einem 4-Bit-grouperwise-Schema (Gruppengröße 32) für die Gewichte und 8-Bit-pro-Token-dynamische Quantisierung für die Aktivierungen umgewandelt.
Klassifikationsschicht: Sie wurde auf eine 8-Bit-pro-Kanal-Quantisierung für Gewichte und eine 8-Bit-pro-Token-dynamische Quantisierung für Aktivierungen umgestellt.
Einbettungen: Eine 8-Bit-pro-Kanal-Quantisierung wurde für Einbettungen genutzt, was eine Balance zwischen Genauigkeit und Effizienz ermöglicht.

Leistung und Ergebnisse der quantisierten Modelle

Die Leistung der quantisierten Modelle wurde auf einem Android OnePlus 12 Gerät getestet. Dabei zeigten sich folgende Verbesserungen im Vergleich zum BF16-Baseline-Modell:

Modellgröße: 56 % kleiner als das Originalmodell.
Speichernutzung: Durchschnittlich um 41 % reduziert.
Decode-Latenz: 2,5-fach beschleunigt.
Prefill-Latenz: 4,2-fach schneller.

Diese Tests wurden ebenfalls auf Samsung-Geräten (S24+ und S22) durchgeführt, mit ähnlichen Ergebnissen. Für iOS-Geräte liegen vergleichbare Genauigkeiten vor, allerdings wurden keine umfassenden Leistungsmessungen vorgenommen.

Quantization-Aware Training und SpinQuant

Das Quantization-Aware Training nutzt die BF16-Modell-Checkpoints von Llama 3.2 und ergänzt sie durch eine erneute Feinabstimmung mit Niedrigpräzisions-Adaptern (LoRA). Dieses Vorgehen, auch als QLoRA bezeichnet, kombiniert Quantisierung mit LoRA-Adaptern für eine möglichst hohe Effizienz und Genauigkeit.

SpinQuant hingegen wurde entwickelt, um die Modelle nach dem Training zu quantisieren und eine flexible Anpassung an verschiedene Hardware-Ziele zu ermöglichen. Dies ist besonders dann hilfreich, wenn Trainingsdaten nicht zugänglich sind oder nur eingeschränkte Rechenressourcen zur Verfügung stehen.

Ausblick und Zukunftsperspektiven

Mit der quantisierten Version von Llama setzt Meta ein deutliches Zeichen für die Zugänglichkeit von KI-Anwendungen, besonders auf mobilen Plattformen. In den letzten Monaten hat das Llama-Modell stetig an Beliebtheit gewonnen und wird dank seiner offenen Struktur und Anpassbarkeit als konkurrenzfähige Option zu geschlossenen Modellen betrachtet. Die Open-Source-Modelle sind über llama.com und Hugging Face verfügbar.

Meta plant, die Llama-Modelle weiter zu verbessern und mit Partnern wie Arm, Hugging Face, MediaTek, Ollama und Qualcomm die Performance für NPUs weiter zu optimieren.

Fazit

Die quantisierten Llama-Modelle von Meta bieten eine flexible und leistungsstarke Lösung für KI-Anwendungen auf mobilen Geräten. Durch die Reduzierung von Modellgröße und Speichernutzung in Kombination mit optimierter Geschwindigkeit sind diese Modelle ideal für Entwickler, die Anwendungen auf mobilen Geräten schnell und effizient bereitstellen möchten.

Quellen

Meta AI Blog. (2024). „Meta Llama quantized lightweight models.“ Abgerufen von: https://ai.meta.com/blog/meta-llama-quantized-lightweight-models

AI-Agents Business

NANDA Index: Das neue DNS für Billionen KI-Agenten?

Das klassische DNS stößt an seine Grenzen. Der NANDA Index ist die Antwort für das Internet der KI-Agenten. Lerne, wie.

VON Oliver Welling
20 August, 2025

KINEWS24.de - Trackio Hugging Face WandB

Business

Trackio: Hugging Face’s geniale WandB-Alternative für 2025

Trackio von Hugging Face revolutioniert das Experiment Tracking. Als kostenlose, WandB-kompatible Alternative kannst du deine ML-Metriken lokal verwalten und kinderleicht.

VON Oliver Welling
20 August, 2025

VON Oliver Welling
20 August, 2025

Business

Trackio: Hugging Face’s geniale WandB-Alternative für 2025

VON Oliver Welling
20 August, 2025

Business

NVIDIA G-Assist: Dein KI-Assistent jetzt für alle RTX-Karten ab 6GB

VON Oliver Welling
19 August, 2025

German

FOLLOW US:

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Business, Language Models

Meta veröffentlicht quantisierte Llama-Modelle für mobile Geräte

Einführung in die quantisierten Llama-Modelle

Vorteile der quantisierten Llama-Modelle

Technische Umsetzung der Quantisierung

Leistung und Ergebnisse der quantisierten Modelle

Quantization-Aware Training und SpinQuant

Ausblick und Zukunftsperspektiven

Fazit

Quellen

Ähnliche Beiträge

Folge uns

Beliebte Artikel

About Author

Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

HOT CATEGORIES

Cybersecurity

Events

Interviews und Meinungen

Investment

Unternehmen

TAGS

Tags

Kategorien

Weitere Seiten