24. Oktober 2024 – Meta hat die ersten quantisierten Versionen ihrer Llama 3.2 Modelle veröffentlicht. Diese neuen Modelle zielen auf eine breite Nutzung auf mobilen Geräten ab und bieten signifikante Leistungsverbesserungen, darunter eine 2-4-fache Geschwindigkeitssteigerung und eine um 56 % reduzierte Modellgröße im Vergleich zur ursprünglichen BF16-Formatierung. Quantisierte Llama-Modelle sind speziell optimierte Versionen des Llama-KI-Modells, die weniger Speicher und Rechenleistung benötigen, da ihre Daten und Berechnungen auf eine niedrigere Präzision reduziert wurden, ohne dabei wesentliche Genauigkeit zu verlieren.
Einführung in die quantisierten Llama-Modelle
Meta hat die quantisierten Versionen ihrer Llama 3.2 Modelle (1B und 3B) speziell für mobile Geräte und ressourcenbeschränkte Umgebungen entwickelt. Mit dem Ziel, den Einsatz Künstlicher Intelligenz (KI) auch ohne umfangreiche Rechenressourcen und technisches Know-how zu fördern, ist diese Veröffentlichung besonders relevant. Quantisierte Modelle bieten hier große Vorteile, da sie erheblich weniger Speicherplatz und Rechenleistung beanspruchen.
Vorteile der quantisierten Llama-Modelle
Meta setzt bei der Quantisierung auf zwei Techniken:
- Quantization-Aware Training (QAT) mit LoRA-Adaptern: Diese Methode simuliert Quantisierungseffekte während des Trainings und verbessert die Leistung bei niedrigeren Präzisionen.
- SpinQuant: Diese post-training Quantisierungstechnik optimiert die Portabilität und eignet sich für Anwendungen, die auf unterschiedlichste Hardware-Ziele ausgelegt sind.
Beide Methoden sind mit dem ExecuTorch-Framework von PyTorch kompatibel und wurden für mobile ARM-CPUs, wie in Qualcomm und MediaTek SoCs, optimiert. Durch die enge Zusammenarbeit mit Partnern wird zukünftig eine noch stärkere Beschleunigung durch NPUs angestrebt.
Technische Umsetzung der Quantisierung
Die Quantisierungsstrategie von Meta besteht aus drei Hauptkomponenten:
- Transformer-Schichten: Die linearen Schichten aller Transformer-Blöcke wurden zu einem 4-Bit-grouperwise-Schema (Gruppengröße 32) für die Gewichte und 8-Bit-pro-Token-dynamische Quantisierung für die Aktivierungen umgewandelt.
- Klassifikationsschicht: Sie wurde auf eine 8-Bit-pro-Kanal-Quantisierung für Gewichte und eine 8-Bit-pro-Token-dynamische Quantisierung für Aktivierungen umgestellt.
- Einbettungen: Eine 8-Bit-pro-Kanal-Quantisierung wurde für Einbettungen genutzt, was eine Balance zwischen Genauigkeit und Effizienz ermöglicht.
Leistung und Ergebnisse der quantisierten Modelle
Die Leistung der quantisierten Modelle wurde auf einem Android OnePlus 12 Gerät getestet. Dabei zeigten sich folgende Verbesserungen im Vergleich zum BF16-Baseline-Modell:
- Modellgröße: 56 % kleiner als das Originalmodell.
- Speichernutzung: Durchschnittlich um 41 % reduziert.
- Decode-Latenz: 2,5-fach beschleunigt.
- Prefill-Latenz: 4,2-fach schneller.
Diese Tests wurden ebenfalls auf Samsung-Geräten (S24+ und S22) durchgeführt, mit ähnlichen Ergebnissen. Für iOS-Geräte liegen vergleichbare Genauigkeiten vor, allerdings wurden keine umfassenden Leistungsmessungen vorgenommen.
Quantization-Aware Training und SpinQuant
Das Quantization-Aware Training nutzt die BF16-Modell-Checkpoints von Llama 3.2 und ergänzt sie durch eine erneute Feinabstimmung mit Niedrigpräzisions-Adaptern (LoRA). Dieses Vorgehen, auch als QLoRA bezeichnet, kombiniert Quantisierung mit LoRA-Adaptern für eine möglichst hohe Effizienz und Genauigkeit.
SpinQuant hingegen wurde entwickelt, um die Modelle nach dem Training zu quantisieren und eine flexible Anpassung an verschiedene Hardware-Ziele zu ermöglichen. Dies ist besonders dann hilfreich, wenn Trainingsdaten nicht zugänglich sind oder nur eingeschränkte Rechenressourcen zur Verfügung stehen.
Ausblick und Zukunftsperspektiven
Mit der quantisierten Version von Llama setzt Meta ein deutliches Zeichen für die Zugänglichkeit von KI-Anwendungen, besonders auf mobilen Plattformen. In den letzten Monaten hat das Llama-Modell stetig an Beliebtheit gewonnen und wird dank seiner offenen Struktur und Anpassbarkeit als konkurrenzfähige Option zu geschlossenen Modellen betrachtet. Die Open-Source-Modelle sind über llama.com und Hugging Face verfügbar.
Meta plant, die Llama-Modelle weiter zu verbessern und mit Partnern wie Arm, Hugging Face, MediaTek, Ollama und Qualcomm die Performance für NPUs weiter zu optimieren.
Fazit
Die quantisierten Llama-Modelle von Meta bieten eine flexible und leistungsstarke Lösung für KI-Anwendungen auf mobilen Geräten. Durch die Reduzierung von Modellgröße und Speichernutzung in Kombination mit optimierter Geschwindigkeit sind diese Modelle ideal für Entwickler, die Anwendungen auf mobilen Geräten schnell und effizient bereitstellen möchten.
Quellen
- Meta AI Blog. (2024). „Meta Llama quantized lightweight models.“ Abgerufen von: https://ai.meta.com/blog/meta-llama-quantized-lightweight-models