Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung

Meta veröffentlicht quantisierte Llama-Modelle für mobile Geräte

Von Oliver Welling
KINEWS24.de - Meta veröffentlicht quantisierte Llama-Modelle für mobile Geräte

24. Oktober 2024 – Meta hat die ersten quantisierten Versionen ihrer Llama 3.2 Modelle veröffentlicht. Diese neuen Modelle zielen auf eine breite Nutzung auf mobilen Geräten ab und bieten signifikante Leistungsverbesserungen, darunter eine 2-4-fache Geschwindigkeitssteigerung und eine um 56 % reduzierte Modellgröße im Vergleich zur ursprünglichen BF16-Formatierung. Quantisierte Llama-Modelle sind speziell optimierte Versionen des Llama-KI-Modells, die weniger Speicher und Rechenleistung benötigen, da ihre Daten und Berechnungen auf eine niedrigere Präzision reduziert wurden, ohne dabei wesentliche Genauigkeit zu verlieren.

Einführung in die quantisierten Llama-Modelle

Meta hat die quantisierten Versionen ihrer Llama 3.2 Modelle (1B und 3B) speziell für mobile Geräte und ressourcenbeschränkte Umgebungen entwickelt. Mit dem Ziel, den Einsatz Künstlicher Intelligenz (KI) auch ohne umfangreiche Rechenressourcen und technisches Know-how zu fördern, ist diese Veröffentlichung besonders relevant. Quantisierte Modelle bieten hier große Vorteile, da sie erheblich weniger Speicherplatz und Rechenleistung beanspruchen.

Vorteile der quantisierten Llama-Modelle

Meta setzt bei der Quantisierung auf zwei Techniken:

  1. Quantization-Aware Training (QAT) mit LoRA-Adaptern: Diese Methode simuliert Quantisierungseffekte während des Trainings und verbessert die Leistung bei niedrigeren Präzisionen.
  2. SpinQuant: Diese post-training Quantisierungstechnik optimiert die Portabilität und eignet sich für Anwendungen, die auf unterschiedlichste Hardware-Ziele ausgelegt sind.

Beide Methoden sind mit dem ExecuTorch-Framework von PyTorch kompatibel und wurden für mobile ARM-CPUs, wie in Qualcomm und MediaTek SoCs, optimiert. Durch die enge Zusammenarbeit mit Partnern wird zukünftig eine noch stärkere Beschleunigung durch NPUs angestrebt.

Technische Umsetzung der Quantisierung

Die Quantisierungsstrategie von Meta besteht aus drei Hauptkomponenten:

  1. Transformer-Schichten: Die linearen Schichten aller Transformer-Blöcke wurden zu einem 4-Bit-grouperwise-Schema (Gruppengröße 32) für die Gewichte und 8-Bit-pro-Token-dynamische Quantisierung für die Aktivierungen umgewandelt.
  2. Klassifikationsschicht: Sie wurde auf eine 8-Bit-pro-Kanal-Quantisierung für Gewichte und eine 8-Bit-pro-Token-dynamische Quantisierung für Aktivierungen umgestellt.
  3. Einbettungen: Eine 8-Bit-pro-Kanal-Quantisierung wurde für Einbettungen genutzt, was eine Balance zwischen Genauigkeit und Effizienz ermöglicht.

Leistung und Ergebnisse der quantisierten Modelle

Die Leistung der quantisierten Modelle wurde auf einem Android OnePlus 12 Gerät getestet. Dabei zeigten sich folgende Verbesserungen im Vergleich zum BF16-Baseline-Modell:

  • Modellgröße: 56 % kleiner als das Originalmodell.
  • Speichernutzung: Durchschnittlich um 41 % reduziert.
  • Decode-Latenz: 2,5-fach beschleunigt.
  • Prefill-Latenz: 4,2-fach schneller.

Diese Tests wurden ebenfalls auf Samsung-Geräten (S24+ und S22) durchgeführt, mit ähnlichen Ergebnissen. Für iOS-Geräte liegen vergleichbare Genauigkeiten vor, allerdings wurden keine umfassenden Leistungsmessungen vorgenommen.

Quantization-Aware Training und SpinQuant

Das Quantization-Aware Training nutzt die BF16-Modell-Checkpoints von Llama 3.2 und ergänzt sie durch eine erneute Feinabstimmung mit Niedrigpräzisions-Adaptern (LoRA). Dieses Vorgehen, auch als QLoRA bezeichnet, kombiniert Quantisierung mit LoRA-Adaptern für eine möglichst hohe Effizienz und Genauigkeit.

SpinQuant hingegen wurde entwickelt, um die Modelle nach dem Training zu quantisieren und eine flexible Anpassung an verschiedene Hardware-Ziele zu ermöglichen. Dies ist besonders dann hilfreich, wenn Trainingsdaten nicht zugänglich sind oder nur eingeschränkte Rechenressourcen zur Verfügung stehen.

Ausblick und Zukunftsperspektiven

Mit der quantisierten Version von Llama setzt Meta ein deutliches Zeichen für die Zugänglichkeit von KI-Anwendungen, besonders auf mobilen Plattformen. In den letzten Monaten hat das Llama-Modell stetig an Beliebtheit gewonnen und wird dank seiner offenen Struktur und Anpassbarkeit als konkurrenzfähige Option zu geschlossenen Modellen betrachtet. Die Open-Source-Modelle sind über llama.com und Hugging Face verfügbar.

Meta plant, die Llama-Modelle weiter zu verbessern und mit Partnern wie Arm, Hugging Face, MediaTek, Ollama und Qualcomm die Performance für NPUs weiter zu optimieren.

Fazit

Die quantisierten Llama-Modelle von Meta bieten eine flexible und leistungsstarke Lösung für KI-Anwendungen auf mobilen Geräten. Durch die Reduzierung von Modellgröße und Speichernutzung in Kombination mit optimierter Geschwindigkeit sind diese Modelle ideal für Entwickler, die Anwendungen auf mobilen Geräten schnell und effizient bereitstellen möchten.

Quellen

    Ähnliche Beiträge

    Business Interviews und Meinungen

    Demodern Personality Design: Die Evolution von Conversational AI

    Demodern Personality Design: Die Evolution von Conversational AI Im folgenden Gastbeitrag beleuchtet der Co-Gründer und Geschäftsführer Alexander El-Meligi von Demodern.

    Business

    GEMA erhebt Klage gegen OpenAI zur Klärung der Vergütungspflicht für KI-Nutzung von Musikwerken

    GEMA erhebt Klage gegen OpenAI zur Klärung der Vergütungspflicht für KI-Nutzung von Musikwerken Die Musterklage, die beim Landgericht München am.

    Folge uns

    Beliebte Artikel

    About Author

    Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

    TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

    Beraten lassen

    HOT CATEGORIES

    de_DEGerman