Forscher haben eine neue Methode entwickelt, um KI-Sprachmodelle effizienter zu betreiben, indem sie die Matrixmultiplikation aus dem Prozess eliminieren. Diese grundlegende Neugestaltung der neuronalen Netzwerkoperationen, die derzeit von GPU-Chips beschleunigt werden, könnte erhebliche Auswirkungen auf den Energieverbrauch und die Betriebskosten von KI-Systemen haben. Die Ergebnisse, die in einem aktuellen Preprint-Paper von Forschern der University of California Santa Cruz, UC Davis, LuxiTech und der Soochow University veröffentlicht wurden, könnten die Art und Weise, wie große Sprachmodelle (LLMs) betrieben werden, drastisch verändern.
Das musst Du wissen – Durchbruch für energieeffiziente KI
Effizienzsteigerung: Durch die Eliminierung der Matrixmultiplikation wird der Betrieb von LLMs effizienter, was zu einer signifikanten Reduktion des Energieverbrauchs führt.
Alternative Berechnungen: Anstatt traditioneller Gleitkommazahlen nutzen die Forscher ternäre Werte (-1, 0, 1) für einfachere Berechnungen.
Neues Modell: Ein speziell entwickeltes LLM ohne Matrixmultiplikation zeigt vergleichbare Leistung zu herkömmlichen Modellen.
Hardware-Optimierung: Der Einsatz von FPGA-Chips (Field-Programmable Gate Array) zur Beschleunigung der ternären Operationen ermöglicht eine effizientere Hardware-Nutzung.
Potenzial für Skalierung: Die Forscher glauben, dass ihr Ansatz bei größerem Maßstab die Leistung traditioneller LLMs übertreffen könnte.
Das Team der University of California Santa Cruz, UC Davis, LuxiTech und der Soochow University hat ein Modell mit 2,7 Milliarden Parametern entwickelt, das ohne Matrixmultiplikation auskommt und ähnliche Leistungen wie konventionelle große Sprachmodelle (LLMs) erbringt. Sie demonstrierten auch den Betrieb eines Modells mit 1,3 Milliarden Parametern, das 23,8 Token pro Sekunde auf einem von einem FPGA-Chip beschleunigten GPU-Prozessor verarbeitet und dabei etwa 13 Watt Leistung verbraucht.
In ihrem Papier mit dem Titel „Scalable MatMul-free Language Modeling“ beschreiben die Forscher die Schaffung eines maßgeschneiderten Modells, das nur ternäre Werte verwendet und die aufwendige Selbstaufmerksamkeitsmechanik traditioneller Sprachmodelle durch eine einfachere, effizientere Einheit ersetzt. Diese wird als MatMul-freie Linear Gated Recurrent Unit (MLGRU) bezeichnet und verarbeitet Wörter sequentiell mit einfachen arithmetischen Operationen.
Darüber hinaus passen sie eine Gated Linear Unit (GLU) an, um ternäre Gewichte für das Channel Mixing zu verwenden. Dies bezieht sich auf den Prozess des Kombinierens und Transformierens verschiedener Aspekte oder Merkmale der Daten, mit denen die KI arbeitet, ähnlich wie ein DJ verschiedene Audiokanäle mischt, um ein zusammenhängendes Lied zu erstellen.
Diese Änderungen, kombiniert mit einer speziellen Hardwareimplementierung zur Beschleunigung ternärer Operationen, ermöglichten es den Forschern, eine Leistung zu erzielen, die mit dem Stand der Technik vergleichbar ist, während der Energieverbrauch reduziert wird. Obwohl sie Vergleiche auf GPUs durchführten, um traditionelle Modelle zu benchmarken, sind die MatMul-freien Modelle so konzipiert, dass sie effizient auf Hardware arbeiten, die für einfachere arithmetische Operationen optimiert ist, wie z. B. FPGAs.
Die Forscher verglichen ihr MatMul-freies Modell mit einem reproduzierten Llama-2-Modell (welches sie „Transformer++“ nennen) und stellten fest, dass ihr Ansatz auf mehreren Benchmark-Aufgaben, einschließlich der Beantwortung von Fragen und dem Verständnis von allgemeinen Wissen, wettbewerbsfähig war. Darüber hinaus reduzierte das MatMul-freie Modell den Speicherverbrauch erheblich und könnte auf verschiedenen Hardwaretypen betrieben werden, einschließlich solchen mit begrenzteren Rechenressourcen als GPUs.
Die Skalierungsgesetze, die in ihren Experimenten beobachtet wurden, deuten darauf hin, dass das MatMul-freie Modell bei sehr großen Maßstäben auch traditionelle LLMs übertreffen könnte. Allerdings muss diese Technik noch auf extrem großen Modellen getestet werden, um ihre volle Leistungsfähigkeit zu bestätigen. Die Forscher rufen Institutionen mit größeren Ressourcen dazu auf, in die Skalierung und Weiterentwicklung dieses leichten Ansatzes zur Sprachmodellierung zu investieren.
#KI #Technologie #Forschung #Sprachmodelle #Effizienz #Innovation #Energieeinsparung
Dieser Artikel basiert auf Informationen aus einem Artikel von Benj Edwards auf Ars Technica.