Sakana AI reduziert LLM-Speicherkosten

Forscher des in Tokio ansässigen Start-ups Sakana AI haben eine bahnbrechende Methode zur Optimierung des Speichermanagements von Transformer-Modellen entwickelt. Mit dem neuen Ansatz, genannt Neural Attention Memory Models (NAMMs), können große Sprachmodelle (LLMs) effizienter arbeiten und gleichzeitig ihre Speicherkosten drastisch senken.

Transformative Modelle wie GPT und Llama stehen vor der Herausforderung, riesige Mengen an Kontextinformationen zu verarbeiten. Dies führt zu hohen Rechenkosten und reduziert die Geschwindigkeit bei langen Eingabesequenzen. Sakana AIs NAMMs bieten eine Lösung, die sowohl die Leistungsfähigkeit als auch die Effizienz dieser Modelle verbessert.

Das musst Du wissen: Sakana AI reduziert LLM-Speicherkosten revolutionäre Transformer-Speichertechnologie

Neural Attention Memory Models (NAMMs): Ein optimiertes Speicherframework, das entscheidet, welche Informationen „gemerkt“ oder „vergessen“ werden.
Speicherersparnis: NAMMs reduzieren den Kontextspeicher um bis zu 75 %, ohne dabei die Modellleistung zu beeinträchtigen.
Leistungssteigerung: Transformer-Modelle erzielen bessere Ergebnisse in Sprache-, Code- und Multimodaltasks bei effizienterem Speicherverbrauch.
Transferfähigkeit: Ein auf Sprache trainiertes NAMM kann ohne zusätzliches Training auf andere Modelle und Aufgaben (z. B. Computer Vision oder Robotik) angewendet werden.
Evolutionäre Optimierung: NAMMs werden durch evolutionäre Algorithmen optimiert, die Gradienten-basierte Methoden umgehen und so binäre Entscheidungen ermöglichen.

Effizientere Nutzung von Speicher: Warum Transformer „vergessen“ müssen

Transformer-Architekturen bilden das Rückgrat moderner KI-Modelle. Sie verarbeiten Eingaben mithilfe eines sogenannten „Kontextfensters“ – einer Art Arbeitsgedächtnis, das alle vergangenen Eingabedaten speichert. Dies führt jedoch zu einer enormen Ressourcenbelastung: je länger das Kontextfenster, desto höher der Rechenaufwand.

Problem: Moderne LLMs unterstützen zwar riesige Kontextfenster, verarbeiten die Informationen jedoch ohne Priorisierung. Das bedeutet, dass redundante oder irrelevante Daten genauso viel Speicherplatz beanspruchen wie wichtige Inhalte.

Sakana AIs NAMMs bieten hier eine intelligente Lösung. Sie optimieren Transformer-Modelle, indem sie mithilfe von neuronalen Netzwerken entscheiden, welche Tokens (Datenpunkte) gespeichert und welche verworfen werden. So können die Modelle gezielt Informationen priorisieren, die für eine Aufgabe entscheidend sind.

Evolutionäre Optimierung: Lernen, was wichtig ist

Ein zentrales Element von NAMMs ist ihre evolutionäre Optimierung. Anders als bei herkömmlichen Methoden, die feste Regeln oder Gradienten-basierte Techniken verwenden, lernen NAMMs durch einen trial-and-error-Ansatz. Das bedeutet:

Speicherselektion: NAMMs nutzen die Aufmerksamkeitsmatrizen (Attention Layers) der Transformer, um die Relevanz jedes Tokens zu bewerten.
Spektralanalyse: Die Aufmerksamkeit jeder Sequenz wird in ein Spektrogramm umgewandelt – eine Darstellung, die in Bereichen wie Audioanalyse und Seismologie etabliert ist.
Komprimierung: Die Informationen werden mithilfe eines exponentiellen gleitenden Durchschnitts (EMA) verdichtet.
Entscheidung: Ein trainierter Klassifikator bestimmt, welche Tokens „gemerkt“ und welche „vergessen“ werden.

Dieser Prozess erlaubt es, die Kontextgröße drastisch zu reduzieren, während das Modell gleichzeitig effektiver lernt und arbeitet. Evolutionäre Algorithmen stellen sicher, dass diese Optimierungen schrittweise und leistungsorientiert verfeinert werden.

Vielseitigkeit und überragende Ergebnisse

Sakana AI testete die NAMMs auf dem Llama 3 8B-Sprachmodell und erzielte beeindruckende Ergebnisse:

Verbesserte Leistung in 36 verschiedenen Aufgaben, darunter Benchmarks wie LongBench, InfiniteBench und das eigene ChouBun-System für japanische Langtexte.
Eine Reduktion der Speichergröße um bis zu 75 % pro Schicht, ohne Leistungseinbußen.

Noch beeindruckender: NAMMs sind universell einsetzbar. Ein auf Sprachdaten trainiertes NAMM konnte ohne Nachtraining auf andere Modelle wie Llava Next Video (Computer Vision) oder Decision Transformer (Reinforcement Learning) übertragen werden. Auch in diesen „fremden“ Aufgabenfeldern behielten NAMMs ihre Vorteile bei.

Intelligentes Verhalten je nach Aufgabe

Eine Analyse der Speicherentscheidungen zeigte, dass NAMMs automatisch zwischen verschiedenen Aufgabentypen unterscheiden:

Codierungsaufgaben: NAMMs verwerfen zusammenhängende, überflüssige Tokens wie Leerzeichen, Kommentare oder Boilerplate-Code.
Natürliche Sprache: Redundante Tokens innerhalb von Sätzen – beispielsweise grammatikalische Füllwörter – werden verworfen, während Schlüsselbegriffe und Namen priorisiert werden.

Ausblick: Ein neuer Weg für effiziente Transformer-Modelle

Sakana AI hat mit NAMMs eine neue Klasse von Speichermodellen eingeführt, die das Potenzial haben, Transformer-Modelle grundlegend zu verändern. Während die aktuelle Forschung auf bereits trainierte Modelle aufsetzt, sieht Sakana AI weiteres Potenzial in der Integration von NAMMs während des Trainingsprozesses. Dies könnte es ermöglichen, Modelle direkt auf längeren Datensequenzen zu trainieren und dabei Speicher- und Rechenkosten weiter zu minimieren.

Fazit: Sakana AI reduziert LLM-Speicherkosten

Mit der Einführung der Neural Attention Memory Models hat Sakana AI einen großen Schritt zur Optimierung von LLMs und anderen Transformer-basierten Modellen gemacht. Die NAMMs ermöglichen nicht nur eine drastische Reduktion des Speicherbedarfs um bis zu 75 %, sondern verbessern gleichzeitig die Leistung der Modelle. Dank ihrer universellen Übertragbarkeit bieten sie zudem eine vielseitige Lösung für unterschiedliche Domänen wie Sprache, Computer Vision und Reinforcement Learning.

Dieser innovative Ansatz könnte die Basis für eine neue Generation von KI-Modellen bilden, die schneller, kosteneffizienter und leistungsfähiger sind als je zuvor.

Quelle: Sakana AI – Neural Attention Memory Models
Weitere Informationen: VentureBeat – LLM Optimization Technique