xLSTMxLSTM

In einer bahnbrechenden Publikation stellen Forscher von der Johannes Kepler Universität in Linz eine Weiterentwicklung des beliebten Long Short-Term Memory (LSTM) Netzwerkes vor, die das Potenzial hat, die KI-Landschaft aufzumischen. Das sogenannte “Extended LSTM”, kurz xLSTM, verbessert die Fähigkeiten des Urgesteins unter den neuronalen Netzen in mehreren Punkten. Der Clou: Erstmals stammt so eine fundamentale Neuentwicklung nicht aus den USA oder China, sondern aus Österreich. Für Europas KI-Forschung ist das ein Meilenstein.

Das musst Du Wissen xLSTM

  • Forscher aus Linz haben das LSTM durch exponentielle Gating-Funktionen und neue Speicherstrukturen erweitert:
    • sLSTM: Skalar-Speicher, Skalar-Update und neues “Memory-Mixing”
    • mLSTM: Matrix-Speicher, vollständig parallelisierbar, neuartiges “Covariance-Update”
  • Das xLSTM behebt wesentliche Limitierungen des LSTM wie:
    • Begrenzte Fähigkeit, Speicherentscheidungen zu revidieren
    • Begrenzte Speicherkapazität
    • Fehlende Parallelisierbarkeit aufgrund von “Memory-Mixing”
  • xLSTM-Blöcke entstehen durch Integration von mLSTM und sLSTM in Residual-Blöcke
  • Gestapelte xLSTM-Blöcke bilden eine vollständige xLSTM-Architektur
  • In Benchmarks erreicht es Leistungen vergleichbar mit modernen Transformern und State Space Modellen
  • xLSTM hat das Potenzial, beim Sprachverständnis WIRKLICH (!) neue Maßstäbe zu setzen
  • Es ist ein Durchbruch für die europäische KI-Forschung und eröffnet neue Möglichkeiten für Anwendungen wie:
    • Digitaler Kundenservice
    • Maschinelle Übersetzung
    • Automatische Zusammenfassung von Texten
    • Unterstützung von kreativem und wissenschaftlichem Schreiben
Zurück in die Zukunft mit LSTMs

Seit den 1990er Jahren sind LSTMs ein fester Bestandteil des Deep-Learning-Werkzeugkastens. Mit ihrem “Constant Error Carousel” und Gating-Mechanismen revolutionierten sie das Training rekurrenter neuronaler Netze. Selbst die ersten großen Sprachmodelle basierten noch auf LSTMs. Doch in den letzten Jahren wurden sie zunehmend von neueren Architekturen wie Transformern verdrängt. Zu Unrecht, finden die Forscher um Prof. Sepp Hochreiter, einem der Väter des LSTM.

In einem Interview betont Hochreiter die Vorteile des xLSTM gegenüber Transformer-Modellen: ‘Unser neues xLSTM ist in den meisten Fällen besser als die Transformer-Modelle von OpenAI, Google oder Meta.’ Ein entscheidender Vorteil sei der kontextunabhängige Speicher des LSTM, der dem Modell erlaubt, sich auch lange Zusammenhänge zu merken.

“LSTMs haben nach wie vor einzigartige Eigenschaften, die sie für viele Anwendungen prädestinieren”, erklärt Hochreiter. “Mit dem xLSTM heben wir diese Stärken auf ein neues Level und beheben gleichzeitig bekannte Schwachstellen.” So leiden LSTMs beispielsweise unter ihrer begrenzten Speicherkapazität, da alle Informationen in skalaren Zellzuständen komprimiert werden müssen. Auch das Revidieren einmal getroffener “Storage-Entscheidungen” fällt LSTMs schwer. Und ihre rekurrente Struktur erschwert die Parallelisierung beim Training.

Von Linz in die KI-Welt

All diese Limitierungen adressiert das xLSTM-Konzept. Ein Kernelement ist die Einführung exponentieller Gating-Funktionen, die ein flexibleres Abspeichern und Aktualisieren von Informationen im Verlauf einer Sequenz erlauben. “Man kann sich das wie eine Art Kurzzeitgedächtnis vorstellen”, veranschaulicht Mitautor Andreas Auer. “Neue, wichtigere Inputs können ältere Einträge im Speicher überschreiben.”

Daneben statten die Linzer Forscher das LSTM mit einer Matrixspeicherzelle aus – in Anlehnung an klassische Assoziativspeicher optimiert für große Sprachmodelle. Eine Variante namens sLSTM behält dabei die sequenzielle Verarbeitung bei. Die “mLSTM”-Variante hingegen ist komplett parallelisierbar und erreicht dadurch völlig neue Geschwindigkeiten beim Training.

Das eröffnet vielfältige Anwendungsmöglichkeiten, wie Hochreiter erläutert: ‘Wir sehen einige Erfolg versprechende Richtungen: Zum Beispiel bei der Unterstützung beim Programmieren, weil sich unser System den Kontext merken kann. Wir sind auch besser beim Verständnis komplexer Zusammenhänge, zum Beispiel im Management.’ Auch für die automatische Korrektur von Prüfungen oder die Erstellung technischer Handbücher sei das xLSTM prädestiniert.

In einer Reihe von Experimenten stellen die Wissenschaftler die Leistungsfähigkeit ihres Ansatzes unter Beweis. So schlägt das xLSTM das klassische LSTM deutlich bei der Vorhersage seltener Tokens in Textdatensätzen – eine Disziplin, bei der die limitierte Speicherkapazität des LSTM voll durchschlägt. Auch bei der “Nächster-Nachbar-Suche”, die häufige Aktualisierungen in den Speicherzellen erfordert, lässt das xLSTM seinen Vorgänger alt aussehen.

xLSTM – Europas Aufholjagd hat begonnen

In umfangreichen Benchmarks erreicht das xLSTM Ergebnisse auf Augenhöhe mit State-of-the-Art Transformer- und State-Space-Modellen. Und das, obwohl es von der Komplexität her deutlich schlanker ist. Für Prof. Hochreiter ist das ein starkes Signal: “Mit dem xLSTM zeigen wir, dass Europa bei der Grundlagenforschung zu KI international ganz vorne mitspielen kann.”

Dabei punktet das xLSTM nicht nur mit Performance, sondern auch mit Effizienz. ‘xLSTM ist linear in der Kontextlänge, während die Transformer-Modelle quadratisch wachsen. Das erfordert viel mehr Rechenleistung’, betont Hochreiter. Das verschafft dem europäischen Ansatz einen Vorteil im Wettrennen um die Vorherrschaft bei Large Language Models.

Tatsächlich könnte der Ansatz der Startschuss für eine neue Generation europäischer Large Language Models sein, die stärker auf Effizienz und Robustheit getrimmt sind. Gerade für Sprachen mit komplexer Grammatik und langen Abhängigkeiten über viele Sätze hinweg hat das xLSTM das Potenzial, etablierte Modelle zu überflügeln. Industriepartner aus unterschiedlichen Branchen haben bereits Interesse an der Technologie bekundet.

Hochreiter ist optimistisch, was die Chancen der Europäer in diesem Wettrüsten angeht: ‘Unser Vorteil: Wir kommen mit einer neuen Technologie, die wir gebaut haben und verstehen.’ Im Gegensatz zu Konkurrenten wie Aleph Alpha oder Mistral sitze man in Linz ‘am Steuer’ der Technologie-Entwicklung.

Fazit xLSTM

Das xLSTM ist ein großer Wurf für das Linzer AI Lab und die europäische KI-Forschung insgesamt. Mit relativ einfachen konzeptionellen Erweiterungen katapultieren die Forscher den altgedienten LSTM-Ansatz zurück an die Spitze des Deep-Learning-Feldes. Vor allem für Anwendungen, bei denen es auf präzises Sprachverständnis über lange Kontexte ankommt, eröffnet das xLSTM völlig neue Möglichkeiten – von digitalem Kundenservice über Übersetzung und Zusammenfassung bis hin zur Unterstützung von kreativem und wissenschaftlichem Schreiben. Man darf gespannt sein, welche Erfolgsgeschichten die europäischen “LSTM-Flüsterer” als nächstes schreiben werden.

ArXiv, Studien-Paper-PDF, FAZ

#KI #AI #MachineLearning #DeepLearning #Sprachverständnis #Sprachtechnologie