Science

STORM-KI: Revolutionäre Effizienz in der Videoanalyse durch Mamba-basierte Architektur

KINEWS24.de - STORM-KI

KINEWS24.de - STORM-KI

NVIDIA-Forscherteam präsentiert STORM, eine innovative KI-Architektur, die Video-Large-Language-Modelle (Video-LLMs) durch einen neuartigen Ansatz zur Token-Reduktion in der spatiotemporalen Verarbeitung revolutioniert und dabei die Performance signifikant steigert.

In der rasant fortschreitenden Welt der künstlichen Intelligenz (KI) stellt das Verständnis von Videos eine der größten Herausforderungen dar. Bisherige Video-basierte multimodale Sprachmodelle stießen bei langen Videoszenen an ihre Grenzen. Ein Forscherteam von NVIDIA und verschiedenen Universitäten hat nun mit STORM (Spatiotemporal Token Reduction for Multimodal LLMs) eine richtungsweisende Architektur vorgestellt, die diese Beschränkungen überwindet. STORM integriert einen dedizierten temporalen Encoder, basierend auf dem Mamba State Space Modell, der zwischen dem Bildencoder und dem Sprachmodell (LLM) agiert.

Diese Innovation ermöglicht eine deutlich effizientere Verarbeitung von Videodaten, indem sie die spatiotemporale Dynamik des gesamten Videosequenz kontextbezogen erfasst und gleichzeitig den Rechenaufwand erheblich reduziert. Das Ergebnis sind KI-Modelle, die nicht nur schneller, sondern auch präziser in der Videoanalyse sind und in umfangreichen Tests neue Bestmarken setzen.

In diesem Artikel geht es um ein neues Forschungs-Paper, wenn Du Dich eher für die besten KI-Video-Tools 2025 interessierst, die bereits am Markt sind – dann ist dieser Artikel für Dich gedacht 🙂

Das musst du wissen: STORM-KI auf einen Blick

  • Innovation: STORM (Spatiotemporal Token Reduction for Multimodal LLMs) ist eine neuartige KI-Architektur, entwickelt von Forschern der NVIDIA und Universitäten, die Video-Large-Language-Modelle (Video-LLMs) optimiert.
  • Kernstück: Ein Mamba-basierter temporaler Encoder, der zwischen Bildencoder und LLM platziert ist, integriert zeitliche Informationen direkt in die visuellen Token.
  • Effizienzsteigerung: STORM reduziert den Rechenaufwand signifikant durch fortschrittliche Token-Reduktionsstrategien, ohne dabei wichtige Informationen zu verlieren.
  • Performance-Gewinn: Benchmarks zeigen, dass STORM bestehende Modelle übertrifft und neue State-of-the-Art-Ergebnisse in verschiedenen Video-Verständnis-Aufgaben erzielt.
  • Anwendungsbereiche: Effiziente und robuste Videoanalyse für lange Videos, verbesserte Leistung in Aufgaben wie Videozusammenfassung, Frage-Antwort-Systeme zu Videos und detaillierte Szenenerkennung.

https://kinews24.de/wp-content/uploads/2025/03/KINEWS24.de-STORM-KI.mp4

Die Fortschritte im Bereich der Video-basierten multimodalen Large Language Models (Video-LLMs) sind unverkennbar. Diese Modelle haben das Verständnis von Videoinhalten durch künstliche Intelligenz erheblich verbessert. Der gängige Ansatz besteht darin, Videos als Sequenzen einzelner Bilderrahmen zu behandeln und jeden Frame separat zu verarbeiten. Diese Rahmen-für-Rahmen-Verarbeitung vernachlässigt jedoch oft die explizite Modellierung von Zeitinformationen. Die Konsequenz: das Erfassen dynamischer Muster und die effiziente Handhabung langer Videoszenen wird erheblich erschwert.

Diese Limitierung führt zu fundamentalen Schwächen in der Videoverarbeitung, insbesondere bei langen Videos. Das Fehlen einer expliziten temporalen Kodierung bedeutet, dass entscheidende zeitliche Dynamiken zwischen den einzelnen Bildern unzureichend erfasst werden. Das LLM muss Zeitbeziehungen allein aus der statischen Bilderfolge ableiten. Dieser sequentielle Ansatz belastet das Sprachmodell enorm und beeinträchtigt dessen Fähigkeit, umfangreiche Videosequenzen und längere Kontexte während der Inferenz zu verarbeiten.

Um den hohen Rechenaufwand zu bewältigen, greifen viele bestehende Methoden auf einfache Frame-Subsampling-Techniken zurück. Hierbei werden Bildrahmen willkürlich entfernt, um die Anzahl der Token für die LLM-Verarbeitung zu reduzieren. Dieser Ansatz führt jedoch unweigerlich zu einem erheblichen Informationsverlust, da kritische Details aus den verworfenen Frames verloren gehen können, die für ein umfassendes Videoverständnis unerlässlich wären. Darüber hinaus versäumen es diese Methoden, die inhärente Redundanz zwischen aufeinanderfolgenden Frames – die oft erhebliche Überlappungen aufweisen – effektiv zu komprimieren.

STORM: Der Durchbruch für effiziente Video-LLMs

An diesem Punkt setzt die Innovation von STORM an. Die Architektur wurde mit dem Ziel entwickelt, diese Lücke zwischen visueller und sprachlicher Repräsentation zu schließen. STORM integriert temporale Dynamiken direkt in die Pipeline der Videoverarbeitung. Dies geschieht durch einen neuartigen temporalen Encoder, der zwischen dem Bildencoder und dem LLM platziert ist. Durch diese frühzeitige Integration temporaler Informationen werden die Fähigkeiten von Video-LLMs zur temporalen Schlussfolgerung signifikant verbessert. Gleichzeitig wird eine substanzielle Steigerung der Recheneffizienz ermöglicht. Indem STORM zeitliche Informationen direkt in visuelle Token injiziert, wird die Last der temporalen Schlussfolgerung für das LLM reduziert. Dies ermöglicht dem Sprachmodell, sich auf höhergeordnete sprachliche Aufgaben zu konzentrieren. Als zentrale Komponente dieses temporalen Encoders kommt das Mamba State Space Model zum Einsatz.

Die Mamba-Architektur im Detail

Das Herzstück des temporalen Layers von STORM bildet die Mamba-Architektur. Diese ermöglicht eine effiziente Verarbeitung langer Videos bei gleichzeitiger Verbesserung der Generalisierung auf längere Zeitkontexte. Der temporale Layer verarbeitet Bild- und Video-Inputs auf unterschiedliche Weise. Bei Bildern fungiert er als räumlicher Scanner, der Token durch die Einbeziehung globaler räumlicher Kontexte erweitert. Bei Videos hingegen führt er ein simultanes räumliches und temporales Scanning durch, das umfassende spatiotemporale Informationen erfasst.

Ein wesentlicher Vorteil des Mamba-Layers liegt in seiner Fähigkeit, historische Informationen in Zustandsrepräsentationen zu komprimieren. Da aufeinanderfolgende Frames im Video-Input oft redundante Informationen enthalten, verarbeitet der temporale Encoder diese effizient und leitet temporale Informationen durch die gesamte Videosequenz weiter. Die resultierenden visuellen Token kapseln die temporale Historie des Videos und fassen dessen zeitliche Dynamik effektiv zusammen. Diese Eigenschaft erlaubt es STORM, mit weniger visuellen Token für die LLM-Verarbeitung auszukommen, während gleichzeitig wichtige Informationen erhalten bleiben.

Token-Reduktion für maximale Effizienz

Um die computationalen Kosten weiter zu senken, nutzt STORM Token-Reduktionstechniken. Im Testbetrieb wird eine unkomplizierte, aber wirksame Token-Subsampling-Methode angewendet. Diese Methode reduziert nicht nur den Rechenaufwand, sondern führt in verschiedenen Szenarien auch zu einer Leistungssteigerung. Zusätzlich kommen trainingsbasierte Kompressionsmethoden zum Einsatz, einschließlich temporales und räumliches Token-Pooling. Temporales Pooling reduziert die Anzahl der Token entlang der zeitlichen Dimension, während räumliches Average Pooling die Token-Anzahl pro Frame verringert. Diese Kompressionsstrategien werden während des Trainings optimiert, um essentielle Informationen zu bewahren und gleichzeitig Redundanzen zu minimieren. Im Gegensatz zu vorherigen Methoden, die rohe Videoframes direkt subsamplen und dadurch den Verlust kritischer Informationen riskieren, bewahren die STORM-Ansätze die wesentlichen temporalen Informationen in einem komprimierten Format. Dies führt nicht nur zu einer Reduktion der computationalen Last für das LLM, sondern verbessert auch die Modellleistung durch eine umfassendere Videorepräsentation in einem kompakten Token-Raum.

Die Evaluierung von STORM auf verschiedenen Long-Video-Verständnis-Benchmarks liefert beeindruckende Ergebnisse. In umfangreichen Tests zeigte STORM State-of-the-Art-Leistung und übertraf bestehende Video-LLMs deutlich. Besonders hervorzuheben ist die signifikante Leistungssteigerung von über 5% im MLVU- und LongVideoBench-Benchmark. Gleichzeitig konnten die Berechnungskosten um bis zu 8-fach und die Decodierungs-Latenz um das 2,4- bis 2,9-fache für eine fixe Anzahl von Input-Frames reduziert werden. Diese Ergebnisse belegen die Effektivität des STORM-Ansatzes in Bezug auf Effizienz und Performance.

Fazit: STORM definiert die Zukunft der Video-KI

STORM stellt einen entscheidenden Fortschritt im Bereich der Video-KI dar. Die innovative Mamba-basierte Architektur ermöglicht eine deutlich effizientere und robustere Videoanalyse, insbesondere für lange Videosequenzen. Durch die geschickte Integration temporaler Informationen und fortschrittliche Token-Reduktionstechniken überwindet STORM die Beschränkungen bisheriger Modelle und setzt neue Maßstäbe in Bezug auf Performance und Effizienz.

Die von STORM erzielten Ergebnisse zeigen deutlich das Potenzial dieses Ansatzes für eine breite Palette von Anwendungen, von verbesserten Video-Suchmaschinen bis hin zu intelligenten Videoüberwachungssystemen und mehr. STORM demonstriert, wie durch intelligente architektonische Innovation die Grenzen der KI-gestützten Videoanalyse verschoben werden können und ebnet den Weg für zukünftige Forschungen in diesem spannenden Feld.

Quellen:

  • Jiang, J., Li, X., Li, X., Liu, Z., Huang, D.-A., Liu, G., Yu, Z., Keutzer, K., Yin, H., Lu, Y., Han, S., Ahn, S., Li, M., Chen, G., Jan, Z., & Byeon, W. (2025). Token-Efficient Long Video Understanding for Multimodal LLMs. [arXiv:2503.04130v1 cs.CV]. Abgerufen von https://arxiv.org/abs/2503.04130

#ai #ki #artificialintelligence #kuenstlicheintelligenz #videoanalyse #videoverarbeitung #computervision #deeplearning #maschinenlernen #nvidia

Exit mobile version