NVIDIA TensorRT-LLM ist eine Open-Source-Software, die dank Optimierungen wie In-Flight Batching und FP8 auf NVIDIA H100 GPUs die Inferenzleistung von großen Sprachmodellen drastisch beschleunigt.NVIDIA TensorRT-LLM ist eine Open-Source-Software, die dank Optimierungen wie In-Flight Batching und FP8 auf NVIDIA H100 GPUs die Inferenzleistung von großen Sprachmodellen drastisch beschleunigt.

Große Sprachmodelle (LLMs) bieten faszinierende neue Möglichkeiten und erweitern die Grenzen des mit KI Möglichen. Ihre immense Größe und speziellen Anforderungen an die Hardware erschweren jedoch die effiziente Nutzung dieser Modelle in vielen Anwendungsfällen.

NVIDIA arbeitet daher eng mit führenden Unternehmen zusammen, um Deep-Learning-Modelle zur Verarbeitung natürlicher Sprache optimal auf Graphikprozessoren ausführen zu können. Durch Optimierungen in Hardware und Software können die Rechenoperationen der großen Modelle beschleunigt und parallelisiert werden. Auf diese Weise werden die Modelle trotz ihrer Komplexität auch für Einsatzbereiche mit hohen Nachfrageschwankungen oder strengen Latenzanforderungen nutzbar. Weitere Innovationen eröffnen zudem den Einsatz noch größerer Modelle, die dank effizienter Parallelverteilung auf mehreren Prozessoren ausgeführt werden.

Was ist Inferenz?

Inferenz bezeichnet in der Künstlichen Intelligenz und dem Maschinellen Lernen den Prozess der Anwendung eines bereits trainierten Models auf neue, ungesehene Daten.

Genauer gesagt meint Inferenz den Akt des Schließens, also das Ableiten von Ergebnissen oder Vorhersagen anhand eines trainierten Systems. Ein trainiertes Modell wird verwendet, um auf neue Eingabedaten zu reagieren und diese zu klassifizieren, zu clusteren oder in sonstiger Weise zu verarbeiten.

Beim Training eines neuronalen Netzes oder anderen Machine-Learning-Modells werden die Parameter des Modells anhand bekannter Trainingsdaten angepasst. Bei der Inferenz wird dann das fertig trainierte Modell mit neuen, unbekannten Daten verwendet, um auf dieser Grundlage Vorhersagen zu treffen oder neue Datenpunkte zu verarbeiten.

Die Inferenz ist also der Teil des Machine-Learning-Prozesses, bei dem das Modell in der Praxis eingesetzt und neue Daten verarbeitet werden, um Erkenntnisse und Ergebnisse abzuleiten – im Gegensatz zum Trainingsprozess, bei dem das Modell selbst optimiert wird. Sie stellt damit den eigentlichen Nutzen des trainierten Modells sicher.

NVIDIA TensorRT: Optimierung durch führende Unternehmen

NVIDIA arbeitet eng mit führenden Unternehmen wie Meta, Anyscale, Cohere, Deci, Grammarly, Mistral AI, MosaicML, jetzt ein Teil von Databricks, OctoML, Tabnine und Together AI zusammen, um die Inferenz von LLMs zu beschleunigen und zu optimieren.

Diese Innovationen wurden in die Open-Source-Software NVIDIA TensorRT-LLM integriert, die in den kommenden Wochen veröffentlicht wird. TensorRT-LLM besteht aus dem TensorRT Deep Learning Compiler und enthält optimierte Kerne, Vor- und Nachverarbeitungsschritte sowie Kommunikationsprimitive für Multiprozessor- und Mehrknotensysteme, die beispiellose Leistung auf NVIDIA-GPUs ermöglichen. Entwickler können damit experimentieren, Peak-Performance und schnelle Anpassungen erreichen, ohne tiefes Wissen über C++ oder CUDA zu benötigen.

NVIDIA TensorRT: Benutzerfreundlichkeit und Erweiterbarkeit

TensorRT-LLM verbessert Benutzerfreundlichkeit und Erweiterbarkeit durch eine offene Python-API zur Definition, Optimierung und Ausführung neuer Architekturen und Verbesserungen, da sich LLMs weiterentwickeln. Sie lässt sich einfach anpassen.

MosaicML hat beispielsweise spezifische Funktionen hinzugefügt und nahtlos in TensorRT-LLM integriert. Naveen Rao, Vice President of Engineering bei Databricks, bemerkt, dass dies “absolute Kinderspiel” war.

“TensorRT-LLM ist einfach zu benutzen, ausgereift mit Eingabestreaming, Batching im Flug, Quantisierung und mehr, und effizient. Es liefert State-of-the-Art-Performance für LLM-Dienste mit NVIDIA-GPUs und ermöglicht es uns, Kosteneinsparungen an unsere Kunden weiterzugeben”, so Rao.

Leistungsvergleich

Die Summarisierung von Artikeln ist nur eine von vielen Anwendungen für LLMs. Die folgenden Benchmarks zeigen die durch TensorRT-LLM erreichten Leistungssteigerungen auf der neuesten NVIDIA Hopper-Architektur:

GPT-J auf A100 vs. H100

Bei der Summarisierung mit dem CNN/Daily Mail Datensatz ist eine H100 GPU allein bereits 4-fach schneller als eine A100. Mit TensorRT-LLM und Vorzügen wie Batching im Flug ergibt sich insgesamt eine 8-fache Steigerung und höchste Durchsatzrate.

Llama 2 70B auf A100 vs. H100

Auf Llama 2, einem von Meta veröffentlichten großen Sprachmodell, kann TensorRT-LLM die Inferenzleistung um das 4,6-fache gegenüber A100-GPUs beschleunigen.

NVIDIA TensorRT: Wachsendes LLMs-Ökosystem

Das Ökosystem innovieret rasant mit neuen Architekturen. Größere Modelle erschließen neue Fähigkeiten. Modelle wie Llama 2 mit 70 Milliarden Parametern erfordern mehrere GPUs. Früher mussten Entwickler Modelle manuell aufteilen und ausführen.

TensorRT-LLM nutzt Tensor-Parallelität, wodurch Gewichtsmatrizen auf Devices aufgeteilt werden. Dies ermöglicht skalierbare Inferenz ohne Änderungen – jedes Modell läuft parallel auf mehreren GPUs und Servern.

TensorRT-LLM beinhaltet optimized Versionen populärer LLMs wie Llama 2, GPT-2, GPT-3 und andere, die mit der Python API einfach implementierbar sind.

Batching im Flug

LLMs sind vielseitig einsetzbar. TensorRT-LLM nutzt “In-Flight Batching”: Anstatt auf fertige Batches zu warten, werden abgeschlossene Sequenzen sofort entfernt und neue Requests ausgeführt. Dies verbessert die GPU-Auslastung und verdoppelt nahezu die Throughput-Rate.

H100 Transformer Engine mit FP8

LLMs haben typischerweise 16-bit Gleitkomma-Werte (FP16). Für die Inferenz reichen oft niedrigere Präzision wie 8-Bit (FP8). FP8 bietet höhere Genauigkeit als INT8, ermöglicht die schnellste Performance und einfachste Implementierung. Die H100 GPUs mit TensorRT-LLM erlauben die einfache Konvertierung in FP8 und nutzen optimierte FP8-Kerne.

Fazit NVIDIA TensorRT

LLMs entwickeln sich rasant. Der Bedarf an Hochleistungs-Inferenz wächst. TensorRT-LLM mit optimierten Kernen, Batching, Parallelisierung und Mixed Precision auf H100 GPUs ermöglicht State-of-the-Art Performance. Entwickler profitieren von einfacherem Einsatz innovativer LLMs.

#KI #AI #TensorRT #LLM #Sprachmodelle #Inferenz #GPU #NVIDIA #H100 #maschinellesLernen

Die 10 besten Alternativen zu ChatGPT

Quelle: Nvdia Blog

Mehr zu Nvidia:
Nvdia CEO Jensen Huang eröffnet SIGGRAPH in Los Angeles mit KI
Google Cloud und NVIDIA: Das Dream-Team der generativen KI
Stability AI und NVIDIA: Höchstleistung für Generative KI – SDXL und NVIDIA TensorRT setzen neue Maßstäbe
NVIDIA FlexiCubes: Revolutioniert 3D-Mesh Generierung
Nvidia H100 Chip – Der 40.000$ Chip, um den sich die KI-Welt reißt
NVIDIA und Hugging Face bilden starke Partnerschaft