NVIDIA BlackwellNVIDIA Blackwell

NVIDIA Blackwell: Auf der diesjährigen GTC 2024, die nach Jahren wieder in Präsenz in San José stattfand, präsentierte NVIDIA seine neueste Beschleunigerarchitektur namens Blackwell. Mit dieser will der Chiphersteller seine Vormachtstellung im Bereich der KI-Chips für die kommenden Jahre festigen. Die Blackwell-Beschleuniger sollen laut NVIDIA bis zu doppelt so schnell sein wie AMDs brandneue MI300X-Chips.

Die NVIDIA Blackwell-Plattform soll es Unternehmen ermöglichen soll, Echtzeit-Generative-KI auf Large Language Models mit bis zu einer Billion Parametern bei 25-fach geringeren Kosten und Energieverbrauch im Vergleich zum Vorgänger auszuführen. Schon das klingt mehr als beeindruckend. Nicht minder beeindruckend sind die Aussagen der CEO´s der größten Tech-Konzerne der Welt.

Die NVIDIA Blackwell-GPU-Architektur verfügt über sechs transformative Technologien für beschleunigtes Computing, die bahnbrechende Fortschritte in verschiedenen Bereichen wie Datenverarbeitung, Simulationen, elektronische Designautomatisierung, computergestütztes Wirkstoffdesign, Quantencomputing und Generative KI ermöglichen sollen.

NVIDIA-Gründer und CEO Jensen Huang betonte die Bedeutung der neuen Plattform:

“Generative AI is the defining technology of our time. Blackwell is the engine to power this new industrial revolution. Working with the most dynamic companies in the world, we will realize the promise of AI for every industry.”

Breite Unterstützung durch führende Technologieunternehmen

Zahlreiche namhafte Unternehmen wie Amazon Web Services, Dell Technologies, Google, Meta, Microsoft, OpenAI, Oracle, Tesla und xAI planen den Einsatz der Blackwell-Plattform. Die CEOs dieser Firmen äußerten sich durchweg positiv über die Möglichkeiten, die sich durch die neue Architektur ergeben.

Sundar Pichai, CEO von Alphabet und Google, hob die langjährige Partnerschaft mit NVIDIA hervor:

“We are fortunate to have a longstanding partnership with NVIDIA, and look forward to bringing the breakthrough capabilities of the Blackwell GPU to our Cloud customers and teams across Google, including Google DeepMind, to accelerate future discoveries.”

Andy Jassy, Präsident und CEO von Amazon, betonte die Bedeutung der Zusammenarbeit für die Entwicklung von AWS:

Through this joint effort between AWS and NVIDIA engineers, we’re continuing to innovate together to make AWS the best place for anyone to run NVIDIA GPUs in the cloud.

Auch Michael Dell, Gründer und CEO von Dell Technologies, sieht in Generative AI ein entscheidendes Werkzeug für die Zukunft:

“Generative AI is critical to creating smarter, more reliable and efficient systems. Dell Technologies and NVIDIA are working together to shape the future of technology.

Demis Hassabis, Mitgründer und CEO von Google DeepMind, hob das Potenzial der neuen Plattform für wissenschaftliche Entdeckungen hervor:

“The transformative potential of AI is incredible, and it will help us solve some of the world’s most important scientific problems. Blackwell’s breakthrough technological capabilities will provide the critical compute needed to help the world’s brightest minds chart new scientific discoveries.”

Mark Zuckerberg, Gründer und CEO von Meta, sieht in Blackwell eine wichtige Grundlage für die Zukunft von KI und Verbraucherprodukten:

“We’re looking forward to using NVIDIA’s Blackwell to help train our open-source Llama models and build the next generation of Meta AI and consumer products.”

Satya Nadella, Executive Chairman und CEO von Microsoft, bekräftigte das Engagement seines Unternehmens, Kunden die fortschrittlichste Infrastruktur für KI-Workloads anzubieten:

“By bringing the GB200 Grace Blackwell processor to our datacenters globally, we are building on our long-standing history of optimizing NVIDIA GPUs for our cloud, as we make the promise of AI real for organizations everywhere.”

Sam Altman, CEO von OpenAI, zeigte sich begeistert von den Leistungssprüngen durch Blackwell:

“Blackwell offers massive performance leaps, and will accelerate our ability to deliver leading-edge models. We’re excited to continue working with NVIDIA to enhance AI compute.”

Larry Ellison, Chairman und CTO von Oracle, betonte die Bedeutung der engen Zusammenarbeit mit NVIDIA:

“Oracle’s close collaboration with NVIDIA will enable qualitative and quantitative breakthroughs in AI, machine learning and data analytics. In order for customers to uncover more actionable insights, an even more powerful engine like Blackwell is needed, which is purpose-built for accelerated computing and generative AI.”

Elon Musk, CEO von Tesla und xAI, brachte es auf den Punkt:

“There is currently nothing better than NVIDIA hardware for AI.”

Die nach dem Mathematiker David Harold Blackwell benannte Architektur ist der Nachfolger der vor zwei Jahren vorgestellten NVIDIA Hopper™-Architektur.

NVIDIA Blackwells Innovationen

Die sechs revolutionären Technologien von Blackwell, die zusammen AI-Training und Echtzeit-LLM-Inferenz für Modelle mit bis zu 10 Billionen Parametern ermöglichen, umfassen:

  • Leistungsstärkster Chip der Welt – Mit 208 Milliarden Transistoren ausgestattet, werden Blackwell-Architektur-GPUs unter Verwendung eines speziell entwickelten 4NP-TSMC-Prozesses mit zwei Retikel-begrenzten GPU-Dies hergestellt, die durch eine 10 TB/Sekunde Chip-zu-Chip-Verbindung zu einer einzigen, einheitlichen GPU verbunden sind.
  • Transformer Engine der zweiten Generation – Angetrieben durch neue Unterstützung für Mikro-Tensor-Skalierung und NVIDIAs fortschrittliche Algorithmen zur dynamischen Bereichsverwaltung, die in NVIDIA TensorRT™-LLM und NeMo Megatron Frameworks integriert sind, wird Blackwell die doppelte Rechenleistung und Modellgrößen mit neuen 4-Bit-Gleitkomma-AI-Inferenzfähigkeiten unterstützen.
  • Fünfte Generation von NVLink – Um die Leistung für AI-Modelle mit mehreren Billionen Parametern und Mixture-of-Experts zu beschleunigen, liefert die neueste Iteration von NVIDIA NVLink® bahnbrechende 1,8 TB/s bidirektionalen Durchsatz pro GPU und stellt so eine nahtlose Hochgeschwindigkeitskommunikation zwischen bis zu 576 GPUs für die komplexesten LLMs sicher.
  • RAS Engine – Blackwell-betriebene GPUs verfügen über eine dedizierte Engine für Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit. Zusätzlich fügt die Blackwell-Architektur Fähigkeiten auf Chip-Ebene hinzu, um KI-basierte vorbeugende Wartung zu nutzen, Diagnosen durchzuführen und Zuverlässigkeitsprobleme vorherzusagen. Dadurch wird die Systemverfügbarkeit maximiert und die Widerstandsfähigkeit für massive KI-Bereitstellungen verbessert, sodass diese wochen- oder sogar monatelang ununterbrochen laufen können und die Betriebskosten gesenkt werden.
  • Sichere KI – Fortschrittliche Fähigkeiten für vertrauliches Computing schützen KI-Modelle und Kundendaten, ohne die Leistung zu beeinträchtigen, mit Unterstützung für neue native Schnittstellenverschlüsselungsprotokolle, die für datenschutzsensible Branchen wie Gesundheitswesen und Finanzdienstleistungen entscheidend sind.
  • Dekompressionsengine – Eine dedizierte Dekompressionsengine unterstützt die neuesten Formate und beschleunigt Datenbankabfragen, um höchste Leistung in der Datenanalyse und Datenwissenschaft zu liefern. In den kommenden Jahren wird die Datenverarbeitung, für die Unternehmen jährlich Dutzende Milliarden Dollar ausgeben, zunehmend GPU-beschleunigt sein.
Fokus auf Energieeffizienz und Datenaustausch

Die neue Architektur legt den Schwerpunkt auf eine verbesserte Energieeffizienz und einen optimierten Datenaustausch zwischen den einzelnen Chips. Dazu wurden unter anderem die Datenformate weiter reduziert, beispielsweise auf 4-Bit-Floating-Point, und der NVLink-Switch sowie die Netzwerktechnik aufgerüstet.

Erste Kunden für die neuen Chips sind bereits gefunden: Amazon Web Services, Google Cloud und Oracle Cloud werden die Blackwell-Produkte einsetzen, auch wenn noch nicht genau bekannt ist, ab wann entsprechende Instanzen buchbar sein werden.

Technische Details der Blackwell-GPU

Die Blackwell-GPU besteht aus zwei einzelnen Chips, die jeweils bis an die Belichtungsgrenzen stoßen und somit je circa 800 mm² groß sein dürften. Gefertigt werden die Chips in TSMCs “4NP”-Prozess, bei dem es sich vermutlich um ein angepasstes N4P-Verfahren handelt.

Die beiden Chips sind über ein schnelles Interface mit einer Bandbreite von 10 TByte/s untereinander verbunden, was laut NVIDIA ausreicht, damit sie sich performancetechnisch wie eine einzelne GPU verhalten. Beim Speicher setzt man auf acht 24-GByte-Stapel des HBM3e-Speichers, was in Summe 192 GByte Kapazität und 8 TByte/s Transferrate ergibt.

Neue Datenformate: FP4 und FP6

Eine Neuerung bei Blackwell ist die Unterstützung des 4-bittigen Gleitkommaformats FP4 in der Transformer-Engine des Chips. Damit sollen beim KI-Inferencing von Large Language Models sowohl Weights als auch Activations mit nur 4 Bit abgespeichert werden können, was die Verarbeitungsgeschwindigkeit erhöht und größere Modelle ermöglicht.

Zusätzlich stellte NVIDIA-CEO Jensen Huang auch das FP6-Format vor, das zwar keinen Durchsatzvorteil gegenüber FP8 bietet, aber Speicher-, Cache- und Registerplatz und somit Energie einspart.

Leistungsvergleich und Systemkonfigurationen

Im Vergleich zu einem H100-basierten System soll ein GB200 bei einem GPT-Modell mit 1,8 Billionen Parametern und angepasster Rechen- und Datengenauigkeit 30-mal schneller und 25-mal effizienter sein. Auch mit dem FP8-Format ist Blackwell auf dem Papier fast doppelt so schnell wie AMDs MI300X.

NVIDIA plant, Blackwell in verschiedenen Konfigurationen anzubieten: als GB200-Board mit zwei Blackwell-Doppelchips und einer Grace-CPU, als HGX-Rackeinschübe mit acht SXM-Karten und als vorkonfiguriertes, flüssiggekühltes GB200-NVL72-Rack.

Verbesserter NVLink-Switch für DGX SuperPODs

Um den schnelleren Datentransfer zu ermöglichen, hat NVIDIA einen neuen NVLink-Switch vorgestellt, der bis zu 576 Blackwell-Doppelchips verbinden kann. Der Switch wird ebenfalls im 4NP-Prozess gefertigt und erreicht eine Gesamtbandbreite von 7,2 TByte/s.

Für den schlüsselfertig erhältlichen SuperPOD mit acht DGX-GB200-Systemen bedeutet das insgesamt 288 Grace-CPUs, 576 Blackwell-Doppelchips und 240 TByte Gesamtspeicher. Laut NVIDIA erreicht dieses System eine Rechenleistung von 11,5 Exaflops.

NVIDIA DGX B200 Specifications

GPU8x NVIDIA B200 Tensor Core GPUs
GPU Memory1,440GB total GPU memory
Performance72 petaFLOPS training and 144 petaFLOPS inference
Power Consumption~14.3kW max
CPU2 Intel® Xeon® Platinum 8570 Processors
112 Cores total, 2.1 GHz (Base),
4 GHz (Max Boost)
System MemoryUp to 4TB
Networking4x OSFP ports serving 8x single-port NVIDIA ConnectX-7 VPIUp to 400Gb/s InfiniBand/Ethernet2x dual-port QSFP112 NVIDIA BlueField-3 DPUUp to 400Gb/s InfiniBand/Ethernet
Management Network10Gb/s onboard NIC with RJ45
100Gb/s dual-port ethernet NIC
Host baseboard management controller (BMC) with RJ45
StorageOS: 2x 1.9TB NVMe M.2
Internal storage: 8x 3.84TB NVMe U.2
SoftwareNVIDIA AI Enterprise: Optimized AI Software
NVIDIA Base Command™: Orchestration, Scheduling, and Cluster Management
DGX OS / Ubuntu: Operating system
Rack Units (RU)10 RU
System DimensionsHeight: 17.5in (444mm)
Width: 19.0in (482.2mm)
Length: 35.3in (897.1mm
Operating Temperature5–30°C (41–86°F)
Enterprise SupportThree-year Enterprise Business-Standard Support for hardware and software
24/7 Enterprise Support portal access
Live agent support during local business hours

Fazit NVIDIA Blackwell

Mit der neuen Blackwell-Architektur und den dazugehörigen Produkten will NVIDIA seine führende Position im Bereich der KI-Beschleuniger weiter ausbauen. Durch Verbesserungen bei Energieeffizienz, Datenaustausch und Rechenleistung sollen die Chips bis zu doppelt so schnell sein wie die Konkurrenz von AMD.

Spannend bleibt, wie sich die neuen Datenformate FP4 und FP6 in der Praxis bewähren und welche Fortschritte bei der Entwicklung von Large Language Models dadurch ermöglicht werden. Insgesamt scheint NVIDIA gut gerüstet zu sein, um vom anhaltenden KI-Boom zu profitieren und seine Vormachtstellung im Rechenzentrumsmarkt zu verteidigen.

#KuenstlicheIntelligenz #artificialintelligence #KI #AI #NVIDIA #Blackwell #Beschleuniger #Rechenzentrum #Energieeffizienz #Datenaustausch

Quelle: NVIDIA, Bild-Quelle: NVIDIA

Die 29 besten KI-Sales-Tools für Deinen maximalen Erfolg im Vertrieb 2024
Die 10 besten Alternativen zu ChatGPT findest Du hier!
KI im Mittelstand – Jetzt künstliche Intelligenz im Unternehmen nutzen
16 besten KI Meeting Assistenten
Die 22 KI-Supermächte: Ein DeepDive auf die führenden Player 2024
Keymate.ai ist ChatGPT MIT Google Search – Krasse Kombi