NVIDIAs sogenannte „Hot Chips“ sind eigentlich „Hot Platforms“

Sep 03, 2024

Eine Nachricht hinterlassen

NVIDIA konzentriert sich auf Engineering-Projekte auf System- und Rechenzentrumsebene, die auf die Entwicklung fortschrittlicher Systeme und Plattformen abzielen, die in der Lage sind, komplexe Herausforderungen der generativen KI zu bewältigen.

Anfang des Monats wurde NVIDIA mit seltenen schlechten Nachrichten konfrontiert, als Berichte auftauchten, dass die mit Spannung erwarteten „Blackwell“-GPU-Beschleuniger des Unternehmens aufgrund von Konstruktionsfehlern um bis zu drei Monate verzögert werden könnten. Ein NVIDIA-Sprecher erklärte jedoch, dass alles wie geplant verlaufe. Einige Lieferanten gaben an, dass sich nichts geändert habe, während andere von normalen Verzögerungen berichteten.

Brancheninsider gehen davon aus, dass die Benutzer mehr Einblicke in den Status von Blackwell erhalten werden, wenn NVIDIA am kommenden Mittwoch seine Finanzergebnisse für das zweite Quartal des Geschäftsjahres 2025 bekannt gibt.

Berichten zufolge werden die Blackwell-Chips B100, B200 und GB200- ein Highlight der diesjährigen Hot Chips-Konferenz sein, die nächste Woche an der Stanford University in Kalifornien stattfindet. NVIDIA wird seine Architektur vorstellen, einige neue Innovationen detailliert beschreiben, den Einsatz von KI im Chipdesign umreißen und die Forschung zur Flüssigkeitskühlung in Rechenzentren diskutieren, die zur Ausführung dieser wachsenden KI-Arbeitslasten verwendet werden. Laut Dave Salvator, Director of Accelerated Computing Products bei NVIDIA, wird das Unternehmen auch Blackwell-Chips präsentieren, die bereits in einem seiner Rechenzentren im Einsatz sind.

Blackwell chips

▲ Blackwell-Chips

Vieles, was NVIDIA über Blackwell sagt, ist bereits bekannt, beispielsweise dass die Blackwell Ultra GPU nächstes Jahr auf den Markt kommt und die Rubin GPU und Vera CPU der nächsten Generation ab 2026 auf den Markt kommen. Salvator betonte jedoch, dass es bei Blackwell entscheidend sei, es als Plattform und nicht als einzelnen Chip zu betrachten. Salvator betonte diesen Punkt diese Woche in einem Briefing für Journalisten und Analysten im Rahmen der Vorbereitungen für Hot Chips.

„Wenn man an NVIDIA und die Plattformen denkt, die wir bauen, sind die GPU, das Netzwerk und sogar unsere CPU nur der Anfang“, sagte er. „Wir betreiben Engineering auf System- und Rechenzentrumsebene, um diese Systeme und Plattformen zu bauen, die diese wirklich schwierigen Herausforderungen der generativen KI wirklich bewältigen können. Wir haben gesehen, wie der Maßstab der Modelle im Laufe der Zeit gewachsen ist, und die meisten Anwendungen der generativen KI müssen in Echtzeit ausgeführt werden, wobei die Anforderungen an die Inferenz in den letzten Jahren dramatisch gestiegen sind. Echtzeit-Inferenz großer Sprachmodelle erfordert mehrere GPUs und in naher Zukunft werden mehrere Serverknoten erforderlich sein.“

ANNOUNCING NVIDIA BLACKWELLPLATFORM FOR TRILLION-PARAMETER SCALE GENERATIE AI

Dazu gehören nicht nur Blackwell-GPUs und Grace-CPUs, sondern auch NVLink-Switch-Chips, Bluefield-3 DPUs, ConnextX-7 und ConnectX-8 NICs, Spectrum-4 Ethernet-Switches und Quantum-3 InfiniBand-Switches. Salvator lieferte auch verschiedene Einblicke in NVLink Switch (unten), Compute, Spectrum-X800 und Quantum-X800.

NVIDIA stellte die mit Spannung erwartete Blackwell-Architektur auf seiner GTC 2024-Konferenz im März dieses Jahres vor, und Hyperscale-Anbieter und OEMs meldeten sich schnell an. Das Unternehmen zielt auf den schnell wachsenden Bereich der generativen KI ab, in dem große Sprachmodelle (LLMs) immer umfangreicher werden. Metas Llama 3.1, das im Juni auf den Markt kam, ist ein Beweis für diesen Trend und bietet ein Modell mit 4,05 Billionen Parametern. Salvator stellte fest, dass mit zunehmender Größe der LLMs die Nachfrage nach Echtzeit-Inferenz bestehen bleibt, was mehr Berechnungen und geringere Latenzzeiten erfordert, was einen Plattformansatz erfordert.

„Wie bei den meisten anderen LLMs wird erwartet, dass die von diesem Modell betriebenen Dienste in Echtzeit ausgeführt werden. Um dies zu erreichen, benötigen Sie mehrere GPUs. Die Herausforderung besteht darin, ein Gleichgewicht zwischen der hohen Leistung der GPUs, der hohen Auslastung der GPUs und der Bereitstellung einer guten Benutzererfahrung für die Endbenutzer zu finden, die diese KI-gesteuerten Dienste nutzen“, sagte er.

Das Bedürfnis nach Geschwindigkeit

Mit Blackwell hat NVIDIA die Bandbreite jedes Switches verdoppelt und sie von 900 GB/s auf 1,8 TB/s erhöht. Die Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)-Technologie des Unternehmens bringt mehr Rechenleistung in die Systeme, die sich tatsächlich in den Switches befinden. Sie ermöglicht es uns, einige Aufgaben von der GPU auszulagern, um die Leistung zu beschleunigen, und trägt auch dazu bei, den Netzwerkverkehr über das NVLink-Fabric zu glätten. Dies sind Innovationen, die wir weiterhin auf Plattformebene vorantreiben.

Das Multi-Node-GB200 NVL72 ist ein flüssigkeitsgekühltes Gehäuse, das 72 Blackwell-GPUs und 36 Grace-CPUs in einem Rack-Scale-Design verbindet. NVIDIA behauptet, dass es eine höhere Inferenzleistung für Billionen-Parameter-LLMs wie GPT-MoE-1.8T bietet und effektiv als einzelne GPU fungiert. Seine Leistung ist 30-mal so hoch wie die des HGX H100-Systems, wobei die Trainingsgeschwindigkeit viermal schneller ist als beim H100.

NVIDIA hat außerdem native Unterstützung für FP4 hinzugefügt und verwendet dazu das Quasar Quantization System des Unternehmens, das dieselbe Präzision wie FP16 bietet und gleichzeitig die Bandbreitennutzung um 75 % reduziert. Das Quasar Quantization System ist eine Software, die Blackwells Transformer Engine nutzt, um Genauigkeit zu gewährleisten. Salvator demonstrierte dies, indem er generative KI-Bilder verglich, die mit FP4 und FP16 erstellt wurden, wobei kaum bis gar kein erkennbarer Unterschied zwischen den beiden zu erkennen war.

Mit FP4 können Modelle weniger Speicher verwenden und erzielen sogar eine bessere Leistung als FP8 in der Hopper-GPU.

Flüssigkeitskühlsysteme

Im Hinblick auf die Flüssigkeitskühlung wird NVIDIA eine Warmwasser-Direkt-Chip-zu-Chip-Methode einführen, die den Stromverbrauch von Rechenzentren um 28 % senken kann.

Salvator sagte: „Das Interessante an dieser Methode sind einige ihrer Vorteile, darunter eine höhere Kühlleistung, geringere Betriebskosten, eine längere Serverlebensdauer und die Möglichkeit, die aufgenommene Wärme für andere Zwecke zu nutzen. Sie trägt definitiv zur Verbesserung der Kühlleistung bei. Dies wird unter anderem dadurch erreicht, dass dieses System, wie der Name schon sagt, keine Kühler verwendet. Wenn Sie darüber nachdenken, wie ein Kühlschrank funktioniert, funktioniert er recht gut. Aber er benötigt auch Strom. Durch die Einführung dieser Warmwasserlösung müssen wir keine Kühler verwenden, was uns Energie spart und die Betriebskosten senkt.“

Ein weiteres Thema ist, wie NVIDIA KI nutzt, um seine KI-Chips mit Verilog zu entwickeln, einer Hardwarebeschreibungssprache, die seit vierzig Jahren zur Beschreibung von Schaltkreisen in Code verwendet wird. NVIDIA treibt diese Bemühungen durch einen autonomen Verilog-Agenten namens VerilogCoder voran.

AI chips

Er sagte: „Unsere Forscher haben ein großes Sprachmodell entwickelt, das die Erstellung von Verilog-Code, der unsere Systeme beschreibt, beschleunigen kann. Wir werden es in zukünftigen Produktgenerationen verwenden, um diese Codes zu erstellen. Es kann eine Menge Dinge. Es kann helfen, den Design- und Verifizierungsprozess zu beschleunigen. Es kann die manuellen Schritte des Designs beschleunigen und viele Aufgaben grundsätzlich automatisieren.“