Wenn KI-Server eine höhere Kühltechnik erfordern! Warum der Trend von „Luftkühlung“ zu „Flüssigkeitskühlung“ geht

Aug 23, 2024

Eine Nachricht hinterlassen

NVIDIA-CEO Jensen Huang hatte einen besonderen Auftritt auf der COMPUTEX 2023, um die Rede von Supermicro-Vorsitzendem Charles Liang zu unterstützen. Fanner-Vorsitzender Lin Yushen wies darauf hin, dass die meisten der auf der Bühne ausgestellten Serverprodukte mit Fanners Wasserkühlungsmodulen ausgestattet waren. Fanner investiert seit vielen Jahren in Wasserkühlungsmodule und ist gut positioniert, um von dieser KI-Welle zu profitieren. Doch da KI-Server immer höhere Kühlungsstandards erfordern, warum verschiebt sich der Trend von „Luftkühlung“ zu „Flüssigkeitskühlung“?

I Vom Hochgeschwindigkeitsbetrieb zur Flüssigkeitskühlung

In Bezug auf die Kühltechnologie stellte Lin Yushen fest, dass aktuelle Kühlmodule hauptsächlich eine Hybridkühltechnologie mit Heatpipes verwenden. Diese Heatpipe-Kühlmodule kombinieren Komponenten wie Lüfter, Kühlkörper und Heatpipes, um eine ausgewogene thermische Umgebung für interne elektronische Komponenten zu schaffen und so die Stabilität elektronischer Geräte zu verbessern. Da elektronische Produkte für nachgelagerte Endgeräte jedoch multifunktionaler und kompakter werden, sind die Hersteller von Kühlmodulen dazu übergegangen, Kühllösungen zu entwickeln, die auf Dampfkammern und Heatpipes basieren.

Derzeit werden Kühlmodule in zwei Typen unterteilt: „Luftkühlung“ und „Flüssigkeitskühlung“. Bei der Luftkühlung wird Luft als Medium verwendet, wobei Materialien wie Wärmeleitmaterialien, Dampfkammern (VCs) oder Wärmerohre die Wärme leiten, die dann über Luftkonvektion durch Kühlkörper oder Lüfter abgeführt wird. Im Gegensatz dazu leitet die Flüssigkeitskühlung die Wärme durch Flüssigkeitskonvektion ab, einschließlich Immersionskühlung, die Chips effizienter kühlt. Da Chips jedoch mehr Wärme erzeugen und kleiner werden und die thermische Leistungsaufnahme (TDP) zunimmt, wird die Luftkühlung allmählich unzureichend.

A comparison between air cooling and liquid cooling technologies

▲ Ein Vergleich zwischen Luftkühlungs- und Flüssigkeitskühlungstechnologien

Mit dem Aufstieg von ChatGPT hat generative KI zu einem Anstieg der Serverlieferungen geführt, was wiederum zu verbesserten Spezifikationen für Kühlmodule geführt hat, die zu Flüssigkeitskühlungslösungen geführt haben, um die strengen Anforderungen an Serverkühlung und Stabilität zu erfüllen. Lin Yushen betonte, dass Fanner mit Luftkühlungstechnologie begann und bereits vor zehn Jahren begann, Flüssigkeitskühlungstechnologie durch IBM-Technologietransfer zu erwerben. Sie stellten Hintertüren für Wasserkühlung bereit, die es Kunden ermöglichten, Schränke mit Wasserkühlung auszustatten, ohne die vorhandene Rechenzentrumsinfrastruktur zu verändern.

II Bis 2025 beginnt eine neue Ära der gleichzeitigen Luft- und Flüssigkeitskühlung

Angetrieben durch die Entwicklung der Halbleitertechnologie im Zusammenhang mit KI-Anwendungen hat die Einführung von GPT-3 in ChatGPT die KI-Algorithmusparameter auf 175 Milliarden erhöht, was eine hundertfache Steigerung der GPU-Rechenleistung erforderlich macht. Die Branche verwendet hauptsächlich einphasige Immersionskühlungstechnologie innerhalb der Flüssigkeitskühlung, um die Wärmeableitungsprobleme von Servern oder Komponenten mit hoher Dichte zu lösen. Diese Methode hat jedoch eine 600-W-Grenze, während der Kühlbedarf für ChatGPT oder fortgeschrittenere Server 700 W übersteigt.

Illustration of single-phase immersion cooling technology

▲ Darstellung der einphasigen Immersionskühltechnologie

Mit der Entwicklung von IoT-, Edge-Computing- und 5G-Anwendungen treibt Daten-KI die globale Rechenleistung in eine Phase hohen Wachstums. Die nächste Generation von Kühlmoduldesigns wird zwei Hauptrichtungen verfolgen: Aufrüstung vorhandener Kühlmodule mit 3D-Dampfkammern (3DVC) oder Einführung von Flüssigkeitskühlsystemen, die Flüssigkeit als Wärmekonvektionsmedium verwenden, um die Kühleffizienz zu verbessern. Infolgedessen hat die Zahl der Flüssigkeitskühlungstests im Jahr 2023 deutlich zugenommen. 3DVC ist jedoch letztendlich eine Übergangslösung, und es wird erwartet, dass bis 2024-2025 die Ära der gleichzeitigen Luft- und Flüssigkeitskühlung beginnen wird.

Laut TrendForce machten im Jahr 2022 KI-Server, die mit GPGPUs (General Purpose GPUs) ausgestattet waren, etwa 1 % aller Lieferungen aus. Aufgrund der Anwendung von ChatGPT dürften die KI-Serverlieferungen im Jahr 2023 jedoch um 38,4 % steigen, wobei die durchschnittliche jährliche Wachstumsrate der KI-Serverlieferungen zwischen 2022 und 2026 29 % erreichen wird.

III „Flüssigkeitskühlung“ wird zum Mainstream für KI-Chips

Da die TDP der neuen Servergeneration die Grenzen der Luftkühlung erreicht, beginnen führende Technologieunternehmen, Flüssigkeitskühlung zu testen oder den Kühlraum zu vergrößern. Beispielsweise haben Intels Eagle Stream und AMDs Genoa mit einer TDP von 350-400W die Grenzen der Luftkühlung erreicht, was die Flüssigkeitskühlung zur Mainstream-Lösung für KI-Chips macht. NVIDIAs H100 hat eine TDP von 700W, und Luftkühlung mit 3DVC erfordert im Allgemeinen mehr als 4U Platz, was für Bereitstellungsarchitekturen mit hoher Dichte nicht geeignet ist.

NVIDIA's H100

▲ NVIDIAs H100

Da Kühlsysteme etwa 33 % des gesamten Energieverbrauchs in Rechenzentren ausmachen, erfordert die Reduzierung des Gesamtstromverbrauchs und die Verbesserung der Power Usage Effectiveness (PUE) die Optimierung von Kühlsystemen, IT-Geräten und die Nutzung erneuerbarer Energien. Da die Wärmekapazität von Wasser viermal so hoch ist wie die von Luft, erfordert die Implementierung von Flüssigkeitskühlsystemen nur 1U Platz für die Flüssigkeitskühlplatte. Laut den Tests von NVIDIA kann die Flüssigkeitskühlung bei gleicher Rechenleistung die Anzahl der erforderlichen Schränke um 66 %, den Energieverbrauch um 28 % und den PUE von 1,6 auf 1,15 reduzieren und gleichzeitig die Rechenleistung verbessern.

IV Der Einsatz von Fanner-Kühlmodulen durch Supermicro ist entscheidend

Die Flüssigkeitskühlung wird weiter in „Wasserkühlung“ und „Ölkühlung“ unterteilt, wobei die Wasserkühlung derzeit am weitesten verbreitet ist. Lin Yushen stellte fest, dass fast alle KI-Server mittlerweile Wasserkühlungslösungen verwenden. Beispielsweise muss NVIDIAs GH100 mit einer TDP von über 700 W Wasserkühlung verwenden. Obwohl die Wasserkühlung derzeit einen kleinen Teil des Umsatzes von Fanner ausmacht, ist der durchschnittliche Verkaufspreis (ASP) von KI-Servern zehnmal höher als der von herkömmlichen Servern, was dazu beitragen wird, die Produktstruktur von Fanner in der zweiten Jahreshälfte zu verändern. Es wird geschätzt, dass KI-Server im Jahr 2023 5-10 % ihres Geschäfts ausmachen könnten.

Lin Yushen betonte, dass der Hauptgrund, warum Supermicro Wasserkühlmodule von Fanner für Server mit NVIDIA GH100-GPUs verwendet, darin liegt, dass Fanner seit über einem Jahrzehnt an Lösungen zur Flüssigkeitskühlung arbeitet. Während die Herausforderungen bei der Implementierung einer Wasserkühlung hauptsächlich in den Kosten und der Vermeidung von Leckagen liegen, hat Fanner diese Leckageprobleme durch über zehnjährige Forschung nach und nach überwunden. Fanners langfristige Investition in Wasserkühlmodule hat das Unternehmen in die Lage versetzt, von dieser KI-Welle zu profitieren.

Supermicro Custom Liquid Cooling

▲ Supermicro Custom-Flüssigkeitskühlung

Lin Yushen betonte, dass der kontinuierliche Anstieg der TDP durch Hochgeschwindigkeits-Computing und der wachsende Kühlbedarf von KI-Servern die herkömmliche Heatpipe-Kühlung an ihre Grenzen gebracht habe, was den Einsatz von Wasserkühlungsmodulen erforderlich mache. Fanner hat bereits mehrere Kunden, darunter Supermicro und Meta, die ihre Lösungen übernommen haben. Obwohl die Wasserkühlung schneller als erwartet eingeführt wurde, ist es unwahrscheinlich, dass sie 2023 vollständig umgesetzt sein wird. Es wird jedoch erwartet, dass sie bis 2024 einen bedeutenden Durchbruch erleben wird, und für 2025 wird ein explosives Wachstum erwartet.