Teploty a proudění vzduchu v sestavách serverů s více grafickými kartami a umělou inteligencí

Server s více grafickými kartami a umělou inteligencí je z tepelného hlediska průmyslový ohřívač, který si občas počítá. Šasi se 4× RTX 5090 při trvalém zatížení nepřetržitě vydává 2.4 kW tepla; 8× 5090 vydává 5 kW. Nic z toho samo o sobě nikam nevede – dopadne na čip GPU, napájecí zdroje (VRM), paměťové moduly a odtud do jakéhokoli vzduchu, který šasi dokáže vytlačit ven. Pokud proudění vzduchu neodpovídá výkonu, křemík ho omezí a omezení na inferenčním serveru zdvojnásobí latenci tokenu a tiše sníží propustnost na polovinu. Většina příběhů o tom, jak se server s GPU zpomalil, se týká tepla, nikoli softwaru. Toto je stránka sestavy týkající se proudění vzduchu, ve spojení s... W04 při napájení.

Teplo je jen síla, přeformulováno

Každý watt spotřebovaný do GPU se uvolňuje jako teplo – karta nevykonává žádnou mechanickou práci, takže neexistuje žádný faktor účinnosti. Hodnoty TDP, které dimenzujeme:

GPU Trvalá TDP Pevný kryt Strop s horkými body Cíl škrticí klapky
RTX 5090 (FE / partnerská deska) 575 W ~ 600 W ~95 °C (křemík) okraj 90 °C
RTX 4090 450 W ~ 500 W ~ 95 ° C okraj 83 °C
Pracovní stanice RTX Pro 6000 Blackwell 600 W 600 W ~ 90 ° C okraj 88 °C
RTX Pro 6000 Blackwell Max-Q 300 W 300 W ~ 85 ° C okraj 85 °C
L40 300 W 300 W ~ 87 ° C okraj 87 °C
L4 72 W 72 W ~ 87 ° C okraj 87 °C
Intel ArcPro B70 32 GB 200 W 225 W ~ 90 ° C okraj 90 °C

Dvě poznámky, které jsou důležité pro rozhodnutí o sestavení. NVIDIA zvýšila prahovou hodnotu pro edge throttle u 5090 na ~90 °C. (oproti 83 °C u 4090) – čip si při stejném proudění vzduchu udrží plné frekvence déle, ale křemík se více zahřívá, což je důležité pro nepřetržité nasazení. Karty pro pracovní stanice a datová centra (Pro 6000, L40, L4) si pevně drží své jmenovité TDP — nepřekračují limit. Počet spotřebitelských karet prudce stoupá. Řadu pracovních stanic je snazší chladit předvídatelně; u spotřebitelské řady je snazší nechtěně překročit limit.

Prahové hodnoty škrticí klapky a jejich cena

Škrticí páčka je gradient, ne přepínač. Na křemíku třídy Blackwell:

Teplota okraje Chování
60-75 ° C Plný plyn, bez plynu
75-85 ° C Mírná odchylka hodin, téměř plné zvýšení
85-90 ° C Snížení limitu zvýšení, ztráta 5–10 %
90-95 ° C Tvrdý plyn, ztráta hodin 15–25 %
> 95 ° C Agresivní plynu, paměť plynu, případné nouzové vypnutí

Inferenční zátěž 5090 při studeném výkonu 590 W klesne na ~510 W, když okrajový senzor překročí 90 °C – 15% ztráta tokenů za sekundu u zátěže vLLM 70B, což je rozdíl mezi dosažením SLO a nedosažením. Čerstvě zapnutá karta dosáhne svého prvního bodu škrticí klapky za 60–120 s po zahájení trvalého zatížení; benchmarky kratší než 5 minut nadhodnocují trvalou propustnost o 10–20 %, což je jeden z nejčastějších způsobů, jak se publikovaná čísla odchylují od reality v produkčním prostředí.

Průtok vzduchu v racku zepředu dozadu – jediná rozumná architektura pro nepřetržitý provoz 24 hodin denně, 7 dní v týdnu

Topologie chladičů GPU se dělí na otevřené / axiální věžové (herní karty pro spotřebitele, odsávání do vnitřku šasi), ventilátorové / radiální (referenční karty, odsávání z I/O držáku) a pasivní karty pro datová centra (L4, L40 – bez ventilátoru, ventilátory šasi ženou vzduch skrz žebra). Pro sestavu se 4 nebo 8 GPU s nepřetržitým provozem 24 hodin denně, 7 dní v týdnu, V hustém šasi fungují pouze topologie ventilátoru a pasivní topologieV rozvaděči 4U s kartami naskládanými svisle odvádí otevřená konstrukce teplo do sání karty nad ní; horní karta je umístěna ve vzduchu o teplotě 50–60 °C a během několika minut se ztlumí.

Šasi Kentino 4U a 8U využívají průmyslové proudění vzduchu zepředu dozadu se 120mm ventilátory, které vyvíjejí vysoký statický tlak na grafické karty. Karty jsou typu blow-in, pasivní nebo aktivně přesměrované potrubím v šasi. Chladič tvoří samotné šasi.

Přední část stojanu – studená ulička (příjem ~22 °C)
3× 120mm sací ventilátory (vysoký statický tlak)
sloupec proudění vzduchu
Interiér šasi 4U
GPU 1 XNUMX
GPU 2 XNUMX
GPU 3 XNUMX
GPU 4 XNUMX
PSU · DIMM moduly · Chladič CPU + ventilátor · kabely vedené za přihrádkou
horký výfuk
Zadní část rozvaděče – horká ulička (výfuk 35–45 °C)
1× 120 mm zadní výfuk + výfuk zdroje

Proudění vzduchu zepředu dozadu v racku: přívod vzduchu do studené uličky → grafické karty ve sloupci proudění vzduchu → odvod vzduchu do horké uličky. To udržuje 5090 pod 85 °C při přívodu vzduchu 22 °C.

Statický tlak vs. proudění vzduchu CFM

V datových listech ventilátorů je uveden průtok vzduchu (CFM) a statický tlak (mm H2O). U otevřené skříně dominuje CFM; u 4U skříně s hustými chladiči, rozšiřujícími deskami, kabelovými svazky a pasivními žebry GPU v dráze, dominuje statický tlakTypický 120mm ventilátor pro spotřebitelské skříně dosahuje průtoku 70 CFM při tlaku 1.2 mm H2O; 120mm ventilátor pro průmyslové servery (Delta, Sanyo Denki, Nidec, San Ace) dosahuje průtoku 110 CFM při tlaku 8–12 mm H2O. Mezera mezi žebry je 60 %; mezera mezi žebry je 7–10×. V skříni s hustou roztečí žeber dosahuje ventilátor skříně skutečného průtoku přibližně 20 CFM; průmyslový ventilátor dosahuje 80–90. Proto je skříň K-AI hlučná (55–62 dBA u racku) a je umístěna ve racku nebo skříni, nikoli na stole.

Pravidla: průtok skrz šasi ~40–50 CFM na kW tepla GPU; statický tlak na sání ≥ 5 mm H2O; chladič CPU musí být ve věžovém provedení s předozadním vedením, nikoli s horním průtokem.

Tlak, filtry a správa kabelů

Tlak v podvozku se vypočítává jako objemový tlak v sání a objemový tlak v výfuku. Pozitivní tlak (větší objem sání) uniká vzduchem skrz každou mezeru a zachycuje prach u předního filtru; záporný tlak nasává nefiltrovaný vzduch skrz každou spáru. Kentino 4U je konstrukčně mírně pozitivní – tři sání, jeden zadní výfuk a jeden výfuk z napájecího zdroje. Na filtrech záleží: Z 50 % zanesený sací filtr snižuje proudění vzduchu v šasi o 30–40 %. V kanceláři kontrolujte každých 90 dní, v laboratoři každých 30 dní. Většina hlášení „server se po šesti měsících zahřál více“ se týká problémů s filtrem, nikoli degradace křemíku.

Kabely v předozadní vzduchové sloupci jsou nejvíce podceňovaným tepelným problémem u sestav s více grafickými kartami. 24pinový ATX svazek zavěšený na straně sání GPU 4 snižuje efektivní proudění vzduchu kartou o 25–40 % a zvyšuje teplotu o 5–8 °C oproti předchozím modelům. Napájení a EPS veďte za přihrádkou základní desky, nikdy ne přes vzduchový sloupec; žádný kabel neveďte před středem GPU. W04 vysvětluje, proč rozdělené napájení dvěma zdroji fyzicky usnadňuje práci u sestavy se 4 grafickými kartami – na každé straně je poloviční hmotnost kabelů. Možnost použití dvou zdrojů je stejně tepelná jako elektrická.

Rozteč U racku a horký výfuk

Jednotka 4U s výkonem 2.4 kW dosahuje teploty výfukových plynů 35–45 °C při průměru 100 CFM a více; jednotka 8U s výkonem 5 kW dosahuje teploty 40–50 °C při průměru 200 CFM. Zaslepovací panely v nepoužívaných slotech U jsou povinné v každém uzavřeném racku – bez nich se horký výfuk vrací zpět do studené uličky. Uzavřené skříně přitlačené ke zdi jsou nejhorším případem: horní jednotky jsou o 8–12 °C teplejší než spodní. Jedna prázdná jednotka U nad a pod každým serverem s více grafickými kartami v neuzavřených raccích zajišťuje 5–8 °C prostoru pro nasávání vzduchu. Uzavření horké uličky má smysl u čtyř racků, což je pro jeden rackový systém zbytečné.

Reálná měření — 4 a 8 grafických karet při trvalém zatížení

Interní testy Kentino, inference vLLM 70B Q4, 30minutový ustálený stav, pokojová teplota 22 °C ± 1 °C.

Vytvořit Přívod Výhoda GPU Výhoda procesoru Vyčerpat Throttle
4× RTX 5090 (4U, EPYC 9354) 23 °C 76-84 ° C 68 °C 41 °C Ne
8× RTX 5090 (8U, 2× EPYC 9554) 24 °C 78-86 ° C 70-72 ° C 46 °C Hrana
4× pracovní stanice Pro 6000 (4U) 23 °C 71-77 ° C 67 °C 43 °C Ne

Cílovou hodnotou je 4× 5090 – rozložení teploty 8 °C napříč celým procesorem, boost udržovaný v nominálním rozsahu 30 MHz. 8× 5090 se nachází blíže limitu; GPU 8 s 86 °C je na hranici, kde začíná boost cap. V místnostech teplejších než 24 °C začíná sestava 8× 5090 ztrácet boost na zadních kartách. — konfigurace s 8 grafickými kartami je ta, kde se prostředí v instalační místnosti stává prvotřídním konstrukčním parametrem. Pracovní stanice 4× Pro 6000 se při stejné spotřebě energie ochladí lépe, protože pevný 600W kondenzátor a dvojitě průtokový chladič poskytují předvídatelnější pracovní teplotu než spotřebitelský design 5090 s krátkodobými špičkami.

Hotspoty za hranicemi grafického procesoru

Číslo nvidia-smi Uvádí se, že se jedná o senzor okraje – okraj paměti GDDR nebo křemíkový okraj, v závislosti na kartě. Není to nejteplejší část šasi. Důležité jsou další tři místa:

VRM Při trvalém zatížení se obvykle zahřívají o 10–20 °C více než čip, s maximální teplotou okolo 110 °C. U karty 5090 s výkonem 575 W ukazuje telemetrie desky teploty napájecího zdroje (VRM) v rozmezí 85–95 °C. Karty se slabým chlazením VRM omezují teplotu VRM před křemíkem – neviditelné pro nvidia-smi --query-gpu=temperature.gpu, viditelné pouze jako nevysvětlitelná ztráta taktu. Pokud se karta na senzoru GPU chladí, ale ztrácí napájecí napětí, podezřejte VRM.

GDDR7 paměť Na 5090 se přehřívá. Dlouhodobá inference s velkým aktivačním provozem zvyšuje teplotu paměťových spojů na 95–100 °C. Karta nejprve snižuje frekvenci paměti (ztráta šířky pásma 3–5 %) a poté frekvenci GPU. U úloh vázaných na paměť je úzkým hrdlem teplota paměti, nikoli teplota jádra.

NVMe SSD jsou tichým zabijákem. Disk PCIe 5.0, který provádí trvalé čtení (načítání vah 70B, streamování datových sad), dosáhne 70–80 °C během několika sekund bez aktivního chlazení. Nad ~75 °C se řadič zpomalí a šířka pásma čtení se zpoloviní. Modelové načtení, které „by mělo trvat 8 sekund“, trvá 16 sekund a nikdo neví proč. Každá sestava K-AI dodává NVMe s chladiči v dráze proudění vzduchu v šasi.

Pro sledování všeho, co je ve výrobě důležité:

nvidia-smi --query-gpu=index,temperature.gpu,temperature.memory,clocks.gr,clocks.mem,power.draw \
           --format=csv -l 5

Pro NVMe, nvme smart-log /dev/nvme0 hlásí teploty řídicí jednotky a kompozitního materiálu; alarm při 70 °C kompozitního materiálu. Teplota VRM je zobrazena na kartách Pro 6000 prostřednictvím DCGM (dcgm-exporter pro Prometheus); na spotřebitelských kartách je specifický pro konkrétního dodavatele základní desky a často se objevuje pouze v utilitách systému Windows – jeden z několika důvodů, proč v dlouhodobě produkčních aplikacích preferujeme karty pro pracovní stanice.

Teplota okolního prostředí a obálka ASHRAE

Norma ASHRAE TC9.9 definuje teplotní limity, kterými se návrh datových center řídí. Třída A1 (kolokace 1. úrovně) doporučuje vstupní teplotu 18–27 °C; třída A2 (všeobecný podnik) rozšiřuje povolenou teplotu na 10–35 °C. Řada K-AI je navržena podle A2, ale teplotní limit bez škrticí klapky pro šasi 4× nebo 8× 5090 se nachází uvnitř A1: 22 °C vstupní teploty je návrhový bod, 26 °C je praktický strop před začátkem ztráty plnicího tlaku. Důležitá je i vlhkost: ASHRAE doporučuje 20–80 % bez kondenzace. Celoročně se snažte o relativní vlhkost 40–60 %.

Vytvořit Doporučené prostředí Strop (bez plynu) Tvrdý strop (s libovolnou škrticí klapkou)
4 × 4090 18-24 ° C 26 °C 30 °C
4 × 5090 18-22 ° C 24 °C 28 °C
4× Pro 6000 18-25 ° C 27 °C 32 °C
8 × 5090 18-22 ° C 23 °C 26 °C
8× Pro 6000 18-24 ° C 25 °C 29 °C
8× L40 18-26 ° C 28 °C 32 °C
8× L4 18-28 ° C 30 °C 35 °C

Čísla L40 a L4 jsou důvodem, proč tyto karty zůstávají zajímavé pro kancelářské nasazení: snášejí běžné kancelářské vytápění, větrání a klimatizaci. Sestava s 8 grafickými kartami 5090 potřebuje serverovnu nebo skříň se samostatným chlazením, tečka.

Dimenzování HVAC v jednom odstavci

Chlazení místnosti se rovná trvalému odběru energie ze stěny: 1 kW = 3 412 BTU/hod. Server s výkonem 2.4 kW a 4 GPU má ~8 200 BTU/hod; server s výkonem 4.5 kW a 8 GPU má ~15 400 BTU/hod. Velikost AC při 1.3× ustálené zátěže — stejné pravidlo pro rezervu jako u napájecích zdrojů. Dělicí jednotka s výkonem 12 000 BTU na serveru s výkonem 2.4 kW běží na 100% pracovním cyklu a vyřadí kompresor za 18–30 měsíců; jednotka s výkonem 24 000 BTU při stejném zatížení běží na 50% pracovním cyklu a vydrží 8–10 let. Nad 10 kW se stává relevantní přesné chlazení (CRAC); pod touto hodnotou stačí správně dimenzovaný dělicí systém.

Provedení: 4U rack, 8U rack, tower

Řada K-AI používá tři: 4U stojan pro sestavy se 4 grafickými kartami (3× 120mm vstup, 1× zadní, duální ATX, 19palcový rack), 8U stojan pro sestavy s 8 GPU (ventilátory pro průmyslové servery, napájení CRPS, základní deska se dvěma CPU, zhruba dvojnásobná hustota tepla oproti 4U) a věžová pracovní stanice pro vývojářské skříně s 1 a 2 grafickými kartami (PWM ventilátory, vhodné do kanceláře). S více než 2 grafickými kartami nedodáváme věžové skříně – vertikální šasi se 4 grafickými kartami dosáhne teploty na horní grafické kartě hranice 90 °C během 20 minut trvalého zatížení. Stejný hardware v 4U racku zůstává pod 85 °C po neurčito.

Kapalinové chlazení – kdy a proč

Vzduch zvládne ~600 W na GPU v dobře navrženém 4U; nad tuto hodnotu je řešením kapalina. Víceúčelové zařízení (AIO) na kartu snižuje teplotu GPU o 15–25 °C, ale přidává řádově větší složitost, s novými poruchovými režimy, jako je selhání čerpadla a tiché odpařování chladicí kapaliny. Přímé připojení k čipu s výměníkem tepla v zadní části racku napojeným na chlazenou vodu v zařízení je pro 16+ GPU na cluster správným řešením. Ponoření do dielektrické kapaliny je efektivní, drahé a zcela mění model provozuschopnosti.

Pro aktuální řadu Kentino – vzduchem chlazené šasi s výkonem až 600 W na kartu – vzduch je správná odpověďSestava se 4 procesory 5090 běží na hraně 78–84 °C s nulovým plynem, 24 hodin denně, 7 dní v týdnu, ve studené uličce s teplotou 22 °C. Kapalinové ošetření by tuto teplotu zvýšilo na 55–65 °C a získalo by o několik procent vyšší taktovací rychlosti; rozdíl kapitálových výdajů a složitosti to v tomto měřítku neodůvodňuje.

Co dělat dál – kontrolní seznam pro monitorování teploty

Pokud dimenzujete tepelnou stranu stavební nebo rozváděcí místnosti:

  1. Prostředí studené uličky v instalační místnosti? Měření provádějte při reálném zatížení, ne v neděli s klimatizací běžící na plný výkon. Porovnejte s tabulkou s okolními teplotami výše.
  2. Chlazení místnosti dimenzované na 1.3× odběr energie ze zdi serveru? AC střídač dimenzovaný přesně tak, aby odpovídal zátěži, má 100% pracovní cyklus a selže do dvou let.
  3. Kam jde horký výfuk? Otevřený rack s horkou uličkou je v pořádku; uzavřená skříň bez ochranného obalu nebo skříň se serverem namířeným ke zdi nikoli.
  4. Pracovní cyklus? Vývojový box s 30% zátěží má jiné požadavky na chlazení než inferenční server s nepřetržitým provozem.
  5. Filtr a plán růstu? Ucpaný filtr tiše snižuje průtok vzduchu na polovinu; druhý server zdvojnásobuje tepelnou zátěž. Naplánujte obojí.
  6. Běží telemetrie? nvidia-smi dotazováno po 5 s pro hranici GPU / paměť / takty / napájení, nvme smart-log Pro měniče, DCGM pro VRM, kde je k dispozici, teplota okolí v místnosti + vlhkost v monitorovacím stohu s alarmy při 27 °C a venkovní relativní vlhkosti 40–60 %.

Design na úrovni šasi – proudění vzduchu zepředu dozadu, průmyslové 120mm ventilátory, fénování nebo pasivní grafické karty, disciplinované vedení kabelů – je standardně součástí každé sestavy K-AI. Místnost a rack jsou na straně zákazníka a právě tam vzniká většina problémů v terénu.

W06 (další v řadě W) pokrývá úložné úrovně – rozložení NVMe, SAS a hromadných fondů, které se párují s těmito výpočetními šasi.


Toto je součást Kentino Wiki, referenční série o výpočetní technologii s využitím umělé inteligence, robotice a systémech, které je propojují. Komentáře a opravy jsou vítány na adrese info@kentino.com.