Rozšiřující karty GPU v sestavách serverů s umělou inteligencí: Kdy je potřebujete a co se porouchá
Rozšiřující modul GPU je kabel, deska nebo sestava, která přesouvá slot PCIe z místa, kde je umístěn na základní desce, na místo, kde má být GPU. U stolního počítače s jednou grafickou kartou na rozšiřující moduly nemyslíte. V 4U racku se čtyřmi RTX 5090 nebo v dvousocketovém EPYC s osmi kartami nemyslíte na nic jiného. Rozšiřující modul je místo, kde integrita signálu tiše umírá, kde se spojení tiše přeškolí na Gen3 a kde sestava, která v benchmarku funguje dobře, začne v produkčním prostředí ztrácet jednu GPU denně.
Toto je praktický návod: co jsou to popruhy, kdy je potřebujete, čtyři kategorie, proč Gen5 všechno mění, jak diagnostikovat a co specifikovat.
Proč vůbec existují stoupačky
Základní deska umisťuje sloty PCIe x16 přibližně 20 mm od sebe. Dvouslotová grafická karta má tloušťku 40–70 mm. Aritmetika nefunguje. Jakmile chcete v šasi více než dvě karty, nebo 3slotové karty, nebo orientaci proudění vzduchu v racku zepředu dozadu, je nutné grafické karty fyzicky přemístit.
Tři praktické důvody, proč stavba potřebuje podstupnice:
Pasuje na podvozek. V rackovém šasi o výšce 4U jsou grafické karty umístěny vodorovně, rovnoběžně se základní deskou, podél dráhy proudění vzduchu. Sloty PCIe základní desky jsou k této dráze kolmé. Každá grafická karta v plochém rackovém šasi je umístěna na rozšiřujícím panelu.
Tepelná izolace. I když sloty fyzicky pasují, umístění grafických karet zády k sobě znamená, že každá karta nasává výfukové plyny z další karty. Krátká prodlužovací trubka je odděluje o 40–80 mm a dává každé kartě vlastní rovinu sání. U kart s výkonem 350 W je to rozdíl mezi 72 °C a 86 °C při trvalém zatížení.
Rozteč více GPU. 8GPU vestavěné do šasi 4U/5U vůbec nemůže využívat sloty základní desky. Základní deska má k dispozici čtyři nebo pět slotů x16; šasi jich musí mít osm v řadě podél cesty proudění vzduchu. Systém rozšiřujících karet tvoří kompletní mechanické rozhraní mezi těmito dvěma sloty.
Čtyři kategorie, které skutečně vidíte
Kategorie rozšiřujících karet seřazené podle délky kabelu a vhodnosti pro Gen5. MCIO je jediná karta určená pro produkční sestavy s 8 GPU Gen5.
1. Pevné risery pro PCB (adaptéry 1U / 2U)
Plochá deska plošných spojů, která se zasouvá do slotu základní desky a nabízí sloty PCIe v pravém úhlu nebo posunuté o 30–60 mm. Standardní u hustých serverů 1U/2U. Krátká, pasivní, navržená z výroby, specifická pro danou šasi. Pokud je vaše šasi dodáváno s jednou, použijte ji.
2. Páskové a flexibilní stoupačky
Klasický díl pro kutily. Plochý flexibilní kabel, 150–300 mm dlouhý, na jednom konci slot PCIe, na druhém konektor PCIe edge. Pod 100 EUR. Všude ve stavebnicích pro těžbu kryptoměn, stále běžný v levných stavebnicích s umělou inteligencí.
Páskové kabely fungují u Gen3 bez problémů. U Gen4 fungují většinou, pokud jsou krátké (pod 200 mm) a je v čistém prostředí s elektromagnetickým rušením. U Gen5 jsou i při délce 100 mm jako výhra – konstrukce kabelu nikdy nebyla navržena pro 32 GT/s.
Viděli jsme, jak páskové risery Gen4 fungují na laboratorním stole dobře při x16 a poté při zátěži klesají na Gen3, když se šasi zahřeje. Stejný riser jsme viděli na EPYC Genoa, ale na EPYC Turin selhávají při tréninku nad Gen3, protože Turinův PHY Gen5 má menší časovací rezervy.
Verdikt: V pořádku pro Gen3. Přijatelné pro krátké série Gen4, pokud to dodavatel specifikuje. Nepřijatelné pro výrobu Gen5.
3. Aktivní / retimerové popruhy
Retimer je čip zabudovaný do rozšiřujícího kabelu, který obnovuje hodinový signál a regeneruje ho. Z hlediska integrity signálu efektivně zkracuje délku kabelu na polovinu – 400–600 mm s retimerem uprostřed cesty, kde pasivní rozšiřující kabel odpadá ve vzdálenosti 200 mm.
Přidává 150–300 EUR za GPU a latenci v řádu jednotek nanosekund (pro výpočetní výkon je to irelevantní). Standardní odpověď na otázku „dlouhý kabel, Gen4/Gen5 musí fungovat“ – většina továrních sad Gen5 je používá.
4. Kabelové připojení MCIO a SlimSAS
MCIO (Mini Cool Edge IO) vyhrál boj o kabeláž serverů Gen5. SlimSAS (SFF-8654) je starší bratranec, běžný u Gen4. Oba nahrazují okrajový konektor PCIe kabelovým konektorem na obou koncích – základní deska odhaluje porty MCIO, rozšiřující deska PCB odhaluje porty MCIO a kabely mezi nimi.
Kabel MCIO je diferenciální párový kabel určený pro 32 GT/s. Standardní je délka 300–500 mm u Gen5 x16. Řízená impedance, správné stínění, konektory se zacvakávají spolehlivě. Konektor PCIe edge – 25 let starý standard – je slabým místem každého rozšiřujícího kabelu; MCIO ho odstraňuje.
Typický kabelový řetězec MCIO pro 8 GPU Gen5: základní deska → přepínač/rozdělovací deska → rozšiřující karty GPU → GPU.
Verdikt: MCIO na Gen5, tečka. Pokud dodavatel prodává Gen5 s 8 GPU bez MCIO, dejte mu ohlas.
Integrita signálu, Gen4 vs. Gen5
| Parametr | Gen3 (8 GT/s) | Gen4 (16 GT/s) | Gen5 (32 GT/s) |
|---|---|---|---|
| Bitová perioda | ~125 ps | ~62 ps | ~31 ps |
| Maximálně praktický pasivní kabel | ~ 400 mm | ~ 200 mm | ~ 100 mm |
| Max s časovačem | ~600+ mm | ~ 500 mm | ~ 400 mm |
| Tolerance okrajového konektoru | odpouštějící | těsný | nemilosrdný |
| Oční okraj při pasivní vzdálenosti 250 mm | široce otevřený | zúžení | zavřeno |
U Gen3 můžete s plochým kabelem dělat téměř cokoli. U Gen5 to nejde a poruchové režimy nejsou vždy hlasité.
Nejběžnější vzorec: linka se trénuje na nižší hodnotě, kterou slot a zařízení hlásí po vyjednání LTSSM (Link Training and Status State Machine). Pokud je kvalita signálu marginální, linka se přetrénuje – tiše, obvykle během první velké zátěže GPU – a ustálí se na Gen4 nebo Gen3. Systém běží dál. Šířka pásma PCIe je poloviční. Benchmarky vypadají špatně a nikdo neví proč.
Běžné poruchové režimy
Zhruba v pořadí, jak často se chytají do racku se 4 nebo 8 GPU:
Snížení výkonu na Gen3 s zátěží. Karta se spouští na Gen4 x16; šasi se zahřívá, odpor kontaktů konektoru se zvyšuje, okraj oka se zavírá, linka se přeškoluje a ustálí se na Gen3. Testy šířky pásma ukazují ~12 GB/s, kde se očekává 24 GB/s. Příčina: marginální pasivní rozšiřující modul, obvykle dlouhý páskový konektor.
Občasné odpojení. GPU mizí z nvidia-smi uprostřed práce, obvykle s hlášeními AER. Dosednutí konektoru vlivem teplotních cyklů, někdy problém s napájením, někdy okrajové otevření pájeného spoje vlivem tepla.
Šířka se zmenší z x16 na x8 nebo x4. Jeden nebo dva pruhy příliš hlučné na to, aby se jimi dalo projet, objeví se spojení s přeživšími. Viditelné v lspci.
Selhání vlaku zavádění. Karta se prostě nezobrazuje. Usazení kabelu nebo mrtvý stoupač.
Opravitelné chyby AER při zahlcení dmesg. Hardware opravuje chyby za chodu; jeden krok od selhání. Varování – opravte to, než se to zhorší.
Porucha napájení. Některé rozšiřující karty dodávají 75 W výkonu slotu přes kabel. Tenké vodiče znamenají, že při trvalém zatížení dochází ke krátkodobému výpadku napájení grafické karty, poklesům napětí a výpadkům linky. U továrních rozšiřujících karet se to stává vzácně, u levných plochých kabelů je to běžné.
Jak diagnostikovat
Tři standardní Linuxové nástroje: nvidia-smi, lspci, dmesg.
Skutečná šířka a rychlost odkazu:
$ nvidia-smi --query-gpu=index,pcie.link.gen.current,pcie.link.width.current --format=csv
0, 4, 16
1, 4, 16
2, 3, 16 ← train-down
3, 4, 16
GPU 2 je na Gen3, nikoli Gen4 – její rozšiřující karta potřebuje prozkoumat.
Ze strany PCIe:
$ sudo lspci -vvv -s <bus:dev.fn> | grep -E "LnkCap|LnkSta"
LnkCap: Speed 32GT/s, Width x16
LnkSta: Speed 16GT/s (downgraded), Width x16
(downgraded) je funkce tell — odkaz běžící pod ní.
Jádrový kruh pro chyby AER:
$ sudo dmesg -T | grep -iE "aer|pcie"
pcieport 0000:60:01.0: AER: Corrected error received: 0000:61:00.0
Opravené chyby zatím nejsou fatální, ale naznačují marginální spojení. Spusťte trvalé zatížení a sledujte rychlost; pokud stoupá, stoupačka selhává.
Chcete-li izolovat kartu od rozšiřující karty, vyměňte podezřelou grafickou kartu za funkční slot. Příznak se přesouvá s kartou → karta. Zůstává u slotu → rozšiřující karty.
Konkrétní příklady z reálných staveb
4 grafické karty: 4× RTX 5090, EPYC Genoa, šasi 4U
Základní deska odhaluje 4× Gen5 x16. GPU jsou plochě namontovány v kolébce 220 mm od slotu. Tovární sada dodavatele: Kabely MCIO Gen5 k malým rozšiřujícím deskám plošných spojů, které reprezentují konektor PCIe edge na GPU.
Výsledek: 4× Gen5 x16, nulové AER během 72hodinového běhu Qwen2.5-VL 72B. Šířka pásma PCIe na GPU 47–49 GB/s (teoretická Gen5 x16 ≈ 63 GB/s; reálná ≈ 50 GB/s po započtení režijních nákladů protokolu). Čisté, protože jsme použili sadu od dodavatele dle specifikace.
8 grafických karet: 8× RTX Pro 6000 Blackwell, EPYC Turin Dual, šasi 4U
Dva CPU, každý se 4× Gen5 x16 kořenovými komplexy směrovanými přes MCIO do desky plošných spojů uprostřed šasi. Přímé rozdvojení – každá GPU dostává x16 z CPU. Kabel MCIO na GPU ≈ 280 mm.
Toto je na hranici čistého MCIO u Gen5. Dva z osmi kabelů v sadě od dodavatele mají in-line retimery; dalších šest je pasivních. Dva nejdále od CPU potřebují rezervu, šest bližších ne. Dodavatel to před odesláním charakterizoval na tepelně zatíženém zařízení.
Výsledek: 8× Gen5 x16 stabilní. Výkon ze zásuvky 4.1 kW při trvalém zatížení. Žádné přeškolení po dobu 48 hodin.
Stejná konstrukce, stoupačky svépomocí
Stejné šasi a grafické karty, ale rozšiřující pásky třetí strany s označením „Gen5“ od generického dodavatele:
- Dvě z osmi GPU se trénovaly na Gen4 x16 místo Gen5.
- Jedna grafická karta občas klesala při trvalém zatížení.
- ~15% snížení propustnosti oproti tovární sestavě.
Úspora nákladů: ~600 €. Náklady na ladění: tři inženýrské dny. Zhoršení propustnosti: trvalé. Nedělejte to.
Úvahy o napájení duálního zdroje
Rack se 4 grafickými kartami odebírá při zátěži 1.8–2.4 kW; rack s 8 grafickými kartami odebírá 3.5–4.5 kW. Většina rackových šasi této úrovně je dodávána s 2× 2kW ATX zdroji.
Duální zdroj v šasi K-AI je rozdělený, nikoliv redundantní systém N+1. Každý zdroj napájí definovanou část systému – typicky zdroj 1 napájí čtyři grafické karty a základní desku, zdroj 2 napájí další čtyři grafické karty (nebo čtyři grafické karty a modul mechaniky). Pokud jeden zdroj selže, ztratíte tu část, kterou napájel. Nic mezi tím. Žádné sdílení linek, žádné failover.
To je důležité pro rozšiřující karty: zdroj s výkonem 75 W na straně slotu pro některé rozšiřující karty pochází z toho zdroje, který napájí danou skupinu. Smíchání rozšiřujících karet mezi skupinami zdrojů způsobem, který dodavatel nezamýšlel, způsobuje problémy se zemní smyčkou a šumem na lince PCIe. Další důvod, proč použít tovární sadu. Viz W04 pro kompletní obrázek velikosti zdroje.
Proč jsou továrně testované sady stoupacích desek lepší než domácí výroba
Dodavatel šasi, který dodává 4- nebo 8-GPU rack s umělou inteligencí, spálil desítky až stovky těchto sestav. Rozšiřující sada byla tepelně cyklována, testována na nejhorší možné okolní teploty, ověřena s ohledem na fyzický parametr základní desky a obvykle jednou revidována, když se první várka dostala do rohové skříně. DIY páska od generického dodavatele byla, pokud vůbec, testována někým osciloskopem při pokojové teplotě na jedné referenční desce.
Cenový rozdíl: několik stovek eur napříč sestavou. Rozdíl spolehlivosti: obrovský. Každá sestava K-AI používá riser kity od dodavatele. Alternativní verzi jsme na žádost zákazníka jednou vyzkoušeli a stejně nás stála dny ladění, které zákazník zaplatil. Záruka také záleží – selhání GPU na neschváleném riseru není vždy záručním případem.
MCIO je cesta vpřed pro Gen5
Jednoduché shrnutí: u Gen5 je slabým článkem konektor PCIe edge a MCIO ho nahrazuje. Každý rack Gen5 s 8 GPU, který stojí za zmínku, dnes používá MCIO end-to-end. Sestavení Gen4 mohou stále používat SlimSAS nebo krátký MCIO; ploché kabely Gen3 jsou vhodné pouze pro hardware Gen3.
Při hodnocení sestavení dodavatele s 8 GPU Gen5 si položte tři otázky:
- Jak vypadá kabeláž mezi PCIe základní desky a GPU? (Musím zmínit MCIO.)
- Jsou nějaké kabely vybaveny funkcí retimeru – které a proč? (Konkrétní odpověď poskytne prodejce, který zná danou konstrukci.)
- Jaký je naměřený stav linky a míra AER na plně osazeném, tepelně zatíženém šasi? (8× Gen5 x16, nulová nebo téměř nulová AER za více než 24 hodin.)
Nejasné odpovědi znamenají, že dodavatel práci neprovedl.
Co dělat dál
Pokud hledáte nebo kupujete sestavu serveru s umělou inteligencí:
- Pro jakoukoli sestavu racku se 4 nebo 8 grafickými kartami použijte sadu rozšiřujících modulů od výrobce šasi. Nepořizujte si generické stoupačky od třetích stran.
- Pro Gen5 je vyžadována kabeláž MCIO. Páskový modul SlimSAS nebo PCIe-edge je přijatelný pouze u Gen4.
- Po uvedení do provozu spusťte výše uvedené tři diagnostické příkazy v klidu a znovu po 30 minutách trvalého zatížení. Ověřte, zda každá grafická karta má očekávanou generaci a šířku bez chyb AER. Uložte výstup jako základní hodnotu.
- Pokud se v prvních 48 hodinách objeví chyby typu „train-down“ nebo „AER“, okamžitě jej zvyšte. Omezená stoupací trubka se s věkem nezlepší. Prodejci, kteří mají skladem, vymění podezřelou stoupací trubku v záručním období.
- U šasi se dvěma zdroji pochopte rozdělení. Zjistěte, která skupina GPU se vypne, pokud selže zdroj. Naplánujte si plynulou degradaci – vLLM a většina distribuovaných trénovacích frameworků se dokáží zotavit z částečné ztráty GPU, ale pouze pokud jste si napsali cestu obnovy.
Následující články se zabývají topologií a bifurkací PCIe (W02), dimenzování zdroje (W04) a termální (W05). Podstavce jsou jednou ze tří nebo čtyř věcí, které odlišují sestavení v benchmarkové kvalitě od sestavení v nepřetržité produkci. Udělejte to správně a pak na to zapomeňte.
Toto je součást Kentino Wiki, referenční série o výpočetní technologii s využitím umělé inteligence, robotice a systémech, které je propojují. Komentáře a opravy jsou vítány na adrese info@kentino.com.