NVLink a NVSwitch: Kdy na tom záleží a proč to obvykle nezáleží na sestavě Kentina
Opakující se otázka do schránky: zákazník, který si vybírá server s 4× nebo 8× GPU, vidí marketingové články NVIDIA DGX s chvástáním se šířkou pásma NVLink v terabajtech za sekundu a ptá se, zda sestavení Kentino „má NVLink“. Upřímná odpověď zní ne, žádná z našich sestav ho nemá – a pro pracovní zátěž, kterou zákazník skutečně má, je to v pořádku. Tento článek vysvětluje proč.
NVLink je na vrcholu nabídky skutečně působivý a nikde jinde chybí. Marketing nestanovuje jasnou hranici, takže kupující buď přeplatí za strukturu, kterou nepotřebují, nebo si ji podhodnotí v domnění, že PCIe je plošným ústupem. Ani jedno z toho není pravda. Hranice je ostrá a nachází se na specifickém místě.
Co vlastně NVLink je
NVLink je propojení typu point-to-point s vysokou šířkou pásma mezi grafickými kartami (GPU), které obchází kořenový komplex PCIe hostitele. Dvě grafické karty s připojením NVLink přesouvají tenzory přímo přes linku, aniž by se musely pohybovat přes paměť CPU a soupeřit s čímkoli jiným na stromě PCIe. To je celá myšlenka.
Výhoda v šířce pásma oproti PCIe je značná. PCIe Gen5 x16 – současný strop pro slot pro spotřebitele nebo pracovní stanice – nabízí přibližně 64 GB/s v každém směru, celkem 128 GB/s. NVLink 5 na B200 a GB200 nabízí celkem 1.8 TB/s na GPU, což je zhruba 14× více než slot PCIe Gen5 x16.
Toto srovnání je zavádějící hned na začátku, protože GPU s NVLink 5 nejsou GPU s PCIe Gen5 x16 jako primárním propojením. NVLink se nachází na SKU pro datová centra (A100, H100, H200, B200, GB200); PCIe je jedinou cestou na SKU pro spotřebitele a pracovní stanice (4090, 5090, RTX Pro 6000 Blackwell, L40, L4). „NVLink versus PCIe“ v praxi znamená „řada H100 versus zbytek“.
Generace NVLink v kostce
| Generace | GPU | Odkazy na GPU | Agregace na GPU | Rok výroby |
|---|---|---|---|---|
| Nvlink 2 | V100 (Volta) | 6 | 300 GB / s | 2017 |
| Nvlink 3 | A100 (ampér) | 12 | 600 GB / s | 2020 |
| Nvlink 4 | H100 / H200 (Zásobník) | 18 | 900 GB / s | 2022 |
| Nvlink 5 | B200 / GB200 (Blackwell, D.C.) | 18 | 1.8 TB / s | 2024 |
Počet linek vzrostl z generace 2 na generaci 4 a poté se šířka pásma na linku zdvojnásobila z generace 4 na generaci 5 (z 50 GB/s na 100 GB/s). Proto NVLink 5 vypadá jako zásadní změna – a skutečně to tak je.
PCIe v sestavení Kentino:
| Standard | 16 na směr | Agregát x16 |
|---|---|---|
| PCIe Gen4 x16 | 32 GB / s | 64 GB / s |
| PCIe Gen5 x16 | 64 GB / s | 128 GB / s |
V nejhorším případě (Gen4) je PCIe ~1/14 NVLink 4. V nejlepším případě (Gen5) je PCIe ~1/14 NVLink 5. Poměr je díky designu NVIDIA zhruba konstantní.
Upřímná část: Kentinova sestava nemá NVLink
| GPU | Formální faktor | NVLink? |
|---|---|---|
| RTX 4090 | PCIe | Ne |
| RTX 5090 | PCIe | Ne |
| RTX Pro 6000 Blackwell (WS/Server/Max-Q) | PCIe | Ne |
| L40 / L40S | PCIe | Ne |
| L4 | PCIe | Ne |
| Intel ArcPro B70 | PCIe | n / a |
NVIDIA odstranila „prst NVLink“ z spotřebitelských GeForce, počínaje Adou Lovelace. 3090 byla poslední spotřebitelskou kartou s funkčním můstkem; 4090 ho zrušila a 5090 žádný nemá. Uvedeným důvodem bylo, že „uživatelé chtějí šířku pásma v rámci jedné GPU, ne mezi dvěma“ – což se pohodlně shodovalo s tím, že zákazníci platí za šířku pásma mezi GPU poplatky datových center.
Zajímavým případem je RTX Pro 6000 Blackwell – 96GB karta pro pracovní stanici a server na stejném čipu Blackwell jako B200, což je zřejmá volba pro „seriózní GPU paměť bez přechodu na B200“. Také nemá NVLink. Ani na pracovní stanici, ani na serveru, ani na Max-Q. Na desce plošných spojů nemá žádný můstkový konektor. V datových listech NVIDIA je uvedeno, že NVLink není podporován u žádného ze tří modelů.
Toto je záměrná segmentace. NVLink znamená přechod na H100, H200, B200 nebo GB200 – provedení SXM, základní deska HGX, jiné šasi, jiné chlazení, alokace, kterou Kentino nemá. Pokud NVLink skutečně potřebujete, promluvte si s dodavatelem systému HGX.
Co ztratíte bez NVLinku
Penalizace se projevuje ve dvou specifických vzorcích pracovní zátěže:
- Tenzorový paralelismus napříč GPU. Pokud je model příliš velký pro jednu grafickou kartu a rozdělíte váhovou matici každé vrstvy mezi karty, každá transformační vrstva vyžaduje AllReduce napříč shardy. AllReduce je citlivý na šířku pásma a latenci. PCIe je úzkým hrdlem.
- Distribuované školení s jemnozrnnou gradientní synchronizací. Trénování ve stylu DDP, FSDP a Megatronu provádí gradientní AllReduces v každém kroku. Čím menší je výpočetní výkon na krok a čím větší je model, tím více propojení dominuje nástěnným hodinám.
Všechno ostatní – inference na jedné GPU, paralelismus pipeline, paralelismus dat, embeddingy, vizuální inference, ASR, TTS, generování difúzních obrazů, jemné doladění modelu, který se vejde na jednu GPU – běží na PCIe bez problémů. NVLink je irelevantní.
Naměřené škálování TP pro LLM třídy 70B na INT4/INT8, z publikovaných benchmarků 3090/4090/L40S:
| Konfigurace | Škálování TP | Poznámky |
|---|---|---|
| 2× GPU, NVLink (3090 + můstek) | ~0.90 0.95–XNUMX XNUMX | Téměř lineární |
| 2× grafická karta, PCIe Gen4 | ~0.60 0.70–XNUMX XNUMX | Významná ztráta AllReduce |
| 2× grafická karta, PCIe Gen5 | ~0.65 0.75–XNUMX XNUMX | Lepší, stále úzké hrdlo |
| 4× grafická karta, PCIe Gen5 | ~0.50 0.65–XNUMX XNUMX | Náklady AllReduce rostou |
| 8× grafická karta, PCIe Gen5 | ~0.40 0.55–XNUMX XNUMX | TP se stává bolestivým |
Čtěte jako rozsahy, ne jako sliby – přesná čísla závisí na modelu, velikosti dávky, délce sekvence, kvantizaci, topologii NUMA a umístění slotů. Tvar je reálný: tenzorový paralelní provoz PCIe se škáluje sublineárně a penalizace roste s počtem GPU. Proto dokumentace vLLM doporučuje pipeline paralelní provoz namísto tenzorového paralelního provozu na systémech pouze s PCIe nad dvěma GPU.
Praktická náhrada: ponechte model na jednom GPU
Podceňovaný fakt o současném vývoji GPU: RTX Pro 6000 Blackwell má na jedné kartě 96 GB VRAM – což je dost na to, aby v jedné GPU s KV cache hostovala 70B na INT4 nebo INT8. Pokud se vůbec vyhnete rozdělení modelu mezi GPU, NVLink je bezpředmětný.
| Model | Množství | VRAM | Jeden Pro 6000? |
|---|---|---|---|
| 7B/8B | INT4 | ~ 5 GB | Ano, mnoho kopií |
| 13B | INT4 | ~ 9 GB | Ano, mnoho kopií |
| 32B | INT4 | ~ 20 GB | Ano, 4× souběžně |
| 70B (Láma 3.3, Qwen) | INT4 | ~ 42 GB | Ano, plus mezipaměť KV |
| 70B | INT8 | ~ 75 GB | Ano, těsné |
| Qwen2.5-VL 72B | INT4 | ~ 48 GB | Ano |
| 405B (Láma 3.1) | INT4 | ~ 240 GB | Ne — 3 karty |
| Mixtral 8×22B | INT4 | ~ 80 GB | Těsně, jedna karta |
Hostování jedné karty je v roce 2026 správnou architekturou pro téměř každý model, který má hodnotu. Výjimky: velmi velké husté modely (405B, GPT-OSS 120B) a rozvržení MoE, kde se aktivní expertní sada vejde na jednu kartu, ale sada s plnou váhou nikoli.
Pro více karet na PCIe je správnou volbou rovnoběžnost potrubí, nikoli tenzorový paralelismus. Paralelní přenos v kanálu rozděluje vrstvy na dlouhé souvislé bloky (GPU 0 obsahuje vrstvy 0–39, GPU 1 obsahuje vrstvy 40–79 atd.). Provoz mezi GPU je pouze aktivačním tenzorem na hranici každého bloku – několik stovek KB na token, nikoli gigabajtů na vrstvu.
| Režim paralelismu | Provoz mezi GPU na vrstvu | Citlivé na propojení? |
|---|---|---|
| Tenzorová rovnoběžka | Aktivace × skrytá stmívací funkce, každá vrstva | Ano – chce NVLink |
| Paralelní potrubí | Aktivace pouze na hranicích bloků | Ne – PCIe je v pořádku |
| Paralelní data | Přechody na hranici kroku (pouze pro trénink) | Středně |
| Expertní paralelní (MŽP) | Vše pro všechny na expertní trase | Ano – NVLink pomáhá |
Na serveru 8× 5090 obsluhujícím 70B framework nerozdělujete model mezi všech osm karet. Spouštíte dvě instance se čtyřcestným paralelním zpracováním dat, nebo čtyři instance s obousměrným zpracováním dat, nebo – nejčastěji – osm nezávislých instancí menšího modelu za load balancerem. Server 8× se stává multiplikátorem propustnosti s osmi replikami, nikoli jednou obrovskou virtuální GPU. Pro produkční inferenci je architektura replik obvykle správnou odpovědí bez ohledu na dostupnost NVLink: větší souběžnost, elegantní degradace při selhání karty.
Když na NVLinku skutečně záleží
Pracovní zátěže, u kterých je absence NVLinku skutečným problémem, nikoli marketingovým problémem:
- Trénování modelu, který se nevejde na jeden GPU. Předběžné trénování nebo úplné doladění modelu s hustotou 70B+ vyžaduje rozdělení modelu mezi grafické karty (GPU) s gradientním AllReduces v každém kroku. NVLink je rozdíl mezi produktivním 8GPU sestavou a čtyřmi kartami většinou čekajícími na sběrnici.
- Tenzorová paralelní inference na velmi velkých hustých modelech. Pokud potřebujete 405B obsluhovaných napříč GPU a nemůžete akceptovat paralelní latenci na token v pipeline, NVLink je důležitý.
- MoE s expertním směrováním napříč GPU. MoE all-to-all je na PCIe brutální. DeepSeek-V3, Mixtral 8×22B a podobné designy s hustou grafikou přes MoE z toho jednoznačně profitují.
- Vysokofrekvenční smyčky RLHF / GRPO. Synchronizace zásad/referencí opakovaná tisíckrát za epochu narazí na stejnou cenu AllReduce.
- Trénování difuze na více GPU ve velkém měřítku. Některé větší modely difúze videa mají aktivační vzory podobné tenzorově paralelním.
Pokud je vaše pracovní zátěž na tomto seznamu, nekupujte si server Kentino 8× 5090 a neočekávejte chování DGX H100. Kupte si systém HGX nebo si pronajměte H100/B200 v cloudu pro fázi trénování a váhy si přineste zpět do lokální platformy pro inferenci. To je naprosto rozumný pracovní postup a otevřeně ho doporučujeme.
NVSwitch: struktura na úrovni šasi
NVLink je point-to-point – GPU A k GPU B přes svazek linek. U více než dvou GPU v šasi buď přidělíte každému páru vlastní vyhrazený NVLink (neškáluje se nad čtyři), nebo umístíte přepínač NVLink doprostřed. Tím přepínačem je NVSwitch od společnosti NVIDIA.
Na základní desce HGX H100 s 8 GPU poskytují čtyři čipy NVSwitch každé GPU plnou šířku pásma NVLink 4 ke každé další GPU – 900 GB/s, vše ke všem, bez soupeření. V racku GB200 NVL72 se NVSwitch škáluje napříč 72 GPU v jediné neblokující topologii, 1.8 TB/s na GPU, celkem 130 TB/s. NVSwitch je to, co umožňuje fungování „jedné velké virtuální GPU“; bez něj je NVLink jen rychlejší párový kabel.
Praktický:
- Žádný NVSwitch v žádném sestavení Kentina. NVSwitch se dodává pouze v rámci grafických karet HGX a DGX s certifikací NVIDIA. Do šasi Supermicro nebo Bone64c se neinstaluje žádný aftermarket čip.
- Žádný NVSwitch v žádné RTX kartě, nikdy. Pouze pro datová centra.
- GB200 NVL72 je určen pro rackové, nikoli serverové systémy. 72 GPU spolupracuje prostřednictvím měděného kabelu NVLink rychlostí propojovací sběrnice. Kabely, přepínače i propojovací sběrnice jsou proprietární součástí NVIDIA. Katalogová cena se pohybuje v řádu milionů amerických dolarů s dodací lhůtou v řádu několika čtvrtletí. Špičková úroveň toho, co NVLink umožňuje v roce 2026. Ne pro nás.
Cena a dostupnost
Systémy s podporou NVLink jsou ve vlastní cenové kategorii. Přibližný trh v polovině roku 2026, USA/EU:
| Systémová třída | GPU | Cenové pásmo katalogu | Dodací lhůta |
|---|---|---|---|
| 4× RTX 5090 (třída Kentino) | 4 | 25 40–XNUMX XNUMX EUR | 2-4 týdny |
| 8× RTX 5090 (třída Kentino) | 8 | 50 80–XNUMX XNUMX EUR | 3-6 týdny |
| 4× RTX Pro 6000 Blackwell | 4 | 60 90–XNUMX XNUMX EUR | 3-6 týdny |
| 8× RTX Pro 6000 Blackwell | 8 | 120 180–XNUMX XNUMX EUR | 4-8 týdny |
| HGX H100 SXM (8× H100, NVSwitch) | 8 | 250 350–XNUMX XNUMX EUR | 8-16 týdny |
| HGX B200 SXM (8× B200, NVSwitch) | 8 | 400 550–XNUMX XNUMX EUR | 12-24 týdny |
| GB200 NVL72 (72× B200) | 72 | 3–4 milionů EUR a více | 6–12 měsíců |
Cenový rozdíl mezi sestavením Kentino 8× Pro 6000 a HGX H100 je zhruba 2× při stejném nominálním počtu GPU. Výkonnostní rozdíl pro úlohy nezávislé na NVLink je mnohem menší než 2×. Pro práci závislou na NVLink (trénování velkých modelů, tenzorové paralelní operace na 405B) je H100 tím správným nástrojem a cena je opodstatněná. Pravidlo: pokud se vaše úloha vejde na jednu 96GB GPU, sestavení Pro 6000 ušetří více než 50 % rozpočtu. Pokud ne, zaplaťte za NVLink.
Shrnutí
| Otázka | Odpověď na sestavu Kentina |
|---|---|
| Máš nějakou aktuální kartu s NVLinkem? | Ne |
| Existuje nějaká aktuální sestavení s NVSwitch? | Ne |
| Tenzorově paralelní s 70B? | Ano, ~0.6–0.7× penalizace škálování oproti PCIe |
| Paralelní potrubí a 70B? | Ano, téměř lineární |
| Vejde se 70B na jednu kartu? | Ano — RTX Pro 6000 Blackwell, 96 GB |
| Trénovat 70B od nuly? | Neefektivně – přejděte do cloudu nebo HGX |
| Podávejte hustý 405B? | Pouze paralelní s potrubím napříč 3+ Pro 6000 |
| Ministerstvo životního prostředí ve velkém měřítku? | Menší MoE ano; třída DeepSeek ne |
| Vytvořit ekvivalent DGX? | Ne |
Co dělat dál
Pokud určujete velikost systému a nejste si jisti, zda potřebujete NVLink, postupujte podle tohoto pořadí:
- Zapište největší model, který potřebujete obsloužit, včetně kvantizace. Pokud se to vejde na jednu GPU, NVLink je irelevantní. Dost.
- Pokud to nesedí, zeptejte se, zda je paralelní zapojení potrubí přijatelné. Pipeline přidává latenci na token, ale propustnost je v pořádku. Pro dávkové odvozování a většinu úloh chatu je to přijatelné.
- Pokud paralelní spojení potrubí není přijatelné (u velmi velkého modelu potřebujete minimální latenci jednoho streamu), potřebujete tenzorový paralelní port. Na PCIe platíte daň ve výši 30–50 %. Pokud vám tato daň nevyhovuje, pak se upgrade systému NVLink vyplatí.
- Pokud trénujete, odpověď je téměř vždy NVLink. Trénování modelů s hustotou nad 13B na PCIe je špatné využití hodin GPU. Pronajměte si NVLink v cloudu nebo si kupte HGX.
- Pro závěr je obvykle správnou odpovědí jednokartová Pro 6000 Blackwell nebo vícerepliková 4×/8× 5090. Tohle si kupuje většina našich zákazníků a funguje to.
NVLink není špatný. V tom, co dělá, je vynikající. NVIDIA nakreslila pevnou hranici segmentace a pod touto hranicí je správná architektonická odpověď „hostovat menší modely, replikovat horizontálně, používat paralelní zpracování dat, když je nutné rozdělit.“ K tomu je řada Kentino postavena.
Následné kroky: InfiniBand a RoCE pro propojení v rozsahu clusteru (N02), přepínané topologie clusterů (N04) a PCIe-as-interconnect pro malé clustery (K07).
Toto je součást Kentino Wiki, referenční série o výpočetní technologii s využitím umělé inteligence, robotice a systémech, které je propojují. Komentáře a opravy jsou vítány na adrese info@kentino.com.