NVLink a NVSwitch: Kdy na tom záleží a proč to obvykle nezáleží na sestavě Kentina

Opakující se otázka do schránky: zákazník, který si vybírá server s 4× nebo 8× GPU, vidí marketingové články NVIDIA DGX s chvástáním se šířkou pásma NVLink v terabajtech za sekundu a ptá se, zda sestavení Kentino „má NVLink“. Upřímná odpověď zní ne, žádná z našich sestav ho nemá – a pro pracovní zátěž, kterou zákazník skutečně má, je to v pořádku. Tento článek vysvětluje proč.

NVLink je na vrcholu nabídky skutečně působivý a nikde jinde chybí. Marketing nestanovuje jasnou hranici, takže kupující buď přeplatí za strukturu, kterou nepotřebují, nebo si ji podhodnotí v domnění, že PCIe je plošným ústupem. Ani jedno z toho není pravda. Hranice je ostrá a nachází se na specifickém místě.

Co vlastně NVLink je

NVLink je propojení typu point-to-point s vysokou šířkou pásma mezi grafickými kartami (GPU), které obchází kořenový komplex PCIe hostitele. Dvě grafické karty s připojením NVLink přesouvají tenzory přímo přes linku, aniž by se musely pohybovat přes paměť CPU a soupeřit s čímkoli jiným na stromě PCIe. To je celá myšlenka.

Výhoda v šířce pásma oproti PCIe je značná. PCIe Gen5 x16 – současný strop pro slot pro spotřebitele nebo pracovní stanice – nabízí přibližně 64 GB/s v každém směru, celkem 128 GB/s. NVLink 5 na B200 a GB200 nabízí celkem 1.8 TB/s na GPU, což je zhruba 14× více než slot PCIe Gen5 x16.

Toto srovnání je zavádějící hned na začátku, protože GPU s NVLink 5 nejsou GPU s PCIe Gen5 x16 jako primárním propojením. NVLink se nachází na SKU pro datová centra (A100, H100, H200, B200, GB200); PCIe je jedinou cestou na SKU pro spotřebitele a pracovní stanice (4090, 5090, RTX Pro 6000 Blackwell, L40, L4). „NVLink versus PCIe“ v praxi znamená „řada H100 versus zbytek“.

Generace NVLink v kostce

Generace GPU Odkazy na GPU Agregace na GPU Rok výroby
Nvlink 2 V100 (Volta) 6 300 GB / s 2017
Nvlink 3 A100 (ampér) 12 600 GB / s 2020
Nvlink 4 H100 / H200 (Zásobník) 18 900 GB / s 2022
Nvlink 5 B200 / GB200 (Blackwell, D.C.) 18 1.8 TB / s 2024

Počet linek vzrostl z generace 2 na generaci 4 a poté se šířka pásma na linku zdvojnásobila z generace 4 na generaci 5 (z 50 GB/s na 100 GB/s). Proto NVLink 5 vypadá jako zásadní změna – a skutečně to tak je.

PCIe v sestavení Kentino:

Standard 16 na směr Agregát x16
PCIe Gen4 x16 32 GB / s 64 GB / s
PCIe Gen5 x16 64 GB / s 128 GB / s

V nejhorším případě (Gen4) je PCIe ~1/14 NVLink 4. V nejlepším případě (Gen5) je PCIe ~1/14 NVLink 5. Poměr je díky designu NVIDIA zhruba konstantní.

Upřímná část: Kentinova sestava nemá NVLink

GPU Formální faktor NVLink?
RTX 4090 PCIe Ne
RTX 5090 PCIe Ne
RTX Pro 6000 Blackwell (WS/Server/Max-Q) PCIe Ne
L40 / L40S PCIe Ne
L4 PCIe Ne
Intel ArcPro B70 PCIe n / a

NVIDIA odstranila „prst NVLink“ z spotřebitelských GeForce, počínaje Adou Lovelace. 3090 byla poslední spotřebitelskou kartou s funkčním můstkem; 4090 ho zrušila a 5090 žádný nemá. Uvedeným důvodem bylo, že „uživatelé chtějí šířku pásma v rámci jedné GPU, ne mezi dvěma“ – což se pohodlně shodovalo s tím, že zákazníci platí za šířku pásma mezi GPU poplatky datových center.

Zajímavým případem je RTX Pro 6000 Blackwell – 96GB karta pro pracovní stanici a server na stejném čipu Blackwell jako B200, což je zřejmá volba pro „seriózní GPU paměť bez přechodu na B200“. Také nemá NVLink. Ani na pracovní stanici, ani na serveru, ani na Max-Q. Na desce plošných spojů nemá žádný můstkový konektor. V datových listech NVIDIA je uvedeno, že NVLink není podporován u žádného ze tří modelů.

Toto je záměrná segmentace. NVLink znamená přechod na H100, H200, B200 nebo GB200 – provedení SXM, základní deska HGX, jiné šasi, jiné chlazení, alokace, kterou Kentino nemá. Pokud NVLink skutečně potřebujete, promluvte si s dodavatelem systému HGX.

Co ztratíte bez NVLinku

Penalizace se projevuje ve dvou specifických vzorcích pracovní zátěže:

  1. Tenzorový paralelismus napříč GPU. Pokud je model příliš velký pro jednu grafickou kartu a rozdělíte váhovou matici každé vrstvy mezi karty, každá transformační vrstva vyžaduje AllReduce napříč shardy. AllReduce je citlivý na šířku pásma a latenci. PCIe je úzkým hrdlem.
  2. Distribuované školení s jemnozrnnou gradientní synchronizací. Trénování ve stylu DDP, FSDP a Megatronu provádí gradientní AllReduces v každém kroku. Čím menší je výpočetní výkon na krok a čím větší je model, tím více propojení dominuje nástěnným hodinám.

Všechno ostatní – inference na jedné GPU, paralelismus pipeline, paralelismus dat, embeddingy, vizuální inference, ASR, TTS, generování difúzních obrazů, jemné doladění modelu, který se vejde na jednu GPU – běží na PCIe bez problémů. NVLink je irelevantní.

Naměřené škálování TP pro LLM třídy 70B na INT4/INT8, z publikovaných benchmarků 3090/4090/L40S:

Konfigurace Škálování TP Poznámky
2× GPU, NVLink (3090 + můstek) ~0.90 0.95–XNUMX XNUMX Téměř lineární
2× grafická karta, PCIe Gen4 ~0.60 0.70–XNUMX XNUMX Významná ztráta AllReduce
2× grafická karta, PCIe Gen5 ~0.65 0.75–XNUMX XNUMX Lepší, stále úzké hrdlo
4× grafická karta, PCIe Gen5 ~0.50 0.65–XNUMX XNUMX Náklady AllReduce rostou
8× grafická karta, PCIe Gen5 ~0.40 0.55–XNUMX XNUMX TP se stává bolestivým

Čtěte jako rozsahy, ne jako sliby – přesná čísla závisí na modelu, velikosti dávky, délce sekvence, kvantizaci, topologii NUMA a umístění slotů. Tvar je reálný: tenzorový paralelní provoz PCIe se škáluje sublineárně a penalizace roste s počtem GPU. Proto dokumentace vLLM doporučuje pipeline paralelní provoz namísto tenzorového paralelního provozu na systémech pouze s PCIe nad dvěma GPU.

Praktická náhrada: ponechte model na jednom GPU

Podceňovaný fakt o současném vývoji GPU: RTX Pro 6000 Blackwell má na jedné kartě 96 GB VRAM – což je dost na to, aby v jedné GPU s KV cache hostovala 70B na INT4 nebo INT8. Pokud se vůbec vyhnete rozdělení modelu mezi GPU, NVLink je bezpředmětný.

Model Množství VRAM Jeden Pro 6000?
7B/8B INT4 ~ 5 GB Ano, mnoho kopií
13B INT4 ~ 9 GB Ano, mnoho kopií
32B INT4 ~ 20 GB Ano, 4× souběžně
70B (Láma 3.3, Qwen) INT4 ~ 42 GB Ano, plus mezipaměť KV
70B INT8 ~ 75 GB Ano, těsné
Qwen2.5-VL 72B INT4 ~ 48 GB Ano
405B (Láma 3.1) INT4 ~ 240 GB Ne — 3 karty
Mixtral 8×22B INT4 ~ 80 GB Těsně, jedna karta

Hostování jedné karty je v roce 2026 správnou architekturou pro téměř každý model, který má hodnotu. Výjimky: velmi velké husté modely (405B, GPT-OSS 120B) a rozvržení MoE, kde se aktivní expertní sada vejde na jednu kartu, ale sada s plnou váhou nikoli.

Pro více karet na PCIe je správnou volbou rovnoběžnost potrubí, nikoli tenzorový paralelismus. Paralelní přenos v kanálu rozděluje vrstvy na dlouhé souvislé bloky (GPU 0 obsahuje vrstvy 0–39, GPU 1 obsahuje vrstvy 40–79 atd.). Provoz mezi GPU je pouze aktivačním tenzorem na hranici každého bloku – několik stovek KB na token, nikoli gigabajtů na vrstvu.

Režim paralelismu Provoz mezi GPU na vrstvu Citlivé na propojení?
Tenzorová rovnoběžka Aktivace × skrytá stmívací funkce, každá vrstva Ano – chce NVLink
Paralelní potrubí Aktivace pouze na hranicích bloků Ne – PCIe je v pořádku
Paralelní data Přechody na hranici kroku (pouze pro trénink) Středně
Expertní paralelní (MŽP) Vše pro všechny na expertní trase Ano – NVLink pomáhá

Na serveru 8× 5090 obsluhujícím 70B framework nerozdělujete model mezi všech osm karet. Spouštíte dvě instance se čtyřcestným paralelním zpracováním dat, nebo čtyři instance s obousměrným zpracováním dat, nebo – nejčastěji – osm nezávislých instancí menšího modelu za load balancerem. Server 8× se stává multiplikátorem propustnosti s osmi replikami, nikoli jednou obrovskou virtuální GPU. Pro produkční inferenci je architektura replik obvykle správnou odpovědí bez ohledu na dostupnost NVLink: větší souběžnost, elegantní degradace při selhání karty.

Když na NVLinku skutečně záleží

Pracovní zátěže, u kterých je absence NVLinku skutečným problémem, nikoli marketingovým problémem:

  • Trénování modelu, který se nevejde na jeden GPU. Předběžné trénování nebo úplné doladění modelu s hustotou 70B+ vyžaduje rozdělení modelu mezi grafické karty (GPU) s gradientním AllReduces v každém kroku. NVLink je rozdíl mezi produktivním 8GPU sestavou a čtyřmi kartami většinou čekajícími na sběrnici.
  • Tenzorová paralelní inference na velmi velkých hustých modelech. Pokud potřebujete 405B obsluhovaných napříč GPU a nemůžete akceptovat paralelní latenci na token v pipeline, NVLink je důležitý.
  • MoE s expertním směrováním napříč GPU. MoE all-to-all je na PCIe brutální. DeepSeek-V3, Mixtral 8×22B a podobné designy s hustou grafikou přes MoE z toho jednoznačně profitují.
  • Vysokofrekvenční smyčky RLHF / GRPO. Synchronizace zásad/referencí opakovaná tisíckrát za epochu narazí na stejnou cenu AllReduce.
  • Trénování difuze na více GPU ve velkém měřítku. Některé větší modely difúze videa mají aktivační vzory podobné tenzorově paralelním.

Pokud je vaše pracovní zátěž na tomto seznamu, nekupujte si server Kentino 8× 5090 a neočekávejte chování DGX H100. Kupte si systém HGX nebo si pronajměte H100/B200 v cloudu pro fázi trénování a váhy si přineste zpět do lokální platformy pro inferenci. To je naprosto rozumný pracovní postup a otevřeně ho doporučujeme.

NVSwitch: struktura na úrovni šasi

NVLink je point-to-point – GPU A k GPU B přes svazek linek. U více než dvou GPU v šasi buď přidělíte každému páru vlastní vyhrazený NVLink (neškáluje se nad čtyři), nebo umístíte přepínač NVLink doprostřed. Tím přepínačem je NVSwitch od společnosti NVIDIA.

Na základní desce HGX H100 s 8 GPU poskytují čtyři čipy NVSwitch každé GPU plnou šířku pásma NVLink 4 ke každé další GPU – 900 GB/s, vše ke všem, bez soupeření. V racku GB200 NVL72 se NVSwitch škáluje napříč 72 GPU v jediné neblokující topologii, 1.8 TB/s na GPU, celkem 130 TB/s. NVSwitch je to, co umožňuje fungování „jedné velké virtuální GPU“; bez něj je NVLink jen rychlejší párový kabel.

Praktický:

  • Žádný NVSwitch v žádném sestavení Kentina. NVSwitch se dodává pouze v rámci grafických karet HGX a DGX s certifikací NVIDIA. Do šasi Supermicro nebo Bone64c se neinstaluje žádný aftermarket čip.
  • Žádný NVSwitch v žádné RTX kartě, nikdy. Pouze pro datová centra.
  • GB200 NVL72 je určen pro rackové, nikoli serverové systémy. 72 GPU spolupracuje prostřednictvím měděného kabelu NVLink rychlostí propojovací sběrnice. Kabely, přepínače i propojovací sběrnice jsou proprietární součástí NVIDIA. Katalogová cena se pohybuje v řádu milionů amerických dolarů s dodací lhůtou v řádu několika čtvrtletí. Špičková úroveň toho, co NVLink umožňuje v roce 2026. Ne pro nás.

Cena a dostupnost

Systémy s podporou NVLink jsou ve vlastní cenové kategorii. Přibližný trh v polovině roku 2026, USA/EU:

Systémová třída GPU Cenové pásmo katalogu Dodací lhůta
4× RTX 5090 (třída Kentino) 4 25 40–XNUMX XNUMX EUR 2-4 týdny
8× RTX 5090 (třída Kentino) 8 50 80–XNUMX XNUMX EUR 3-6 týdny
4× RTX Pro 6000 Blackwell 4 60 90–XNUMX XNUMX EUR 3-6 týdny
8× RTX Pro 6000 Blackwell 8 120 180–XNUMX XNUMX EUR 4-8 týdny
HGX H100 SXM (8× H100, NVSwitch) 8 250 350–XNUMX XNUMX EUR 8-16 týdny
HGX B200 SXM (8× B200, NVSwitch) 8 400 550–XNUMX XNUMX EUR 12-24 týdny
GB200 NVL72 (72× B200) 72 3–4 milionů EUR a více 6–12 měsíců

Cenový rozdíl mezi sestavením Kentino 8× Pro 6000 a HGX H100 je zhruba 2× při stejném nominálním počtu GPU. Výkonnostní rozdíl pro úlohy nezávislé na NVLink je mnohem menší než 2×. Pro práci závislou na NVLink (trénování velkých modelů, tenzorové paralelní operace na 405B) je H100 tím správným nástrojem a cena je opodstatněná. Pravidlo: pokud se vaše úloha vejde na jednu 96GB GPU, sestavení Pro 6000 ušetří více než 50 % rozpočtu. Pokud ne, zaplaťte za NVLink.

Shrnutí

Otázka Odpověď na sestavu Kentina
Máš nějakou aktuální kartu s NVLinkem? Ne
Existuje nějaká aktuální sestavení s NVSwitch? Ne
Tenzorově paralelní s 70B? Ano, ~0.6–0.7× penalizace škálování oproti PCIe
Paralelní potrubí a 70B? Ano, téměř lineární
Vejde se 70B na jednu kartu? Ano — RTX Pro 6000 Blackwell, 96 GB
Trénovat 70B od nuly? Neefektivně – přejděte do cloudu nebo HGX
Podávejte hustý 405B? Pouze paralelní s potrubím napříč 3+ Pro 6000
Ministerstvo životního prostředí ve velkém měřítku? Menší MoE ano; třída DeepSeek ne
Vytvořit ekvivalent DGX? Ne

Co dělat dál

Pokud určujete velikost systému a nejste si jisti, zda potřebujete NVLink, postupujte podle tohoto pořadí:

  1. Zapište největší model, který potřebujete obsloužit, včetně kvantizace. Pokud se to vejde na jednu GPU, NVLink je irelevantní. Dost.
  2. Pokud to nesedí, zeptejte se, zda je paralelní zapojení potrubí přijatelné. Pipeline přidává latenci na token, ale propustnost je v pořádku. Pro dávkové odvozování a většinu úloh chatu je to přijatelné.
  3. Pokud paralelní spojení potrubí není přijatelné (u velmi velkého modelu potřebujete minimální latenci jednoho streamu), potřebujete tenzorový paralelní port. Na PCIe platíte daň ve výši 30–50 %. Pokud vám tato daň nevyhovuje, pak se upgrade systému NVLink vyplatí.
  4. Pokud trénujete, odpověď je téměř vždy NVLink. Trénování modelů s hustotou nad 13B na PCIe je špatné využití hodin GPU. Pronajměte si NVLink v cloudu nebo si kupte HGX.
  5. Pro závěr je obvykle správnou odpovědí jednokartová Pro 6000 Blackwell nebo vícerepliková 4×/8× 5090. Tohle si kupuje většina našich zákazníků a funguje to.

NVLink není špatný. V tom, co dělá, je vynikající. NVIDIA nakreslila pevnou hranici segmentace a pod touto hranicí je správná architektonická odpověď „hostovat menší modely, replikovat horizontálně, používat paralelní zpracování dat, když je nutné rozdělit.“ K tomu je řada Kentino postavena.

Následné kroky: InfiniBand a RoCE pro propojení v rozsahu clusteru (N02), přepínané topologie clusterů (N04) a PCIe-as-interconnect pro malé clustery (K07).


Toto je součást Kentino Wiki, referenční série o výpočetní technologii s využitím umělé inteligence, robotice a systémech, které je propojují. Komentáře a opravy jsou vítány na adrese info@kentino.com.