Bezpřepínací topologie: Mesh, Ring a Direct-Connect pro malé klastry umělé inteligence

32portový 400GbE přepínač s optikou, rozbočovači a softwarovými oprávněními pro jeho skutečné použití se v polovině roku 2026 bude pohybovat někde mezi 40 000 a 80 000 EUR a 64portový NDR přepínač InfiniBand je na tom hůř. Pro zákazníka, který si staví tréninkové zařízení se dvěma až čtyřmi uzly, může přepínač stát více než grafické karty v jednom z uzlů. Také přidává delší latenci, jediný bod selhání, samostatný životní cyklus firmwaru a ladění PFC/ECN v rámci malého projektu, pokud používáte RoCE.

O tom téměř nikdo nemluví, je fakt, že pod zhruba osmi uzly přepínač vůbec nepotřebujeteMůžete propojit síťové karty přímo kabelem, zcela se vyhnout přepínání a nakonec získat něco jednoduššího, levnějšího a o něco rychlejšího. Faktem, který téměř nikdo neuznává, je, že nad zhruba osmi uzly bez přepínače padá z útesua kabeláž, počet portů a provozní příběh přestávají být obhajitelné. Tento článek tento rozsah poctivě mapuje.

Je to společník pro N04 (přepínané topologie). Číst N06 pro matematiku latence, na které je postavena výhra bez přepínače, a K07 jak vypadá jeden základní uzel – stavební kámen, který tento článek spojuje.

Argumenty pro bezspínačové systémy

Čtyři věci, které získáte zdarma odstraněním přepínače:

  1. Nulová latence přepínání. Moderní průchozí ethernetový přepínač s umělou inteligencí spotřebuje 400–600 ns na jeden skok. Přepínač NDR InfiniBand má méně než 100 ns. Přímý kabel mezi síťovými kartami přidává zpoždění vodiče (~5 ns/m na mědi, totéž na optickém vlákně) a nic víc. U dvouuzlového ping-pongu se tím snižuje jednosměrná latence z ~2 µs na ~1.2–1.5 µs.
  2. Nulové náklady na přechod. Dvouuzlové přímé připojení zahrnuje dvě síťové karty a jeden DAC. Tříuzlový trojúhelník zahrnuje tři síťové karty a tři DAC. Úspora kapitálových nákladů oproti i malému 100GbE přepínači s optikou QSFP28 je u malé sestavy reálná – 10 000–30 000 EUR, které jdou zpět na grafické karty.
  3. Žádné bolesti hlavy z PFC/ECN. Přímé propojení mezi síťovými kartami je typu point-to-point – řízení toku je dvoustranná konverzace, PFC se degeneruje na „říkání peeru, aby přestal“. Neexistuje žádná patologie šíření pauzy v rámci celé sítě fabric, protože neexistuje žádná síť fabric.
  4. Jedna třída zařízení k ladění. Když se něco porouchá na nepřepínatelném fabric, seznam podezřelých obsahuje dvě síťové karty, jeden kabel a ovladače jádra na obou koncích. To je malý, konečný prohledávací prostor.

Dvouuzlové pouzdro: stačí je propojit

Toto je nejčistší možné nastavení AI clusteru a takové, kde je bezspínačový přístup jednoznačně správný.

Uzel A — K-AI 256
  • 8× RTX 5090
  • ConnectX-7 OSFP (400 Gb/s)
400G DAC (pasivní, ≤3 m)
Uzel B — K-AI 256
  • 8× RTX 5090
  • ConnectX-7 OSFP (400 Gb/s)

Dvouuzlové přímé připojení: jeden pasivní OSFP DAC, bez přepínače, latence RDMA ~0.8–1.2 µs, použitelná propustnost ~50 GB/s na směr.

Jeden OSFP DAC mezi dvěma síťovými kartami ConnectX-7 s rychlostí 400 Gb/s. To je celá meziuzlová struktura. Stejné síťové karty, které by ve větší sestavě čelily přepínači, jsou místo toho umístěny proti sobě. Slovesa RDMA fungují, NCCL je automaticky zjišťuje, GPUDirect RDMA běží beze změny.

Co získáte: ~50 GB/s použitelných na směr, latence RDMA submikrosekundová (ib_send_lat dosahuje přibližně 0.8–1.2 µs), jeden kabel. Žádný problém s agregací, protože není co agregovat. Žádné přetížení, protože neexistuje bod rozvětvení.

Pro trénovací pár se dvěma uzly – nejčastější sestavení typu „z jedné krabice jsem vyrostl“ v naší zákaznické základně – je tohle správná odpověď. Přeskočte přepínač. Zapojte je dohromady. Ušetřené peníze utraťte za větší NVMe vrstvu nebo druhý síťový port pro redundanci.

Praktické vylepšení: použijte duální port ConnectX-7 a provozovat dva paralelní 200 Gb/s DAC mezi boxy s NCCL nakonfigurovaným pro použití obou HCA (NCCL_IB_HCA=mlx5_0,mlx5_1). Ztratíte sice trochu špiček na tok, ale získáte redundanci cesty a mírně lepší chování při malých zprávách z paralelních párů front. Toto nastavení používáme standardně u sestavení se dvěma uzly.

Tři a čtyři uzly: trojúhelník a K₄

Tři uzly jsou nejmenším případem, kdy topologie začíná hrát roli. Možnosti jsou:

  • Lineární řetězec (ABC). Dva kabely. Průměr 2. Uzel B je hotspot – veškerý provoz z bodu A do bodu C ho protíná. Vyhněte se mu.
  • Trojúhelník (plná síťovina). Tři kabely. Průměr 1. Každý uzel má dva porty. Každý tok je jeden skok. Toto je správná odpověď.
Trojúhelník (3 uzly, K₃) A B C 3 spojů · 2 porty/uzel · průměr 1 K₄ plná síť (4 uzly) A B D C 6 spojů · 3 porty/uzel · průměr 1

Vlevo: trojúhelník (K₃) — 3 uzly, 3 kabely, průměr 1. Vpravo: K₄ plná síť — 4 uzly, 6 kabelů, průměr 1. Každý pár je přímo připojen.

Zajímavé je, když se objeví čtyři uzly. Celá síť – kompletní graf K₄ – má celkem šest spojů, tři porty na uzel a průměr 1. Každý uzel dosáhne všech ostatních v přesně jednom skoku. Matematika kabeláže:

Uzly Plně síťované spoje Porty na uzel Průměr
2 1 1 1
3 3 2 1
4 6 3 1
5 10 4 1
6 15 5 1
7 21 6 1
8 28 7 1

Plný počet portů na uzel v síti je N-1, a proto se tento přístup rychle hroutí. S osmi uzly potřebujete sedm portů na box, což je konec praktické cesty na jednom slotu PCIe Gen5 x16.

Kdy je čtyřuzlová full mesh síť lepší než malý přepínač? Konkrétně když máte 4× K-AI 128 uzly pro inferenci a chcete je pevně propojit, používáte RoCE a nechcete PFC napříč přepínačem a marginální cena 15 000–25 000 EUR za 100GbE přepínač s optikou je v rámci rozpočtu smysluplná.

Kdy malý přepínač vyhraje, i když má jen čtyři uzly? Kdy byste mohli v příštím čtvrtletí přidat pátý uzel? Přidání jednoho uzlu do sítě K₄ vyžaduje překabelování všech stávajících uzlů, aby se přidaly nové porty. Přepínač má volné porty; stačí je zapojit.

Případ s 8 uzly: hyperkrychle, s hvězdičkou

Trojkrychle (Q₃) – hyperkrychle o dimenzi 3 – je učebnicové bezpřepínací uspořádání pro osm uzlů. Každý uzel se nachází v jednom rohu krychle; každá hrana krychle je přímým spojem. Tři porty na uzel, celkem dvanáct spojů, průměr 3.

000 001 010 011 100 101 110 111 3-krychle Q₃: 8 uzlů · 12 spojů · 3 porty/uzel · průměr 3 Grayovo kódové označení – každá hrana se liší přesně o jeden bit
Vlastnictví Hodnota
Uzly 8
12
Porty na uzel 3
Průměr 3
Šířka pásma bisekce 4 odkazy

Upřímný názor: to je ve výrobě vzácné. Funguje to, nejhorší případ s průměrem 3 je pro většinu kolektivů přijatelný, ale schéma zapojení kabeláže je pro každého, kdo to nestavěl, skutečně matoucí. Řešení problémů vyžaduje pochopení Grayova kódu a malý 16portový 200GbE přepínač je nyní ve stejné cenové kategorii jako další porty a kabely síťové karty. 8uzlová hypercube je zajímavější jako výukový příklad než jako věc, kterou dodáváme. U osmi uzlů je naším výchozím doporučením přepínač.

Prsten: hloupý, jednoduchý a překvapivě relevantní

Zapomeňte na minimalizaci průměru. Kruh spojuje každý uzel pouze se svými dvěma sousedy: ABCD-...-A. Dva porty na uzel bez ohledu na velikost clusteru. Celkem N spojů. Průměr N/2.

A B C D H G F E 8-uzlový kruh: 8 spojů · 2 porty/uzel · průměr 4 · NCCL kruhové mapy allreduce přímo

To zní hrozně – průměr 4 na 8 uzlech, průměr 16 na 32 uzlech. Proč to není vždycky špatně?

Protože Prstencové allreduce mapy NCCL přesně na fyzický prstenecAlgoritmus odesílá každý blok dat jednou za fázi kolem kruhu; pokud je fyzická topologie již kruh, algoritmus běží rychlostí linky jednoho spoje, bez plýtvání šířkou pásma. Výchozí nastavení NCCL pro střední až velké zprávy je kruh, nikoli strom, protože kruh dosahuje optimální hranice šířky pásma: 2(N-1)/N × link bandwidth pro allreduce. Průměr fyzické topologie nehraje při velkých velikostech zpráv roli – důležité je, aby se každý spoj používal paralelně, a kruh to dělá perfektně.

Pragmatické místo, kde je fyzický kruh správnou odpovědí bez přepínačů, je Tréninková zařízení se 4–8 uzly, kde každý uzel má již přesně dva RDMA portyHáček: kruh nemá redundanci cesty. Jeden vadný kabel rozdělí cluster na dvě části.

Když bez přepínače překoná malý přepínač, v číslech

topologie Uzly Porty/uzel Průměr Bisekce (odkazy)
Přímé spojení 2 1 1 1 1
Trojúhelník (K₃) 3 3 2 1 2
K₄ plná síťovina 4 6 3 1 4
4uzlový prstenec 4 4 2 2 2
8uzlový prstenec 8 8 2 4 2
8-uzlová krychle Q₃ 8 12 3 3 4
16uzlový Q₄ 16 32 4 4 8
8uzlová hvězda (s přepínačem) 8 8 1 2 záleží na přepínači

Přibližné srovnání cen pro 8uzlovou fabric sestavu, polovina roku 2026 (EUR bez DPH):

Přístup Potřebné síťové karty Kabely Vypínač Celkové pásmo
8uzlová, jednopřepínačová 200GbE hvězdicová 8× jednoportový 200 GbE 8× DAC ~18–28 tisíc EUR 25–35 tisíc EUR
8-uzlový kroužek, bez přepínače 8× dvouportový 200 GbE 8× DAC žádný 15–22 tisíc EUR
8uzlová Q₃ kostka, bez přepínačů 8× ekvivalent tří portů 12× DAC žádný 18–26 tisíc EUR
4uzlová síťovina K₄, bez přepínačů 4× ekvivalent tří portů 6× DAC žádný 9–13 tisíc EUR
4uzlový, malý 100GbE přepínač 4× jednoportový 100 GbE 4× DAC ~8–12 tisíc EUR 11–16 tisíc EUR
2-uzlový přímý 2× jednoportový 400 GbE 1× DAC žádný 3–5 tisíc EUR

Přechod, při kterém se přepínač zaplatí, je přibližně 6–8 uzlů, v závislosti na úrovni šířky pásma a na tom, zda máte v úmyslu jej rozšiřovat.

Uplink: část, na kterou lidé zapomínají

Datová struktura bez přepínačů je interně soběstačná. Sama o sobě není k ničemu připojena. Cluster stále potřebuje uplink pro stahování datových sad a modelů z podnikového úložiště, SSH z vývojářských pracovních stanic, telemetrii do Prometheus/Grafana, správu IPMI/BMC a provoz v registru kontejnerů.

Vzor A – každý uzel má samostatnou síťovou kartu pro správu. Každý uzel nese jeden malý 25 GbE (nebo dokonce 10 GbE) port pro levný management switch, zcela nezávislý na RDMA fabric. Toto je téměř vždy správná odpověď. RDMA fabric je sterilní, bezztrátové a vyladěné prostředí; management plane je normální ethernetová síť s běžným provozem. Smíchejte je a management provoz naruší vaše kolektivy.

Vzor B – vyhrazený uzel pro uplink. Jeden uzel v clusteru má další port pro výstup. Ostatní uzly se do vnějšího světa připojují přes tento uzel. Funguje to pro omezené rozpočty a malá laboratorní nastavení, ale uplink uzel se stává úzkým hrdlem pro čtení datových sad a jediným bodem selhání pro přístup správy.

Tvrdá stěna v ~16 uzlech

Bezspínač umírá nad 16 uzly ze tří nezávislých důvodů, z nichž kterýkoli je dostatečný:

  1. Počet portů na uzel. Plná síťovina chce N-1 portů na uzel. Hypercube chce log₂(N)Dokonce i škálování logaritmu znamená, že 16 uzlů potřebuje 4 porty na uzel, což je na hranici praktické hustoty síťových karet na jednom slotu PCIe Gen5 x16. 32 uzlů potřebuje 5 portů na uzel – více slotů, více umístění NUMA ke správě.
  2. Kombinatorika kabeláže. 16uzlová K₄ síť s plnou sítí má 120 kabelů. 16uzlová Q₄ hyperkrychle jich má 32. V obou případech je důležité označování, dokumentace a fyzický přístup ke každému kabelu. Nalezení jednoho špatně zapojeného kabelu v 32kabelové hyperkrychli trvá hodiny.
  3. Operační příběh. Výměna vadné síťové karty v nepřepínatelné fabrice vyžaduje identifikaci kabelů N-1 (nebo log N), které ji připojily, a přesměrování každého z nich do konkrétního portu na náhradní kartě. Rozdíl v MTTR oproti přepínané kartě je reálný.

Upřímné shrnutí: bezspínačové řešení je to pravé pro 2 až 4 vyhrazené uzly, obhajitelné pro 5 až 8 uzlů s jasným závazkem „nebudeme růst“a chyba pro 9 nebo více uzlůV 9+ letech si kupte vypínač.

Dvě betonové stavby, které stojí za to popsat

2× K-AI 256 Turin Dual, s přímým připojením, 400G. Dva uzly EPYC Turin s 8 GPU (5090 nebo RTX Pro 6000 Blackwell), každý s jednoportovým ConnectX-7 400 GbE / NDR, jedním 3m pasivním OSFP DAC mezi nimi. Celkové náklady na hardware mezi uzly: ~4 000 EUR. Sběrnice NCCL allreduce pro velké zprávy: ~45 GB/s. Vhodné pro obousměrnou tenzorově-paralelní inferenci hustého modelu 405B (rozdělení vrstev mezi obě krabice) nebo pro jemné doladění 70B, který se nevejde na jednu krabici. Varianty této sestavy jsme již několikrát dodali. Je nudná, funguje a stojí řádově méně než ekvivalentní sestava připojená k přepínači.

4× K-AI 128 v K₄ plné mřížce, 100G. Čtyři jednosocketové uzly EPYC se 4× RTX Pro 6000 Blackwell v každém. Každý uzel nese trojportové rozložení síťové karty (jedna dvouportová plus jedna jednoportová nebo jedna čtyřportová s jedním nevyužitým portem), 100GbE DAC fabric. Celkem šest kabelů. Šířka pásma bisekce 400 Gb/s. Používá se pro tenzorově paralelní inferenci modelu třídy 70B se 4cestným rozdělením a plnou aktivací procházející mezi každým párem. Eliminuje přepínač jako jediný bod selhání pro inferenční službu a rozpočet zákazníka šel na GPU místo na přepínací zařízení. Kompromis: uzamčeno na čtyřech uzlech; rozšiřování vyžaduje přepracování architektury.

Když vítězí bezspínač

  • 2 uzly — vždy bez přepínače. Žádný skutečný argument pro změnu.
  • 3 uzly — trojúhelník bez přepínačů. Tři kabely, každý uzel o jeden skok dál. Triviální.
  • 4 uzly — bezvýměnný K₄, pokud nebudete růst, jinak malý výměnný uzlík. Oba jsou obhajitelné; rozhodujícím faktorem je předpoklad růstu.
  • 5 až 8 uzlů – obvykle přepínaných. Ring je vhodný pro práci s omezenou šířkou pásma, hypercube pro skutečně oddané. Obojí je těžší obhájit než jen koupit 16portový switch.
  • 9 nebo více uzlů – přepínané. Vždy. Bezpřepínač za tímto bodem je chyba maskovaná jako úspora.

Pokud nastavujete velikost malého clusteru AI a položka přepínače negativně ovlivňuje kusovník:

  1. Spočítejte uzly, které skutečně potřebujete. Ne „pro příštích pět let“. Letos a příští rok. Pokud je upřímná odpověď 2–4, je cesta bez přepínače reálná a stojí za to ji ocenit.
  2. Namapujte rozložení síťové karty. Dvouportový adaptér ConnectX-7 QSFP112 s rychlostí 200 Gb/s je nejběžnější součástí pro přímé připojení v našich sestavách z roku 2026. Čtyřportový SFP56 je volbou pro vyšší počet uzlů při nižší rychlosti na port.
  3. Rozhodněte se pro růstovou polohu. Pokud existuje nějaká smysluplná šance na překročení 8 uzlů, kupte si teď ten malý přepínač. Pozdější překabelování sítě je opravdu bolestivé.
  4. Naplánujte rovinu řízení samostatně. Bezpřepínací datová struktura, přepínaná rovina správy na levném 10 GbE. Nesbalujte je do jedné sady kabelů.
  5. Běh nccl-tests na topologii v aktuálním stavu před vyhlášením vítězství. Jedno NCCL_DEBUG=INFO Výstup vám řekne, které fyzické linky NCCL skutečně používá; porovnejte to s diagramem.
  6. Zdokumentujte kabeláž. Fotografie, popisky portů, jednostránkový diagram ve skříni. Až poprvé v 02:00 selže síťová karta, budete rádi.

Následující články k přečtení: N04 pro přepnutou alternativu, N06 pro analýzu latence, která ospravedlňuje vítězství bez přepínače, N02 pro volání InfiniBand vs. RoCE, které ovlivňuje, které síťové karty si koupíte, a K07 pro základní uzel, který toto vše spojuje.


Toto je součást Kentino Wiki, referenční série o výpočetní technologii s využitím umělé inteligence, robotice a systémech, které je propojují. Komentáře a opravy jsou vítány na adrese info@kentino.com.