Topologie přepínaných clusterů: Fat-Tree, Leaf-Spine, Dragonfly+, Tesseract
Každý klastrový diagram v balíčku dodavatelů začíná stejně: řada políček označených „uzel“, řada políček označených „přepínač“ a šipky mezi nimi. Diagramy jsou záměrně jednoduché, protože skutečná volba pod nimi – který topologie s jak moc nadměrné předplatné s co rychlost na port – je největším nákladovým rozhodnutím v clusteru AI po samotných GPU.
Tento článek je topologickou vrstvou mezi N02 (který protokol – InfiniBand, RoCE, obyčejný Ethernet) a N06-N08 (jak se drát ve skutečnosti chová po zapojení topologie). Zahrnuje čtyři rodiny, které budou důležité v roce 2026: tlustý strom / Clos / listová páteř, vážka / vážka+, tesseract / hyperkrychleA torus rodina, která přežila ve dvou specifických koutech HPC. Končí to upřímným konstatováním: zhruba devět z deseti zákazníků Kentina nic z toho nepotřebuje a článek existuje pro desátého.
Cílové publikum: lidé, kteří dimenzují trénovací cluster s 8 až 64 uzly a síť kolem něj. Ne kuchařka pro konfiguraci Cisco/NVIDIA – mentální model, který činí kuchařku čitelnou.
Tři různé věci, které lidé nazývají „šířka pásma“
Než nakreslíme rámečky a šipky, slovní zásoba. V literatuře o clusterovém prodeji se zaměňují tři termíny a nejedná se o stejné číslo:
| Období | Co vlastně měří | Kde tě to kousne |
|---|---|---|
| Agregovaná šířka pásma | Součet všech kapacit linků v síti Fabric. Číslo v datovém listu dodavatele. | Samotná k ničemu. Agregovaná struktura s rychlostí 1 TB/s může být pro jeden tok stále úzkým hrdlem. |
| Průřezová šířka pásma | Průchodnost libovolným řezem tkaninou. | Skutečná propustnost pracovní zátěže při nerovnoměrném provozu – to, co měříte během allreduce. |
| Šířka pásma bisekce | Průřezová šířka pásma napříč nejhorší řez, který rozděluje uzly na dvě stejné poloviny. | Číslo, které určuje, zda metoda allreduce dosáhne rychlosti linky ve velkém měřítku. |
32portový 400GbE přepínač má rychlost 12.8 Tb/s agregát šířka pásma. Položte na něj 16 uzlů s rychlostí 400 GbE každý a máte 3.2 Tb/s půlení šířka pásma (8 uzlů × 400 Gb/s na každé straně řezu). Pro krok allreduce, kde každý ze 16 GPU odesílá polovinu svého gradientu přes půlení, je těchto 3.2 Tb/s děleno časem kroku – nikoli 12.8.
Zkratka: Šířka pásma bisekce je jediné z těchto tří čísel, které předpovídá dobu trénovacího kroku u pracovní zátěže vázané na allreduce. Když se nabídky v brožuře dodavatele agregují, v duchu si vezměte nejhorší možný případ a podle něj je vydělte, abyste se vrátili k půlení.
Pro 16uzlový cluster s 8 GPU v každém (celkem 128 GPU) na uzlech s jednou síťovou kartou 100 GbE:
| topologie | Agregátní BW | Průřezová hmotnost (průměr) | Půlení BW |
|---|---|---|---|
| Jeden 32portový 100GbE přepínač | 1.6 Tb/s | 800 Gb / s | 800 Gb / s |
| Tlustý strom, 1:1 (úplná půlení) | 3.2 Tb/s | 1.6 Tb/s | 1.6 Tb/s |
| Fat-tree, 2:1 převyšující poptávku | 2.4 Tb/s | 800 Gb / s | 800 Gb / s |
| Vážka+ (4 skupiny po 4) | 2.0 Tb/s | ~1.0 Tb/s | ~800 Gb/s (nejhorší pár) |
| 4D tesseract (bez přepínačů) | 1.6 Tb/s | ~800 Gb/s | 800 Gb / s |
| 3D torus 4×2×2 | 1.5 Tb/s | ~600 Gb/s | 600 Gb / s |
Stejný počet uzlů, stejná rychlost drátu, různá čísla v závislosti na tom, co máte na mysli. Toto je rámování používané ve zbytku článku.
Tučný strom, Clos, listová páteř - totéž ve třech přízvukech
Charles Clos v roce 1953 dokázal, že vícestupňová síť malých přepínačů s příčnými spínači může být neblokující – jakýkoli vstup může dosáhnout jakéhokoli výstupu bez konfliktu – za zlomek ceny jednoho obrovského přepínače. Každá moderní síť datových center je nějakou variantou této myšlenky. Pojmenování se stalo zamotaným:
- A Síť Clos je matematická struktura: vstupní, střední a výstupní fáze menších přepínačů.
- A tlustý strom (Charles Leiserson, 1985) je Closova varianta, kde kmeny blíže ke kořeni postupně zesilují, takže šířka pásma půlení se škáluje s N.
- A složené Close zabalí výstupní fázi zpět do vstupní fáze. A list-páteř je dvoupatrový skládaný Clos. Třípatrový skládaný Clos s listem, páteří a superpáteří je to, co většina lidí v praxi nazývá tlustý strom.
Dvouvrstvý listový páteř: každý list se připojuje ke každému páteři. Libovolné dva uzly komunikují přesně ve dvou skokech. Úplné půlení = žádné překročení limitu na úrovni páteře.
Každý list se připojuje ke každé páteři. Provoz typu any-to-any je maximálně list → páteř → list, dva skoky. S dostatečnou šířkou pásma páteře je síťová struktura neblokující: každý uzel může současně komunikovat s každým dalším uzlem rychlostí linky.
Jedno poměr nadměrného předplatného je knoflík, který rozhoduje o ceně. Pokud má každý list 32 downlinků 100 GbE (3.2 Tb/s do racku) a 8 uplinků 100 GbE (800 Gb/s z racku), je nadměrné předplatné 4:1 — čtyřikrát větší šířka pásma do racku než z něj. Plná půlení znamená 1:1: tolik uplinku jako downlinku. 2:1 je běžné v datových centrech pro všeobecné použití. 1:1 (úplná půlení) je základní linie klastru umělé inteligence.
| Konfigurace | Listové uplinky | Počet páteří | Přibližná cena spínače a optiky (2026) | Půlení BW |
|---|---|---|---|---|
| Jeden 64portový 400GbE přepínač (jeden rack) | n / a | 1 | ~50 tisíce dolarů | 12.8 Tb/s (jeden stojan) |
| Dvouvrstvý listový páteř, převyšující předplatné 2:1 | 8× 100 GbE | 2× 32portový | ~120 tisíce dolarů | 800 Gb / s |
| Dvouvrstvý listový páteř, převyšující předplatné 2:1 | 16× 100 GbE | 4× 32portový | ~180 tisíce dolarů | 1.6 Tb/s |
| Dvouvrstvý listový páteř, plné půlení (1:1) | 32× 100 GbE | 8× 32portový | ~280 tisíce dolarů | 3.2 Tb/s |
| Dvouvrstvé, 400 GbE uplinky, plné rozdělení | 8× 400 GbE | 4× 32portový | ~220 tisíce dolarů | 3.2 Tb/s, méně kabelů |
Cena se zhruba zdvojnásobí z poměru 4:1 na 1:1, protože kupujete dvakrát tolik páteřních portů a dvakrát tolik optiky. Důvod, proč každý seriózní cluster umělé inteligence platí tuto prémii: Nadměrné předplatné ničí vše, snižuje propustnost. Synchronizovaná 8flow allreduce na tkanině s přetlakem 4:1 neběží čtvrtinovou rychlostí – hroutí se pod protitlakem PFC (N07) a v praxi může ztratit 60–80 % teoretické propustnosti. Matematika říká „dělit 4“. Realita říká „dělit 5–10“.
Referenční architektura DGX SuperPOD od společnosti NVIDIA specifikuje třívrstvý fat-tree s plným rozdělením na Quantum-2 NDR InfiniBand s rychlostí 400 Gb/s na port. Trénovací clustery RoCE publikované společností Meta a řada Azure ND od společnosti Microsoft vytvářejí stejný tvar na ethernetu Spectrum-X. Průmysl se pro školení umělé inteligence zaměřil na plně rozdělený tučný strom., a vývoj v letech 2024–2026 vede k rozšíření fat-tree (400 GbE → 800 GbE na port) nebo optimalizaci pro železniční sběrnici (další část), aniž by se změnila základní topologie.
Tlustý strom optimalizovaný pro kolejnice – dialekt specifický pro umělou inteligenci
Standardní fat-tree zachází s každou síťovou kartou stejně. Trénink umělé inteligence se zajímá o... který Síťová karta GPU odesílá který gradient, protože dopravní vzorce allreduce nejsou jednotné. optimalizováno pro kolejnice Varianta přiřadí každou GPU v uzlu ke specifické „kolejnici“ – vyhrazené cestě mezi listy a páteřmi – a zajistí, že i-tá GPU na každém uzlu komunikuje pouze s i-tou GPU na každém dalším uzlu prostřednictvím i-té kolejnice.
Tlustý strom optimalizovaný pro Rail: každý slot GPU se mapuje na vyhrazenou nezávislou rovinu páteře. Kruh Allreduce na GPU 3 používá pouze Rail 3.
Osm nezávislých dvouvrstvých fat-stromů, jeden na slot GPU. Kruh Allreduce na GPU 3 napříč 16 uzly využívá 👔 Kolejnice 3, nikdy nekříží do jiných kolejnic. Výhody: nulové kolize ECMP mezi kolejnicemi, jednodušší směrování, nižší radix přepínače na rovinu. Kompromis: úloha, která se rozprostírá přes sloty GPU (tenzorově paralelní uvnitř uzlu, datově paralelní napříč uzly), je stejně rozdělena mezi kolejnice pomocí NCCL, takže topologie pomáhá pouze tehdy, pokud je pracovní zátěž sladěna. Pro datově paralelní a kolejově-alergenní NCCL je to jasná výhra; pro tenzorově paralelní překlenující kolejnice se úspora vypaří.
Vážka a Vážka+ – když si nemůžete dovolit fattree
Náklady na tlustý strom rostou zhruba jako N log N – každé zdvojnásobení počtu uzlů vyžaduje větší šířku pásma páteře a třetí vrstva zdvojnásobuje počet přepínačů na koncový bod. Pro 1024 uzlů je možné sestavit neblokující třívrstvý tlustý strom. Pro 10 000 uzlů je počet přepínačů a náklady na optiku zahlcující. Dragonfly, navržený Johnem Kimem, Williamem Dallym a kol. v roce 2008, byl navržen speciálně pro škálování za tuto hranici.
Myšlenka: shlukování uzlů do skupinyUvnitř skupiny jsou všechny přepínače hustě propojeny (často menší Clos). Mezi skupinami má každá skupina jedno přímé spojení s každou další skupinou. Výsledkem je síť s průměr 3 (skupinově-lokální přeskok, meziskupinový přeskok, skupinově-lokální přeskok), který se škáluje na enormní počet uzlů s mnohem menším počtem dálkových kabelů než fat-tree.
Dragonfly: husté vnitroskupinové uzly Clos, jeden globální odkaz na pár skupiny. Průměr 3. Škálovatelné na 1000+ uzlů s menším počtem dálkových kabelů než fat-tree.
Velká úspora je optické kabelyDálková optika mezi racky je nejdražší částí fat-tree. Dragonfly je nahrazuje jedním fat linkem na pár skupin, nikoli jedním na kombinaci list-páteř. Pro cluster s G skupinami po S uzlech potřebuje fat-tree zhruba G × S × log(G × S) kabelů; dragonfly potřebuje G(G − 1)/2 meziskupinových kabelů plus strukturu fabric na skupinu. Při G = 32 skupinách po 32 uzlech (celkem 1024) se počet dálkových kabelů snižuje zhruba o řád.
Vážka+ (Mellanox, 2017) to vylepšuje pro InfiniBand. Vnitroskupinová struktura se stává malým dvoudílným Clos, takže rozšiřování skupiny nevyžaduje nové zapojení a meziskupinové propojení využívá adaptivní směrování, aby se vyhnulo přetíženým skupinám. Toto je topologie v Hranice (ORNL, exascale AMD MI250X) a El Capitan (LLNL, MI300A) – oba zapojeny s přepínači HPE Slingshot-11 v uspořádání dragonfly, maximální průměr tří přeskoků, 12.8 Tb/s na přepínač.
Háček je v tom, režim selhání pro malé úlohy, které zahrnují skupinyV tlustém stromu vidí dva uzly na opačných koncích clusteru stejnou šířku pásma bisekce jako dva uzly vzdálené jeden rack (modulo počet skoků). V uzlu dragonfly sdílejí dva uzly v různých skupinách své meziskupinové spojení s každým dalším tokem napříč skupinami. Pokud vaše trénovací úloha s 16 GPU přistane na 8 uzlech ve skupině A a 8 ve skupině B, sdílíte jedno meziskupinové spojení se všemi ostatními, kteří se nacházejí ve stejném páru. Adaptivní směrování pomáhá; neodstraňuje soupeření.
Praktické důsledky: Dragonfly funguje skvěle u problémů s hyperscalerem (1000+ uzlů, úlohy dimenzované tak, aby zaplnily skupiny), ale ne tak dobře u středních clusterů s různorodými malými úlohami. Pro 16uzlový trénovací cluster je to špatná topologie – fat-tree je v tomto měřítku levnější a rychlejší. Pro 1024uzlový superpočítač se smíšenou zátěží je to správná topologie.
Tesseract — 4D hyperkrychle
Tesseract je 4D hyperkrychle: 16 vrcholů, každý spojený s přesně 4 sousedy, průměr 4 (nejdelší nejkratší cesta mezi libovolnými dvěma uzly). Zobecněme na k dimenzí a dostaneme k-krychle: 2k uzly, každý s k přímými spojeními, průměr k. Směrování Hammingovy vzdálenosti – XOR zdrojové a cílové adresy, otáčení bit po bitu – je triviálně deterministické a vyvažované zátěží při náhodném provozu.
Tesseract (4D hyperkrychle): 16 uzlů, každý se 4 sousedy. Plné čáry = hrany 3D krychle; přerušované čáry = spojnice 4. dimenze. Průměr 4. Každé označení uzlu je 4bitová adresa; sousedé se liší přesně o jeden bit.
Topologie hyperkrychlí dominovaly masivně paralelnímu výpočtu v 80. letech 20. století. Připojovací stroj CM-2 (Thinking Machines, 1987) měla 65 536 uzlů propojených do 12rozměrné hyperkrychle. Intel iPSC/2 provozoval 7D hyperkrychle. CM-5 (Thinking Machines, 1991) opustili hyperkrychle ve prospěch fat-tree, protože přístup s hyperkrychlí se neškáloval elegantně za hranici přibližně 1024 uzlů – každá nová dimenze zdvojnásobuje počet uzlů a vyžaduje překabelování každého existujícího uzlu.
V roce 2026 se termín „tesserakt“ stále objevuje na třech místech, která stojí za to rozlišovat:
- Jako název výzkumného / DiRAC HPC systému. DiRAC Tesseract v EPCC (Edinburgh) je cluster HPE SGI 8600 s 1476 uzly na bázi Intel Omni-Path. „Tesseract“ je branding; struktura se blíží fat-tree.
- Jako výzkumný termín „řídicí rovina SDN“ (Tesseract: 4D řídicí rovina, Yan a kol.). Nesouvisí s fyzickou topologií.
- Jako základní topologie kompaktních nepřepínacích urychlovacích klastrů. Šestnáctizubový cluster zapojený jako doslovná 4D hyperkrychle má zajímavé vlastnosti: každý uzel má přesně 4 síťové karty, žádný centrální přepínač, deterministické směrování a průměr 4. Tomu se podrobně věnujeme v N05 (topologie bez přepínačů).
Co tesseract nabízí v roce 2026: žádná daň za přepínání, deterministické směrování pomocí Hammingovy vzdálenosti XOR a nízký průměr (log₂(N)). Co ho ztěžuje: fixní N (musí být mocninou 2), složitost kabeláže roste s dimenzí, počet síťových karet na uzel se rovná k a moderní kolektivy umělé inteligence (NCCL kruh/strom) nativně nevyužívají strukturu hyperkrychle.
Torus — přeživší ve dvou specifických rozích
k-árná n-krychle zobecňuje hyperkrychli: místo binární adresy s jedním odkazem na dimenzi použijte mřížku k x k x k s obtékáním. 3D torus má každý uzel propojený se 6 sousedy (±x, ±y, ±z). 6D torus má 12 sousedů.
IBM Blue Gene/L a /P běžel na 3D torusu a škáloval se na stovky tisíc uzlů, přičemž každý uzel měl pouze 6 vysokorychlostních spojení. Fujitsu Tofu (propojení počítače K, 2011) zobecnil toto na 6D síť/torus — 158 976 uzlů na Fugaku (aktivní do roku 2026), uspořádaných 24×23×24×2×3×2.
Motor Cerebras v měřítku destiček používá 2D torus na destičce: každý procesní prvek má 4 sousedy, obtáčení, ~1 ns na skok. To funguje, protože vodiče na destičce jsou téměř volné; kabely mimo destičku by nebyly.
Proč torus prohrál všude jinde: asymetrické cesty a špatné chování pro nejednotné úlohy umělé inteligence. Moderní úlohy umělé inteligence (prstenc/strom NCCL, hierarchické algoritmy NVIDIA) předpokládají jednotnou šířku pásma od libovolného k libovolnému. Torus to porušuje. V roce 2026 torus přežije na třech místechPropojení na destičkách od Cerebras, Fujitsu Fugaku a nástupci a uvnitř uzlů SXM přes NVSwitch. Mimo tyto niky je každý nový cluster umělé inteligence v letech 2025–2026 uzavřen.
Srovnávací tabulka
| topologie | Průměr | Bisection BW (16 uzlů, 100 GbE) | Požadované přepínače | Kabely (přibližně) | Poměr nákladů vs. fat-tree 1:1 | Růstový model |
|---|---|---|---|---|---|---|
| Jeden spínač | 1 | 800 Gb/s (omezeno přepínačem) | 1× 32portový | 16 | 0.3 × | Pevná koncovka na přepínacím radixu |
| Tlustý strom 1:1 (úplná půlení) | 2 | 1.6 Tb/s | 2 páteře + 2 listy | 64 | 1.0 × | Přidejte listy / ostny |
| Tučný strom 2:1 | 2 | 800 Gb / s | 2 páteře + 2 listy | 48 | 0.7 × | Přidejte listy |
| Vážka+ | 3 | 800 Gb/s (omezeno skupinovým párováním) | 4 (2 na skupinu) | 32-40 | 0.6× při 16 N; překlopí se při tlaku nad 64 N | Přidat skupiny |
| 4D tesseract (bez přepínačů) | 4 | ~800 Gb/s (efektivní) | 0 | 32 | 0.4 × | Zdvojnásobí se přidáním dimu |
| 3D torus (4×2×2, bez přepínačů) | 4 | ~600 Gb/s | 0 | 48 | 0.5 × | Jakýkoli obdélníkový rozměr |
Cluster uplink – jak se topologie setkává s vnějším světem
Přepínaná struktura (fabric) je ostrov. Musí se připojit k podnikové síti (registry modelů, úložiště datových sad, S3, telemetrie), k vývojářským pracovním stanicím (SSH, Jupyter, kopírování kontrolních bodů) a k dalším clusterům (trénování → předávání inference). Toto připojení je... uplink clusteru.
Dva modely s velmi odlišnými důsledky:
Jeden bod pro uplink. Dvojice páteřních přepínačů (nebo vyhrazený uplink router) ukončuje veškerá externí připojení. Snadno se konfiguruje firewallem, snadno se omezuje rychlost, snadno se monitoruje. Režim selhání: dané spojení je jediným bodem selhání; jeho saturace (kopírování velkého kontrolního bodu, stažení 10GB datového segmentu) ovlivňuje všechny uzly současně.
Distribuovaný uplink. Každý list má samostatný uplink do kampusové sítě, často pomalejší 25 GbE nad 100 GbE fabric. Stahování datových sad a externí provoz zůstávají lokální pro list – nedochází k přetížení interní fabric. Způsob selhání: každý list představuje bezpečnostní hranici, firewall je N-krát náročnější, monitorování je obtížnější.
Pro základní případ Kentina (trénovací cluster 4–16 uzlů) je správnou odpovědí jeden bod uplinku. Vnitřní fabric je pouze RDMA (RoCE nebo InfiniBand), vyladěný pro nízkou latenci a bezztrátové chování. Uplink je čistý Ethernet, TCP, normální QoS. Ne Umístěte úložiště objektů datové sady na stejnou bezeztrátovou strukturu (fabric) jako GPU allreduce – chybně fungující klient S3 by neměl být schopen spustit zpětný tlak PFC na trénovací provoz. Dvě struktury: datová rovina (bezeztrátový RDMA) a rovina správy/uplinku (ztrátový TCP). N08 zahrnuje praktické nastavení.
Kentino upřímný pohled
Většina zákazníků Kentina kupuje 1 až 4 uzly. V tomto měřítku:
- 1 uzel. Žádná otázka topologie. PCIe uvnitř krabice (K07), jedna 25GbE síťová karta pro správu venku, hotovo.
- 2 uzly. Přímý kabel mezi dvěma RDMA síťovými kartami. Žádný přepínač. Žádná topologie k výběru.
- 3–4 uzly. Jeden 32portový 100GbE přepínač zvládá propojení všech sítí s plnou bisekcí za celkem 30 000–50 000 dolarů. Stále si nelze vybrat topologii.
Konverzace o topologii začíná na Uzly 8, když se počet portů jednoho přepínače zúží a stane se povinným v Uzly 16Pod touto úrovní je správná odpověď „jeden dobrý switch, plné rozdělení na každý port, ať si žije dál.“ Nad touto úrovní je správná odpověď „dvouvrstvý switch typu leaf-spine, 100 nebo 200 GbE na uzel, plné rozdělení (1:1) a nikdy se nedotýkejte tlačítka pro překročení limitu, pokud vás k tomu někdo nedonutí.“
Dragonfly+ je správnou odpovědí na problémy s hyperscalerem. Tesseract / hypercube je zajímavý jako bezspínačová varianta pro kompaktní clustery (N05Torus je volbou vázanou na dodavatele pro operátory HPC s úlohami zohledňujícími topologii. Pro všechny ostatní v cenovém pásmu Kentina je fat-tree výchozí volbou. Úplná bisekce, pokud si to můžete dovolit; 2:1, pokud ne; nikdy 4:1 pro trénink umělé inteligence.
Co dělat dál
Pokud upravujete velikost přepínané struktury pro skutečný cluster:
- Zapište si počet uzlů, počet grafických karet na uzel a rychlost linky na síťovou kartu. Vynásobte. Vydělte dvěma. To je vaše cílové číslo půlení.
- Rozhodněte se, zda vaše úlohy pokrývají celý cluster, nebo zda se nacházejí v jednom racku. Úlohy lokálně v racku tolerují nadměrný počet předplatných. Úlohy přesahující cluster ne.
-
Běh
nccl-tests/all_reduce_perfna dočasné konfiguraci fat-tree před potvrzením kabelového vedení. Pokud 8-uzlový allreduce již ztrácí 20 % teoretické sběrnice, máte jiný problém než topologii. - Neoptimalizujte pro příštích 5 let. Kupte si pro cluster, který letos potřebujete, s jasnou možností expanze. Topologie s listy a páteří typu „tlustý strom“ je nejlevnější pro postupný růst.
- Přizpůsobte uplink rychlosti příjmu datové sady, nikoliv kvůli rychlosti interní struktury. Většina clusterů potřebuje odchozí data 25–100 GbE, nikoli 400.
- Dvě látky, vždy. Datová rovina a rovina správy jsou oddělené, a to i na 4 uzlech.
Následné kroky v této skladbě jdou hlouběji: N05 zahrnuje topologie bez přepínačů (možnosti tesseractu a torusu, když skutečně nechcete žádný přepínač); N06 analyzuje, odkud pochází každá mikrosekunda latence, jakmile je fabric spuštěna; N07 zahrnuje práci na směrování a řízení přetížení, která rozhoduje o tom, zda vaše krásná topologie skutečně funguje; N08 je praktické nastavení RDMA a návrh clusterového uplinku.
Toto je součást Kentino Wiki, referenční série o výpočetní technologii s využitím umělé inteligence, robotice a systémech, které je propojují. Komentáře a opravy jsou vítány na adrese info@kentino.com.