Wiki o sestavení

Wiki o sestavení

Referenční série o sestavování, síťování, napájení a provozu výpočetních systémů s umělou inteligencí – pro kupující a integrátory, kteří volí velikost svého dalšího 4GPU serveru, 8GPU serveru nebo robotické laboratoře.

Každý článek je napsán na základě skutečných Kentino konstrukcí. Žádné zbytečné zbytečnosti. S vlastním názorem tam, kde to inženýrství vyžaduje. Upřímný ohledně limitů.

20články publikovány 9tematické skladby 2nové týdně · Út + Čt

Základní server umělé inteligence Řada W

Pokud specifikujete systém s více grafickými kartami, přečtěte si nejprve toto: Paměť, PCIe, napájení a seznam grafických karet.

W01RAM a VRAM: Jaký je jejich vztah v serveru s umělou inteligencíKrabice se 4 grafickými kartami, 192 GB VRAM a 32 GB RAM je nefunkční. Správný poměr závisí na tom, co skutečně používáte.
W02PCIe linky a topologie v multi-GPU AI serveruVýrok „PCIe x8 vs. x16 nehraje roli pro závěr“ je většinou správný – a lidé, kteří ho opakují, obvykle nevědí proč.
W03Rozšiřující karty GPU: Kdy je potřebujete a co se poroucháTam, kde integrita signálu tiše umírá, se spoje tiše přeškolují na Gen3 a benchmarky, které projdou testem, začnou denně ztrácet jeden GPU.
W04Dimenzování zdroje a konfigurace se dvěma zdrojiMatematika, realita provedení a poctivé zdůvodnění napájení 4 a 8 GPU.
W07Výběr GPU: 5090, 4090, RTX Pro 6000, L40, L4Upřímné osobní srovnání se skutečnými výkonnostními čísly, kompromisy a rozhodovacím postupem, který skutečně používáme u zákaznických hovorů.

networking řady N

Realita NVLink, topologie clusterů (leaf-spine, fat-tree, dragonfly, switchless), disekce latence, směrování a nastavení RDMA v praxi.

N03NVLink a NVSwitch: Když na tom záležíMarketing DGX se chlubí terabajty za sekundu šířky pásma NVLinku. Pro většinu úloh Kentina nic z toho nepotřebujete.
N04Přepínané topologie: Fat-Tree, Leaf-Spine, Dragonfly, TesseractKaždý klastrový diagram začíná stejně. Skutečnou volbou je výběr topologie, míra nadbytečného přihlášení a rychlosti na port.
N05Bezpřepínací topologie: Mesh, Ring, Direct-Connect32portový 400GbE přepínač dosáhne v polovině roku 2026 ceny 40 000–80 000 EUR. Pro 2 až 4 uzly jej nepotřebujete.
N06Disekce latence: Kam se ztrácí každá mikrosekundaLidé dimenzují sítě pomocí grafů šířky pásma. Pak jejich benchmark allreduce vypíše číslo, které se ani zdaleka neblíží rychlosti linky.
N07Směrování: ECMP, adaptivní směrování, DCQCNCo se děje nad kabely, síťovými kartami a přepínači: jak pakety nacházejí cestu a co brání kolapsu struktury (fabric) při all-reduce.
N08Nastavení RDMA v praxi + návrh uplinku clusteruPraktické cvičení: instalace ovladačů, ověření cesty, zapnutí GPUDirect, ověření NCCL a následný krok k návrhu uplinku celého clusteru.

Clustering K řady

Když jeden uzel nestačí. Rozhodování o jednom vs. více uzlech, distribuované trénování, inferenční clustery a sdílené úložiště.

K01Jeden uzel s více GPU vs. více uzelů: Kdy horizontálně navýšit kapacituNejdražší chybou je rozdělení rozpočtu GPU mezi dva uzly, když by práci zvládl jeden větší uzel.
K02Distribuované školení v roce 2026: DDP, FSDP2, DeepSpeed, MegatronČtyři open-source stacky, pět os paralelismu a kterou z nich si vlastně vybrat pro kterou úlohu.
K03Inferenční klastry: vLLM Tensor Parallel, Pipeline ParallelModel 70B se nevejde na jednu GPU s užitečnou KV mezipamětí. Model 405B se nevejde na jeden uzel. Způsob, jakým model rozříznete, určuje jeho cenu.
K04Clusterové úložiště: NFS, BeeGFS, Lustre, objektová úložištěSdílené úložiště je součástí distribuovaného clusteru, o které nikdo nepřemýšlí, dokud GPU nedosáhnou 40% využití.

Integrace Řada I.

Spojením všech prvků dohromady vzniká architektura robot-plus-server, která celou sérii propojuje se skutečným hardwarem.

I01Architektura EDGE AI: Robot ↔ On-Prem inferenční serverČlánek zlatého standardu. Humanoid, kterého jste si koupili, je jen polovina systému; toto je druhá polovina a to, jak jsou obě poloviny propojeny.

Robotika Řada R · blog

Moderní humanoid je šest nebo sedm inženýrských oborů propojených dohromady. Proces nákupu, proč roboti potřebují specializované edge computingové systémy a nejmodernější stack modelů světa řízený VLM.

R07Nákup robota: Dodací lhůty, celní vyřízení, podporaNákup robotického hardwaru v EU není jako nákup pracovní stanice. Jak ve skutečnosti vypadají dodací lhůty, celní odbavení a poprodejní podpora.
R08Proč roboti potřebují specializované edge computingové systémyArgument latence. Proč umístění vašeho modelu za cloudové API narušuje případ užití, který zákazník skutečně chce.
R09Automatické označování pomocí modelů světa řízených VLMŠpičkový systém pro vnímání – Qwen2.5-VL, Grounded-SAM 2, Florence-2, NVIDIA Cosmos – aplikovaný na skutečné informace z robotiky.

Případové studie Řada C · blog

Skutečné Kentino staví s reálnými naměřenými čísly. Fotografie, kusovníky, benchmarky a poctivé pitvy.

C01Případová studie: 4× pracovní stanice s umělou inteligencí a grafickou kartou RTX 4090EPYC 7542, 512 GB DDR4 ECC, 4× RTX 4090. Naměřeno 651.6 TFLOPS. 179.3 tok/s trvale při vLLM. Vrchol 73 °C. Reálná čísla z dodané sestavy.

Nové články každé úterý a čtvrtek

Tato wiki je rostoucí knihovna – nové články o sestavení, sítích, clusterech, energetice a robotice budou publikovány do roku 2026, každý z nich bude převzat ze skutečného sestavení Kentina. Pokud chcete, aby bylo upřednostněno konkrétní téma, napište na info@kentino.com.