RAM a VRAM: Jaký je jejich vztah v serveru s umělou inteligencí

První otázka, kterou si kupující kladou ohledně serveru s umělou inteligencí, je „kolik GPU“. Druhou je „jaký CPU“. Otázka, která ve skutečnosti rozhoduje o tom, zda zařízení funguje dobře – a kterou většina specifikací pohřbívá – je, jak jsou oba paměťové systémy dimenzovány vůči sobě navzájem. Stroj se 4 GPU, 192 GB VRAM a 32 GB systémové RAM je nefunkční. Stejný stroj s 1 TB systémové RAM je pro většinu úloh spálenou peníz. Správná odpověď se nachází někde mezi tím a závisí na tom, co skutečně používáte.

Tento článek se zabývá tím, co dělají VRAM a systémová RAM, jak spolu souvisí, kde se nacházejí úzká hrdla šířky pásma a jaké poměry se v praxi projevují. Je určen pro kupující a integrátory, kteří definují velikost sestavení, nikoli pro inženýry píšící CUDA jádra.

Co VRAM skutečně obsahuje

Když je model „načten na GPU“, ve VRAM se nacházejí tři věci:

  1. Váhy modelů. Model 70B v FP16 má 140 GB; v INT8 70 GB; v INT4 (běžná kvantizace vlastního hostitele) 35–40 GB v závislosti na schématu kvantování.
  2. KV mezipaměť. Náklady na paměť na požadavek. Model 70B při kontextovém singlestreamu 8K je 1–2 GB. Při 32K je to 4–8 GB. Při dávkovém obsluze (10–20 souběžných) se tím zaplní zbývající VRAM, nikoli váhy.
  3. Aktivace a pracovní prostor. Mezilehlé procesy vpřed, fáze pozornosti, pracovní prostor jádra. Několik GB pro inferenci; podstatně více během trénování, protože aktivace se ukládají pro zpětný průchod.

Pro trénink přidejte stav optimalizátoru (Adam si uchovává dvě hodnoty FP32 na váhu – zhruba 8× velikost váhy FP16) a přechody (1× velikost hmotnosti). Proto trénování 70B modelu od nuly vyžaduje 8× uzlů H100 nebo A100 s kapacitou 80 GB a Kentino to nedělá. Jemné ladění s LoRA nebo QLoRA je jiný příběh a pohodlně funguje na sestavení Blackwell se 4 GPU 5090 nebo Pro 6000.

Praktické důsledky: velikost modelu ve VRAM není „parametry × bajty na parametr“. Pro nasazení 70B modelu na INT4 v kontextu 8K naplánujte 40 GB váhy + 20–40 GB KV cache při realistické dávce + 4 GB režie = ~70 GB. To se vejde na jednu RTX Pro 6000 Blackwell Server Edition (96 GB) nebo potřebuje 3–4 RTX 5090 pro jakoukoli rozumnou dávku. „Celkový počet VRAM“ je méně důležitý než „VRAM na kartu a jak se připojují“.

Šířka pásma VRAM: číslo, které určuje rychlost generování tokenů

Generování tokenů na transformátorovém LLM je omezeno šířkou pásma, nikoli výpočetním výkonem. Každý vygenerovaný token čte celý model z VRAM přes paměťovou sběrnici. Číslo TFLOPS uvedené ve specifikaci je pro inferenci do značné míry irelevantní; důležitá je šířka pásma paměti v GB/s.

GPU VRAM Typ paměti Šířka pásma Zdroj
RTX 4090 24 GB GDDR6X 1.01 TB / s Specifikace NVIDIA
RTX 5090 32 GB GDDR7 1.79 TB / s Specifikace NVIDIA
RTX Pro 6000 Blackwell (pracovní stanice) 96 GB GDDR7 ECC 1.79 TB / s Specifikace NVIDIA
RTX Pro 6000 Blackwell Server Ed. 96 GB GDDR7 ECC 1.79 TB / s Specifikace NVIDIA
L40 48 GB GDDR6 ECC 0.86 TB / s Specifikace NVIDIA
L4 24 GB GDDR6 0.30 TB / s Specifikace NVIDIA
H100 SXM (referenční, neprodává se) 80 GB HBM3 3.35 TB / s Specifikace NVIDIA
H200 SXM (referenční, neprodává se) 141 GB HBM3e 4.8 TB / s Specifikace NVIDIA

Kentino neprodává H100 ani H200; jsou uvedeny pro poctivé srovnání. Zůstávají králi šířky pásma a důvodem, proč je hyperscaleři kupují. Cenový rozdíl je 6–10×, rozdíl v šířce pásma u inference jednoho streamu je 2×. Pro nehyperscale úlohy tato matematika nehodlá podporovat HBM.

Hrubé pravidlo pro generování tokenů INT4 v jednom streamu: tok/s ≈ šířka pásma (GB/s) / velikost modelu (GB), krát faktor účinnosti zásobníku 0.6–0.8. Model 70B na INT4 (~40 GB) na jednom 5090:

1790 GB/s × 0.7 / 40 GB ≈ 31 tok/s (single stream, no batching)

To odpovídá tomu, co jsme naměřili v testovacím prostředí. Dávkování zvyšuje agregovanou propustnost na 50–100 tok/s, ale rychlost na stream zůstává blízko stropu šířky pásma. Toto číslo nemění žádné množství systémové paměti RAM.

ECC VRAM: reálná pro trénování, méně kritická pro inferenci

Řada RTX Pro 6000 Blackwell obsahuje ECC (opravu chyb) VRAM. Spotřebitelské karty (5090, 4090) ji ne. Marketing to prezentuje jako kritickou záležitost; realita je však složitější.

Paměť ECC VRAM detekuje a opravuje jednobitové chyby paměti za chodu. Bez ní se převrácení šíří – obvykle neviditelně během inference (jeden token se mírně liší, než by byl), občas katastroficky během trénování (šíření NaN, divergence, mrtvý průběh).

Když je ECC důležité:

  • Dlouhodobý trénink. Paměťový provoz u vícedenních úloh zvyšuje pravděpodobnost tichého přepnutí bitu. Ztráta 48hodinového běhu kvůli nezjištěné chybě je mnohem horší než kvůli opravené chybě.
  • Numerické úlohy bez lidské účasti. Simulace, modelování, cokoli spotřebovaného následně bez kontroly správnosti.
  • Regulované pracovní zátěže. Pokud váš režim dodržování předpisů vyžaduje bitově přesnou reprodukovatelnost, je ECC povinné.

Pokud je ECC převážně kosmetické povahy:

  • Poskytování inference LLM. Bitflip rate u moderních pamětí GDDR7 je dostatečně nízká, takže vliv na kvalitu výstupu je nižší než šum. Spotřební karty 5090 jsme měsíce provozovali pod silným inferenceovým režimem, aniž bychom zaznamenali anomálie, které by mohly souviset s chybami VRAM.
  • Generování obrázků a videa. Percepční šumová podlaha pohlcuje chybu jednoho bitu.
  • Vývoj a experimentování. Restart a opětovné spuštění je levné.

Upřímná verze: pokud je úlohou primárně inference, pak prémiová karta Pro 6000 platí za 96 GB VRAM a ověřené ovladače, nikoli za ECC. Pokud je úlohou trénování, ECC si na sebe vydělává. Prodáváme obojí a totéž vám řekneme i po telefonu.

Systémová RAM: kolik a pravda o odlehčení CPU

Systémová paměť RAM dělá v serveru s umělou inteligencí čtyři věci:

  1. Fáze modelu načítání z disku do VRAM. Soubor modelu 70B přesouvá NVMe → mezipaměť stránek → systémová RAM → VRAM. Pokud je systémová RAM menší než soubor, načítání se buď nezdaří, nebo dojde k zablokování.
  2. Podporuje OS, inferenční server (vLLM, llama.cpp, Triton) a pomocné služby. (vektorová databáze, monitorování, fronta požadavků).
  3. Uchovává stav tokenizátoru, fronty požadavků a vyrovnávací paměti před a po zpracování.
  4. Volitelně hostuje vrstvy odlehčené od CPU. Tohle je to, co lidé přeceňují.

Odlehčení CPU v llama.cpp a podobných běhových prostředích umožňuje spustit model větší než VRAM tím, že některé vrstvy ponechává na CPU a streamuje je přes GPU pro každý token. Funguje to. V téměř každém reálném případě je to také cvičení v utrpení.

Čísla: 5090 má šířku pásma VRAM 1.79 TB/s. 12kanálová platforma EPYC Genoa s pamětí DDR5-4800 poskytuje celkem ~460 GB/s. Odlehčení CPU je optimisticky 4–6× pomalejší na token než plná rezidenční VRAM — to předpokládá perfektní lokalitu NUMA a CPU, které není zároveň zaneprázdněno obsluhou režijních nákladů.

Srovnávací testy z krabice 4×5090 s --n-gpu-layers naladěno:

  • Plně na GPU (70B INT4 napříč 4×24 GB): 28–32 tok/s jeden stream.
  • 80 % na GPU, 20 % na CPU: 6–9 tok/s.
  • 50/50: 2–4 tok/s.

Tohle není názor Kentina. Jde o to, jak se šířka pásma DDR5 vztahuje k šířce pásma GDDR7. Řešením problému „model se nevejde do VRAM“ je více nebo lepší GPU, nikoli systémová RAM s odlehčením zátěže. Výjimkou je platforma AMD Ryzen AI Max 300 s unified memory, což je jiná věc, která je mimo rozsah.

Kupte si dostatek systémové paměti RAM pro načítání a obsluhu, ne pro výpočet.

Kolik systémové RAM konkrétně

Funkční pravidlo pro sestavení K-AI:

System RAM ≈ 1.5 × total VRAM, rounded to the next standard config.

Pro sestavení se 4 GPU:

Vytvořit Celková VRAM Doporučená systémová RAM
4× RTX 4090 (celkem 96 GB) 96 GB 128 GB
4× RTX 5090 (celkem 128 GB) 128 GB 192 GB
4× RTX Pro 6000 GHz (celkem 384 GB) 384 GB 512 GB
4× L40 (celkem 192 GB) 192 GB 256 GB

U sestav s 8 grafickými kartami není škálování RAM striktně lineární – pokud možno se držte v rámci kanálů jednoho socketu. Výchozí nastavení je 256 GB na 8× 5090 a 512 GB na 8× Pro 6000 Blackwell.

Pravidlo má na okrajích dva režimy selhání:

  • Nedostatečné specifikace: 64 GB na 8GPU serveru. Model se načítá pomalu, mezipaměť stránek nedokáže uchovat váhy pro rychlé opětovné načítání a souběžné obsluhování a pomocné služby (pgvector, monitoring) se začínají prohazovat.
  • Nadměrně specifikované: 2 TB na inferenčním boxu se 4 GPU. Funguje to dobře, ale utratili jste 4 000–8 000 EUR za RAM, která stránkuje stránky. Výjimkou je hostování mnoha modelů a jejich střídání VRAM↔RAM – pak velká systémová RAM funguje jako horká mezipaměť. Vzácné mimo výzkumné laboratoře.

Existuje i případ „64 GB stačí“: stroj se 2 GPU, jeden model najednou, žádná souběžnost, žádné pomocné služby. Není to seriózní server, ale seriózní vývojářská pracovní stanice.

Kanály EPYC: odkud vlastně pochází šířka pásma

Šířka pásma systémové RAM na AMD EPYC (základě téměř všech našich 8GPU serverů) se škáluje s počtem obsazených paměťových kanálů, nikoli s rychlostí modulů DIMM. Kanály jsou na patici, obsazený jeden modul DIMM na kanál.

Plošina Kanály na zásuvku Rychlost DIMM (typická) Šířka pásma na soket
EPYC 9004 (Janov) 12 DDR5-4800 ~ 460 GB / s
EPYC 9005 (Turín) 12 DDR5-6000 ~ 576 GB / s
EPYC 9005 Turínská hustá 12 DDR5-6400 ~ 614 GB / s
Xeon SP 5. generace 8 DDR5-5600 ~ 358 GB / s

Dvě věci z této tabulky:

  1. Naplňte všech dvanáct kanálů na platformě EPYC Genoa/Turín, aby se dosáhlo inzerované šířky pásma. Osm modulů DIMM v dvanáctikanálovém systému poskytuje osm kanálů šířky pásma, nikoli dvanáct. V praxi se s touto nesprávnou konfigurací setkáváme neustále.
  2. Počet modulů DIMM určuje minimální rozumnou velikost paměti RAM. 12 × 16 GB = 192 GB. 12 × 32 GB = 384 GB. Konfigurace „šetřící peníze“, které využívají méně modulů DIMM (šest 32GB modulů DIMM pro 192 GB), nechávají polovinu šířky pásma volnou. To nedělejte.

Dvoupaticový procesor poskytuje celkem 24 kanálů; šířka pásma se celkově zdvojnásobí, ale pouze pokud pracovní zátěž respektuje standard NUMA.

NUMA: náklady na překročení hranice

Dvoupaticový server EPYC má dva čipy CPU, každý s vlastními řadiči paměti, sloty DIMM a kořenovým komplexem PCIe. Přechod z paměti jednoho socketu do grafického procesoru druhého socketu prochází sítí Infinity Fabric – rychle, ale ne tak rychle jako při lokálním přenosu dat.

Hrubá, ale užitečná čísla:

Cesta Šířka pásma Penalizace k latenci vs. lokální
Patice procesoru 0 → lokální DIMM ~ 576 GB / s 1× (výchozí hodnota)
Patice CPU 0 → vzdálený DIMM (přes fabric) ~256–320 GB/s 1.6–2× latence
GPU na socketu 0 → lokální DIMM (přes PCIe + DMA) ~28 GB/s (PCIe 5.0 x16) 1 ×
GPU na patici 0 → DIMM na patici 1 ~14–20 GB/s 1.5–2× latence

Pro závěr lze říci, že penalizace NUMA je obvykle neviditelná – jakmile je model ve VRAM, provoz systémové RAM je nepatrný. NUMA má význam, když:

  • Načítání modelu. Načtení 100 GB z nesprávného uzlu trvá znatelně déle. Vázat pomocí numactl nebo nastavte afinitu v běhovém prostředí kontejneru.
  • Předzpracování na straně CPU (tokenizace ve velkém měřítku, dekódování obrazu, převzorkování zvuku). Zaneprázdněný tokenizátor na socketu 0 s GPU zavěšenými na socketu 1 ztrácí 20–40 % propustnosti.
  • Trénování se stavem optimalizátoru s odlehčením CPU (DeepSpeed ​​Zero-Offload). NUMA-cizí stav zdvojnásobuje dobu kroku. Všechno zafixovat.

Praktická odpověď: Výchozí nastavení pro jeden soket pro inferenční servery Pokud nemáte konkrétní důvod pro duální procesory. V naší nabídce existuje duální procesor (K-AI 256 Turin Dual), protože některé úlohy – souběžné trénování a inference, velké vektorové úložiště v paměti, osm GPU vyžadujících dva kořenové komplexy – je skutečně potřebují. Většina ne. Jednosocketový Turin s 12 kanály a 384–512 GB zvládne většinu případů použití inference.

DDR5 RDIMM vs. LRDIMM a ECC

Serverová RAM v roce 2026 bude jednotně DDR5 ECC. Volba je RDIMM vs. LRDIMM:

  • RDIMM (registrovaná): Standardní serverová paměť, bufferovaná cesta příkazů, včetně ECC. Možnost čištění modulů až do 64 GB, na některých platformách až 128 GB.
  • LRDIMM (snížené zatížení): přidává vyrovnávací paměť, která snižuje zatížení sběrnice a umožňuje vyšší kapacitu na kanál. Vyžadováno pro moduly s kapacitou 128 GB a více. Mírně vyšší latence, v reálných pracovních zátěžích marginální.

Výchozí nastavení Kentina: 32 GB nebo 64 GB RDIMM s pamětí DDR5-4800 (Janov) nebo DDR5-6000 (Turín). LRDIMM pouze v případě, že sestavení vyžaduje 1 TB+, zřídka se vyskytují externí školení nebo hosting s více modely. ECC je neobchodovatelné – serverové DIMM bez ECC nejsou k dispozici v platformách, které dodáváme.

Co se porouchá, když je paměť špatná

Předvídatelné režimy selhání, zhruba v pořadí podle četnosti:

  • Pomalé načítání modelu na nedostatečně specifikované RAM. Model 70B má na disku ~40 GB. S 32 GB systémové RAM načítání zahlcuje mezipaměť stránek a 40sekundový studený start se změní na 4 minuty. Oprava: 1.5× celkové minimum VRAM.
  • Penalizace poloviční šířky pásma z důvodu nedostatečně osazených kanálů DIMM. Šest modulů DIMM v dvanáctikanálovém EPYC. Předzpracování vázané na CPU se tiše rozděluje na polovinu. Oprava: naplnění všech kanálů.
  • Přístup NUMA-foreign na duálním soketu s neshodnou afinitou. Fix: numactl --cpunodebind=0 --membind=0nebo režim frameworku s podporou NUMA.
  • OOM ve vysoké dávce na podhodnocené mezipaměti KV. vLLM --gpu-memory-utilization 0.9 Zbývá 10% rezervy, ale 64 souběžných operací s kontextem 32 kB stále přeplňuje 24GB kartu. Oprava: kratší kontext, menší dávka nebo více VRAM.
  • Odlehčení CPU „uloží“ sestavení a zničí propustnost. „Server je pomalý“ – ukázalo se, že 30 % vrstev je na CPU, protože VRAM byla omezená. Chyba v dimenzování, ne v ladění. Kupte si předem správný počet GPU.

Nic z toho není exotické. Všechny se objeví v prvním měsíci po nové instalaci.

Kdy věnovat pozornost

Pro nasazení pouze s inferencí:

  1. Které modely potřebujete hostovat současně? Sečtěte jejich INT4 stopy. Přidejte 40–60 % pro KV cache v cílové dávce a kontextu. To je vaše minimální VRAM.
  2. Jaká je vaše cílová latence na token? Největší velikost modelu dělená šířkou pásma na kartu vám ukáže, zda potřebujete jednu rychlou kartu, čtyři střední karty nebo osm menších karet.
  3. Minimální systémová RAM: 1.5× celková VRAM, osazená ve všech paměťových kanálech. Zaokrouhlete nahoru na další standardní konfiguraci.
  4. Jednoduchá nebo dvojitá zásuvka? Výchozí single. Dual použijte pouze tehdy, když potřebujete osm GPU na dvou kořenových komplexech PCIe nebo kombinujete rozsáhlé trénování s inferencí.
  5. ECC? Ano, pokud je školení skutečnou součástí pracovní zátěže nebo pokud to vyžaduje dodržování předpisů. Pokud je rozpočet omezený, přeskočte čistou inferenci.

U sestavení umožňujících trénování se pravidlo RAM posouvá na 2–3× celková VRAM – DeepSpeed, Megatron a podobné frameworky se během provádění kroků spoléhají na systémovou RAM. Disciplína NUMA se stává nevolitelnou.

Následující články se zabývají zbytkem stacku: topologie PCIe a přiřazení linek (W02), rozšiřující karty GPU a jejich poruchové režimy (W03), dimenzování zdroje a realita duálního zdroje (W04) a návrh tepelného pláště (W05). Paměť je první pákou, která se dá do pořádku, protože se nachází mezi všemi ostatními komponenty – špatná paměť způsobuje, že všechno ostatní vypadá rozbité.


Toto je součást Kentino Wiki, referenční série o výpočetní technologii s využitím umělé inteligence, robotice a systémech, které je propojují. Komentáře a opravy jsou vítány na adrese info@kentino.com.