Výběr GPU pro úlohy s AI: 5090, 4090, RTX Pro 6000, L40, L4 - přímé porovnání

V roce 2026 neexistuje univerzálně správná grafická karta pro práci s umělou inteligencí. Existuje správná grafická karta pro definovanou pracovní zátěž, definovaný výkonový limit a definovaný rozpočet – a špatná karta ve správném šasi je dražší chyba než správná karta ve špatném šasi. Tento článek porovnává řadu Kentino přímo s ostatními, uvádí skutečná výkonnostní čísla, poctivé kompromisy a rozhodovací proces, který jsme skutečně použili u zákaznických hovorů. Nepředstírá, že H100 a A100 neexistují; existují, my je neprodáváme a budeme konkrétně uvádět, kdy bude tento rozdíl důležitý.

Karty na stole:

  • RTX 5090 — 32 GB GDDR7, 1.79 TB/s, 575 W, spotřebitelské.
  • RTX 4090 — 24 GB GDDR6X, 1.01 TB/s, 450 W, spotřebitelská, předchozí generace.
  • RTX Pro 6000 Blackwell Server Edition — 96 GB GDDR7 ECC, 600 W, pasivní chlazení, serverový formát, bez zobrazovacích výstupů.
  • RTX Pro 6000 Blackwell Max-Q — 96 GB GDDR7 ECC, 300 W, dvouslotový ventilátor, stejný křemík jako pracovní stanice.
  • L40 — 48 GB GDDR6 ECC, 0.86 TB/s, 300 W, provedení pro datová centra, plná ECC.
  • L4 — 24 GB GDDR6, 0.30 TB/s, 72 W, nízkoprofilová, jeden slot, edge inference.

Specifikace, na kterých skutečně záleží

Specifikace grafických karet jsou obsáhlé a většina čísel neovlivňuje rozhodnutí o koupi. Tři z nich ano.

  1. Kapacita VRAM. Toto je binární soubor. Buď váš model sedí, nebo ne. Odlehčení CPU není funkční náhradou (popsáno v W01).
  2. Šířka pásma VRAM. Generování tokenů na transformátoru je omezeno šířkou pásma. TFLOPS uvedené ve specifikaci je pro inferenci do značné míry irelevantní.
  3. Trvalý výkon a tvarový faktor. 600W karta v šasi, které nedokáže odvádět teplo, je 300W karta s tepelným alarmem. 72W karta v 1U serveru je jiný stroj než 575W karta v 4U pracovní stanici.
GPU VRAM Šířka pásma TDP Formální faktor ECC Poznámky
RTX 4090 24 GB GDDR6X 1.01 TB / s 450 W 3slotový spotřebitel Ne Předchozí generace, cesta ke snižování nákladů
RTX 5090 32 GB GDDR7 1.79 TB / s 575 W spotřebitel s 2–3 sloty Ne Perf/€ král pro inferenci
RTX Pro 6000 BW Max-Q 96 GB GDDR7 1.79 TB / s 300 W 2dmychadlo Ano Vysoká hustota, nižší výkon
RTX Pro 6000 BW Server Ed. 96 GB GDDR7 1.79 TB / s 600 W 2slotový pasivní Ano Serverová úroveň, bezhlavý
L40 48 GB GDDR6 0.86 TB / s 300 W 2slotový pasivní Ano Generování datových center Ada
L4 24 GB GDDR6 0.30 TB / s 72 W LP s 1 slotem Ano Inference pro Edge / 1U
H100 SXM (referenční, neprodává se) 80 GB HBM3 3.35 TB / s 700 W SXM5 Ano Úroveň hyperškálování
H200 SXM (referenční, neprodává se) 141GB HBM3e 4.80 TB / s 700 W SXM5 Ano Král šířky pásma HBM

Inference: žetony za sekundu, podle modelu a karty

Generování inferenčních tokenů v jednom streamu je přibližně součin šířky pásma a velikosti modelu vynásobený faktorem účinnosti zásobníku 0.6–0.8. Níže uvedená tabulka ukazuje naše naměřené hodnoty na benchmarkových sestaveních s vLLM 0.6+ a llama.cpp aktuálním stavem k 2. čtvrtletí 2026. INT4, pokud není uvedeno jinak. Nejprve propustnost v jednom streamu; v závorkách je uvedena dávková agregace, pokud je měřitelná.

Model Množství Velikost RTX 4090 RTX 5090 Server/WS Pro 6000 BW Pro 6000 Max-Q L40 L4
Qwen2.5 7B INT4 ~ 4 GB 110-130 (220) 180-220 (340) 180-220 (340) 170-200 (320) 90-110 (200) 35-45 (90)
Lama 3.2 13B INT4 ~ 7 GB 70-85 (170) 120-140 (250) 120-140 (250) 110-130 (230) 60-75 (140) 22-28 (60)
Qwen2.5 32B INT4 ~ 18 GB 32-38 (90) 55-65 (140) 60-70 (150) 55-65 (140) 28-34 (80) nesedí
Lama 3.3 70B INT4 ~ 40 GB nehodí se pro jednotlivce potřebuje 2× (24–30) 28–34 (90) jedna karta 27-32 (85) potřebuje 2× (16–22) nesedí
Qwen2.5 72B INT4 ~ 42 GB nehodí se pro jednotlivce potřebuje 2× (24–30) 28–34 (90) jedna karta 27-32 (85) potřebuje 2× (16–22) nesedí
Qwen2.5-VL 72B INT4 ~46 GB+ nehodí se pro jednotlivce potřebuje 2× (12–18) 18–24 jedna karta 17-22 potřebuje 2× (10–14) nesedí
Lama 3.1 405B INT4 ~ 210 GB nesedí potřebuje 8× 4× (jeden uzel) 4× (jeden uzel) potřebuje 5× nesedí

Pár upřímných výhrad. Toto jsou typická čísla na řádně chlazeném šasi s plně rezidentním modelem. TTFT se studenou mezipamětí je dominantně ovlivněno alokací KV-cache a předfillovými výpočty, nikoli šířkou pásma, a u této řady karet se pohybuje v rozsahu 200–900 ms. Dávkovaná propustnost se sublineárně škáluje nad 8–16 souběžnými streamy kvůli soupeření o výpočetní prostředky. Pokud je vaše aplikace interaktivní (chat, krok za krokem agenta), je důležitější jeden stream než dávková propustnost. Pokud je vaše aplikace hromadná (zpracování dokumentů, automatické označování), je důležitější dávková propustnost.

Stavební blok 4× 5090 je tahounem naší řady z nějakého důvodu: jen v kartách stojí 8 500–14 000 EUR, do 4U šasi s rozumným prouděním vzduchu se vejdou čtyři GPU a na Llama 3.3 70B INT4 pod vLLM s tenzorovým paralelismem dosahuje souhrnného výkonu ~12 000 tok/s. Jeden Pro 6000 Blackwell za 8 500 EUR dosahuje v jednom streamu ~30 tok/s a v dávkách ~90 tok/s na stejném modelu. Pro víceuživatelské serverové prostředí vítězí 5090. Pro rozsáhlé kontextové úlohy s jedním uživatelem a modely s 64 GB a více vítězí Pro 6000. Neexistuje univerzální odpověď.

Kde každá karta skutečně dává smysl

RTX 5090 — král performance/€ s ostrými hranami. Správná odpověď, když je pracovní zátěž odvozena od inference, rozpočet je reálný, ale ne neomezený, a nasazení toleruje dvě známá omezení: absenci ECC a přechodové jevy na úrovni spotřebitelského zdroje, které vyžadují péči o zdroj a šasi (viz W04). U modelů 13B a ​​32B je 5090 v poměru k zaplacení eura rychlejší než cokoli jiného na trhu. U třídy 70B poskytují čtyři 5090 v tenzorově paralelním zapojení větší celkovou propustnost než jedna karta Pro 6000 Blackwell při nižších celkových kapitálových výdajích. Nevýhoda: nominální spotřeba 575 W s přechodovým výkonem přes 600 W, strop 32 GB na kartu, který nutí používat více GPU pro 32B+ při vysokém kontextu. Vyberte, když: nepřetržitá inference pro 7B–32B, poměr výkon/€ je důležitý, máte proudění vzduchu v racku, ECC není náročným požadavkem na shodu s předpisy. Vyhněte se, když: povinná ECC, jedna karta 70B+ nebo místnost nedokáže odvést 24 kW tepla.

RTX 4090 — pouze starší verze se slevou. V roce 2026 taktický nákup. Nové maloobchodní prodeje jsou vzácné; použité a zbytkové prodeje v jednotlivých kanálech se pohybují mezi 1 400 a 1 900 EUR. Na kartu je ~o 55 % rychlejší než 5090 při paměťově vázané inferenci (1.01 vs 1.79 TB/s) a 24 GB vs 32 GB – 8 GB je důležitých, protože model s 32B INT4 ponechává na 5090 více místa pro KV-cache. Stále to dává smysl pro rozšíření stávající flotily 4090 s omezenými kapitálovými výdaji. Začínáte znovu? Kupte si 5090.

RTX Pro 6000 Blackwell Server Edition — král VRAM pro náročné úlohy. 96 GB ECC GDDR7 s přenosovou rychlostí 1.79 TB/s mění, které modely můžete hostovat. Jedna karta pojme Qwen2.5-VL 72B INT4 s pohodlnou KV mezipamětí pro přibližně 20 souběžných streamů. Čtyři v jednom uzlu pojmou Llama 3.1 405B INT4 v jednom šasi bez síťového propojení mezi uzly. Pasivní chlazení, navrženo pro proudění vzduchu v racku zepředu dozadu, bez grafických výstupů, validováno pro nepřetržitý provoz 24/7. Stejný křemík jako Workstation Edition, stejný strop 600 W, jiné chlazení. Vyberte si, kdy: jedna karta s kapacitou 70B+, vyžadována ECC, nasazení v racku se správným prouděním vzduchu, školení v mixu nebo méně větších karet poráží více menších karet z hlediska prostoru v racku a napájení.

RTX Pro 6000 Blackwell Max-Q — vysoká hustota bez nutnosti přepojování místnosti. Stejných 96 GB a 1.79 TB/s, omezeno na 300 W. Čtyři karty Max-Q odebírají z GPU 1.2 kW; čtyři karty Server Edition odebírají 2.4 kW. Penalizace k výkonu u spotřebového limitu je reálná, ale menší než poměr příkonu – křivka výkonu/W u Blackwellu je na horní hranici strmá, takže omezení na 300 W ztrácí 20–30 % na propustnosti inference, nikoli 50 %. Vyberte, když: prostředí s omezeným výkonem, chcete 96 GB na kartu, hustota je důležitější než špičková propustnost na kartu nebo důležitá je akustika.

L40 — inferenční karta pro podniky s ECC a historií výsledků. Generace Ada. Pomalejší než Blackwell, co se týče šířky pásma (0.86 vs 1.79 TB/s) a kapacity (48 vs 96 GB), cena je srovnatelná s datovým centrem. Důvodem pro koupi jsou nákupní podmínky: plná korekce chyb (ECC), ověřené ovladače, trvalý výkon 300 W, více než dva roky produkčního nasazení. Pro prostředí, která zakazují spotřebitelské karty (pojišťovny, vláda, některá regulovaná odvětví), je to karta, která splňuje požadavky. V poměru hrubý výkon/€ prohrává s 5090. Vyberte si, kdy: politika nákupu zakazuje spotřebitelský hardware, pracovní zátěž se vejde do 48 GB, spolehlivost 24/7 je důležitější než výkon/€.

L4 — inference na hraně, 1U, 72 W. Jediná karta na tomto seznamu, která se bez problémů vejde do 1U serveru vedle základní desky, a jediná, která běží s energetickým rozpočtem notebooku. 72 W TDP, jednoslotová nízkoprofilová, pasivní, 24 GB GDDR6 ECC, 300 GB/s. Úzkým hrdlem je šířka pásma – single stream 7B dosahuje rychlosti 35–45 takt/s, což je „v pořádku“, ne „rychlé“. Případ použití je fan-out: 8× L4 v 2U šasi na jednom hostiteli EPYC poskytuje 8 souběžných 7B inferenčních streamů za mírné celkové náklady (cca 20 000 EUR v kartách), spotřebuje méně než 700 W a hodí se do jakéhokoli kancelářského okruhu. Vyberte si, kdy: nasazení na okraji sítě, 1U/2U, omezený výkon, model se vejde do 24 GB, metrikou je propustnost na watt.

Výkonnost na euro: tabulka, kterou byste neměli ukazovat svému finančnímu řediteli

GPU Cena (€) 7B INT4 tok/s (jednoduchý) tok/s na 1 000 € 70B INT4 tok/s* 70 miliard tok/s na 1 000 €
RTX 4090 (zbývající zásoby) ~ € 1,700 120 70.6 potřebuje 2× = 28 8.2 (na základě 4kartového shluku)
RTX 5090 ~ € 2,400 200 83.3 potřebuje 2× = 28 5.8 (na základě 2kartového shluku)
RTX Pro 6000 BW Max-Q ~ € 8,500 185 21.8 30 karet 3.5
Server RTX Pro 6000 BW ~ € 8,800 200 22.7 31 karet 3.5
L40 ~ € 7,800 100 12.8 potřebuje 2× = 19 1.2 (pro 2 karty)
L4 ~ € 2,500 40 16.0 nesedí n / a
H100 SXM (referenční) ~ € 28,000 220 7.9 60 karet 2.1

*Pro 70B INT4: počet na kartu, pokud se model vejde na jednu kartu; celková propustnost jednoho streamu, pokud je vyžadován tenzorový paralelismus více karet, dělená celkovými náklady na kartu.

5090 je králem poměru výkonu/€ u každé velikosti modelu, kam se vejde. Karty Pro 6000 vítězí v jiném směru: modely třídy 70B na jedné kartě eliminují latenci a složitost tenzorového paralelismu. L40 má v této tabulce s velkým náskokem nejhorší poměr výkonu/€ – stojí zhruba 3× více než 5090 za ~50 % inferenčního výkonu. Jeho hodnotou je shoda s poměrem zadávání veřejných zakázek a historie výroby na úrovni generace Ada, nikoli hrubá ekonomika. L4 je vítězem v poměru výkonu/€, zejména v segmentu malých modelů s nízkou spotřebou, kde nemá konkurenci.

Výkon na watt: tabulka pro správce kolokací

GPU TDP 7B tok/s tok/s na W 70B tok/s* 70B tok/s na W
L4 72 W 40 0.56 n / a n / a
RTX Pro 6000 BW Max-Q 300 W 185 0.62 30 0.10
L40 300 W 100 0.33 19 (×2) 0.03
RTX 5090 575 W 200 0.35 28 (×2) 0.024
RTX 4090 450 W 120 0.27 28 (×2) 0.031
Server RTX Pro 6000 BW 600 W 200 0.33 31 0.052
H100 SXM (referenční) 700 W 220 0.31 60 0.086

V této sestavě vítězí Max-Q v poměru výkon/W, a ani zdaleka se tomu neblíží. Omezení 96GB Blackwell na 300 W udržuje kartu v efektivní části své křivky a většinu propustnosti Server Edition získáte při polovině spotřeby ze zásuvky. V kolokaci, kde je energie měřena a vy platíte nepřetržitě 0.18–0.30 € za kWh, Max-Q oproti Server Edition ušetří skutečné peníze při několikaletém nasazení. Máme zákazníky, kteří přešli ze Server Edition na Max-Q specificky proto, aby se vyhnuli modernizaci chladicího zařízení své budovy.

Poznámky k školení a doladění

Trénink není primárním zaměřením Kentina – většina zákazníků si kupuje inferenci. Jemné ladění se však objevuje všude a volba trénování má jiná omezení. Trénink plných parametrů modelů 70B+ není v této sestavě proveditelný; to vyžaduje 8× H100/H200 SXM nebo pronajatý cloud, a to si můžeme říct. Jemné ladění LoRA modelů 7B–32B funguje pohodlně na 4× 5090 nebo 4× Pro 6000 BW Max-Q. QLoRA modelů 70B preferuje 2× Pro 6000 BW (libovolná edice) před 4× 5090 s FSDP, protože jedna karta na repliku modelu je dramaticky jednodušší. Rozhodovací pravidlo: pokud trénovací běhy trvají déle než 24 hodin a jsou bez obsluhy, záleží na ECC – zvolte Pro 6000 nebo L40. Pokud trénování trvá méně než 24 hodin s lidskou přítomností, je 5090 v pořádku a rychlejší na euro.

Vizuální jazyk a otázka Pro 6000 vs. H100

VLM mění kalkulus, protože aktivační stopa je větší a předfill (kódování obrazu) je více vázáno na výpočetní výkon. Pro Qwen2.5-VL 72B INT4 (~46 GB) poskytuje Pro 6000 BW 18–24 tok/s na jedné kartě s ~1.4 s předfillem; 2× 5090 v tenzorovém paralelním režimu poskytuje 12–18 tok/s s 20–40 ms TP režií na token. Pro robotickou on-premise inferenci je Pro 6000 BW poctivější volbou, protože Qwen2.5-VL 72B je model, který lidé skutečně chtějí používat, a jedna karta eliminuje TP režii. Pro automatické označování kanálů a hromadné převody obrázků na text, kde latence nehraje roli, 4× 5090 stále vítězí v poměru perf/€.

Poctivé srovnání: Pro 6000 BW vs. H100

Neprodáváme H100. Budeme konkrétnější ohledně kompromisu, protože se zákazníci ptají.

Na jednu kartu poráží H100 SXM (80 GB HBM3, 3.35 TB/s) Pro 6000 BW Server (96 GB GDDR7 ECC, 1.79 TB/s) v inferenci jednoho streamu s omezenou šířkou pásma zhruba o 1.5–1.9× – tedy 60 tok/s oproti 31 tok/s na Llama 3.3 70B INT4. H100 má také NVLink a mezzanine konektor SXM5, který v uzlu HGX 8-GPU zajišťuje propojení GPU-GPU s rychlostí 900 GB/s. Pro 6000 BW má PCIe 5.0 x16 (efektivních ~63 GB/s), což je asi 14× pomalejší pro provoz mezi kartami.

Pro odvozování modelů, které se vejdou na 96 GB na jednu kartu, je tento rozdíl neviditelný – nedochází k žádnému provozu mezi kartami. Pro odvozování modelů, které je třeba rozdělit na 4× nebo 8× karty, H100 s NVLink vítězí o 30–50 % v agregované propustnosti, protože tenzorový paralelismus je citlivý na propojení. Pro trénování na 8 kartách H100 jednoznačně vítězí.

Cenový rozdíl je 3–3.5× za kartu a 8–12× za použitelný uzel (HGX H100 zahrnuje nosnou desku a NVSwitche). U většiny úloh bez hyperscale se tento poměr nekolísá. U úloh, kde ano, zákazník nekupuje od Kentina – kupuje přímo od Dellu, Lenova nebo Supermicro v rámci osmimístných obchodů. To si řekneme i po telefonu.

Co neřekneme: že Pro 6000 Blackwell je „stejně dobrá“ nebo „konkurenceschopná“ s H100. Není tomu tak, pokud jde o metriky, pro které byla H100 navržena k vítězství. Je to však ta správná karta pro případy použití, kde 96 GB ECC s rychlostí 1.79 TB/s řeší skutečný problém zákazníka – což je většina problémů.

Tok rozhodování

Začátek: Jaká je pracovní náplň?

  • Pouze inference?
    • Interaktivní jeden stream (chat, agent, hlas)?
      • Model se vejde do 32 GB (7B–32B INT4)?
        • Rozpočet je napjatý: 4× RTX 5090
        • Požadovaný ECC (soulad s předpisy): 4× L40
        • Kancelář s omezenými možnostmi: 4× Pro 6000 BW Max-Q
      • Model potřebuje 32–80 GB (70B INT4, VLM 72B):
        • Chcete jednoduchost s jednou kartou: 1–2× Server Pro 6000 BW
        • Priorita Perf/€, akceptujeme obousměrný TP: 4× RTX 5090
        • Omezený výkon: 2× Pro 6000 BW Max-Q
      • Model 80 GB+ (405B INT4, hosting s více modely):
        • 4× nebo 8× server Pro 6000 BW v šasi s 8 GPU
        • Zvažte, zda je cloud skutečně tou správnou volbou.
    • Dávkované hromadné zpracování (automatické označování, zpracování dokumentů)?
      • Malý model (7B–13B): 8× L4 v 2U (okraj) nebo 4 × 5090 (nosič)
      • Velký model (70B+): 4× Server Pro 6000 BW or 8 × 5090
    • Edge / 1U / s omezeným napájením?
      • 1–8× L4
  • Trénink, nebo doladění?
    • LoRA / QLoRA / jemné doladění (většina zákazníků):
      • 7B–13B: 4× RTX 5090 (ECC není kritické)
      • 32B–70B: 4× Server Pro 6000 BW (ECC + kapacita)
      • Dlouhé bezobslužné běhy: vždy vybírejte díly ECC
    • Trénink 70B+ s plnými parametry: tady není životaschopný — doporučuji cloud nebo DGX-class
    • Jemné doladění difúze / VLM: Pro 6000 BW pro velikost dávky, 5090 pro perf/€ u menších dávek
  • Smíšené (trénování + inference, výzkumná laboratoř)?
    • 4 grafických procesorů: 4× Server Pro 6000 BW (Max-Q při omezeném výkonu)
    • 8 grafických procesorů: 8× Server Pro 6000 BW v šasi s dvěma procesory EPYC
    • Mix-and-match: 4× 5090 inference + 1× Pro 6000 BW trénování ve stejném šasi je funkční, ale ne zrovna elegantní

Větev, která se definuje jako „4× RTX 5090“, je nejčastěji dodávánou sestavou. Větev, která se definuje jako „4× Pro 6000 BW Server“, je druhá. Větve L4 a větev Max-Q jsou objemově menší, ale ani jedna z nich není specializovaná – každé čtvrtletí dodáváme vícejednotkové sestavy do kancelářských prostor, kde by 600W karty nepřežily elektroinstalaci v budově.

Co nemáme skladem

Jednoduše řečeno: Kentino neprodává hardware třídy H100 SXM, H200 SXM, A100 SXM, B200 ani GB200 NVL. Formát SXM5 a ekosystém nosných desek HGX/NVL žijí v úrovni dodavatelského řetězce, ve které se my nenacházíme. Varianty PCIe H100 existovaly krátce a v podstatě z trhu zmizely. Pokud vaše pracovní zátěž skutečně vyžaduje 8× H100 s NVLink, vaše reálné možnosti v květnu 2026 jsou: pronájem od hyperscaleru nebo specializovaného cloudu, nákup přímo od Dell / Lenovo / Supermicro s 12–20týdenním předstihem nebo spolupráce s integrátorem na dané úrovni.

AMD Instinct MI300X ani MI325X nemáme skladem – na papíře jsou silné, co se týče paměťově vázané inference (192 GB HBM3, 5.3 TB/s na MI300X), ale vyspělost softwaru ROCm a dostupnost distribučních kanálů v Česku pro nás dnes nejsou tou správnou zákaznickou základnou.

Kam analýza vede u typických kupujících

  • Výzkumná laboratoř, první inferenční server: 4× RTX 5090 na grafické kartě EPYC Turin se 192 GB RAM, duálním ATX zdrojem, 4U rackovým šasi. Zvládne každý model až do 70B INT4 napříč TP, s dostatečným prostorem pro jemné ladění.
  • Spuštění obsluhující produkční inferenci: 4× Server Pro 6000 BW v 4U s hostitelem EPYC Genoa/Turín, 384–512 GB RAM, zdroj CRPS s redundancí 1+1. ECC, bezhlavý procesor, rezerva pro jednu kartu 70B+.
  • Robotická laboratoř + on-premise výpočetní technika: 4× Server Pro 6000 BW. 96 GB umožňuje hostovat Qwen2.5-VL 72B a LLM společně, ECC je důležité, protože inferenční výstup řídí fyzický hardware.
  • Nákupy v oblasti podnikových procesů pro zajištění souladu s předpisy: 4× nebo 8× L40 v šasi Supermicro. Horší výkon/€, ale každá linka kusovníku projde auditem.
  • Pobočka, maloobchod, okraj: 4× nebo 8× L4 v 1U/2U. Napájení pro kanceláře, žádné speciální vytápění, větrání a klimatizace.
  • Rozšíření stávající flotily 4090: více 4090, pokud je rozpočet závazný a můžete je sehnat; jinak 5090 přimíchané (vLLM zvládá TP smíšené generace přijatelně; nemíchejte 4090 s Pro 6000 – rozdíl v šířce pásma ničí efekt nejhorší karty).

Co dělat dál

Než specifikujete grafické procesory, odpovězte na těchto pět otázek:

  1. Uveďte všechny modely, které potřebujete hostovat současně. Sečtěte velikosti INT4. Přidejte 40–60 % pro mezipaměť KV v cílové dávce a kontextu. To je vaše minimální VRAM, celkem a na kartu.
  2. Uveďte cílovou latenci. Jednotlivý tok/s pod 30 znamená, že můžete použít téměř cokoli. Jednotlivý tok/s nad 60 vás zužuje na 5090 nebo Pro 6000 BW. Hromadná propustnost za den je jiná metrika a mění odpověď.
  3. Uveďte obálku výkonu na zdi. Jednofázový 16 A znamená maximálně 4 spotřební grafické karty. Třífázový nebo 32 A znamená, že je ve hře 8 grafických karet. Kancelářský 10 A obvod znamená pouze L4 nebo Max-Q.
  4. Uveďte omezení zadávání veřejných zakázek. „Kupujeme pouze podnikové SKU“ → L40 nebo Pro 6000 BW Server. „Kupujeme vše, co se dodává“ → 5090. Buďte k sobě upřímní; toto je omezení, které brzdí většinu sestavení v pozdních fázích procesu.
  5. Uveďte pracovní cyklus a životnost. Nonstop po dobu tří let se vyplatí zdroje ECC a Platinum. Vývojový stolní počítač ne.

Pokud nedokážete odpovědět na všech pět otázek, žádná z možností grafického procesoru se zpětně nebude jevit jako správná. Pokud ano, správná odpověď z tabulky výše vypadne při jednom zavolání. Viz W05 pro tepelnou izolaci a proudění vzduchu, W06 pro úrovně úložiště a W01 pro pravidla pro dimenzování RAM na VRAM, která jsou základem výběru GPU.


Toto je součást Kentino Wiki, referenční série o výpočetní technologii s využitím umělé inteligence, robotice a systémech, které je propojují. Komentáře a opravy jsou vítány na adrese info@kentino.com.