Kentino sro
K-AI 192 Turin2U RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — 2U Turin SP5
K-AI 192 Turin2U RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — 2U Turin SP5
Nelze načíst dostupnost vyzvednutí
K-AI 192 Turin2U RTXPro6000 4000TOPS
192 GB ECC Blackwell Flagship Pair
2x RTX Pro 6000 Server Edition | EPYC Turin SP5 | 4 000 TOPS INT8
Dvě pasivní karty RTX Pro 6000 Blackwell Server Edition – každá s 96 GB ECC. Nižší režie tensor-paralelního provozu než u sestav se 4 nebo 8 kartami. Vlajková loď pro datová centra na platformě Gen5/DDR5 2U se skutečně redundantním napájením 1+1.
2U rackový inferenční server se dvěma pasivními grafickými kartami RTX Pro 6000 Blackwell Server Edition (96 GB ECC GDDR7 na kartu), jedním procesorem AMD EPYC 9335 Turin (32C/64T, 3.0/4.4 GHz), 512 GB DDR5-4800 ECC, 5.76 TB datové paměti Gen5 NVMe a redundantním 1+1 napájecím zdrojem 80+ Platinum CRPS s výkonem 2.7 kW. Od 56 600 EUR bez DPH. Pro 70B husté bf16 a středně velké MoE je méně velkých karet lepší než více malých karet – tenzorový paralelismus dvou karet má minimální komunikační režii a každá 96GB karta obsahuje kompletní kopii většiny modelů.
Stejný pár 192 GB Blackwell jako naše 4U Rome sestava, v 2U rackovém šasi ASRock s plnou hostitelskou pamětí Gen5, pamětí DDR5-4800 a originálním 1+1 redundantním 2.7kW napájecím zdrojem Platinum CRPS. Vyberte si tuto sestavu, když je důležitá hustota racku, když váš grant nebo specifikace zakázky vyžadují moderní platformu PCIe 5.0 / DDR5 nebo když je redundantní napájení spíše požadavkem než doplňkovou nabídkou.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 2x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 GB ECC GDDR7 (pasivní, 600 W, PCIe 5.0 x16, dvouslotová) |
| Pool VRAM | 192 GB ECC (96 GB x 2) -- každá karta pojme samostatný model 70B bf16 |
| Procesor (CPU) | AMD EPYC 9335 Turin (32C/64T, 3.0/4.4 GHz, 210 W, SP5, 128 linek PCIe 5.0, Zen5c, 256 MB L3) |
| Základní deska | ASRock Rack 2U4G-GENOA/M3 (SP5, 4x PCIe 5.0 x16 dvouslotová grafická karta, 8x DDR5 1DPC, OCP 3.0, IPMI AST2600) |
| Systémová RAM | 512 GB DDR5-4800 ECC RDIMM (8x 64 GB, 1DPC plně osazeno -- konfigurace s maximální šířkou pásma) |
| Spouštění / úložiště | Kioxia CD8-P 3.84 TB Gen5 U.3 (horká vrstva, 1 DWPD, ~12 GB/s čtení) + Kioxia CD8-P 1.92 TB Gen5 U.3 (bootovací vrstva OS) -- 5.76 TB celkem datové centrum Gen5 NVMe |
| napájení | 1+1 redundantní zdroj 2.7 kW 80+ Platinum CRPS (2x 1350 W při 230 V) -- skutečná redundance N+1; jeden zdroj udrží plnou inferenční zátěž |
| Podvozek | Montáž do racku o výšce 2U s prouděním vzduchu zepředu dozadu (80mm ventilátory s vysokým statickým tlakem). Možnost provozu 24/7. |
| Chlazení | Aktivní chladič CPU SP5 + 3x přední sací otvor 80x38 mm + 1x zadní výfuk 80x80 mm (navrženo pro 4x pasivní tepelné zatížení GPU; uspořádání se 2 kartami poskytuje dostatečný tepelný prostor) |
| Síť | Duální slot Intel X710-T2L PCIe 10GBASE-T + OCP 3.0 k dispozici pro upgrade 25/100 GbE |
Napájecí obálka
- Odběr GPU: 2x 600 W = 1 200 W
- Celkový výkon systému při plném zatížení: ~1 510 W
- Konfigurace zdroje: 1+1 redundantní zdroj CRPS, 2x 1350 W při 230 V (celkem 2 700 W)
- Prostor pro výpočet: 44.1 % při typickém inferenčním zatížení
- Skutečná redundance N+1 – jeden zdroj udrží plnou inferenční zátěž; žádné riziko selhání jednoho zdroje
Topologie jízdních pruhů
PCIe Gen5 x16 end-to-end -- nativní pro hostitele i karty Gen5. Přímé připojení root-complex, žádný přepínač PCIe. K dispozici zůstává jeden slot PCIe 5.0 x16 + jeden slot PCIe 5.0 x8 (slot x8 obsazuje síťová karta). Žádný NVLink -- peer-to-peer mezi GPU přes PCIe. Šířka pásma Gen5 eliminuje omezení hostitele Gen4, které je přítomné u 4U Rome sourozence.
Co můžete spustit
Se 192 GB ECC VRAM na pouhých dvou kartách Blackwell s nativním FP8/FP4 se jedná o nejčistší cestu k hustým 70B streamům při bf16 a středně velkému MoE. Dva nezávislé 70B streamy – jeden na kartu – nebo 200B MoE napříč oběma s minimálními obousměrnými TP režijními náklady.
LLM -- text / uvažování / kódování
Čínská hranice
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) pohodlný s dlouhým ctx (~15-25 tok/s jeden stream napříč 2 kartami); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB); Qwen3-32B hustý bf16 s obrovským KV; QwQ-32B bf16
- DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB s malým přebytkem RAM) -- Blackwell nativně běží na FP8; DeepSeek-R2 32B bf16 dva souběžné streamy (jeden na kartu)
- GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) -- konfigurace pro hrdiny na této úrovni; GLM-4.5-Air FP8 nebo BF16 s obrovským KV
- Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) -- 389B MoE s 256k ctx; Hunyuan-A13B fp8 nativní (~80 GB) s obrovským KV
- Ostatní: Baidu ERNIE-4.5-424B Q3 (~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); MiniMax-M1 Q3 (~180 GB)
Západní hranice
- Meta láma: Llama 3.3 70B bf16 na jedné kartě -- dva nezávislé souběžné 70B streamy (~20-30 tok/s na stream); Llama 4 Scout bf16 (~218 GB, málo místa); Llama 4 Maverick Q3 (~188 GB)
- Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~88 GB) jedna karta nebo bf16 na obou; Mistral Small 3 vícestreamový
- OpenAI (otevřené váhy): gpt-oss-120b MXFP4 nativní (80 GB) -- vejde se na JEDNU kartu, dva nezávislé souběžné streamy
- NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 na jedné kartě
- Ostatní: Cohere Command R+ 104B Q6 (~85 GB) na jedné kartě; Google Gemma 3 27B bf16 více souběžných streamů
Modely vizuální a jazykové komunikace
InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 jedna karta; Pixtral Large 124B bf16 nebo Q6; Llama 3.2 90B Vision bf16 (~180 GB); Molmo 72B bf16 (~144 GB); GLM-4.6V 106B fp8; Gemma 3 27B multimodální x 2-3 souběžné streamy.
Generování obrazu
FLUX.1 [dev] bf16 více souběžných streamů; FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large bf16 souběžný; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 souběžné; HunyuanImage-3.0 base (80B MoE, 13B aktivní) bf16 -- vejde se na jednu kartu; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.
Generování videa
Wan 2.2 MoE dual-expert bf16 plný kontext -- vejde se na jednu kartu, dva souběžné generační streamy; Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 oba experty; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Zvuk / Řeč / TTS
- ASR: Whisper v3 large / turbo (~50x v reálném čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stable Audio Open; Step-Audio-EditX
- Reálný čas / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2
Vícemodelové / vícenájemnické služby
- Dva nezávislé 70B streamy – jeden na kartu, nejjednodušší forma izolace nájemce
- Hustý 70B bf16 + podpůrný zásobník -- LLM na kartě 1, obraz/video/audio na kartě 2
- 200B MoE napříč oběma kartami -- minimální režie tenzorového paralelního provozu (oboustranné rozdělení)
- fp8-native frontier -- rodina DeepSeek V3, Hunyuan-Large fp8 s nativními cestami Blackwell
Cílové úlohy
- Hustá inference 70B bf16 -- dvě karty tenzorově paralelní s minimální režií nebo jeden model na kartu pro streamování
- 100-150B MoE ve 4. a 6. čtvrtletí (GLM-4.5-Air, Qwen3.5-122B-A10B, Hunyuan-A13B, Llama 4 Scout)
- FP8-nativní hraniční inference (rodina DeepSeek V3, Hunyuan, Llama 4) -- Blackwell spouští FP8 nativně
- Vědecké výpočty vyžadující propustnost NVMe Gen5 a paměť ECC na úrovni datových center
- Studio pro generování obrazu a videa v bf16 (Wan 2.2 T2V-A14B, HunyuanVideo 13B, FLUX.1 [dev])
- Nasazení s omezenou hustotou racků -- tvarový faktor 2U vs. ekvivalent 4U Rome při stejné paměti VRAM
- Specifikace zadávání veřejných zakázek vyžadující platformu PCIe 5.0 / DDR5 nebo redundantní zdroj
Měřený výkon
Publikované reference | Datový list NVIDIA RTX Pro 6000 Blackwell Server Edition + komunitní benchmarky
| měřítko | Výsledek |
|---|---|
| INT8 TOPS na kartu (datový list NVIDIA) | 2 000 TOPŮ |
| Agregát INT8 TOPS (2 karty) | 4 000 TOPŮ |
| Šířka pásma paměti na kartu | ~1 800 GB/s, 96 GB ECC GDDR7 |
| Llama 3.3 70B bf16 na kartu (komunitní) | 15–25 toků/s pro jeden stream, 60–90 toků/s pro dávky – očekávané zlepšení oproti paměťové cestě na straně hostitele Gen5 v dávkových úlohách streamování v porovnání s hostitelem Gen4 |
| Výhoda hostitelské strany Gen5 (jedna karta se stejným křemíkem) | Komplexní rozhraní PCIe 5.0 x16 snižuje latenci přenosu mezi hostitelským zařízením a zařízením pro streamování dávkových úloh; úlohy vázané na výpočetní výkon na kartě dosahují stejné propustnosti jako sestavení hostovaná na Gen4. |
| Duální tenzorově paralelní karta 70B (komunita) | Očekává se ~30-45 tok/s v jednom proudu |
| Blackwell FP8 nativní | DeepSeek-V3 fp8, Hunyuan-A13B fp8 běží bez přenosu bf16 |
Publikované externí reference, neměřené na hardwaru Kentino. Kentino zveřejní data od první strany po první zákaznické sestavení.
Není ideální pro
- Velmi vysoká souběžnost vícenájemného obsluhování -- 4x L40 nebo 6x L4 se lépe rozděluje mezi více karet
- Silná KV cache při velmi dlouhém kontextu -- přejděte na K-AI 576 Genoa RTXPro6000 12000TOPS
- Školení -- Kentino neprodává látky NVLink třídy H
- Odhad rozpočtu pro tento pool VRAM -- sestava 4U Rome K-AI 192 RTXPro6000 4000TOPS je levnější, pokud je přijatelná hostitelská strana Gen4 a není vyžadována redundance PSU.
Záruka a dodací lhůta
3letá záruka NVIDIA OEM na RTX Pro 6000 Server Edition + 36měsíční záruka na šasi + záruka na integraci Kentino. Sestavení zahrnuje montáž, konfiguraci BIOSu/firmwaru, nastavení IPMI, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta 14–21 pracovních dnů se vztahuje na objednávku prodejce komponent třídy Turin; potvrzeno při zadání objednávky.
Doporučené doplňky
- Rozšiřitelná konfigurace pro 4 karty -- šasi má nativně 4 pozice pro GPU (aktuální sestavení používá 2 ze 4), možnost upgradu na K-AI 384 Turin2U RTXPro6000 8000TOPS
- Přidání 25 GbE nebo 100 GbE přes slot OCP 3.0 (varianta Mellanox ConnectX-5/6 OCP)
- Další disk Kioxia CD8-P NVMe ve 2 zbývajících pozicích U.2 pro RAID nebo scratch storage
- Pro vyšší výdrž (3 DWPD) upgradujte úložnou úroveň na Samsung PM1743 nebo Kioxia CM7-V
- Racková skříň 24U + online UPS 5 kVA
Sdílet
