Přejít na informace o produktu
1 of 7

Kentino sro

K-AI 192 Turin2U RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — 2U Turin SP5

K-AI 192 Turin2U RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — 2U Turin SP5

Běžná cena EUR € 56.600,00
Běžná cena Prodejní cena EUR € 56.600,00
Sůl: Vyprodáno
Včetně daní. Přeprava spočítány u pokladny.

K-AI 192 Turin2U RTXPro6000 4000TOPS

192 GB ECC Blackwell Flagship Pair
2x RTX Pro 6000 Server Edition | EPYC Turin SP5 | 4 000 TOPS INT8

4 000
Vrchy INT8
192 GB
ECC VRAM
Blackwell
nativní FP8
2-karta
minimální TP

Dvě pasivní karty RTX Pro 6000 Blackwell Server Edition – každá s 96 GB ECC. Nižší režie tensor-paralelního provozu než u sestav se 4 nebo 8 kartami. Vlajková loď pro datová centra na platformě Gen5/DDR5 2U se skutečně redundantním napájením 1+1.

2U rackový inferenční server se dvěma pasivními grafickými kartami RTX Pro 6000 Blackwell Server Edition (96 GB ECC GDDR7 na kartu), jedním procesorem AMD EPYC 9335 Turin (32C/64T, 3.0/4.4 GHz), 512 GB DDR5-4800 ECC, 5.76 TB datové paměti Gen5 NVMe a redundantním 1+1 napájecím zdrojem 80+ Platinum CRPS s výkonem 2.7 kW. Od 56 600 EUR bez DPH. Pro 70B husté bf16 a středně velké MoE je méně velkých karet lepší než více malých karet – tenzorový paralelismus dvou karet má minimální komunikační režii a každá 96GB karta obsahuje kompletní kopii většiny modelů.

Stejný pár 192 GB Blackwell jako naše 4U Rome sestava, v 2U rackovém šasi ASRock s plnou hostitelskou pamětí Gen5, pamětí DDR5-4800 a originálním 1+1 redundantním 2.7kW napájecím zdrojem Platinum CRPS. Vyberte si tuto sestavu, když je důležitá hustota racku, když váš grant nebo specifikace zakázky vyžadují moderní platformu PCIe 5.0 / DDR5 nebo když je redundantní napájení spíše požadavkem než doplňkovou nabídkou.

technické vybavení

Složka Detail
GPU 2x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 GB ECC GDDR7 (pasivní, 600 W, PCIe 5.0 x16, dvouslotová)
Pool VRAM 192 GB ECC (96 GB x 2) -- každá karta pojme samostatný model 70B bf16
Procesor (CPU) AMD EPYC 9335 Turin (32C/64T, 3.0/4.4 GHz, 210 W, SP5, 128 linek PCIe 5.0, Zen5c, 256 MB L3)
Základní deska ASRock Rack 2U4G-GENOA/M3 (SP5, 4x PCIe 5.0 x16 dvouslotová grafická karta, 8x DDR5 1DPC, OCP 3.0, IPMI AST2600)
Systémová RAM 512 GB DDR5-4800 ECC RDIMM (8x 64 GB, 1DPC plně osazeno -- konfigurace s maximální šířkou pásma)
Spouštění / úložiště Kioxia CD8-P 3.84 TB Gen5 U.3 (horká vrstva, 1 DWPD, ~12 GB/s čtení) + Kioxia CD8-P 1.92 TB Gen5 U.3 (bootovací vrstva OS) -- 5.76 TB celkem datové centrum Gen5 NVMe
napájení 1+1 redundantní zdroj 2.7 kW 80+ Platinum CRPS (2x 1350 W při 230 V) -- skutečná redundance N+1; jeden zdroj udrží plnou inferenční zátěž
Podvozek Montáž do racku o výšce 2U s prouděním vzduchu zepředu dozadu (80mm ventilátory s vysokým statickým tlakem). Možnost provozu 24/7.
Chlazení Aktivní chladič CPU SP5 + 3x přední sací otvor 80x38 mm + 1x zadní výfuk 80x80 mm (navrženo pro 4x pasivní tepelné zatížení GPU; uspořádání se 2 kartami poskytuje dostatečný tepelný prostor)
Síť Duální slot Intel X710-T2L PCIe 10GBASE-T + OCP 3.0 k dispozici pro upgrade 25/100 GbE

Napájecí obálka

  • Odběr GPU: 2x 600 W = 1 200 W
  • Celkový výkon systému při plném zatížení: ~1 510 W
  • Konfigurace zdroje: 1+1 redundantní zdroj CRPS, 2x 1350 W při 230 V (celkem 2 700 W)
  • Prostor pro výpočet: 44.1 % při typickém inferenčním zatížení
  • Skutečná redundance N+1 – jeden zdroj udrží plnou inferenční zátěž; žádné riziko selhání jednoho zdroje

Topologie jízdních pruhů

PCIe Gen5 x16 end-to-end -- nativní pro hostitele i karty Gen5. Přímé připojení root-complex, žádný přepínač PCIe. K dispozici zůstává jeden slot PCIe 5.0 x16 + jeden slot PCIe 5.0 x8 (slot x8 obsazuje síťová karta). Žádný NVLink -- peer-to-peer mezi GPU přes PCIe. Šířka pásma Gen5 eliminuje omezení hostitele Gen4, které je přítomné u 4U Rome sourozence.

Co můžete spustit

Se 192 GB ECC VRAM na pouhých dvou kartách Blackwell s nativním FP8/FP4 se jedná o nejčistší cestu k hustým 70B streamům při bf16 a středně velkému MoE. Dva nezávislé 70B streamy – jeden na kartu – nebo 200B MoE napříč oběma s minimálními obousměrnými TP režijními náklady.

LLM -- text / uvažování / kódování

Čínská hranice

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) pohodlný s dlouhým ctx (~15-25 tok/s jeden stream napříč 2 kartami); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB); Qwen3-32B hustý bf16 s obrovským KV; QwQ-32B bf16
  • DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB s malým přebytkem RAM) -- Blackwell nativně běží na FP8; DeepSeek-R2 32B bf16 dva souběžné streamy (jeden na kartu)
  • GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) -- konfigurace pro hrdiny na této úrovni; GLM-4.5-Air FP8 nebo BF16 s obrovským KV
  • Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) -- 389B MoE s 256k ctx; Hunyuan-A13B fp8 nativní (~80 GB) s obrovským KV
  • Ostatní: Baidu ERNIE-4.5-424B Q3 ​​(~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); MiniMax-M1 Q3 (~180 GB)

Západní hranice

  • Meta láma: Llama 3.3 70B bf16 na jedné kartě -- dva nezávislé souběžné 70B streamy (~20-30 tok/s na stream); Llama 4 Scout bf16 (~218 GB, málo místa); Llama 4 Maverick Q3 (~188 GB)
  • Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~88 GB) jedna karta nebo bf16 na obou; Mistral Small 3 vícestreamový
  • OpenAI (otevřené váhy): gpt-oss-120b MXFP4 nativní (80 GB) -- vejde se na JEDNU kartu, dva nezávislé souběžné streamy
  • NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 na jedné kartě
  • Ostatní: Cohere Command R+ 104B Q6 (~85 GB) na jedné kartě; Google Gemma 3 27B bf16 více souběžných streamů

Modely vizuální a jazykové komunikace

InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 jedna karta; Pixtral Large 124B bf16 nebo Q6; Llama 3.2 90B Vision bf16 (~180 GB); Molmo 72B bf16 (~144 GB); GLM-4.6V 106B fp8; Gemma 3 27B multimodální x 2-3 souběžné streamy.

Generování obrazu

FLUX.1 [dev] bf16 více souběžných streamů; FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large bf16 souběžný; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 souběžné; HunyuanImage-3.0 base (80B MoE, 13B aktivní) bf16 -- vejde se na jednu kartu; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.

Generování videa

Wan 2.2 MoE dual-expert bf16 plný kontext -- vejde se na jednu kartu, dva souběžné generační streamy; Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 oba experty; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Zvuk / Řeč / TTS

  • ASR: Whisper v3 large / turbo (~50x v reálném čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stable Audio Open; Step-Audio-EditX
  • Reálný čas / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2

Vícemodelové / vícenájemnické služby

  • Dva nezávislé 70B streamy – jeden na kartu, nejjednodušší forma izolace nájemce
  • Hustý 70B bf16 + podpůrný zásobník -- LLM na kartě 1, obraz/video/audio na kartě 2
  • 200B MoE napříč oběma kartami -- minimální režie tenzorového paralelního provozu (oboustranné rozdělení)
  • fp8-native frontier -- rodina DeepSeek V3, Hunyuan-Large fp8 s nativními cestami Blackwell

Cílové úlohy

  • Hustá inference 70B bf16 -- dvě karty tenzorově paralelní s minimální režií nebo jeden model na kartu pro streamování
  • 100-150B MoE ve 4. a 6. čtvrtletí (GLM-4.5-Air, Qwen3.5-122B-A10B, Hunyuan-A13B, Llama 4 Scout)
  • FP8-nativní hraniční inference (rodina DeepSeek V3, Hunyuan, Llama 4) -- Blackwell spouští FP8 nativně
  • Vědecké výpočty vyžadující propustnost NVMe Gen5 a paměť ECC na úrovni datových center
  • Studio pro generování obrazu a videa v bf16 (Wan 2.2 T2V-A14B, HunyuanVideo 13B, FLUX.1 [dev])
  • Nasazení s omezenou hustotou racků -- tvarový faktor 2U vs. ekvivalent 4U Rome při stejné paměti VRAM
  • Specifikace zadávání veřejných zakázek vyžadující platformu PCIe 5.0 / DDR5 nebo redundantní zdroj

Měřený výkon

Publikované reference | Datový list NVIDIA RTX Pro 6000 Blackwell Server Edition + komunitní benchmarky

měřítko Výsledek
INT8 TOPS na kartu (datový list NVIDIA) 2 000 TOPŮ
Agregát INT8 TOPS (2 karty) 4 000 TOPŮ
Šířka pásma paměti na kartu ~1 800 GB/s, 96 GB ECC GDDR7
Llama 3.3 70B bf16 na kartu (komunitní) 15–25 toků/s pro jeden stream, 60–90 toků/s pro dávky – očekávané zlepšení oproti paměťové cestě na straně hostitele Gen5 v dávkových úlohách streamování v porovnání s hostitelem Gen4
Výhoda hostitelské strany Gen5 (jedna karta se stejným křemíkem) Komplexní rozhraní PCIe 5.0 x16 snižuje latenci přenosu mezi hostitelským zařízením a zařízením pro streamování dávkových úloh; úlohy vázané na výpočetní výkon na kartě dosahují stejné propustnosti jako sestavení hostovaná na Gen4.
Duální tenzorově paralelní karta 70B (komunita) Očekává se ~30-45 tok/s v jednom proudu
Blackwell FP8 nativní DeepSeek-V3 fp8, Hunyuan-A13B fp8 běží bez přenosu bf16

Publikované externí reference, neměřené na hardwaru Kentino. Kentino zveřejní data od první strany po první zákaznické sestavení.

Není ideální pro

  • Velmi vysoká souběžnost vícenájemného obsluhování -- 4x L40 nebo 6x L4 se lépe rozděluje mezi více karet
  • Silná KV cache při velmi dlouhém kontextu -- přejděte na K-AI 576 Genoa RTXPro6000 12000TOPS
  • Školení -- Kentino neprodává látky NVLink třídy H
  • Odhad rozpočtu pro tento pool VRAM -- sestava 4U Rome K-AI 192 RTXPro6000 4000TOPS je levnější, pokud je přijatelná hostitelská strana Gen4 a není vyžadována redundance PSU.

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
14 21-dny
dodací lhůta

3letá záruka NVIDIA OEM na RTX Pro 6000 Server Edition + 36měsíční záruka na šasi + záruka na integraci Kentino. Sestavení zahrnuje montáž, konfiguraci BIOSu/firmwaru, nastavení IPMI, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta 14–21 pracovních dnů se vztahuje na objednávku prodejce komponent třídy Turin; potvrzeno při zadání objednávky.

Doporučené doplňky

  • Rozšiřitelná konfigurace pro 4 karty -- šasi má nativně 4 pozice pro GPU (aktuální sestavení používá 2 ze 4), možnost upgradu na K-AI 384 Turin2U RTXPro6000 8000TOPS
  • Přidání 25 GbE nebo 100 GbE přes slot OCP 3.0 (varianta Mellanox ConnectX-5/6 OCP)
  • Další disk Kioxia CD8-P NVMe ve 2 zbývajících pozicích U.2 pro RAID nebo scratch storage
  • Pro vyšší výdrž (3 DWPD) upgradujte úložnou úroveň na Samsung PM1743 nebo Kioxia CM7-V
  • Racková skříň 24U + online UPS 5 kVA
Zobrazit všechny podrobnosti