Přejít na informace o produktu
1 of 7

Kentino sro

K-AI 192 Řím RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Milán

K-AI 192 Řím RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Milán

Běžná cena EUR € 25.162,00
Běžná cena Prodejní cena EUR € 25.162,00
Výprodej Vyprodáno
Včetně daní. Přeprava spočítány u pokladny.

K-AI 192 Řím RTXPro6000 4000TOPS

192 GB ECC Blackwell Flagship Pair
2x RTX Pro 6000 Server Edition | EPYC Milan | 4 000 TOPS INT8

4 000
Vrchy INT8
192 GB
ECC VRAM
Blackwell
nativní FP8
2-karta
minimální TP

Dvě pasivní karty RTX Pro 6000 Blackwell Server Edition — každá s 96 GB ECC. Nižší režie tensor-paralelního zpracování než se sestavením se 4 nebo 8 kartami. Vlajková loď pro datová centra.

Rackový inferenční server s výškou 4U, dvěma pasivními grafickými kartami RTX Pro 6000 Blackwell Server Edition (96 GB ECC GDDR7 na kartu), jedním procesorem AMD EPYC 7643 Milan (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe bootovacím diskem a jedním 2kW ATX zdrojem. Pro 70B husté bf16 a středně velké MoE je méně velkých karet lepší než více malých karet – tenzorový paralelismus dvou karet má minimální komunikační režii a každá 96GB karta obsahuje kompletní kopii většiny modelů.

technické vybavení

Složka Detail
GPU 2x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 GB ECC GDDR7 (pasivní, 600 W, PCIe 5.0 x16, dvouslotová)
Pool VRAM 192 GB ECC (96 GB x 2) – každá karta pojme samostatný model 70B bf16
Procesor (CPU) AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0)
Základní deska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Spouštění / úložiště 2TB NVMe M.2 (PCIe 4.0 x4)
napájení 1x 2 kW ATX zdroj
Podvozek Montáž do racku 4U s usměrněným prouděním vzduchu zepředu dozadu
Chlazení Arctic Freezer 4U-M SP3 tower + 3x 120 mm přední sání + 1x 120 mm zadní výfuk
Síť Duální integrovaný 10GbE (Intel X550)

Napájecí obálka

  • Odběr energie z grafické karty: 2 x 600 W = 1 200 W
  • Celkový výkon systému při plném zatížení: ~1 525 W
  • Celkový výkon zdroje: 2 000 W (jeden 2 kW) — 23.7 % volného prostoru
  • Postačuje jeden zdroj; volitelné rozšíření na dva zdroje pro redundanci N+1

Topologie jízdních pruhů

PCIe Gen4 x16 na GPU (karta je nativní pro Gen5; deska Rome je omezena na Gen4). Přímé připojení root-complex – žádný přepínač PCIe. Žádný NVLink – peer-to-peer mezi GPU. Pět slotů x16 zůstává volných pro rozšíření. Gen4 vs. Gen5 zanedbatelné pro inferenci při této hustotě VRAM.

Co můžete spustit

Se 192 GB ECC VRAM na pouhých dvou kartách Blackwell s nativním FP8/FP4 se jedná o nejčistší cestu k hustým 70B streamům při bf16 a středně velkému MoE. Dva nezávislé 70B streamy – jeden na kartu – nebo 200B MoE napříč oběma s minimálními obousměrnými TP režijními náklady.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) pohodlný s dlouhým ctx (~15-25 tok/s jeden stream napříč 2 kartami); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB); Qwen3-32B hustý bf16 s obrovským KV; QwQ-32B bf16
  • DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB s malým přebytkem RAM) — Blackwell nativně běží na FP8; DeepSeek-R2 32B bf16 dva souběžné streamy (jeden na kartu)
  • GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — konfigurace pro hrdiny na této úrovni; GLM-4.5-Air FP8 nebo BF16 s obrovským KV
  • Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) — 389B MoE s 256k ctx; Hunyuan-A13B fp8 nativní (~80 GB) s obrovským KV
  • Ostatní: Baidu ERNIE-4.5-424B Q3 ​​(~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); MiniMax-M1 Q3 (~180 GB)

Západní hranice

  • Meta láma: Llama 3.3 70B bf16 na jedné kartě — dva nezávislé souběžné 70B streamy (~20-30 tok/s na stream); Llama 4 Scout bf16 (~218 GB, málo místa); Llama 4 Maverick Q3 (~188 GB)
  • Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~88 GB) jedna karta nebo bf16 na obou; Mistral Small 3 vícestreamový
  • OpenAI (otevřené váhy): gpt-oss-120b MXFP4 nativní (80 GB) — vejde se na JEDNU kartu, dva nezávislé souběžné streamy
  • NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 na jedné kartě
  • Ostatní: Cohere Command R+ 104B Q6 (~85 GB) na jedné kartě; Google Gemma 3 27B bf16 více souběžných streamů

Modely vizuální a jazykové komunikace

InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 jedna karta; Pixtral Large 124B bf16 nebo Q6; Llama 3.2 90B Vision bf16 (~180 GB); Molmo 72B bf16 (~144 GB); GLM-4.6V 106B fp8; Gemma 3 27B multimodální x 2-3 souběžné streamy.

Generování obrazu

FLUX.1 [dev] bf16 více souběžných streamů; FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large bf16 souběžný; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 souběžné; HunyuanImage-3.0 base (80B MoE, 13B aktivní) bf16 — vejde se na jednu kartu; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.

Generování videa

Wan 2.2 MoE dual-expert bf16 plný kontext — vejde se na jednu kartu, dva souběžné generační streamy; Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 oba experty; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Zvuk / Řeč / TTS

  • ASR: Whisper v3 large / turbo (~50x v reálném čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stable Audio Open; Step-Audio-EditX
  • Reálný čas / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2

Vícemodelové / vícenájemnické služby

  • Dva nezávislé 70B streamy – jeden na kartu, nejjednodušší forma izolace klienta
  • Hustý 70B bf16 + podpůrný zásobník — LLM na kartě 1, obraz/video/audio na kartě 2
  • 200B MoE napříč oběma kartami — minimální režie tenzorově paralelního provozu (oboustranné rozdělení)
  • fp8-native frontier — rodina DeepSeek V3, Hunyuan-Large fp8 s nativními cestami Blackwell

Cílové úlohy

  • Hustá inference 70B bf16 — dvě karty tenzorově paralelní s minimální režií nebo jeden model na kartu pro streamování
  • 100-150B MoE ve 4. a 6. čtvrtletí (GLM-4.5-Air, Qwen3.5-122B-A10B, Hunyuan-A13B, Llama 4 Scout)
  • FP8-nativní hraniční inference (rodina DeepSeek V3, Hunyuan, Llama 4) — Blackwell spouští FP8 nativně
  • Studio pro generování obrazu a videa v bf16 (Wan 2.2 T2V-A14B, HunyuanVideo 13B, FLUX.1 [dev])
  • Analýza dokumentů s dlouhým kontextem (MiniMax-M1, Kimi-K2 1.58bitová UD s funkcí spill)

Měřený výkon

Publikované reference | Datový list NVIDIA RTX Pro 6000 Blackwell Server Edition + komunitní benchmarky

měřítko Výsledek
INT8 TOPS na kartu (datový list NVIDIA) 2 000 TOPŮ
Agregát INT8 TOPS (2 karty) 4 000 TOPŮ
Šířka pásma paměti na kartu ~1 800 GB/s, 96 GB ECC GDDR7
Llama 3.3 70B bf16 na kartu (komunitní) 15–25 tok/s jeden proud, 60–90 tok/s dávkový
Duální tenzorově paralelní karta 70B (komunita) Očekává se ~30-45 tok/s v jednom proudu
Blackwell FP8 nativní DeepSeek-V3 fp8, Hunyuan-A13B fp8 běží bez přenosu bf16

Publikované externí reference, neměřené na hardwaru Kentino. Kentino zveřejní data od první strany po první zákaznické sestavení.

Není ideální pro

  • Velmi vysoká souběžnost vícenájemného obsluhování – 4x L40 nebo 6x L4 se lépe rozděluje mezi více karet
  • Silná KV cache při velmi dlouhém kontextu – přejděte na K-AI 384 RTXPro6000 8000TOPS
  • Školení – Kentino neprodává látky NVLink třídy H
  • Odhad rozpočtu při 192GB RAM – 8x RTX 4090 je levnější (výměna ECC a pasivního chlazení za cenu)

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

Tříletá záruka NVIDIA OEM na grafické karty RTX Pro 6000 Server Edition + záruka na integraci s Kentino. Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a ověření funkčnosti. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • Upgrade na duální synchronizovaný zdroj o výkonu 2 kW pro redundanci N+1
  • Rozšíření paměti RAM na 512 GB (4 volné sloty DIMM)
  • 4 TB NVMe pro rozsáhlé knihovny vah a staging modelů
  • Rozšiřitelná konfigurace pro 4 karty (K-AI 384 RTXPro6000 8000TOPS) – šasi má kapacitu slotů
  • Racková skříň 24U + online UPS 5 kVA
Zobrazit všechny podrobnosti