Kentino sro
K-AI 192 Řím RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Milán
K-AI 192 Řím RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Milán
Impossibilní caricare la disponibilità di ritiro
K-AI 192 Řím RTXPro6000 4000TOPS
192 GB ECC Blackwell Flagship Pair
2x RTX Pro 6000 Server Edition | EPYC Milan | 4 000 TOPS INT8
Dvě pasivní karty RTX Pro 6000 Blackwell Server Edition — každá s 96 GB ECC. Nižší režie tensor-paralelního zpracování než se sestavením se 4 nebo 8 kartami. Vlajková loď pro datová centra.
Rackový inferenční server s výškou 4U, dvěma pasivními grafickými kartami RTX Pro 6000 Blackwell Server Edition (96 GB ECC GDDR7 na kartu), jedním procesorem AMD EPYC 7643 Milan (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe bootovacím diskem a jedním 2kW ATX zdrojem. Pro 70B husté bf16 a středně velké MoE je méně velkých karet lepší než více malých karet – tenzorový paralelismus dvou karet má minimální komunikační režii a každá 96GB karta obsahuje kompletní kopii většiny modelů.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 2x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 GB ECC GDDR7 (pasivní, 600 W, PCIe 5.0 x16, dvouslotová) |
| Pool VRAM | 192 GB ECC (96 GB x 2) – každá karta pojme samostatný model 70B bf16 |
| Procesor (CPU) | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Spouštění / úložiště | 2TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | 1x 2 kW ATX zdroj |
| Podvozek | Montáž do racku 4U s usměrněným prouděním vzduchu zepředu dozadu |
| Chlazení | Arctic Freezer 4U-M SP3 tower + 3x 120 mm přední sání + 1x 120 mm zadní výfuk |
| Síť | Duální integrovaný 10GbE (Intel X550) |
Napájecí obálka
- Odběr energie z grafické karty: 2 x 600 W = 1 200 W
- Celkový výkon systému při plném zatížení: ~1 525 W
- Celkový výkon zdroje: 2 000 W (jeden 2 kW) — 23.7 % volného prostoru
- Postačuje jeden zdroj; volitelné rozšíření na dva zdroje pro redundanci N+1
Topologie jízdních pruhů
PCIe Gen4 x16 na GPU (karta je nativní pro Gen5; deska Rome je omezena na Gen4). Přímé připojení root-complex – žádný přepínač PCIe. Žádný NVLink – peer-to-peer mezi GPU. Pět slotů x16 zůstává volných pro rozšíření. Gen4 vs. Gen5 zanedbatelné pro inferenci při této hustotě VRAM.
Co můžete spustit
Se 192 GB ECC VRAM na pouhých dvou kartách Blackwell s nativním FP8/FP4 se jedná o nejčistší cestu k hustým 70B streamům při bf16 a středně velkému MoE. Dva nezávislé 70B streamy – jeden na kartu – nebo 200B MoE napříč oběma s minimálními obousměrnými TP režijními náklady.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) pohodlný s dlouhým ctx (~15-25 tok/s jeden stream napříč 2 kartami); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB); Qwen3-32B hustý bf16 s obrovským KV; QwQ-32B bf16
- DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB s malým přebytkem RAM) — Blackwell nativně běží na FP8; DeepSeek-R2 32B bf16 dva souběžné streamy (jeden na kartu)
- GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — konfigurace pro hrdiny na této úrovni; GLM-4.5-Air FP8 nebo BF16 s obrovským KV
- Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) — 389B MoE s 256k ctx; Hunyuan-A13B fp8 nativní (~80 GB) s obrovským KV
- Ostatní: Baidu ERNIE-4.5-424B Q3 (~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); MiniMax-M1 Q3 (~180 GB)
Západní hranice
- Meta láma: Llama 3.3 70B bf16 na jedné kartě — dva nezávislé souběžné 70B streamy (~20-30 tok/s na stream); Llama 4 Scout bf16 (~218 GB, málo místa); Llama 4 Maverick Q3 (~188 GB)
- Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~88 GB) jedna karta nebo bf16 na obou; Mistral Small 3 vícestreamový
- OpenAI (otevřené váhy): gpt-oss-120b MXFP4 nativní (80 GB) — vejde se na JEDNU kartu, dva nezávislé souběžné streamy
- NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 na jedné kartě
- Ostatní: Cohere Command R+ 104B Q6 (~85 GB) na jedné kartě; Google Gemma 3 27B bf16 více souběžných streamů
Modely vizuální a jazykové komunikace
InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 jedna karta; Pixtral Large 124B bf16 nebo Q6; Llama 3.2 90B Vision bf16 (~180 GB); Molmo 72B bf16 (~144 GB); GLM-4.6V 106B fp8; Gemma 3 27B multimodální x 2-3 souběžné streamy.
Generování obrazu
FLUX.1 [dev] bf16 více souběžných streamů; FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large bf16 souběžný; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 souběžné; HunyuanImage-3.0 base (80B MoE, 13B aktivní) bf16 — vejde se na jednu kartu; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.
Generování videa
Wan 2.2 MoE dual-expert bf16 plný kontext — vejde se na jednu kartu, dva souběžné generační streamy; Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 oba experty; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Zvuk / Řeč / TTS
- ASR: Whisper v3 large / turbo (~50x v reálném čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stable Audio Open; Step-Audio-EditX
- Reálný čas / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2
Vícemodelové / vícenájemnické služby
- Dva nezávislé 70B streamy – jeden na kartu, nejjednodušší forma izolace klienta
- Hustý 70B bf16 + podpůrný zásobník — LLM na kartě 1, obraz/video/audio na kartě 2
- 200B MoE napříč oběma kartami — minimální režie tenzorově paralelního provozu (oboustranné rozdělení)
- fp8-native frontier — rodina DeepSeek V3, Hunyuan-Large fp8 s nativními cestami Blackwell
Cílové úlohy
- Hustá inference 70B bf16 — dvě karty tenzorově paralelní s minimální režií nebo jeden model na kartu pro streamování
- 100-150B MoE ve 4. a 6. čtvrtletí (GLM-4.5-Air, Qwen3.5-122B-A10B, Hunyuan-A13B, Llama 4 Scout)
- FP8-nativní hraniční inference (rodina DeepSeek V3, Hunyuan, Llama 4) — Blackwell spouští FP8 nativně
- Studio pro generování obrazu a videa v bf16 (Wan 2.2 T2V-A14B, HunyuanVideo 13B, FLUX.1 [dev])
- Analýza dokumentů s dlouhým kontextem (MiniMax-M1, Kimi-K2 1.58bitová UD s funkcí spill)
Měřený výkon
Publikované reference | Datový list NVIDIA RTX Pro 6000 Blackwell Server Edition + komunitní benchmarky
| měřítko | Výsledek |
|---|---|
| INT8 TOPS na kartu (datový list NVIDIA) | 2 000 TOPŮ |
| Agregát INT8 TOPS (2 karty) | 4 000 TOPŮ |
| Šířka pásma paměti na kartu | ~1 800 GB/s, 96 GB ECC GDDR7 |
| Llama 3.3 70B bf16 na kartu (komunitní) | 15–25 tok/s jeden proud, 60–90 tok/s dávkový |
| Duální tenzorově paralelní karta 70B (komunita) | Očekává se ~30-45 tok/s v jednom proudu |
| Blackwell FP8 nativní | DeepSeek-V3 fp8, Hunyuan-A13B fp8 běží bez přenosu bf16 |
Publikované externí reference, neměřené na hardwaru Kentino. Kentino zveřejní data od první strany po první zákaznické sestavení.
Není ideální pro
- Velmi vysoká souběžnost vícenájemného obsluhování – 4x L40 nebo 6x L4 se lépe rozděluje mezi více karet
- Silná KV cache při velmi dlouhém kontextu – přejděte na K-AI 384 RTXPro6000 8000TOPS
- Školení – Kentino neprodává látky NVLink třídy H
- Odhad rozpočtu při 192GB RAM – 8x RTX 4090 je levnější (výměna ECC a pasivního chlazení za cenu)
Záruka a dodací lhůta
Tříletá záruka NVIDIA OEM na grafické karty RTX Pro 6000 Server Edition + záruka na integraci s Kentino. Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a ověření funkčnosti. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- Upgrade na duální synchronizovaný zdroj o výkonu 2 kW pro redundanci N+1
- Rozšíření paměti RAM na 512 GB (4 volné sloty DIMM)
- 4 TB NVMe pro rozsáhlé knihovny vah a staging modelů
- Rozšiřitelná konfigurace pro 4 karty (K-AI 384 RTXPro6000 8000TOPS) – šasi má kapacitu slotů
- Racková skříň 24U + online UPS 5 kVA
Sdílet
