Kentino sro
K-AI 576 Genoa RTXPro6000MQ 12000TOPS — 6× RTX Pro 6000 Blackwell Max-Q AI Frontier Server
K-AI 576 Genoa RTXPro6000MQ 12000TOPS — 6× RTX Pro 6000 Blackwell Max-Q AI Frontier Server
Nelze načíst dostupnost vyzvednutí
K-AI 576 Genoa RTXPro6000MQ 12000TOPS
576 GB ECC VRAM Frontier Server
6x RTX Pro 6000 Max-Q Turbofan | EPYC Genoa | 12 000 TOPS INT8
Publikované externí reference. Nebylo měřeno na hardwaru Kentino.
7U racková inferenční platforma pro špičkové prostředí se šesti grafickými kartami NVIDIA RTX Pro 6000 Blackwell Max-Q s turbofan pamětí, které jsou osazeny 576 GB ECC VRAM, jedním procesorem AMD EPYC 9354 Genoa (32C/64T), 768 GB paměti DDR5-4800 ECC (všech 12 kanálů obsazeno), 4 TB NVMe bootovacím rozhraním a 5x 1200W serverovým zdrojem. Stejný křemíkový a paměťový fond jako u pasivní sestavy Server Edition – jiný chladič. Turbofan Max-Q je samostatný pro každou kartu, běží tišší a toleruje méně přísné proudění vzduchu v šasi. Identický modelový obal jako u pasivního sourozence.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 6x NVIDIA RTX Pro 6000 Blackwell Max-Q 96 GB ECC (turboventilátor, specifikace 600 W TDP, PCIe 5.0 x16, 2000 INT8 TOPS na kartu) |
| Pool VRAM | Celkem 576 GB na 6 kartách (bez NVLinku — P2P přes PCIe Gen5 rychlostí ~55-60 GB/s na směr) |
| Procesor (CPU) | AMD EPYC 9354 Genoa (32C/64T, 280 W, 128 linek PCIe 5.0, 12kanálová paměť DDR5) |
| Základní deska | ASRock Rack GENOAD8X-2T/BCM (SP5 Genoa, integrovaný přepínač Broadcom PEX PCIe Gen5, 12x DDR5, 2x 10 GbE, IPMI) |
| Systémová RAM | 768 GB DDR5-4800 ECC RDIMM (12x 64 GB — všechny kanály obsazeny, celkem ~460 GB/s) |
| Spouštění / úložiště | 4TB NVMe M.2 (PCIe 4.0 x4) – dimenzováno pro přípravu na hraniční kontrolní stanoviště |
| napájení | 5x sada serverových zdrojů 1200 W (kompatibilní s HP, celkem 6 kW) |
| Podvozek | 7U rackový systém s 8 GPU, kapacita 10 slotů PCIe, aktivní rozšiřující karty Gen5 |
| Chlazení | Věžový chladič SP5 Genoa + 8x 120mm ventilátory na šasi. Turbodmychadla pro každou grafickou kartu jsou samostatná – proudění vzduchu pro datová centra se doporučuje, ale není to striktně nutné. Tišší pro laboratorní prostředí. |
| Síť | Duální integrovaný 10GbE (Intel X550) |
Napájecí obálka
- Spotřeba GPU (specifikace): 6 x 600 W = 3 600 W
- Celkový výkon systému při plném zatížení: ~4 080 W
- Celkový výkon zdroje: 6 000 W (5x 1 200 W) — 32 % rezervy
- Karty Max-Q obvykle dosahují trvalého příkonu 520–550 W – reálný výkonový limit přesahuje 20 %
Chlazení (Max-Q diferenciátor)
Každá karta nasává vzduch zepředu dozadu pomocí vlastního ventilátoru – každý z nich je samostatný. Toleruje smíšené nasazení ve skříních/rozvaděčích. Tišší než ekvivalentní sada axiálních ventilátorů. Profil firmwaru Max-Q upřednostňuje nižší trvalý výkon (typicky 520–550 W). Doporučeno: skříň s perforovanými předními dveřmi a volnou zadní odvodní cestou.
Co můžete spustit
Identické s verzí Server Edition – stejný křemíkový procesor, stejný 576GB pool. DeepSeek V3 Q4 (~404 GB) s dlouhým kontextem, Kimi-K2 Q2, Mistral Large 3 Q2-Q3, GLM-5 Q2, Qwen3-Coder-480B Q4.
LLM – text / uvažování / kódování
Čínská hranice
- DeepSeek V3 / R1 / V3.1 / V3.2 v Q4_K_M (~404 GB) vyhovuje dlouhý kontext (~5-8 tok/s jeden vLLM TP-6, publikovaná reference); fp8 nativní (~670 GB) s únikem RAM
- Kimi-K2 (Základ / Instrukce / Myšlení) na Q2_K (~375 GB) pohodlně (~5-8 tok/s single, publikovaná reference)
- GLM-5 / GLM-5.1 (~745B/44B) v Q2_K (~260 GB); Q3 (~420 GB) s přelitím RAM
- Qwen3-Coder-480B-A35B v Q4_K_M (~270 GB) s dlouhým kontextem
- Qwen3-235B-A22B na bf16 (~470 GB) nebo FP8 (~240 GB)
- ERNIE-4.5-424B-A47B ve 4. čtvrtletí (~240 GB) se 128k ctx
- Intern-S1-Pro v Q2_K (~325 GB); Hunyuan-velký ve 4. čtvrtletí (~220 GB)
- MiniMax-Text-01 / M1 ve 4. čtvrtletí (~260 GB)
Západní hranice
- Mistral Large 3 ve 2.-3. čtvrtletí (~243-317 GB) pohodlné (~20-30 tok/s jednotlivě, publikovaná reference)
- Flame 4 Maverick v Q4_K_M (~232 GB) s dlouhým ctx (~45-55 tok/s jeden, publikovaná reference)
- Llama-3.1-Nemotron Ultra 253B při 8. frameworku (~253 GB)
- Grok-1 314B ve 4. čtvrtletí (~182 GB); Sněhová vločka Arktida ve 4. čtvrtletí (~278 GB)
- Instrukce DBRX 132B/36B při bf16 (~264 GB) nebo FP8
Modely vizuální a jazykové komunikace
Qwen3-VL-235B-A22B; InternVL3.5-241B-A28B Q4; GLM-4.5V / 4.6V 106B bf16; Llama 3.2 90B Vision bf16; Pixtral Large 124B fp8; Molmo 72B bf16.
Generování obrazu
Instrukce HunyuanImage-3.0; FLUX.1 [dev] / [shnell] / Kontext multi-instance (~15-20 s na obrázek 1024x1024, publikovaná reference); SD 3.5 Large; SDXL; AuraFlow; OmniGen; HunyuanImage-2.1; Kolors 2.0.
Generování videa
Wan 2.2 T2V-A14B duální expert MoE bf16; HunyuanVideo 13B bf16; Open-Sora 2.0 (11B); Mochi-1 (10B); NVIDIA Cosmos Predict 2 až do 14B; CogVideoX-5B; LTX-Video; Pyramid Flow.
Zvuk / Řeč / TTS
Full-stack rezidentní systémy: Whisper v3 large, Parakeet-TDT 1.1B, Canary 1B, Moshi 7B realtime, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.
Vícemodelové / vícenájemnické služby
- DeepSeek V3 Q4 + FLUX + HunyuanVideo + Whisper/Moshi v reálném čase, plně rezidentní
- Souběžný 70B tenzorově paralelní + 235B-MoE na samostatných PCIe doménách
- 3 hraniční modely rezidentní pro A/B hodnocení
Cílové úlohy
- Výzkumná laboratoř Frontier s otevřenou hmotností a smíšeným/neideálním prouděním vzduchu
- Kolokace / privátní datové centrum, kde je turboventilátor na kartu provozně jednodušší než plně pasivní proudění vzduchu
- Nasazení suverénní umělé inteligence s využitím Apache 2.0 / MIT model stack
- Podniková multimodelová platforma RAG + agenti
- Laboratorní prostředí s otevřenými stojany
Publikované reference výkonu
Externí reference | Stejný křemík jako u Server Edition | Neměřeno na hardwaru Kentino
| měřítko | Výsledek |
|---|---|
| RTX Pro 6000 na kartu INT8 TOPS | 2 000 TOPŮ |
| vLLM — DeepSeek V3 Q4 na 6x RTX Pro 6000 (single) | ~25-40 tok/s |
| vLLM — DeepSeek V3 Q4 na 6x RTX Pro 6000 (šarže-32) | Agregát 200–400 tok/s |
| FLUX.1 [dev] fp8 na jedné grafické kartě RTX Pro 6000 | ~15-20 s na obrázek 1024x1024 |
Přesné údaje potvrzeny ve fázi PoC. Kentino zveřejní čísla od první strany po první zákaznické instalaci.
Není ideální pro
- Kimi-K2 / DeepSeek V3 ve čtvrtém čtvrtletí s reálnou rychlostí produkce – přechod na K-AI 768 TurinDual RTXPro6000MQ
- Školení od nuly na modelech hraniční třídy – bez NVLink
- Nasazení typu „plug-and-play“ – pohraniční služby ministerstva školství potřebují zkušený tým MLOps
Záruka a dodací lhůta
Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, zapálení, memtest, funkční ověření a nastavení prostředí LLM. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- Síťová karta NVIDIA ConnectX-5 MCX555A-ECAT 100 GbE pro škálování na více uzlů
- Druhý 4TB NVMe disk pro datovou sadu / knihovnu modelů
- Plná 24U racková skříň s perforovanými předními dveřmi
- Online UPS 10 kVA
- Spravovaná PDU
Sdílet
