Kentino sro
K-AI 768 TurinDuální RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (duální Turin)
K-AI 768 TurinDuální RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (duální Turin)
Nelze načíst dostupnost výběru
K-AI 768 Turin Dual RTXPro6000MQ 16000TOPS
768 GB ECC VRAM – vlajková loď Frontier
8x RTX Pro 6000 Max-Q | Duální EPYC Turin | 16 000 TOPS INT8
Cena CPU finalizována při objednávce – trh s procesory řady Turin 9005 se ve 2. čtvrtletí 2026 mění každý týden.
Publikované externí reference. Nebylo měřeno na hardwaru Kentino.
Špička řady serverů Kentino s umělou inteligencí. Vlajková loď inferenční platformy Frontier pro montáž do racku s osmi grafickými kartami NVIDIA RTX Pro 6000 Blackwell Max-Q s turboventilátorem, které jsou součástí 768 GB ECC VRAM, dvěma procesory AMD EPYC Turin řady 9005 (Zen5c, SP5), 1.5 TB paměti DDR5-4800 ECC (všech 24 kanálů obsazeno), 4 TB NVMe bootovacím rozhraním a 5x 1200W serverovým zdrojem. Komplexní sběrnice PCIe Gen5. Nativní DeepSeek V3 fp8 (~670 GB) na kartě. Kimi-K2 Q4-Q5. Současně rezistence 4 modelů Frontier.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 8x NVIDIA RTX Pro 6000 Blackwell Max-Q 96 GB ECC (turboventilátor, specifikace 600 W TDP, PCIe 5.0 x16, 2000 INT8 TOPS/karta, nativní FP8) |
| Pool VRAM | Celkem 768 GB na 8 kartách (bez NVLinku — P2P přes PCIe Gen5 s rychlostí ~55-60 GB/s v rámci socketu, napříč sockety přes propojení CPU) |
| Procesor (CPU) | 2x AMD EPYC Turin řady 9005 (Zen5c, SP5, PCIe 5.0) — cenová nabídka čeká na vypracování, přesné SKU potvrzeno při objednávce |
| Základní deska | ASRock Rack TURIN2D24XGM/500W (duální SP5 Turin, PCIe 5.0, 24x DDR5, 2x 10 GbE, IPMI) |
| Systémová RAM | 1.5 TB DDR5-4800 ECC RDIMM (24x 64 GB — všech 24 kanálů obsazeno, celkem ~920 GB/s) |
| Spouštění / úložiště | 4TB NVMe M.2 (PCIe 4.0 x4) – dimenzováno pro hraniční kontrolní stanoviště |
| napájení | 5x sada serverových zdrojů 1200 W (celkem 6 kW) |
| Podvozek | 7U rackový systém s 8 GPU, kapacita 10 slotů PCIe, aktivní rozšiřující karty Gen5 |
| Chlazení | 2x věžové chladiče SP5 Turin + 8x 120mm ventilátory Martech pro šasi. Turboventilátory pro každou grafickou kartu jsou samostatné. |
| Síť | Duální integrovaný 10GbE (Intel X550) |
Napájecí obálka
- Spotřeba GPU (specifikace): 8 x 600 W = 4 800 W
- Spotřeba CPU: 2 x 360 W = 720 W (odhad pro Turín střední třídy)
- Celkový výkon systému při plném zatížení: ~5 720 W
- Celkový výkon zdroje: 6 000 W — ~4.7 % hrubé rezervy dle specifikace
- Reálný svět: Max-Q udržuje 520-550 W v inferenci, což zvyšuje trvalý výkon na ~20%+
- K dispozici je firmwarový limit výkonu 520 W pro garantovanou rezervu
Topologie jízdních pruhů
Duální Turin nabízí 2x 128 linek PCIe Gen5. TURIN2D24XGM/500W směruje 8 slotů GPU přímo připojených k CPU na Gen5 x16 přes aktivní rozšiřující karty – 4 sloty na kořenový adresář CPU. V cestě GPU není žádný přepínač PCIe – čistá topologie s dvojitým kořenovým adresářem. Pro optimální peer-to-peer připojení mezi sockety je nutné ladění NUMA. Žádný NVLink; P2P rychlostí ~55-60 GB/s na směr v rámci socketu.
Co můžete spustit
S 768 GB sdílené ECC VRAM – což je vrchol Kentino prostředí – tento server běží na nativní grafické kartě DeepSeek V3 fp8 (~670 GB), komfortním Kimi-K2 Q4-Q5 (~630 GB) a určujícím případem použití: 4 modely hraniční třídy rezidentní současně pro produkční služby s více klienty.
LLM – text / uvažování / kódování
Čínská hranice v kvantitativní produkci
- Kimi-K2 (Základ / Instrukce / Myšlení) v Q4_K_M / Q5_K_M (~630 GB) pohodlně (~15-25 tok/s single, publikovaná reference) — vlajková loď čínské hranice na jednom boxu v produkčních kvantech
- DeepSeek V3 / R1 / V3.1 / V3.2 při nativní rychlosti FP8 (~670 GB) na kartě (~30-50 tok/s, publikovaná reference) — tenzorová jádra Blackwell FP8 to nativně běží rychlostí
- DeepSeek V3 v Q4_K_M (~404 GB) s více souběžnými instancemi pro velkodávkové obsluhování
- GLM-5 / GLM-5.1 (~745B/44B) ve 3.–4. čtvrtletí (~420–560 GB) pohodlná kapacita na kartě
- Intern-S1-Pro (1T/22B aktivní, SAGE) ve 3. až 4. čtvrtletí (~440–580 GB) pohodlně
- Qwen3-Coder-480B-A35B v 5. až 6. čtvrtletí (~340–400 GB) s 1 milionem ctx
- Qwen3-235B-A22B v bf16 (~470 GB) s velkorysou KV pro dlouhý kontext
- ERNIE-4.5-424B-A47B v 6. čtvrtletí (~360 GB); Hunyuan-velký při 8. frameworku (~390 GB)
- MiniMax-Text-01 / M1 v 5. až 6. čtvrtletí (~325–390 GB)
Západní hranice v produkčních kvantifikacích
- Mistral Large 3 (675B/41B MoE, Apache 2.0) ve 3.-4. čtvrtletí (~317-404 GB) pohodlně (~20-30 tok/s jeden, publikovaná reference)
- Flame 4 Maverick (400 miliard/17 miliard, 128 expertů) v 5.–6. čtvrtletí (~290–350 GB)
- Llama-3.1-Nemotron Ultra 253B v bf16 (~506 GB) na kartě
- Sněhová vločka Arktida v 5. až 6. čtvrtletí (~350–420 GB); Grok-1 v 5. až 6. čtvrtletí (~225–270 GB)
- Instrukce DBRX 132B/36B při bf16 (~264 GB) pro více instancí
Modely vizuální a jazykové komunikace
Vlajková loď VLM Qwen3-VL-235B-A22B s dlouhým kontextem; InternVL3.5-241B-A28B na bf16 (~482 GB); víceinstanční GLM-4.5V / 4.6V 106B bf16; víceinstanční Llama 3.2 90B Vision bf16; Pixtral Large 124B bf16; víceinstanční Molmo 72B bf16.
Generování obrazu
HunyuanImage-3.0 Instruct souběžné instance; FLUX.1 multiinstance (~15-20 s na obrázek 1024x1024, publikovaná reference); SD 3.5 Large; SDXL; AuraFlow; OmniGen; HunyuanImage-2.1; Kolors 2.0 — plný čínský + západní stack obrazů rezidentní souběžně.
Generování videa
Wan 2.2 T2V-A14B / I2V-A14B — mnoho souběžných streamů; HunyuanVideo 13B bf16 více souběžných streamů; Open-Sora 2.0 (11B) víceinstanční; Mochi-1 (10B) víceinstanční; NVIDIA Cosmos Predict 2 až 14B.
Zvuk / Řeč / TTS
Full stack rezidentní v dávce: Whisper v3 large, Parakeet-TDT, Canary 1B, Moshi 7B realtime, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.
Vícemodelové / vícenájemnické služby (určující případ užití)
- Vícenájemní hraniční produkce: 4 modely hraniční třídy nacházející se současně — např. DeepSeek V3 fp8 + Kimi-K2 Q4 + Mistral Large 3 Q3 + Qwen3-Coder-480B Q5 — s rozdělenou VRAM a SLO pro jednotlivé klienty
- Souběžná inference Blackwell s nativní frameworkem FP8 (rodina DeepSeek V3 / R1, Hunyuan FP8) + kvantizované obsluhování na samostatných doménách PCIe
- Výzkum A/B modelů napříč 4-5 hraničními modely s otevřenou váhou na výzkumné úrovni
- Agentská platforma s více než 400 miliardami primárních pracovníků a více specialisty s kapacitou 30–70 miliard pracovníků
Cílové úlohy
- Vícenájemní hraniční produkce s otevřenou hmotností – více hraničních modelů nacházejících se současně s izolací na nájemce
- Nasazení umělé inteligence na suverénních hranicích – přístup k DeepSeek V3 FP8 / Kimi-K2 / Mistral Large 3 v místních podmínkách, rezidenční přístup k datům v EU
- Výzkumná laboratoř Frontier s A/B hodnocením napříč 4+ modely s otevřenou váhou na výzkumné úrovni
- Podniková agentní platforma, kde více než 400 miliard nástrojů MoE řídí nástroje + několik specializovaných modelů
- Inference regulovaného odvětví s vzdušnou mezerou v hraničním měřítku s ECC + PCIe Gen5
Publikované reference výkonu
Externí reference | Neměřeno na kování Kentino
| měřítko | Výsledek |
|---|---|
| RTX Pro 6000 na kartu INT8 TOPS | 2 000 TOPŮ |
| vLLM — DeepSeek V3 fp8 na 8x RTX Pro 6000 (jedna) | ~30-50 tok/s |
| vLLM — DeepSeek V3 fp8 na 8x RTX Pro 6000 (dávka-32) | Agregát 300–500 tok/s |
| Kimi-K2 v 4. čtvrtletí na 8 grafických kartách RTX Pro 6000 (jedna) | ~15-25 tok/s |
| FLUX.1 [dev] fp8 na jedné grafické kartě RTX Pro 6000 | ~15-20 s na obrázek 1024x1024 |
Přesné údaje potvrzeny ve fázi PoC. Kentino zveřejní čísla od první strany po první zákaznické instalaci.
Není ideální pro
- Cenově dostupné implementace – vlajková skladová jednotka za vlajkovou cenu
- Školení od nuly na modelech hraniční třídy — žádný NVLink, pouze PCIe P2P (pro školení v tomto rozsahu je H100/H200 SXM nebo GB200 NVLink fabric tím správným nástrojem)
- Nasazení typu plug-and-play – pohraniční multitenantní služby MoE vyžadují zkušený tým MLOps
Záruka a dodací lhůta
Sestavení zahrnuje assembly, konfiguraci BIOSu, instalaci ovladačů, zapálení, memtest, funkční ověření, ladění NUMA a nastavení prostředí LLM (vLLM / SGLang / llama.cpp / CUDA 13 stack s jádry FP8 Blackwell). Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- Síťová karta NVIDIA ConnectX-5 MCX555A-ECAT nebo ConnectX-7 Gen5 100 GbE pro horizontální škálování s více uzly
- Mellanox ConnectX-6 25 GbE SFP28 pro datová centra
- Druhý 4TB NVMe disk pro datovou sadu / knihovnu modelů (kontrolní body na hranicích jsou velké – samotný Kimi-K2 bf16 má ~1 TB)
- Plná 24U racková skříň s perforovanými předními dveřmi a řízeným PDU
- Online UPS 10 kVA (plynulé vypnutí při výpadku napájení)
Sdílet
