Přejděte přímo na informace o produktu
1 de 7

Kentino sro

K-AI 768 TurinDuální RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (duální Turin)

K-AI 768 TurinDuální RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (duální Turin)

Precio obvyklé EUR € 0,00
Precio obvyklé Precio de oferta EUR € 0,00
Nabídnout vyčerpaný
Impuestos incluidos. Los náklady na přepravu se počítají na platební obrazovce.

K-AI 768 Turin Dual RTXPro6000MQ 16000TOPS

768 GB ECC VRAM – vlajková loď Frontier
8x RTX Pro 6000 Max-Q | Duální EPYC Turin | 16 000 TOPS INT8

16 000
TOPS INT8
768 GB
ECC VRAM fond
Gen5
PCIe end-to-end
Vlajková loď
hraniční multi-tenant

Cena CPU finalizována při objednávce – trh s procesory řady Turin 9005 se ve 2. čtvrtletí 2026 mění každý týden.

Publikované externí reference. Nebylo měřeno na hardwaru Kentino.

Špička řady serverů Kentino s umělou inteligencí. Vlajková loď inferenční platformy Frontier pro montáž do racku s osmi grafickými kartami NVIDIA RTX Pro 6000 Blackwell Max-Q s turboventilátorem, které jsou součástí 768 GB ECC VRAM, dvěma procesory AMD EPYC Turin řady 9005 (Zen5c, SP5), 1.5 TB paměti DDR5-4800 ECC (všech 24 kanálů obsazeno), 4 TB NVMe bootovacím rozhraním a 5x 1200W serverovým zdrojem. Komplexní sběrnice PCIe Gen5. Nativní DeepSeek V3 fp8 (~670 GB) na kartě. Kimi-K2 Q4-Q5. Současně rezistence 4 modelů Frontier.

technické vybavení

Složka Detail
GPU 8x NVIDIA RTX Pro 6000 Blackwell Max-Q 96 GB ECC (turboventilátor, specifikace 600 W TDP, PCIe 5.0 x16, 2000 INT8 TOPS/karta, nativní FP8)
Pool VRAM Celkem 768 GB na 8 kartách (bez NVLinku — P2P přes PCIe Gen5 s rychlostí ~55-60 GB/s v rámci socketu, napříč sockety přes propojení CPU)
Procesor (CPU) 2x AMD EPYC Turin řady 9005 (Zen5c, SP5, PCIe 5.0) — cenová nabídka čeká na vypracování, přesné SKU potvrzeno při objednávce
Základní deska ASRock Rack TURIN2D24XGM/500W (duální SP5 Turin, PCIe 5.0, 24x DDR5, 2x 10 GbE, IPMI)
Systémová RAM 1.5 TB DDR5-4800 ECC RDIMM (24x 64 GB — všech 24 kanálů obsazeno, celkem ~920 GB/s)
Spouštění / úložiště 4TB NVMe M.2 (PCIe 4.0 x4) – dimenzováno pro hraniční kontrolní stanoviště
napájení 5x sada serverových zdrojů 1200 W (celkem 6 kW)
Podvozek 7U rackový systém s 8 GPU, kapacita 10 slotů PCIe, aktivní rozšiřující karty Gen5
Chlazení 2x věžové chladiče SP5 Turin + 8x 120mm ventilátory Martech pro šasi. Turboventilátory pro každou grafickou kartu jsou samostatné.
Síť Duální integrovaný 10GbE (Intel X550)

Napájecí obálka

  • Spotřeba GPU (specifikace): 8 x 600 W = 4 800 W
  • Spotřeba CPU: 2 x 360 W = 720 W (odhad pro Turín střední třídy)
  • Celkový výkon systému při plném zatížení: ~5 720 W
  • Celkový výkon zdroje: 6 000 W — ~4.7 % hrubé rezervy dle specifikace
  • Reálný svět: Max-Q udržuje 520-550 W v inferenci, což zvyšuje trvalý výkon na ~20%+
  • K dispozici je firmwarový limit výkonu 520 W pro garantovanou rezervu

Topologie jízdních pruhů

Duální Turin nabízí 2x 128 linek PCIe Gen5. TURIN2D24XGM/500W směruje 8 slotů GPU přímo připojených k CPU na Gen5 x16 přes aktivní rozšiřující karty – 4 sloty na kořenový adresář CPU. V cestě GPU není žádný přepínač PCIe – čistá topologie s dvojitým kořenovým adresářem. Pro optimální peer-to-peer připojení mezi sockety je nutné ladění NUMA. Žádný NVLink; P2P rychlostí ~55-60 GB/s na směr v rámci socketu.

Co můžete spustit

S 768 GB sdílené ECC VRAM – což je vrchol Kentino prostředí – tento server běží na nativní grafické kartě DeepSeek V3 fp8 (~670 GB), komfortním Kimi-K2 Q4-Q5 (~630 GB) a určujícím případem použití: 4 modely hraniční třídy rezidentní současně pro produkční služby s více klienty.

LLM – text / uvažování / kódování

Čínská hranice v kvantitativní produkci

  • Kimi-K2 (Základ / Instrukce / Myšlení) v Q4_K_M / Q5_K_M (~630 GB) pohodlně (~15-25 tok/s single, publikovaná reference) — vlajková loď čínské hranice na jednom boxu v produkčních kvantech
  • DeepSeek V3 / R1 / V3.1 / V3.2 při nativní rychlosti FP8 (~670 GB) na kartě (~30-50 tok/s, publikovaná reference) — tenzorová jádra Blackwell FP8 to nativně běží rychlostí
  • DeepSeek V3 v Q4_K_M (~404 GB) s více souběžnými instancemi pro velkodávkové obsluhování
  • GLM-5 / GLM-5.1 (~745B/44B) ve 3.–4. čtvrtletí (~420–560 GB) pohodlná kapacita na kartě
  • Intern-S1-Pro (1T/22B aktivní, SAGE) ve 3. až 4. čtvrtletí (~440–580 GB) pohodlně
  • Qwen3-Coder-480B-A35B v 5. až 6. čtvrtletí (~340–400 GB) s 1 milionem ctx
  • Qwen3-235B-A22B v bf16 (~470 GB) s velkorysou KV pro dlouhý kontext
  • ERNIE-4.5-424B-A47B v 6. čtvrtletí (~360 GB); Hunyuan-velký při 8. frameworku (~390 GB)
  • MiniMax-Text-01 / M1 v 5. až 6. čtvrtletí (~325–390 GB)

Západní hranice v produkčních kvantifikacích

  • Mistral Large 3 (675B/41B MoE, Apache 2.0) ve 3.-4. čtvrtletí (~317-404 GB) pohodlně (~20-30 tok/s jeden, publikovaná reference)
  • Flame 4 Maverick (400 miliard/17 miliard, 128 expertů) v 5.–6. čtvrtletí (~290–350 GB)
  • Llama-3.1-Nemotron Ultra 253B v bf16 (~506 GB) na kartě
  • Sněhová vločka Arktida v 5. až 6. čtvrtletí (~350–420 GB); Grok-1 v 5. až 6. čtvrtletí (~225–270 GB)
  • Instrukce DBRX 132B/36B při bf16 (~264 GB) pro více instancí

Modely vizuální a jazykové komunikace

Vlajková loď VLM Qwen3-VL-235B-A22B s dlouhým kontextem; InternVL3.5-241B-A28B na bf16 (~482 GB); víceinstanční GLM-4.5V / 4.6V 106B bf16; víceinstanční Llama 3.2 90B Vision bf16; Pixtral Large 124B bf16; víceinstanční Molmo 72B bf16.

Generování obrazu

HunyuanImage-3.0 Instruct souběžné instance; FLUX.1 multiinstance (~15-20 s na obrázek 1024x1024, publikovaná reference); SD 3.5 Large; SDXL; AuraFlow; OmniGen; HunyuanImage-2.1; Kolors 2.0 — plný čínský + západní stack obrazů rezidentní souběžně.

Generování videa

Wan 2.2 T2V-A14B / I2V-A14B — mnoho souběžných streamů; HunyuanVideo 13B bf16 více souběžných streamů; Open-Sora 2.0 (11B) víceinstanční; Mochi-1 (10B) víceinstanční; NVIDIA Cosmos Predict 2 až 14B.

Zvuk / Řeč / TTS

Full stack rezidentní v dávce: Whisper v3 large, Parakeet-TDT, Canary 1B, Moshi 7B realtime, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.

Vícemodelové / vícenájemnické služby (určující případ užití)

  • Vícenájemní hraniční produkce: 4 modely hraniční třídy nacházející se současně — např. DeepSeek V3 fp8 + Kimi-K2 Q4 + Mistral Large 3 Q3 + Qwen3-Coder-480B Q5 — s rozdělenou VRAM a SLO pro jednotlivé klienty
  • Souběžná inference Blackwell s nativní frameworkem FP8 (rodina DeepSeek V3 / R1, Hunyuan FP8) + kvantizované obsluhování na samostatných doménách PCIe
  • Výzkum A/B modelů napříč 4-5 hraničními modely s otevřenou váhou na výzkumné úrovni
  • Agentská platforma s více než 400 miliardami primárních pracovníků a více specialisty s kapacitou 30–70 miliard pracovníků

Cílové úlohy

  • Vícenájemní hraniční produkce s otevřenou hmotností – více hraničních modelů nacházejících se současně s izolací na nájemce
  • Nasazení umělé inteligence na suverénních hranicích – přístup k DeepSeek V3 FP8 / Kimi-K2 / Mistral Large 3 v místních podmínkách, rezidenční přístup k datům v EU
  • Výzkumná laboratoř Frontier s A/B hodnocením napříč 4+ modely s otevřenou váhou na výzkumné úrovni
  • Podniková agentní platforma, kde více než 400 miliard nástrojů MoE řídí nástroje + několik specializovaných modelů
  • Inference regulovaného odvětví s vzdušnou mezerou v hraničním měřítku s ECC + PCIe Gen5

Publikované reference výkonu

Externí reference | Neměřeno na kování Kentino

měřítko Výsledek
RTX Pro 6000 na kartu INT8 TOPS 2 000 TOPŮ
vLLM — DeepSeek V3 fp8 na 8x RTX Pro 6000 (jedna) ~30-50 tok/s
vLLM — DeepSeek V3 fp8 na 8x RTX Pro 6000 (dávka-32) Agregát 300–500 tok/s
Kimi-K2 v 4. čtvrtletí na 8 grafických kartách RTX Pro 6000 (jedna) ~15-25 tok/s
FLUX.1 [dev] fp8 na jedné grafické kartě RTX Pro 6000 ~15-20 s na obrázek 1024x1024

Přesné údaje potvrzeny ve fázi PoC. Kentino zveřejní čísla od první strany po první zákaznické instalaci.

Není ideální pro

  • Cenově dostupné implementace – vlajková skladová jednotka za vlajkovou cenu
  • Školení od nuly na modelech hraniční třídy — žádný NVLink, pouze PCIe P2P (pro školení v tomto rozsahu je H100/H200 SXM nebo GB200 NVLink fabric tím správným nástrojem)
  • Nasazení typu plug-and-play – pohraniční multitenantní služby MoE vyžadují zkušený tým MLOps

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

Sestavení zahrnuje assembly, konfiguraci BIOSu, instalaci ovladačů, zapálení, memtest, funkční ověření, ladění NUMA a nastavení prostředí LLM (vLLM / SGLang / llama.cpp / CUDA 13 stack s jádry FP8 Blackwell). Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • Síťová karta NVIDIA ConnectX-5 MCX555A-ECAT nebo ConnectX-7 Gen5 100 GbE pro horizontální škálování s více uzly
  • Mellanox ConnectX-6 25 GbE SFP28 pro datová centra
  • Druhý 4TB NVMe disk pro datovou sadu / knihovnu modelů (kontrolní body na hranicích jsou velké – samotný Kimi-K2 bf16 má ~1 TB)
  • Plná 24U racková skříň s perforovanými předními dveřmi a řízeným PDU
  • Online UPS 10 kVA (plynulé vypnutí při výpadku napájení)
Podívejte se na všechny podrobnosti