Přejděte přímo na informace o produktu
1 de 7

Kentino sro

K-AI 576 Genoa RTXPro6000 12000TOPS — 6× RTX Pro 6000 Blackwell Server Edition AI Frontier Server

K-AI 576 Genoa RTXPro6000 12000TOPS — 6× RTX Pro 6000 Blackwell Server Edition AI Frontier Server

Precio obvyklé EUR € 106.069,00
Precio obvyklé Precio de oferta EUR € 106.069,00
Nabídnout vyčerpaný
Impuestos incluidos. Los náklady na přepravu se počítají na platební obrazovce.

K-AI 576 Genoa RTXPro6000 12000TOPS

576 GB ECC VRAM Frontier Research Server
6x RTX Pro 6000 Server Edition | EPYC Genoa | 12 000 TOPS INT8

12 000
TOPS INT8
576 GB
ECC VRAM fond
BCM
Přepínač PCIe Gen5
Hranice
výzkum na premiéře

Publikované externí reference. Nebylo měřeno na hardwaru Kentino.

7U racková inferenční platforma pro špičkovou úroveň se šesti pasivními kartami NVIDIA RTX Pro 6000 Blackwell Server Edition, které jsou sdíleny s 576 GB ECC VRAM, jedním procesorem AMD EPYC 9354 Genoa (32C/64T), 768 GB paměti DDR5-4800 ECC (všech 12 kanálů obsazeno), 4 TB NVMe bootovacím rozhraním a 5x 1200W serverovým zdrojem. Integrovaný přepínač Broadcom PCIe Gen5 se rovnoměrně rozděluje do všech 6 slotů GPU. DeepSeek V3 Q4 (~404 GB) pohodlně pracuje s dlouhým kontextem, Kimi-K2 Q2, Mistral Large 3 Q2-Q3 – plnohodnotná on-premise platforma pro špičkovou úroveň.

technické vybavení

Složka Detail
GPU 6x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 GB ECC (pasivní, 600 W, PCIe 5.0 x16, 2000 INT8 TOPS na kartu)
Pool VRAM Celkem 576 GB na 6 kartách (bez NVLinku — P2P přes PCIe Gen5 rychlostí ~55-60 GB/s na směr)
Procesor (CPU) AMD EPYC 9354 Genoa (32C/64T, 280 W, 128 linek PCIe 5.0, 12kanálová paměť DDR5)
Základní deska ASRock Rack GENOAD8X-2T/BCM (SP5 Genoa, integrovaný přepínač Broadcom PEX PCIe Gen5, 12x DDR5, 2x 10 GbE, IPMI)
Systémová RAM 768 GB DDR5-4800 ECC RDIMM (12x 64 GB — všechny kanály obsazeny, celkem ~460 GB/s)
Spouštění / úložiště 4TB NVMe M.2 (PCIe 4.0 x4) – dimenzováno pro přípravu na hraniční kontrolní stanoviště
napájení 5x sada serverových zdrojů 1200 W (kompatibilní s HP, celkem 6 kW)
Podvozek 7U rackový systém s 8 GPU, kapacita 10 slotů PCIe, aktivní rozšiřující karty Gen5
Chlazení Věžový chladič SP5 Genoa, 8x 120mm ventilátory na šasi, vyžadované proudění vzduchu pro datové centrum zepředu dozadu. Pasivní grafické karty.
Síť Duální integrovaný 10GbE (Intel X550)

Napájecí obálka

  • Odběr energie z grafické karty: 6 x 600 W = 3 600 W
  • Celkový výkon systému při plném zatížení: ~4 080 W
  • Celkový výkon zdroje: 6 000 W (5x 1 200 W) — 32 % rezervy
  • Pro inferenci v ustáleném stavu není vyžadován žádný výkonový limit.

Topologie jízdních pruhů

GENOAD8X-2T/BCM integruje integrovaný přepínač Broadcom PEX PCIe Gen5. 128 linek Gen5 z kořenového slotu EPYC Genoa před přepínačem, který se rovnoměrně rozvádí do všech 6 slotů GPU na Gen5 x16 end-to-end pomocí aktivních rozšiřujících linek. Čistá topologie s jedním kořenem – jednodušší ladění NUMA než u dvou soketů. Žádný NVLink; P2P rychlostí ~55-60 GB/s na směr.

Co můžete spustit

S 576 GB sdílené ECC VRAM na nativním křemíku Blackwell FP8 tento server provozuje kompletní čínsko-západní otevřenou hranici na kvantových procesorech výzkumné úrovně: DeepSeek V3 Q4 (~404 GB) s dlouhým kontextem, Kimi-K2 Q2, Mistral Large 3 Q2-Q3, GLM-5 Q2, Qwen3-Coder-480B Q4.

LLM – text / uvažování / kódování

Čínská hranice

  • DeepSeek V3 / R1 / V3.1 / V3.2 v Q4_K_M (~404 GB) vyhovuje dlouhý kontext (~5-8 tok/s jeden vLLM TP-6, publikovaná reference); fp8 nativní (~670 GB) s únikem RAM
  • Kimi-K2 (Základ / Instrukce / Myšlení) na Q2_K (~375 GB) pohodlně (~5-8 tok/s single, publikovaná reference)
  • GLM-5 / GLM-5.1 (~745B/44B) ve 2. čtvrtletí 2000 (~260 GB) pohodlně; ve 3. čtvrtletí (~420 GB) s přebytkem RAM
  • Qwen3-Coder-480B-A35B v Q4_K_M (~270 GB) s dlouhým kontextem
  • Qwen3-235B-A22B na bf16 (~470 GB) nebo FP8 (~240 GB)
  • ERNIE-4.5-424B-A47B ve 4. čtvrtletí (~240 GB) s plnými 128k ctx
  • Intern-S1-Pro (1T/22B aktivní, SAGE) v Q2_K (~325 GB) pohodlně
  • Hunyuan-velký A52B ve 4. čtvrtletí (~220 GB); MiniMax-M1 ve 4. čtvrtletí (~260 GB)

Západní hranice

  • Mistral Large 3 (675B/41B MoE, Apache 2.0) ve 2.-3. čtvrtletí (~243-317 GB) pohodlně (~20-30 tok/s jeden, publikovaná reference)
  • Flame 4 Maverick (400B/17B) v Q4_K_M (~232 GB) s dlouhým ctx (~45-55 tok/s jeden, publikovaná reference)
  • Llama-3.1-Nemotron Ultra 253B na FP8 (~253 GB) nebo BF16 s přebytečnou RAM
  • Grok-1 314B ve 4. čtvrtletí (~182 GB); Sněhová vločka Arktida ve 4. čtvrtletí (~278 GB)
  • Instrukce DBRX 132B/36B na úrovni bf16 (~264 GB) nebo více instancí FP8
  • Všechny modely třídy 70-120B u BF16 s dostatkem prostoru

Modely vizuální a jazykové komunikace

Vlajková loď VLM Qwen3-VL-235B-A22B; InternVL3.5-241B-A28B Q4 (~135 GB); GLM-4.5V / 4.6V 106B bf16 (~210 GB); Llama 3.2 90B Vision bf16; Pixtral Large 124B fp8; Molmo 72B bf16.

Generování obrazu

Instrukční úroveň HunyuanImage-3.0 (3x 80 GB) – odpovídá kapacitě; FLUX.1 [dev] / [shnell] / Kontext multi-instance (~15-20 s na obraz 1024x1024 na jedné RTX Pro 6000 fp8, publikovaná reference); SD 3.5 Large; SDXL; AuraFlow; OmniGen; HunyuanImage-2.1; Kolors 2.0.

Generování videa

Wan 2.2 T2V-A14B / I2V-A14B dual-expert MoE bf16 (~54 GB); HunyuanVideo 13B bf16 comfort; Open-Sora 2.0 (11B) bf16; Mochi-1 (10B) fp16; NVIDIA Cosmos Predict 2 až 14B; CogVideoX-5B; LTX-Video; Pyramid Flow.

Zvuk / Řeč / TTS

Současně nainstalované full stack systémy: Whisper v3 large, Parakeet-TDT 1.1B, Canary 1B, Moshi 7B realtime, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.

Vícemodelové / vícenájemnické služby

  • Inference DeepSeek V3 Q4 + obraz FLUX + HunyuanVideo + hlas Whisper/Moshi v reálném čase, vše na místě současně
  • Souběžný 70B tenzorově paralelní + 235B-MoE na samostatných doménách PCIe přes přepínač Broadcom
  • A/B hodnocení výzkumu: 3 hraniční modely otevřené váhy nacházející se současně

Cílové úlohy

  • Výzkumná laboratoř Frontier s otevřenou hmotností – lokální přístup k DeepSeek V3 / Kimi-K2 / Mistral Large 3 třídy bez nutnosti odchodu do cloudu
  • Nasazení suverénní umělé inteligence – datová rezidence v EU s modelovým stackem Apache 2.0 / MIT
  • Podniková multimodelová platforma RAG + agenti – rezidentní několik modelů MoE s kapacitou 200–400 miliard dolarů
  • Hodnocení modelu / výzkum bezpečnosti porovnávající otevřené váhy v pohraniční Číně s vahami západních zemí
  • Inference ve velkém měřítku pro regulovaná odvětví vyžadující vzduchovou mezeru + ECC + PCIe Gen5

Publikované reference výkonu

Externí reference | Neměřeno na kování Kentino

měřítko Výsledek
RTX Pro 6000 na kartu INT8 TOPS 2 000 TOPŮ
vLLM — DeepSeek V3 Q4 na 6x RTX Pro 6000 (single) ~25-40 tok/s
vLLM — DeepSeek V3 Q4 na 6x RTX Pro 6000 (šarže-32) Agregát 200–400 tok/s
FLUX.1 [dev] fp8 na jedné grafické kartě RTX Pro 6000 ~15-20 s na obrázek 1024x1024

Přesné údaje potvrzeny ve fázi PoC. Kentino zveřejní čísla od první strany po první zákaznické instalaci.

Není ideální pro

  • Kimi-K2 / DeepSeek V3 ve čtvrtém čtvrtletí produkce s reálnou rychlostí – přechod na duální Turin s 768 GB
  • Školení od nuly na modelech Frontier-class – bez NVLink, pouze PCIe P2P
  • Nasazení typu „plug-and-play“ – pohraniční služby ministerstva školství potřebují zkušený tým MLOps

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

Sestavení zahrnuje sestavení, konfiguraci BIOSu, instalaci ovladačů, zapálení, memtest, funkční ověření a nastavení prostředí LLM (vLLM / SGLang / llama.cpp / CUDA 13 stack s jádry FP8 Blackwell). Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • Síťová karta NVIDIA ConnectX-5 MCX555A-ECAT 100 GbE pro škálování na více uzlů
  • Druhý 4TB NVMe disk pro datovou sadu / knihovnu modelů
  • Plná 24U racková skříň s perforovanými předními dveřmi
  • Online UPS 10 kVA
  • Spravovaná PDU
Podívejte se na všechny podrobnosti