Přejít na informace o produktu
1 of 7

Kentino sro

K-AI 256 TurinDual 5090 — 8× RTX 5090 Dvoupaticová vlajková loď Zen5c (Vyžádejte si cenovou nabídku na CPU)

K-AI 256 TurinDual 5090 — 8× RTX 5090 Dvoupaticová vlajková loď Zen5c (Vyžádejte si cenovou nabídku na CPU)

Běžná cena EUR € 0,00
Běžná cena Prodejní cena EUR € 0,00
Sůl: Vyprodáno
Včetně daní. Přeprava spočítány u pokladny.

K-AI 256 TurínDvojitý 5090 13408TOPS

256 GB VRAM – vlajkový inferenční server
8x RTX 5090 | Duální EPYC Turin | 13 408 TOPS INT8

13 408
TOPS INT8
256 GB
Pool VRAM
fp8
rodák z Blackwellu
Gen5
PCIe end-to-end

Cena CPU finalizována při objednávce – trh s procesory řady Turin 9005 se ve 2. čtvrtletí 2026 mění každý týden.

Publikované externí reference. Nebylo měřeno na hardwaru Kentino.

Vlajkový inferenční server pro montáž do racku s výškou 7U a osmi grafickými kartami GeForce RTX 5090 (32 GB GDDR7, Blackwell, nativní FP8) na dvoupaticové platformě EPYC Turin (Zen5c, SP5) se 768 GB paměti DDR5-4800 ECC na všech 12 kanálech, 2 TB NVMe bootovacím diskem a 5x 1200W serverovým zdrojem. Komplexní PCIe Gen5 na GPU přes aktivní rozšiřující karty pro retimer/rediver. Ihned po vybalení spouští vLLM, SGLang, llama.cpp, ComfyUI a všechny hlavní inferenční stacky s otevřenou váhou.

technické vybavení

Složka Detail
GPU 8x NVIDIA GeForce RTX 5090 32 GB GDDR7 (Blackwell, 575 W TGP, PCIe 5.0 x16, nativní FP8, 1676 INT8 TOPS/karta)
Pool VRAM Celkem 256 GB na 8 kartách (bez NVLinku na spotřebitelské RTX 5090)
Procesor (CPU) 2x AMD EPYC Turin řady 9005 (Zen5c, SP5, PCIe 5.0) — cenová nabídka čeká na vyřízení při objednávce
Základní deska ASRock Rack TURIN2D24XGM/500W (duální SP5, PCIe 5.0, 24x DDR5 DIMM)
Systémová RAM 768 GB DDR5-4800 ECC RDIMM (12x 64 GB — všech 12 kanálů obsazeno; 12 slotů zbývá pro škálování až na 1.5 TB)
Spouštění / úložiště 2TB NVMe M.2 (PCIe 4.0 x4)
napájení 5x sada serverových zdrojů 1200 W (kompatibilní s HP, agregát 6 kW)
Podvozek 7U 8-GPU (až 10 slotů PCIe, samostatné pozice pro zdroje)
Chlazení 2x věžové chladiče SP5 + rackové proudění vzduchu zepředu dozadu (průmyslové ventilátory)
Stoupačky 8x aktivní PCIe Gen5 x16 (retimer/redriver) — end-to-end Gen5
Síť Integrované 10 GbE (závisí na desce)

Napájecí obálka

  • Odběr energie z grafické karty: 8 x 575 W = 4 600 W
  • Celkový výkon systému při plném zatížení: ~5 520 W
  • Celkový výkon zdroje: 6 000 W (5x 1 200 W) — 8 % rezervy dle specifikace
  • Kentino se dodává s výkonovým stropem GPU na 500 W — celkový pokles na ~4 920 W (~15% rezerva)

Topologie jízdních pruhů

Dual Turin poskytuje 2x 128 = 256 PCIe Gen5 linek na straně hostitele. Aktivní rozšiřující karty Gen5 nesou Gen5 x16 na každém GPU – není vyžadován žádný PCIe přepínač (jeden CPU na 4kartovou banku). Žádné NVLink; P2P mezi GPU na Gen5 x16 (nominálně ~60 GB/s na linku).

Co můžete spustit

S 256 GB sdílené paměti VRAM na 8 kartách Blackwell s nativním FP8 cílí tento server na Frontier 235-480B MoE ve čtvrtém čtvrtletí s reálným kontextem, na rodinu DeepSeek V3 ve druhém čtvrtletí a na 1.58bitové dynamické kvantování Kimi-K2 s reálnou propustností.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3-235B-A22B (Instruct / Thinking / "2507") Q4 (~132 GB) s dlouhým kontextem + dávkování pro více uživatelů (~25-40 tok/s jeden stream na 8x RTX 5090, publikovaná reference)
  • GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — vlajková loď uvažování/kódování, 200 tisíc ctx na 4.6+
  • GLM-5 / GLM-5.1 Q2 (~260 GB) s menším únikem RAM — hraniční kódování blízké Claude Opus 4.6
  • DeepSeek V3 / R1 / V3.1 / V3.2 / V3.2-Special Q2 (~215 GB) při užitečné inferenční rychlosti (~28 tok/s jeden stream na 8x Blackwell, publikovaná reference)
  • Kimi-K2 1.58bitový UD-TQ1_0 (~240 GB) — agent s biliony parametrů a reálnou propustností tokenů (~7-10 tok/s jeden stream, publikovaná reference)
  • Hunyuan-velký 389B/52B MoE, 4. čtvrtletí (~220 GB); ERNIE-4.5-424B-A47B 4. čtvrtletí (~240 GB)
  • Qwen3-Coder-480B-A35B Q4 (~270 GB omezeno kvůli úniku RAM) — vlajková loď SOTA s otevřeným kódováním
  • MiniMax-M1 / Text-01 Q4 (~260 GB) 1M kontext; Qwen3.5-397B-A17B 4. čtvrtletí (~214 GB)

Západní hranice

  • Mistral Large 3 (675B/41B MoE, Apache 2.0) Q3 (~317 GB s únikem) – otevřené váhy na západní hranici
  • Flame 4 Maverick (400 mld./17 mld., 128 expertů) Q4 (~232 GB) multimodální
  • Llama-3.1-Nemotron Ultra 253B Q4 (~119 GB) — odpovídá DeepSeek-R1 v poloviční velikosti
  • gpt-oss-120b Nativní MXFP4 (80 GB) s pohodlným prostorem pro více modelů
  • Devstral 2 123B (Modifikovaný MIT) Q6 — špičkové otevřené kódování, 256k ctx
  • Lama 3.3 70B bf16 (~142 GB) multitenantní obsluha (~30-40 tok/s jeden stream na pár RTX 5090 TP2, publikovaná reference)

Modely vizuální a jazykové komunikace

Qwen3-VL-235B-A22B plný bf16 (~240 GB na kartě); InternVL3.5-241B-A28B (~135 GB Q4); Llama 3.2 90B Vision bf16; Pixtral Large 124B bf16 (~248 GB omezené paměti); Qwen3-Omni-30B-A3B; Molmo 72B; ERNIE-4.5-VL; GLM-4.6V plný. Cesta Blackwell fp8 poskytuje ~2x propustnost při inferenci Vision-Tower oproti Ada.

Generování obrazu

FLUX.1 [dev] / Kontext / Nástroje plná verze bf16 (~10-18 s/obraz při fp8 na kartu, publikovaná reference); SD 3.5 Large; HunyuanImage-2.1 (17B, nativní 2K); HunyuanImage-3.0 80B/13B MoE; AuraFlow; OmniGen; farmy ComfyUI s více pracovníky.

Generování videa

Wan 2.2 T2V-A14B / I2V-A14B duální expert bf16 (oba rezidentní s vysokým šumem + nízkošumový současně); HunyuanVideo 13B bf16 oba experty; Open-Sora 2.0 (11B) bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Zvuk / Řeč / TTS

  • ASR: Whisper v3 large / turbo (~50x v reálném čase); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • Překlad textu na řeč: CosyVoice 2/3; Kokoro; Stable Audio Open; XTTS v2; Step-Audio-EditX
  • Reálný čas / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: MusicGen; AudioGen; Kůra; SeamlessM4T v2

Vícemodelové / vícenájemnické služby

  • Frontier-inference brána — 200B+ MoE + souběžných 70B + obraz + video, vše rezidentní
  • 8cestná tenzorová paralelní analýza pro Kimi-K2 / DeepSeek V3 v reálném kontextu
  • Vícenájemnické LLM API — 50–100 souběžných uživatelů na 235B Q4 přes vLLM/SGLang
  • Současný plný pobyt na čínské a západní hranici pro účely hodnocení / srovnání

Cílové úlohy

  • Frontier open-weight inferenční backend pro organizaci se 100-500 místy, kombinující Qwen3-235B, GLM-4.5+ a DeepSeek V3 Q2
  • 1.58bitová agentská platforma Kimi-K2 s produkční propustností (použití nástrojů, více než 200 sekvenčních volání)
  • Full-fp8 DeepSeek V3 / R1 na křemíku Blackwell
  • Víceuzlová tréninková hlava s Gen5 100 GbE / InfiniBand fabric
  • Dvojí inference + difuzní farma (Qwen3-235B + FLUX.1 + HunyuanVideo 13B souběžně)

Publikované reference výkonu

Externí reference | Neměřeno na kování Kentino

měřítko Výsledek
RTX 5090 na kartu INT8 TOPS 1 676 TOPŮ
Šířka pásma paměti RTX 5090 ~1 800 GB/s na kartu
vLLM — Qwen3-235B Q4_K_M na 4x RTX 5090 (jedna) ~90 tok/s
vLLM — Qwen3-235B Q4_K_M na 4x RTX 5090 (dávka-32) ~450 tok/s agregát
SGLang — DeepSeek V3 Q2 na 8x Blackwell (jednoduchý) ~28 tok/s
lama.cpp — Kimi-K2 UD-TQ1_0 na 8x Blackwell 256 GB ~7-10 tok/s

Kentino zveřejní prvněproduktivní toky po prvním zákaznickém sestavení s finální verzí Turin SKU.

Není ideální pro

  • Nasazení s ohledem na rozpočet (prémiové ubytování v Turíně vs. alternativy v Janově nebo Římě)
  • Jednotlivé tenantské úlohy s hustotou 70B (nadměrné – 4x RTX 5090 nebo 4x RTX Pro 6000 je ta správná úroveň)
  • Frontier 600B+ v plném kontextu Q4+ (vyžaduje 576 GB+ úložiště – viz 6x RTX Pro 6000)
  • Dlouhodobé školení od nuly (bez NVLinku na spotřebitelské RTX 5090)

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • Škálování RAM na 1.5 TB DDR5 (24x 64 GB plná kapacita) – vyžadováno pro Kimi-K2 Q4 nebo DeepSeek V3 Q3 bez přetečení RAM
  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT — Gen5 fabric pro clusterové uzly
  • Mellanox ConnectX-6 25 GbE SFP28 pro datová centra
  • 4 TB NVMe Gen4 x4 pro bootování + knihovna modelů
  • Plná 24U racková skříň s řízeným PDU
  • Online UPS 8–10 kVA (kritický – špičkový odběr 5.5 kW)
Zobrazit všechny podrobnosti