Kentino sro
K-AI 256 TurinDual 5090 — 8× RTX 5090 Dvoupaticová vlajková loď Zen5c (Vyžádejte si cenovou nabídku na CPU)
K-AI 256 TurinDual 5090 — 8× RTX 5090 Dvoupaticová vlajková loď Zen5c (Vyžádejte si cenovou nabídku na CPU)
Nelze načíst dostupnost vyzvednutí
K-AI 256 TurínDvojitý 5090 13408TOPS
256 GB VRAM – vlajkový inferenční server
8x RTX 5090 | Duální EPYC Turin | 13 408 TOPS INT8
Cena CPU finalizována při objednávce – trh s procesory řady Turin 9005 se ve 2. čtvrtletí 2026 mění každý týden.
Publikované externí reference. Nebylo měřeno na hardwaru Kentino.
Vlajkový inferenční server pro montáž do racku s výškou 7U a osmi grafickými kartami GeForce RTX 5090 (32 GB GDDR7, Blackwell, nativní FP8) na dvoupaticové platformě EPYC Turin (Zen5c, SP5) se 768 GB paměti DDR5-4800 ECC na všech 12 kanálech, 2 TB NVMe bootovacím diskem a 5x 1200W serverovým zdrojem. Komplexní PCIe Gen5 na GPU přes aktivní rozšiřující karty pro retimer/rediver. Ihned po vybalení spouští vLLM, SGLang, llama.cpp, ComfyUI a všechny hlavní inferenční stacky s otevřenou váhou.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 8x NVIDIA GeForce RTX 5090 32 GB GDDR7 (Blackwell, 575 W TGP, PCIe 5.0 x16, nativní FP8, 1676 INT8 TOPS/karta) |
| Pool VRAM | Celkem 256 GB na 8 kartách (bez NVLinku na spotřebitelské RTX 5090) |
| Procesor (CPU) | 2x AMD EPYC Turin řady 9005 (Zen5c, SP5, PCIe 5.0) — cenová nabídka čeká na vyřízení při objednávce |
| Základní deska | ASRock Rack TURIN2D24XGM/500W (duální SP5, PCIe 5.0, 24x DDR5 DIMM) |
| Systémová RAM | 768 GB DDR5-4800 ECC RDIMM (12x 64 GB — všech 12 kanálů obsazeno; 12 slotů zbývá pro škálování až na 1.5 TB) |
| Spouštění / úložiště | 2TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | 5x sada serverových zdrojů 1200 W (kompatibilní s HP, agregát 6 kW) |
| Podvozek | 7U 8-GPU (až 10 slotů PCIe, samostatné pozice pro zdroje) |
| Chlazení | 2x věžové chladiče SP5 + rackové proudění vzduchu zepředu dozadu (průmyslové ventilátory) |
| Stoupačky | 8x aktivní PCIe Gen5 x16 (retimer/redriver) — end-to-end Gen5 |
| Síť | Integrované 10 GbE (závisí na desce) |
Napájecí obálka
- Odběr energie z grafické karty: 8 x 575 W = 4 600 W
- Celkový výkon systému při plném zatížení: ~5 520 W
- Celkový výkon zdroje: 6 000 W (5x 1 200 W) — 8 % rezervy dle specifikace
- Kentino se dodává s výkonovým stropem GPU na 500 W — celkový pokles na ~4 920 W (~15% rezerva)
Topologie jízdních pruhů
Dual Turin poskytuje 2x 128 = 256 PCIe Gen5 linek na straně hostitele. Aktivní rozšiřující karty Gen5 nesou Gen5 x16 na každém GPU – není vyžadován žádný PCIe přepínač (jeden CPU na 4kartovou banku). Žádné NVLink; P2P mezi GPU na Gen5 x16 (nominálně ~60 GB/s na linku).
Co můžete spustit
S 256 GB sdílené paměti VRAM na 8 kartách Blackwell s nativním FP8 cílí tento server na Frontier 235-480B MoE ve čtvrtém čtvrtletí s reálným kontextem, na rodinu DeepSeek V3 ve druhém čtvrtletí a na 1.58bitové dynamické kvantování Kimi-K2 s reálnou propustností.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3-235B-A22B (Instruct / Thinking / "2507") Q4 (~132 GB) s dlouhým kontextem + dávkování pro více uživatelů (~25-40 tok/s jeden stream na 8x RTX 5090, publikovaná reference)
- GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — vlajková loď uvažování/kódování, 200 tisíc ctx na 4.6+
- GLM-5 / GLM-5.1 Q2 (~260 GB) s menším únikem RAM — hraniční kódování blízké Claude Opus 4.6
- DeepSeek V3 / R1 / V3.1 / V3.2 / V3.2-Special Q2 (~215 GB) při užitečné inferenční rychlosti (~28 tok/s jeden stream na 8x Blackwell, publikovaná reference)
- Kimi-K2 1.58bitový UD-TQ1_0 (~240 GB) — agent s biliony parametrů a reálnou propustností tokenů (~7-10 tok/s jeden stream, publikovaná reference)
- Hunyuan-velký 389B/52B MoE, 4. čtvrtletí (~220 GB); ERNIE-4.5-424B-A47B 4. čtvrtletí (~240 GB)
- Qwen3-Coder-480B-A35B Q4 (~270 GB omezeno kvůli úniku RAM) — vlajková loď SOTA s otevřeným kódováním
- MiniMax-M1 / Text-01 Q4 (~260 GB) 1M kontext; Qwen3.5-397B-A17B 4. čtvrtletí (~214 GB)
Západní hranice
- Mistral Large 3 (675B/41B MoE, Apache 2.0) Q3 (~317 GB s únikem) – otevřené váhy na západní hranici
- Flame 4 Maverick (400 mld./17 mld., 128 expertů) Q4 (~232 GB) multimodální
- Llama-3.1-Nemotron Ultra 253B Q4 (~119 GB) — odpovídá DeepSeek-R1 v poloviční velikosti
- gpt-oss-120b Nativní MXFP4 (80 GB) s pohodlným prostorem pro více modelů
- Devstral 2 123B (Modifikovaný MIT) Q6 — špičkové otevřené kódování, 256k ctx
- Lama 3.3 70B bf16 (~142 GB) multitenantní obsluha (~30-40 tok/s jeden stream na pár RTX 5090 TP2, publikovaná reference)
Modely vizuální a jazykové komunikace
Qwen3-VL-235B-A22B plný bf16 (~240 GB na kartě); InternVL3.5-241B-A28B (~135 GB Q4); Llama 3.2 90B Vision bf16; Pixtral Large 124B bf16 (~248 GB omezené paměti); Qwen3-Omni-30B-A3B; Molmo 72B; ERNIE-4.5-VL; GLM-4.6V plný. Cesta Blackwell fp8 poskytuje ~2x propustnost při inferenci Vision-Tower oproti Ada.
Generování obrazu
FLUX.1 [dev] / Kontext / Nástroje plná verze bf16 (~10-18 s/obraz při fp8 na kartu, publikovaná reference); SD 3.5 Large; HunyuanImage-2.1 (17B, nativní 2K); HunyuanImage-3.0 80B/13B MoE; AuraFlow; OmniGen; farmy ComfyUI s více pracovníky.
Generování videa
Wan 2.2 T2V-A14B / I2V-A14B duální expert bf16 (oba rezidentní s vysokým šumem + nízkošumový současně); HunyuanVideo 13B bf16 oba experty; Open-Sora 2.0 (11B) bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Zvuk / Řeč / TTS
- ASR: Whisper v3 large / turbo (~50x v reálném čase); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- Překlad textu na řeč: CosyVoice 2/3; Kokoro; Stable Audio Open; XTTS v2; Step-Audio-EditX
- Reálný čas / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B
- Hudba / Zvukové efekty: MusicGen; AudioGen; Kůra; SeamlessM4T v2
Vícemodelové / vícenájemnické služby
- Frontier-inference brána — 200B+ MoE + souběžných 70B + obraz + video, vše rezidentní
- 8cestná tenzorová paralelní analýza pro Kimi-K2 / DeepSeek V3 v reálném kontextu
- Vícenájemnické LLM API — 50–100 souběžných uživatelů na 235B Q4 přes vLLM/SGLang
- Současný plný pobyt na čínské a západní hranici pro účely hodnocení / srovnání
Cílové úlohy
- Frontier open-weight inferenční backend pro organizaci se 100-500 místy, kombinující Qwen3-235B, GLM-4.5+ a DeepSeek V3 Q2
- 1.58bitová agentská platforma Kimi-K2 s produkční propustností (použití nástrojů, více než 200 sekvenčních volání)
- Full-fp8 DeepSeek V3 / R1 na křemíku Blackwell
- Víceuzlová tréninková hlava s Gen5 100 GbE / InfiniBand fabric
- Dvojí inference + difuzní farma (Qwen3-235B + FLUX.1 + HunyuanVideo 13B souběžně)
Publikované reference výkonu
Externí reference | Neměřeno na kování Kentino
| měřítko | Výsledek |
|---|---|
| RTX 5090 na kartu INT8 TOPS | 1 676 TOPŮ |
| Šířka pásma paměti RTX 5090 | ~1 800 GB/s na kartu |
| vLLM — Qwen3-235B Q4_K_M na 4x RTX 5090 (jedna) | ~90 tok/s |
| vLLM — Qwen3-235B Q4_K_M na 4x RTX 5090 (dávka-32) | ~450 tok/s agregát |
| SGLang — DeepSeek V3 Q2 na 8x Blackwell (jednoduchý) | ~28 tok/s |
| lama.cpp — Kimi-K2 UD-TQ1_0 na 8x Blackwell 256 GB | ~7-10 tok/s |
Kentino zveřejní prvněproduktivní toky po prvním zákaznickém sestavení s finální verzí Turin SKU.
Není ideální pro
- Nasazení s ohledem na rozpočet (prémiové ubytování v Turíně vs. alternativy v Janově nebo Římě)
- Jednotlivé tenantské úlohy s hustotou 70B (nadměrné – 4x RTX 5090 nebo 4x RTX Pro 6000 je ta správná úroveň)
- Frontier 600B+ v plném kontextu Q4+ (vyžaduje 576 GB+ úložiště – viz 6x RTX Pro 6000)
- Dlouhodobé školení od nuly (bez NVLinku na spotřebitelské RTX 5090)
Záruka a dodací lhůta
Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- Škálování RAM na 1.5 TB DDR5 (24x 64 GB plná kapacita) – vyžadováno pro Kimi-K2 Q4 nebo DeepSeek V3 Q3 bez přetečení RAM
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT — Gen5 fabric pro clusterové uzly
- Mellanox ConnectX-6 25 GbE SFP28 pro datová centra
- 4 TB NVMe Gen4 x4 pro bootování + knihovna modelů
- Plná 24U racková skříň s řízeným PDU
- Online UPS 8–10 kVA (kritický – špičkový odběr 5.5 kW)
Sdílet
