Kentino sro
K-AI 192 RomeDuální 4090 5288TOPS — 8× RTX 4090 — Duální EPYC Milán
K-AI 192 RomeDuální 4090 5288TOPS — 8× RTX 4090 — Duální EPYC Milán
Impossibilní caricare la disponibilità di ritiro
K-AI 192 ŘímDuální 4090 5288TOPS
192 GB VRAM 8-GPU inferenční server
8x RTX 4090 | Duální EPYC Milan | 5 288 TOPS INT8
Vlajková loď s 8násobným herním GPU. 192GB úložiště za cenu spotřebitelských karet na platformě EPYC Milan s dvěma paticemi.
Šasi 7U s 8 grafickými kartami postavené na dvou procesorech EPYC 7643 Milan (celkem 96 procesorů/192 MHz), základní desce ASRock Rack ROME2D32GM-NL s duálním SP3, 512 GB paměti DDR4 ECC, 2 TB bootovacího rozhraní NVMe a sadě 5 serverových zdrojů o výkonu 1200 W. Osm grafických karet GeForce RTX 4090 se připojuje přes aktivní rozšiřující karty PCIe Gen4 s retimerem na plném x16. Nejlevnější cesta k 192 GB hraniční RAM na hardwaru Kentino.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 8x NVIDIA GeForce RTX 4090 24 GB GDDR6X (Ada Lovelace, 450 W, PCIe 4.0 x16) |
| Pool VRAM | Celkem 192 GB na 8 kartách (bez NVLinku na spotřebitelské RTX 4090) |
| Procesor (CPU) | 2x AMD EPYC 7643 Milan (48C/96T každá — celkem 96C/192T, 225 W každá, 2x 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROME2D32GM-NL (duální SP3, PCIe 4.0, 32x DDR4 ECC DIMM sloty) |
| Systémová RAM | 512 GB DDR4-2666 ECC RDIMM (8x 64 GB — 4 na patici pro 8kanálovou rovnováhu) |
| Spouštění / úložiště | 2TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | 5x sada serverových zdrojů 1200 W (kompatibilní s HP, hot-swap) + kompletní sada adaptérů 12VHPWR |
| Podvozek | 7U šasi s 8 GPU (až 10 PCIe karet včetně rozšiřujících karet) |
| Stoupačky | 8 aktivních rozšiřujících karet PCIe Gen4 x16 (vyžadováno nad délku kabelu) |
| Chlazení | 2x věžové chladiče Arctic Freezer 4U-M SP3 + rackové proudění vzduchu zepředu dozadu (průmyslové ventilátory) |
| Síť | Duální integrovaný 10GbE (Intel X550) |
Napájecí obálka
- Odběr energie z grafické karty: 8 x 450 W = 3 600 W
- Spotřeba CPU: 2 x 225 W = 450 W
- Celkový výkon systému při plném zatížení: ~4 200 W
- Celkový výkon zdroje: 6 000 W plně aktivní (5x 1 200 W) — 30.0 % rezervy
Topologie jízdních pruhů
ROME2D32GM-NL zpřístupňuje 2x 128 linek PCIe Gen4 – jeden 128linetový pool na socket EPYC – přímo ke slotem GPU. Aktivní rozšiřující karty retimeru Gen4 pro integritu signálu. Žádný přepínač PCIe. Žádný NVLink. Naměřená rychlost mezi GPU peer-to-peer na benchmarku se 4 GPU byla 19-22 GB/s.
Co můžete spustit
S kapacitou 192 GB na 8 kartách tento server ve 4. čtvrtletí zvládá více než 200 miliard datových operací (MoE), 8cestnou tenzorově-paralelní inferenci, vícemodelové obsluhování izolované na tenantech a vysokou dávkovou propustnost při zachování ekonomické úrovně spotřebitelských karet.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) s dlouhým ctx — herní konfigurace (~15-25 tok/s jeden stream na 8x RTX 4090); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB) více streamů; Qwen3-32B hustý bf16 x více souběžných
- DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB s 512 GB hostitelské paměti); DeepSeek-R2 32B bf16 — až 8 souběžných streamů, jeden na kartu (~30–40 tok/s na stream)
- GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB); GLM-4.5-Air fp8 nebo bf16; GLM-4.6V 106B
- Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB); Hunyuan-A13B Q4/Q6 (RTX 4090 je Ada – fp8 upcastuje na bf16, použijte kvanta GGUF)
- Ostatní: Baidu ERNIE-4.5-424B Q3 (~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3.5-397B Q3 (~170 GB); MiniMax-M1 Q3 (~180 GB)
Západní hranice
- Meta láma: Llama 3.3 70B bf16 s masivním KV (~20 tok/s single-stream Q4, ~179 tok/s batch-32 vLLM — Kentino měřeno na 4GPU benchmarku); Llama 4 Scout bf16 (~218 GB omezená kapacita); Llama 4 Maverick Q3 (~188 GB)
- Mistral: Mistral Large 2 / Pixtral Large 123B Q6 komfortní nebo bf16 (cca 248 GB úniku); Mistral Small 3 vícestreamový
- OpenAI (otevřené váhy): gpt-oss-120b MXFP4 nativní (80 GB) s obrovským KV
- NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16
- Ostatní: Cohere Command R+ 104B Q6 (~85 GB); Google Gemma 3 27B bf16 x více streamů
Modely vizuální a jazykové komunikace
InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 vícestreamový; Llama 3.2 90B Vision bf16 (~180 GB); Pixtral Large 124B Q6; Molmo 72B bf16; GLM-4.6V 106B fp8/Q6; Gemma 3 27B multimodální x vícestreamový.
Generování obrazu
FLUX.1 [vývoj] bf16 — až 8 souběžných generačních streamů (jeden na kartu, ~15-25 s/obraz při fp8); FLUX.1 Kontext [vývoj]; FLUX Tools; SD 3.5 Large bf16 x 8; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 souběžné; HunyuanImage-3.0 base (80B MoE, 13B aktivní) bf16; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.
Generování videa
Wan 2.2 MoE dual-expert bf16 s plnou podporou ctx — více souběžných streamů; Wan 2.2 TI2V-5B x 8 souběžných; HunyuanVideo 13B bf16 oba experty; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Genmo Mochi-1 bf16; LTX-Video x 8 souběžných; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos.
Zvuk / Řeč / TTS
- ASR: Whisper v3 large / turbo x 8 souběžných (~50x reálného času na stream); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabilní zvuk otevřený
- Reálný čas / S2S: Kyutai Moshi 7B x 8 souběžných hlasových streamů; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2
Vícemodelové / vícenájemnické služby
- 8cestná tenzorově paralelní inference 200-250B MoE v Q4 (Qwen3-235B, GLM-4.5/4.6/4.7)
- 8streamová služba izolovaná klientem – jeden 24GB model Q4 na kartu (např. 8 agentů Qwen3-14B)
- Velká dávka 70B — tenzorově paralelní agregát vLLM / SGLang dávkový 64
- Smíšená flotila: 235B MoE na 4 kartách (TP4) + FLUX + video + hlas v reálném čase na zbývajících 4 kartách
- Laboratoř pro jemné doladění — 7-34B LoRA / QLoRA s velkou dávkou
Cílové úlohy
- 8-GPU tenzorově paralelní inference na 192GB poolu — Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16
- Hustý 70B bf16 (Llama 3.3 70B) s masivní KV rezervou pro dlouhé CTX a vysokou dávku
- Vysoce výkonná dávková inferenční brána — vLLM / SGLang tenzorově paralelní ve velké dávce
- Jemné doladění modelů třídy 7-34B s využitím vysokodávkového LoRA / QLoRA
- Wan 2.2 dual-expert / HunyuanImage-3.0 / FLUX.1 kompletní pracovní postup pro video a obrazové studio
Měřený výkon
Benchmark Kentino (reference 4 GPU) | 10. 4. 2026 | 4x RTX 4090 + EPYC 7542 + 512 GB DDR04 + ROMED8-2T
| měřítko | Výsledek |
|---|---|
| Trvalý výpočetní výkon (fp16, 4 referenční karty) | 647 TFLOPS |
| vLLM — Llama 3.3 70B AWQ INT4 (single) | 8.0 tok/s |
| vLLM – Llama 3.3 70B AWQ INT4 (šarže-32) | 179 tok/s agregát |
| lama.cpp — lama 3.3 70B Q4_K_M (single) | Dekódování 20.3 tok/s |
| Agregované výpočty s 8 GPU (extrapolace) | Očekává se ~1 294 TFLOPS fp16 (téměř lineární) |
| 235B Q4 tenzorově paralelní 8cestný (komunitní) | 15-25 tok/s jeden stream na 8x RTX 4090 |
Data ze 4 karet naměřená na hardwaru Kentino. Extrapolace pro 8 grafických karet je publikovaná externí reference. Kentino zveřejní data pro 8 grafických karet od prvních zákazníků po první zákaznické sestavení.
Není ideální pro
- Pracovní zátěže generace 5090 (nativní Blackwell FP8 + vyšší TOPS) – viz K-AI 256 TurinDual 5090
- Školení od nuly (bez NVLinku na spotřebitelské RTX 4090)
- Citlivá produkce 24/7 s ohledem na ECC – spotřebitelská RTX 4090 nemá ECC; preferujte 4x L40 nebo 2x RTX Pro 6000 Server Edition
- Hunyuan / DeepSeek FP8 nativní — RTX 4090 je Ada, FP8 kontrolní body převedeny na bf16
Záruka a dodací lhůta
Sestavení zahrnuje montáž, konfiguraci BIOSu s laděním NUMA pro dva sockety, instalaci ovladačů, zapálení, memtest, kompletní zátěžový test 8 GPU a nastavení prostředí LLM. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- 4 TB dodatečného NVMe úložiště pro fázování zátěže a odlehčení zátěže MoE
- NVIDIA ConnectX-5 100 GbE pro víceuzlové služby
- Rozšíření RAM na 1 TB (16x 64 GB) nebo 2 TB (32x 64 GB) — deska podporuje 32 slotů DIMM
- Plná 24U racková skříň + online UPS 5 kVA
Sdílet
