Kentino sro
K-AI 128 Řím 5090 6704TOPS — 4× RTX 5090 Blackwell AI server
K-AI 128 Řím 5090 6704TOPS — 4× RTX 5090 Blackwell AI server
Impossibilní caricare la disponibilità di ritiro
K-AI 128 Řím 5090 6704TOPS
128 GB VRAM Blackwell Inference Server
4x RTX 5090 | EPYC Milán | 6 704 TOPS INT8
Čtyři grafické karty Blackwell RTX 5090 s nativními tenzorovými cestami FP8/FP4. Sestavení se 4 GPU s nejvyšší propustností na platformě Rome.
Rackový inferenční server s výškou 4U, čtyřmi grafickými kartami GeForce RTX 5090 spojenými se 128 GB VRAM, jedním procesorem AMD EPYC 7643 Milan (48C/96T), 512 GB paměti DDR4 ECC (všech 8 slotů DIMM obsazených pro maximální šířku pásma), 2 TB NVMe bootovacím diskem a duálním synchronizovaným 2kW ATX zdrojem. Spouští vLLM, SGLang, llama.cpp, ComfyUI s nativními inferenčními jádry FP8 od Blackwell a MXFP4.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 4x NVIDIA GeForce RTX 5090 32 GB GDDR7 (Blackwell, 575 W, PCIe 5.0 x16) |
| Pool VRAM | Celkem 128 GB na 4 kartách (bez NVLinku na spotřebitelské kartě 5090) |
| Procesor (CPU) | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 512 GB DDR4-2666 ECC RDIMM (8x 64 GB — všechny sloty DIMM obsazeny) |
| Spouštění / úložiště | 2TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | Duální 2kW ATX zdroj se synchronizačním kabelem + sada adaptérů 12VHPWR |
| Podvozek | 4U rackové, 4x GPU, pasivní rozšiřující karty PCIe 4.0 x16 |
| Chlazení | Arctic Freezer 4U-M SP3 tower + 3x 120 mm přední sání + 1x 120 mm zadní výfuk |
| Síť | Duální integrovaný 10GbE (Intel X550) |
Napájecí obálka
- Odběr energie z grafické karty: 4 x 575 W = 2 300 W
- Celkový výkon systému při plném zatížení: ~2 650 W
- Celkový výkon zdroje: 4 000 W (duální 2 kW synchronizovaný) — 33.8 % rezervy
- Duální zdroj pro rozdělené napájení – každý zdroj napájí část systému
Topologie jízdních pruhů
ROMED8-2T rozděluje 128 linek PCIe Gen4 z EPYC přímo do sedmi slotů x16; čtyři jsou obsazeny GPU na úrovni Gen4 x16. Žádný přepínač PCIe. Žádný NVLink na spotřební lince 5090 – peer-to-peer mezi GPU. Karty jsou nativní pro Gen5; Rome má omezení na Gen4.
Co můžete spustit
Se 128 GB sdílené paměti VRAM a nativními tenzorovými cestami FP8 od Blackwellu se tento server posouvá na úroveň Qwen3-235B-A22B Q4 a gpt-oss-120b MXFP4 se skutečným KV prostorem – nad rámec toho, co dokáže 4x RTX 4090.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q3-Q4 (~112-132 GB) odpovídá 128GB poolu s 8-16k ctx — herní konfigurace; Qwen3-32B hustý bf16 (~65 GB) s masivním KV; Qwen3-Coder-30B-A3B agentický s 1M ctx; Qwen3.5-122B-A10B Q6/fp8 (~75-80 GB); QwQ-32B bf16 uvažování
- DeepSeek: DeepSeek-V3/R1/V3.1/V3.2 fp8-native Q2 (~215 GB) s RAM rozptýlenou na 512 GB hostitele – proveditelné pro dávkové zpracování; DeepSeek-R2 32B bf16 multistream (4 souběžné, jeden na kartu)
- GLM / Z.ai: GLM-4.5-Air 106B/12B fp8 (~106 GB) nebo Q6 pohodlně; GLM-4.5/4.6/4.7 Q2_K_XL (~135 GB) bez problémů s MoE offloadem
- Tencent Hunyuan: Hunyuan-A13B FP8 nativní (~80 GB) — Blackwell běží FP8 bez penalizace pro upcast; Hunyuan-Large Q2 s únikem RAM
- ByteDance Seed-OSS-36B bf16 s 512k nativní pamětí; ERNIE-4.5-424B Q2 (únik ~150 GB)
Západní hranice
- Meta láma: Llama 3.3 70B Q4 napříč 4x 5090 (~30-40 tok/s jeden proud, ~270+ tok/s dávkově-32 vLLM); Llama 4 Scout 109B/17B MoE fp8/Q6 (~90 GB); Llama 4 Maverick 400B/17B Q3 (~188 GB únik)
- Mistral: Mistral Small 3 / Magistral / Devstral Small 2 (24B) bf16 vícestreamový; Pixtral Large / Mistral Large 2 (123B) Q6 (~88 GB)
- OpenAI (otevřené váhy): gpt-oss-120b MXFP4 nativní (80 GB) se skutečnými KV a dlouhým kontextem — úloha Blackwell Hero; gpt-oss-20b MXFP4
- Google Gemma 3: 27B multimodální bf16 (~54 GB) dva souběžné streamy; 12B / 4B
- Microsoft Phi-4 14B hustý bf16; destilovaná s úvahou Phi-4
- NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q3 (~119 GB) těsný; Super 49B bf16 (~98 GB)
- Ostatní: Cohere Command R+ 104B Q6 (~85 GB); Molmo 72B Q6-bf16 VLM; OLMo 2 32B; IBM Granite 4.0 H-Small
Modely vizuální a jazykové komunikace
Qwen3-VL-235B-A22B Q3-Q4; Qwen3-VL-32B bf16; InternVL3.5-241B-A28B Q4 (těsně ~135 GB); InternVL3 78B bf16; Llama 3.2 90B Vision Q6 (~74 GB); Pixtral Large 124B Q6 (~88 GB); Molmo 72B Q6/bf16; Gemma 3 27B multimodální bf16; GLM-4.6V 106B fp8.
Generování obrazu
FLUX.1 [vývoj] bf16 a fp8 (~10-18 s/obraz při fp8); FLUX.1 Kontext [vývoj]; SD 3.5 Large bf16; HunyuanImage-2.1 bf16 a Q4; HunyuanImage-3.0 base (80B MoE, 13B aktivní) bf16 (~80 GB, velikost pro herní prostředí); HunyuanDiT; Kolors / Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.
Generování videa
Wan 2.2 MoE dvouexpertní bf16 (~54 GB, plný ctx); Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 oba expertní (~60-80 GB); HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16 (~24 GB); Genmo Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos.
Zvuk / Řeč / TTS
- ASR: Whisper v3 large / turbo (~50x v reálném čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; Stable Audio Open; XTTS v2; StyleTTS 2; Step-Audio-EditX
- Reálný čas / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2
Vícemodelové / vícenájemnické služby
- 200B MoE ve 4. čtvrtletí s dávkovou inferencí (Qwen3-235B, GLM-4.5/4.6/4.7-Air) pro 8–16 souběžných uživatelů
- fp8-native frontier — rodina DeepSeek V3, Hunyuan-Large fp8 s nativními cestami Blackwell
- Smíšený rezidentní stack: gpt-oss-120b MXFP4 + FLUX.1 + Whisper + Moshi na rozdělené VRAM
- Vysokokapacitní 70B — tenzorově paralelní vLLM / SGLang s dávkovým agregátem více než 200 toků/s
Cílové úlohy
- Produkce MoE přes 200 miliard bloků ve 3. až 4. čtvrtletí se skutečným KV (Qwen3-235B, GLM-4.5-Air 106B)
- fp8-nativní hraniční inference (DeepSeek V3/R1 fp8, Hunyuan fp8) — Blackwell běží bez přetypování nahoru
- Vysokokapacitní 70B servírování – tenzorově paralelní dávkové zpracování pomocí vLLM nebo SGLang
- Studio pro tvorbu videa v bf16 (Wan 2.2 dual-expert, HunyuanVideo 13B, Mochi-1)
- Smíšená úloha pro více klientů — 120B MoE + generování obrazu + hlas v reálném čase, všichni rezidenti
Měřený výkon
Publikované reference | Datový list NVIDIA RTX 5090 + komunitní benchmarky
| měřítko | Výsledek |
|---|---|
| INT8 TOPS na kartu (datový list NVIDIA) | 1 676 TOPŮ |
| Agregát INT8 TOPS (4 karty) | 6 704 TOPŮ |
| Šířka pásma paměti na kartu | ~1 792 GB/s |
| Lama 3.3 70B Q6 přes vLLM (komunita) | 60–90 tok/s jeden proud, 300+ tok/s dávkový |
| Qwen3-235B-A22B Q3-Q4 | Vhodné pro 128GB pool s 8-16k CTX |
| gpt-oss-120b nativní MXFP4 | 80 GB – pohodlně s dostatečnou kapacitou KV |
Publikované externí reference, neměřené na hardwaru Kentino. Kentino zveřejní data od první strany po první zákaznické sestavení.
Není ideální pro
- Frontier 400B+ ve 4. čtvrtletí (Kimi-K2, Mistral Large 3, Intern-S1-Pro — vyžadují 8 GPU nebo 6x RTX Pro 6000)
- Pracovní zátěže citlivé na linku PCIe Gen5 – pro nativní Gen5 x16 vyberte SKU Genoa
- Školení od nuly (bez NVLinku na spotřebiteli 5090)
- Citlivá produkce 24/7 s ECC – spotřebitelská verze 5090 nemá ECC; preferujte L40 nebo RTX Pro 6000 Server Edition
Záruka a dodací lhůta
Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- Pro trvalý provoz v nejhorším případě upgradujte zdroj na duální 2.5 kW (FSP) – bf16 + video – doporučeno pro nepřetržitý provoz 24 hodin denně, 7 dní v týdnu
- 4 TB NVMe pro knihovnu modelů + fázování váhy MoE
- Otevřená skříň 24U pro nasazení více serverů
- Na vyžádání zvažte variantu platformy Genoa pro odkaz Gen5 x16
Sdílet
