Předejte všechny informace o produktu
1 su 7

Kentino sro

K-AI 128 Řím 5090 6704TOPS — 4× RTX 5090 Blackwell AI server

K-AI 128 Řím 5090 6704TOPS — 4× RTX 5090 Blackwell AI server

Ceník EUR € 25.372,00
Ceník Snížená cena EUR € 25.372,00
V nabídce strávil
Imposte inkuse. Poštovné vypočítat al check-out.

K-AI 128 Řím 5090 6704TOPS

128 GB VRAM Blackwell Inference Server
4x RTX 5090 | EPYC Milán | 6 704 TOPS INT8

6 704
Vrchy INT8
128 GB
Pool VRAM
Blackwell
nativní FP8
2.5x
vs. 4090 TOPS

Čtyři grafické karty Blackwell RTX 5090 s nativními tenzorovými cestami FP8/FP4. Sestavení se 4 GPU s nejvyšší propustností na platformě Rome.

Rackový inferenční server s výškou 4U, čtyřmi grafickými kartami GeForce RTX 5090 spojenými se 128 GB VRAM, jedním procesorem AMD EPYC 7643 Milan (48C/96T), 512 GB paměti DDR4 ECC (všech 8 slotů DIMM obsazených pro maximální šířku pásma), 2 TB NVMe bootovacím diskem a duálním synchronizovaným 2kW ATX zdrojem. Spouští vLLM, SGLang, llama.cpp, ComfyUI s nativními inferenčními jádry FP8 od Blackwell a MXFP4.

technické vybavení

Složka Detail
GPU 4x NVIDIA GeForce RTX 5090 32 GB GDDR7 (Blackwell, 575 W, PCIe 5.0 x16)
Pool VRAM Celkem 128 GB na 4 kartách (bez NVLinku na spotřebitelské kartě 5090)
Procesor (CPU) AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0)
Základní deska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 512 GB DDR4-2666 ECC RDIMM (8x 64 GB — všechny sloty DIMM obsazeny)
Spouštění / úložiště 2TB NVMe M.2 (PCIe 4.0 x4)
napájení Duální 2kW ATX zdroj se synchronizačním kabelem + sada adaptérů 12VHPWR
Podvozek 4U rackové, 4x GPU, pasivní rozšiřující karty PCIe 4.0 x16
Chlazení Arctic Freezer 4U-M SP3 tower + 3x 120 mm přední sání + 1x 120 mm zadní výfuk
Síť Duální integrovaný 10GbE (Intel X550)

Napájecí obálka

  • Odběr energie z grafické karty: 4 x 575 W = 2 300 W
  • Celkový výkon systému při plném zatížení: ~2 650 W
  • Celkový výkon zdroje: 4 000 W (duální 2 kW synchronizovaný) — 33.8 % rezervy
  • Duální zdroj pro rozdělené napájení – každý zdroj napájí část systému

Topologie jízdních pruhů

ROMED8-2T rozděluje 128 linek PCIe Gen4 z EPYC přímo do sedmi slotů x16; čtyři jsou obsazeny GPU na úrovni Gen4 x16. Žádný přepínač PCIe. Žádný NVLink na spotřební lince 5090 – peer-to-peer mezi GPU. Karty jsou nativní pro Gen5; Rome má omezení na Gen4.

Co můžete spustit

Se 128 GB sdílené paměti VRAM a nativními tenzorovými cestami FP8 od Blackwellu se tento server posouvá na úroveň Qwen3-235B-A22B Q4 a gpt-oss-120b MXFP4 se skutečným KV prostorem – nad rámec toho, co dokáže 4x RTX 4090.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q3-Q4 (~112-132 GB) odpovídá 128GB poolu s 8-16k ctx — herní konfigurace; Qwen3-32B hustý bf16 (~65 GB) s masivním KV; Qwen3-Coder-30B-A3B agentický s 1M ctx; Qwen3.5-122B-A10B Q6/fp8 (~75-80 GB); QwQ-32B bf16 uvažování
  • DeepSeek: DeepSeek-V3/R1/V3.1/V3.2 fp8-native Q2 (~215 GB) s RAM rozptýlenou na 512 GB hostitele – proveditelné pro dávkové zpracování; DeepSeek-R2 32B bf16 multistream (4 souběžné, jeden na kartu)
  • GLM / Z.ai: GLM-4.5-Air 106B/12B fp8 (~106 GB) nebo Q6 pohodlně; GLM-4.5/4.6/4.7 Q2_K_XL (~135 GB) bez problémů s MoE offloadem
  • Tencent Hunyuan: Hunyuan-A13B FP8 nativní (~80 GB) — Blackwell běží FP8 bez penalizace pro upcast; Hunyuan-Large Q2 s únikem RAM
  • ByteDance Seed-OSS-36B bf16 s 512k nativní pamětí; ERNIE-4.5-424B Q2 (únik ~150 GB)

Západní hranice

  • Meta láma: Llama 3.3 70B Q4 napříč 4x 5090 (~30-40 tok/s jeden proud, ~270+ tok/s dávkově-32 vLLM); Llama 4 Scout 109B/17B MoE fp8/Q6 (~90 GB); Llama 4 Maverick 400B/17B Q3 (~188 GB únik)
  • Mistral: Mistral Small 3 / Magistral / Devstral Small 2 (24B) bf16 vícestreamový; Pixtral Large / Mistral Large 2 (123B) Q6 (~88 GB)
  • OpenAI (otevřené váhy): gpt-oss-120b MXFP4 nativní (80 GB) se skutečnými KV a dlouhým kontextem — úloha Blackwell Hero; gpt-oss-20b MXFP4
  • Google Gemma 3: 27B multimodální bf16 (~54 GB) dva souběžné streamy; 12B / 4B
  • Microsoft Phi-4 14B hustý bf16; destilovaná s úvahou Phi-4
  • NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q3 (~119 GB) těsný; Super 49B bf16 (~98 GB)
  • Ostatní: Cohere Command R+ 104B Q6 (~85 GB); Molmo 72B Q6-bf16 VLM; OLMo 2 32B; IBM Granite 4.0 H-Small

Modely vizuální a jazykové komunikace

Qwen3-VL-235B-A22B Q3-Q4; Qwen3-VL-32B bf16; InternVL3.5-241B-A28B Q4 (těsně ~135 GB); InternVL3 78B bf16; Llama 3.2 90B Vision Q6 (~74 GB); Pixtral Large 124B Q6 (~88 GB); Molmo 72B Q6/bf16; Gemma 3 27B multimodální bf16; GLM-4.6V 106B fp8.

Generování obrazu

FLUX.1 [vývoj] bf16 a fp8 (~10-18 s/obraz při fp8); FLUX.1 Kontext [vývoj]; SD 3.5 Large bf16; HunyuanImage-2.1 bf16 a Q4; HunyuanImage-3.0 base (80B MoE, 13B aktivní) bf16 (~80 GB, velikost pro herní prostředí); HunyuanDiT; Kolors / Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.

Generování videa

Wan 2.2 MoE dvouexpertní bf16 (~54 GB, plný ctx); Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 oba expertní (~60-80 GB); HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16 (~24 GB); Genmo Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos.

Zvuk / Řeč / TTS

  • ASR: Whisper v3 large / turbo (~50x v reálném čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; Stable Audio Open; XTTS v2; StyleTTS 2; Step-Audio-EditX
  • Reálný čas / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2

Vícemodelové / vícenájemnické služby

  • 200B MoE ve 4. čtvrtletí s dávkovou inferencí (Qwen3-235B, GLM-4.5/4.6/4.7-Air) pro 8–16 souběžných uživatelů
  • fp8-native frontier — rodina DeepSeek V3, Hunyuan-Large fp8 s nativními cestami Blackwell
  • Smíšený rezidentní stack: gpt-oss-120b MXFP4 + FLUX.1 + Whisper + Moshi na rozdělené VRAM
  • Vysokokapacitní 70B — tenzorově paralelní vLLM / SGLang s dávkovým agregátem více než 200 toků/s

Cílové úlohy

  • Produkce MoE přes 200 miliard bloků ve 3. až 4. čtvrtletí se skutečným KV (Qwen3-235B, GLM-4.5-Air 106B)
  • fp8-nativní hraniční inference (DeepSeek V3/R1 fp8, Hunyuan fp8) — Blackwell běží bez přetypování nahoru
  • Vysokokapacitní 70B servírování – tenzorově paralelní dávkové zpracování pomocí vLLM nebo SGLang
  • Studio pro tvorbu videa v bf16 (Wan 2.2 dual-expert, HunyuanVideo 13B, Mochi-1)
  • Smíšená úloha pro více klientů — 120B MoE + generování obrazu + hlas v reálném čase, všichni rezidenti

Měřený výkon

Publikované reference | Datový list NVIDIA RTX 5090 + komunitní benchmarky

měřítko Výsledek
INT8 TOPS na kartu (datový list NVIDIA) 1 676 TOPŮ
Agregát INT8 TOPS (4 karty) 6 704 TOPŮ
Šířka pásma paměti na kartu ~1 792 GB/s
Lama 3.3 70B Q6 přes vLLM (komunita) 60–90 tok/s jeden proud, 300+ tok/s dávkový
Qwen3-235B-A22B Q3-Q4 Vhodné pro 128GB pool s 8-16k CTX
gpt-oss-120b nativní MXFP4 80 GB – pohodlně s dostatečnou kapacitou KV

Publikované externí reference, neměřené na hardwaru Kentino. Kentino zveřejní data od první strany po první zákaznické sestavení.

Není ideální pro

  • Frontier 400B+ ve 4. čtvrtletí (Kimi-K2, Mistral Large 3, Intern-S1-Pro — vyžadují 8 GPU nebo 6x RTX Pro 6000)
  • Pracovní zátěže citlivé na linku PCIe Gen5 – pro nativní Gen5 x16 vyberte SKU Genoa
  • Školení od nuly (bez NVLinku na spotřebiteli 5090)
  • Citlivá produkce 24/7 s ECC – spotřebitelská verze 5090 nemá ECC; preferujte L40 nebo RTX Pro 6000 Server Edition

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • Pro trvalý provoz v nejhorším případě upgradujte zdroj na duální 2.5 kW (FSP) – bf16 + video – doporučeno pro nepřetržitý provoz 24 hodin denně, 7 dní v týdnu
  • 4 TB NVMe pro knihovnu modelů + fázování váhy MoE
  • Otevřená skříň 24U pro nasazení více serverů
  • Na vyžádání zvažte variantu platformy Genoa pro odkaz Gen5 x16
Vizualizace kompletních detailů