Předejte všechny informace o produktu
1 su 7

Kentino sro

K-AI 192 RomeDuální 4090 5288TOPS — 8× RTX 4090 — Duální EPYC Milán

K-AI 192 RomeDuální 4090 5288TOPS — 8× RTX 4090 — Duální EPYC Milán

Ceník EUR € 32.280,00
Ceník Snížená cena EUR € 32.280,00
V nabídce strávil
Imposte inkuse. Poštovné vypočítat al check-out.

K-AI 192 ŘímDuální 4090 5288TOPS

192 GB VRAM 8-GPU inferenční server
8x RTX 4090 | Duální EPYC Milan | 5 288 TOPS INT8

5 288
Vrchy INT8
192 GB
Pool VRAM
8 grafických procesorů
tenzorová rovnoběžka
dvojí
Procesor 96C/192T

Vlajková loď s 8násobným herním GPU. 192GB úložiště za cenu spotřebitelských karet na platformě EPYC Milan s dvěma paticemi.

Šasi 7U s 8 grafickými kartami postavené na dvou procesorech EPYC 7643 Milan (celkem 96 procesorů/192 MHz), základní desce ASRock Rack ROME2D32GM-NL s duálním SP3, 512 GB paměti DDR4 ECC, 2 TB bootovacího rozhraní NVMe a sadě 5 serverových zdrojů o výkonu 1200 W. Osm grafických karet GeForce RTX 4090 se připojuje přes aktivní rozšiřující karty PCIe Gen4 s retimerem na plném x16. Nejlevnější cesta k 192 GB hraniční RAM na hardwaru Kentino.

technické vybavení

Složka Detail
GPU 8x NVIDIA GeForce RTX 4090 24 GB GDDR6X (Ada Lovelace, 450 W, PCIe 4.0 x16)
Pool VRAM Celkem 192 GB na 8 kartách (bez NVLinku na spotřebitelské RTX 4090)
Procesor (CPU) 2x AMD EPYC 7643 Milan (48C/96T každá — celkem 96C/192T, 225 W každá, 2x 128 linek PCIe 4.0)
Základní deska ASRock Rack ROME2D32GM-NL (duální SP3, PCIe 4.0, 32x DDR4 ECC DIMM sloty)
Systémová RAM 512 GB DDR4-2666 ECC RDIMM (8x 64 GB — 4 na patici pro 8kanálovou rovnováhu)
Spouštění / úložiště 2TB NVMe M.2 (PCIe 4.0 x4)
napájení 5x sada serverových zdrojů 1200 W (kompatibilní s HP, hot-swap) + kompletní sada adaptérů 12VHPWR
Podvozek 7U šasi s 8 GPU (až 10 PCIe karet včetně rozšiřujících karet)
Stoupačky 8 aktivních rozšiřujících karet PCIe Gen4 x16 (vyžadováno nad délku kabelu)
Chlazení 2x věžové chladiče Arctic Freezer 4U-M SP3 + rackové proudění vzduchu zepředu dozadu (průmyslové ventilátory)
Síť Duální integrovaný 10GbE (Intel X550)

Napájecí obálka

  • Odběr energie z grafické karty: 8 x 450 W = 3 600 W
  • Spotřeba CPU: 2 x 225 W = 450 W
  • Celkový výkon systému při plném zatížení: ~4 200 W
  • Celkový výkon zdroje: 6 000 W plně aktivní (5x 1 200 W) — 30.0 % rezervy

Topologie jízdních pruhů

ROME2D32GM-NL zpřístupňuje 2x 128 linek PCIe Gen4 – jeden 128linetový pool na socket EPYC – přímo ke slotem GPU. Aktivní rozšiřující karty retimeru Gen4 pro integritu signálu. Žádný přepínač PCIe. Žádný NVLink. Naměřená rychlost mezi GPU peer-to-peer na benchmarku se 4 GPU byla 19-22 GB/s.

Co můžete spustit

S kapacitou 192 GB na 8 kartách tento server ve 4. čtvrtletí zvládá více než 200 miliard datových operací (MoE), 8cestnou tenzorově-paralelní inferenci, vícemodelové obsluhování izolované na tenantech a vysokou dávkovou propustnost při zachování ekonomické úrovně spotřebitelských karet.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) s dlouhým ctx — herní konfigurace (~15-25 tok/s jeden stream na 8x RTX 4090); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB) více streamů; Qwen3-32B hustý bf16 x více souběžných
  • DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB s 512 GB hostitelské paměti); DeepSeek-R2 32B bf16 — až 8 souběžných streamů, jeden na kartu (~30–40 tok/s na stream)
  • GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB); GLM-4.5-Air fp8 nebo bf16; GLM-4.6V 106B
  • Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB); Hunyuan-A13B Q4/Q6 (RTX 4090 je Ada – fp8 upcastuje na bf16, použijte kvanta GGUF)
  • Ostatní: Baidu ERNIE-4.5-424B Q3 ​​(~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3.5-397B Q3 (~170 GB); MiniMax-M1 Q3 (~180 GB)

Západní hranice

  • Meta láma: Llama 3.3 70B bf16 s masivním KV (~20 tok/s single-stream Q4, ~179 tok/s batch-32 vLLM — Kentino měřeno na 4GPU benchmarku); Llama 4 Scout bf16 (~218 GB omezená kapacita); Llama 4 Maverick Q3 (~188 GB)
  • Mistral: Mistral Large 2 / Pixtral Large 123B Q6 komfortní nebo bf16 (cca 248 GB úniku); Mistral Small 3 vícestreamový
  • OpenAI (otevřené váhy): gpt-oss-120b MXFP4 nativní (80 GB) s obrovským KV
  • NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16
  • Ostatní: Cohere Command R+ 104B Q6 (~85 GB); Google Gemma 3 27B bf16 x více streamů

Modely vizuální a jazykové komunikace

InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 vícestreamový; Llama 3.2 90B Vision bf16 (~180 GB); Pixtral Large 124B Q6; Molmo 72B bf16; GLM-4.6V 106B fp8/Q6; Gemma 3 27B multimodální x vícestreamový.

Generování obrazu

FLUX.1 [vývoj] bf16 — až 8 souběžných generačních streamů (jeden na kartu, ~15-25 s/obraz při fp8); FLUX.1 Kontext [vývoj]; FLUX Tools; SD 3.5 Large bf16 x 8; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 souběžné; HunyuanImage-3.0 base (80B MoE, 13B aktivní) bf16; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.

Generování videa

Wan 2.2 MoE dual-expert bf16 s plnou podporou ctx — více souběžných streamů; Wan 2.2 TI2V-5B x 8 souběžných; HunyuanVideo 13B bf16 oba experty; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Genmo Mochi-1 bf16; LTX-Video x 8 souběžných; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos.

Zvuk / Řeč / TTS

  • ASR: Whisper v3 large / turbo x 8 souběžných (~50x reálného času na stream); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabilní zvuk otevřený
  • Reálný čas / S2S: Kyutai Moshi 7B x 8 souběžných hlasových streamů; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2

Vícemodelové / vícenájemnické služby

  • 8cestná tenzorově paralelní inference 200-250B MoE v Q4 (Qwen3-235B, GLM-4.5/4.6/4.7)
  • 8streamová služba izolovaná klientem – jeden 24GB model Q4 na kartu (např. 8 agentů Qwen3-14B)
  • Velká dávka 70B — tenzorově paralelní agregát vLLM / SGLang dávkový 64
  • Smíšená flotila: 235B MoE na 4 kartách (TP4) + FLUX + video + hlas v reálném čase na zbývajících 4 kartách
  • Laboratoř pro jemné doladění — 7-34B LoRA / QLoRA s velkou dávkou

Cílové úlohy

  • 8-GPU tenzorově paralelní inference na 192GB poolu — Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16
  • Hustý 70B bf16 (Llama 3.3 70B) s masivní KV rezervou pro dlouhé CTX a vysokou dávku
  • Vysoce výkonná dávková inferenční brána — vLLM / SGLang tenzorově paralelní ve velké dávce
  • Jemné doladění modelů třídy 7-34B s využitím vysokodávkového LoRA / QLoRA
  • Wan 2.2 dual-expert / HunyuanImage-3.0 / FLUX.1 kompletní pracovní postup pro video a obrazové studio

Měřený výkon

Benchmark Kentino (reference 4 GPU) | 10. 4. 2026 | 4x RTX 4090 + EPYC 7542 + 512 GB DDR04 + ROMED8-2T

měřítko Výsledek
Trvalý výpočetní výkon (fp16, 4 referenční karty) 647 TFLOPS
vLLM — Llama 3.3 70B AWQ INT4 (single) 8.0 tok/s
vLLM – Llama 3.3 70B AWQ INT4 (šarže-32) 179 tok/s agregát
lama.cpp — lama 3.3 70B Q4_K_M (single) Dekódování 20.3 tok/s
Agregované výpočty s 8 GPU (extrapolace) Očekává se ~1 294 TFLOPS fp16 (téměř lineární)
235B Q4 tenzorově paralelní 8cestný (komunitní) 15-25 tok/s jeden stream na 8x RTX 4090

Data ze 4 karet naměřená na hardwaru Kentino. Extrapolace pro 8 grafických karet je publikovaná externí reference. Kentino zveřejní data pro 8 grafických karet od prvních zákazníků po první zákaznické sestavení.

Není ideální pro

  • Pracovní zátěže generace 5090 (nativní Blackwell FP8 + vyšší TOPS) – viz K-AI 256 TurinDual 5090
  • Školení od nuly (bez NVLinku na spotřebitelské RTX 4090)
  • Citlivá produkce 24/7 s ohledem na ECC – spotřebitelská RTX 4090 nemá ECC; preferujte 4x L40 nebo 2x RTX Pro 6000 Server Edition
  • Hunyuan / DeepSeek FP8 nativní — RTX 4090 je Ada, FP8 kontrolní body převedeny na bf16

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

Sestavení zahrnuje montáž, konfiguraci BIOSu s laděním NUMA pro dva sockety, instalaci ovladačů, zapálení, memtest, kompletní zátěžový test 8 GPU a nastavení prostředí LLM. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • 4 TB dodatečného NVMe úložiště pro fázování zátěže a odlehčení zátěže MoE
  • NVIDIA ConnectX-5 100 GbE pro víceuzlové služby
  • Rozšíření RAM na 1 TB (16x 64 GB) nebo 2 TB (32x 64 GB) — deska podporuje 32 slotů DIMM
  • Plná 24U racková skříň + online UPS 5 kVA
Vizualizace kompletních detailů