Přejít na informace o produktu
1 of 7

Kentino sro

K-AI 96 Řím 4090 2644TOPS — 4× RTX 4090 AI Inference Server

K-AI 96 Řím 4090 2644TOPS — 4× RTX 4090 AI Inference Server

Běžná cena EUR € 18.491,00
Běžná cena Prodejní cena EUR € 18.491,00
Sůl: Vyprodáno
Včetně daní. Přeprava spočítány u pokladny.

K-AI 96 Řím 4090 2644TOPS

96 GB VRAM Inferenční server
4x RTX 4090 | EPYC Řím | 2 644 TOPS INT8

647
TFLOPS fp16
179
tok/s šarže-32
96 GB
Pool VRAM
24/7
připraveno do racku

Měřeno na hardwaru Kentino. Llama 3.3 70B AWQ INT4 přes vLLM 0.19.0.

Rackový inferenční server s výškou 4U, čtyřmi grafickými kartami GeForce RTX 4090 spojenými do 96 GB VRAM, jedním procesorem AMD EPYC 7542 Rome (32C/64T), 256 GB paměti DDR4 ECC, 2 TB NVMe bootovacím diskem a duálním synchronizovaným 2kW ATX zdrojem. Ihned po instalaci spouští vLLM, SGLang, llama.cpp, ComfyUI a všechny hlavní inferenční stacky s otevřenou váhou.

technické vybavení

Složka Detail
GPU 4x NVIDIA GeForce RTX 4090 24 GB GDDR6X (450 W, PCIe 4.0 x16)
Pool VRAM Celkem 96 GB na 4 kartách
Procesor (CPU) AMD EPYC 7542 Rome (32C/64T, 225 W, 128 linek PCIe 4.0)
Základní deska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Skladování 2TB NVMe M.2 (PCIe 4.0 x4)
PSU Duální 2kW ATX se synchronizačním kabelem
Podvozek Montáž do racku 4U, směrované proudění vzduchu zepředu dozadu
Chlazení Věžový chladič SP3, 3x přední + 1x zadní 120mm průmyslové ventilátory
Síť Duální integrovaný 10GbE (Intel X550)

Napájecí obálka

  • Odběr energie z grafické karty: 4 x 450 W = 1 800 W
  • Celkový výkon systému: ~2 125 W
  • Celkový výkon zdroje: 4 000 W (duální 2 kW) — 46.9 % volného prostoru
  • Rozdělené napájení – selhání jednoho zdroje = ztráta 2 grafických karet nebo 2 grafických karet + základní deska

Topologie jízdních pruhů

128 linek PCIe Gen4 z EPYC do sedmi slotů x16; čtyři obsazené grafickými kartami Gen4 x16. Žádný přepínač PCIe. Žádný NVLink – peer-to-peer s rychlostí 19–22 GB/s (měřeno Kentinem).

Co můžete spustit

S 96 GB sdílené paměti VRAM na 4 kartách tento server zvládá LLM s otevřenou váhou, modely vidění, generování obrázků a videa, umělou inteligenci pro řeč a obsluhu více klientů.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3 / Qwen3.5: Qwen3-72B Q4 (~15-20 tok/s); Qwen3-32B Q6; Qwen3-30B-A3B MoE Q4-Q6; Qwen3-Coder-30B-A3B při 256k; Qwen3.5-122B-A10B Q4; QwQ-32B
  • DeepSeek: DeepSeek-R2 32B Q4-Q6 (92.7 % AIME 2025); DeepSeek-R1-Distill-Qwen-32B bf16; DeepSeek-V2-Lite 16B
  • GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5; GLM-4.6V-Flash; GLM-Zero 9B
  • Hunyuan: Hunyuan-A13B Q4-Q6 (~48 GB) 256k ctx duální uvažování
  • Ostatní: Seed-OSS-36B Q4 512k ctx; ERNIE-4.5-47B-A3B Q4; Yi-34B Q6; Baichuan-M2-32B; Step-3.5-Flash

Západní hranice

  • Meta láma: Llama 3.3 70B Q4_K_M (~20 tok/s lama.cpp, ~179 tok/s šarže-32 vLLM – měřeno Kentino); Lama 3.1 8B bf16 (~80-120 tok/s); Lama 4 Scout Q4
  • Mistral: Malá 3 24B bf16; Magistrální Malá 24B uvažování; Devstral Malá 2 24B 256k ctx; Mixtral 8x7B Q6
  • OpenAI: gpt-oss-20b MXFP4 (16 GB); gpt-oss-120b MXFP4 (80 GB omezené paměti)
  • Ostatní: Gemma 3 27B Q6 128k; Phi-4 14B bf16; Nemotron-Super 49B Q4; Žula 4.0 H-Small; OLMo 2 32B; Reka Flash 3; Příkaz R 35B

Modely vizuální a jazykové komunikace

Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B, Qwen3-Omni-30B-A3B; InternVL3 až 78B Q4; InterVL3.5-38B; DeepSeek-VL2; Lama 3.2 11B Vision; Pixtral 12B; Molmo 7B; Gemma 3 12B/27B; PaliGemma 2; MiniCPM-V 2.6 / MiniCPM-o 2.6.

Generování obrazu

FLUX.1 [vývoj]/[rychle] fp8 (~15-25 s na 1024x1024); FLUX.1 Kontext; FLUX Tools; SD 3.5 Large; SDXL; HunyuanImage-2.1 bf16 (~34 GB) 2K nativní; Kolors 2.0; AuraFlow; OmniGen v1.

Generování videa

Wan 2.2 T2V-A14B/I2V-A14B MoE (~54 GB bf16); Wan 2.2 TI2V-5B 720p@24fps; HunyuanVideo 13B Q4-Q5; HunyuanVideo 1.5; CogVideoX-5B; Open-Sora 2.0; Mochi-1; LTX-Video; SVD/SV3D/SV4D; NVIDIA Cosmos Predict 2.

Zvuk / Řeč / TTS

  • ASR: Whisper v3 turbo (~50x v reálném čase); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • Překlad textu na řeč: CosyVoice 3.0; Kokoro 82M; Stable Audio Open; Step-Audio-EditX
  • V reálném čase: Kyutai Moshi (200 ms plný duplex); Step-Audio 2 mini; Qwen2.5-Omni-7B
  • Hudba: MusicGen; AudioGen; Suno Bark; SeamlessM4T v2

Vícemodelové zobrazování

  • 4–8 souběžných uživatelů na 32–72B LLM přes vLLM / SGLang tenzorově paralelní
  • Smíšené: Qwen3-32B + FLUX.1 + Whisper-turbo + Moshi s rozdělenou VRAM
  • Jemné doladění LoRA/QLoRA 32-72B; plné parametry 7-14B
  • RAG s Command R+ nebo Qwen3 + BGE-M3/E5/Jina

Cílové úlohy

  • Inferenční brána pro organizaci s 50–200 místy (70 miliard Q4–Q6, 4–8 souběžných relací)
  • Dávková difuze/video kanál (SDXL + FLUX.1 + Wan 2.2 přes noc)
  • Laboratoř pro jemné doladění LoRA/QLoRA pro adaptace domén 7-34B
  • Asistent dokumentů RAG (Qwen3-VL + BGE-M3 + Command R, 32k ctx)
  • Smíšený single box: chat + obrázek + ASR + hlas v reálném čase na rozdělené VRAM

Měřený výkon

Benchmark Kentino | 2026-04-10 | 4x RTX 4090 + EPYC 7542 + ROMED8-2T

měřítko Výsledek
Udržitelné výpočty (fp16) 647.7 TFLOPS
vLLM Llama 3.3 70B AWQ INT4 (single) 8.0 tok/s
vLLM Llama 3.3 70B AWQ INT4 (šarže-32) 179.3 tok/s agregát
lama.cpp Lama 3.3 70B Q4_K_M (single) 20.3 tok/s
Výzva k vyhodnocení 1 568 tok/s
Šířka pásma paměti GPU 920 GB/s na kartu
NVMe čtení/zápis 4 589 / 4 213 MB/s
Špičkové tepelné zatížení (vypalování GPU+CPU) 73 °C, pokles o 0.6 %

vLLM použil jádro awq — s awq_marlin je to 2–3x možné.

Není ideální pro

  • Hustota Frontier 100B+ při bf16 (DeepSeek V3/R1, GLM-4.5+, Kimi-K2, Mistral Large 3 — vyžadují 256+ GB VRAM)
  • Školení od nuly (spotřebitelská RTX 4090 postrádá NVLink)

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • Rozšíření paměti RAM na 512 GB (přidání 4x 64 GB DDR4 — čtyři volné sloty DIMM)
  • 4TB sekundární disk NVMe pro staging datových sad/modelů
  • Otevřená skříň 24U pro nasazení více serverů
Zobrazit všechny podrobnosti