Kentino sro
K-AI 96 Řím 4090 2644TOPS — 4× RTX 4090 AI Inference Server
K-AI 96 Řím 4090 2644TOPS — 4× RTX 4090 AI Inference Server
Nelze načíst dostupnost vyzvednutí
K-AI 96 Řím 4090 2644TOPS
96 GB VRAM Inferenční server
4x RTX 4090 | EPYC Řím | 2 644 TOPS INT8
Měřeno na hardwaru Kentino. Llama 3.3 70B AWQ INT4 přes vLLM 0.19.0.
Rackový inferenční server s výškou 4U, čtyřmi grafickými kartami GeForce RTX 4090 spojenými do 96 GB VRAM, jedním procesorem AMD EPYC 7542 Rome (32C/64T), 256 GB paměti DDR4 ECC, 2 TB NVMe bootovacím diskem a duálním synchronizovaným 2kW ATX zdrojem. Ihned po instalaci spouští vLLM, SGLang, llama.cpp, ComfyUI a všechny hlavní inferenční stacky s otevřenou váhou.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 4x NVIDIA GeForce RTX 4090 24 GB GDDR6X (450 W, PCIe 4.0 x16) |
| Pool VRAM | Celkem 96 GB na 4 kartách |
| Procesor (CPU) | AMD EPYC 7542 Rome (32C/64T, 225 W, 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Skladování | 2TB NVMe M.2 (PCIe 4.0 x4) |
| PSU | Duální 2kW ATX se synchronizačním kabelem |
| Podvozek | Montáž do racku 4U, směrované proudění vzduchu zepředu dozadu |
| Chlazení | Věžový chladič SP3, 3x přední + 1x zadní 120mm průmyslové ventilátory |
| Síť | Duální integrovaný 10GbE (Intel X550) |
Napájecí obálka
- Odběr energie z grafické karty: 4 x 450 W = 1 800 W
- Celkový výkon systému: ~2 125 W
- Celkový výkon zdroje: 4 000 W (duální 2 kW) — 46.9 % volného prostoru
- Rozdělené napájení – selhání jednoho zdroje = ztráta 2 grafických karet nebo 2 grafických karet + základní deska
Topologie jízdních pruhů
128 linek PCIe Gen4 z EPYC do sedmi slotů x16; čtyři obsazené grafickými kartami Gen4 x16. Žádný přepínač PCIe. Žádný NVLink – peer-to-peer s rychlostí 19–22 GB/s (měřeno Kentinem).
Co můžete spustit
S 96 GB sdílené paměti VRAM na 4 kartách tento server zvládá LLM s otevřenou váhou, modely vidění, generování obrázků a videa, umělou inteligenci pro řeč a obsluhu více klientů.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3 / Qwen3.5: Qwen3-72B Q4 (~15-20 tok/s); Qwen3-32B Q6; Qwen3-30B-A3B MoE Q4-Q6; Qwen3-Coder-30B-A3B při 256k; Qwen3.5-122B-A10B Q4; QwQ-32B
- DeepSeek: DeepSeek-R2 32B Q4-Q6 (92.7 % AIME 2025); DeepSeek-R1-Distill-Qwen-32B bf16; DeepSeek-V2-Lite 16B
- GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5; GLM-4.6V-Flash; GLM-Zero 9B
- Hunyuan: Hunyuan-A13B Q4-Q6 (~48 GB) 256k ctx duální uvažování
- Ostatní: Seed-OSS-36B Q4 512k ctx; ERNIE-4.5-47B-A3B Q4; Yi-34B Q6; Baichuan-M2-32B; Step-3.5-Flash
Západní hranice
- Meta láma: Llama 3.3 70B Q4_K_M (~20 tok/s lama.cpp, ~179 tok/s šarže-32 vLLM – měřeno Kentino); Lama 3.1 8B bf16 (~80-120 tok/s); Lama 4 Scout Q4
- Mistral: Malá 3 24B bf16; Magistrální Malá 24B uvažování; Devstral Malá 2 24B 256k ctx; Mixtral 8x7B Q6
- OpenAI: gpt-oss-20b MXFP4 (16 GB); gpt-oss-120b MXFP4 (80 GB omezené paměti)
- Ostatní: Gemma 3 27B Q6 128k; Phi-4 14B bf16; Nemotron-Super 49B Q4; Žula 4.0 H-Small; OLMo 2 32B; Reka Flash 3; Příkaz R 35B
Modely vizuální a jazykové komunikace
Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B, Qwen3-Omni-30B-A3B; InternVL3 až 78B Q4; InterVL3.5-38B; DeepSeek-VL2; Lama 3.2 11B Vision; Pixtral 12B; Molmo 7B; Gemma 3 12B/27B; PaliGemma 2; MiniCPM-V 2.6 / MiniCPM-o 2.6.
Generování obrazu
FLUX.1 [vývoj]/[rychle] fp8 (~15-25 s na 1024x1024); FLUX.1 Kontext; FLUX Tools; SD 3.5 Large; SDXL; HunyuanImage-2.1 bf16 (~34 GB) 2K nativní; Kolors 2.0; AuraFlow; OmniGen v1.
Generování videa
Wan 2.2 T2V-A14B/I2V-A14B MoE (~54 GB bf16); Wan 2.2 TI2V-5B 720p@24fps; HunyuanVideo 13B Q4-Q5; HunyuanVideo 1.5; CogVideoX-5B; Open-Sora 2.0; Mochi-1; LTX-Video; SVD/SV3D/SV4D; NVIDIA Cosmos Predict 2.
Zvuk / Řeč / TTS
- ASR: Whisper v3 turbo (~50x v reálném čase); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- Překlad textu na řeč: CosyVoice 3.0; Kokoro 82M; Stable Audio Open; Step-Audio-EditX
- V reálném čase: Kyutai Moshi (200 ms plný duplex); Step-Audio 2 mini; Qwen2.5-Omni-7B
- Hudba: MusicGen; AudioGen; Suno Bark; SeamlessM4T v2
Vícemodelové zobrazování
- 4–8 souběžných uživatelů na 32–72B LLM přes vLLM / SGLang tenzorově paralelní
- Smíšené: Qwen3-32B + FLUX.1 + Whisper-turbo + Moshi s rozdělenou VRAM
- Jemné doladění LoRA/QLoRA 32-72B; plné parametry 7-14B
- RAG s Command R+ nebo Qwen3 + BGE-M3/E5/Jina
Cílové úlohy
- Inferenční brána pro organizaci s 50–200 místy (70 miliard Q4–Q6, 4–8 souběžných relací)
- Dávková difuze/video kanál (SDXL + FLUX.1 + Wan 2.2 přes noc)
- Laboratoř pro jemné doladění LoRA/QLoRA pro adaptace domén 7-34B
- Asistent dokumentů RAG (Qwen3-VL + BGE-M3 + Command R, 32k ctx)
- Smíšený single box: chat + obrázek + ASR + hlas v reálném čase na rozdělené VRAM
Měřený výkon
Benchmark Kentino | 2026-04-10 | 4x RTX 4090 + EPYC 7542 + ROMED8-2T
| měřítko | Výsledek |
|---|---|
| Udržitelné výpočty (fp16) | 647.7 TFLOPS |
| vLLM Llama 3.3 70B AWQ INT4 (single) | 8.0 tok/s |
| vLLM Llama 3.3 70B AWQ INT4 (šarže-32) | 179.3 tok/s agregát |
| lama.cpp Lama 3.3 70B Q4_K_M (single) | 20.3 tok/s |
| Výzva k vyhodnocení | 1 568 tok/s |
| Šířka pásma paměti GPU | 920 GB/s na kartu |
| NVMe čtení/zápis | 4 589 / 4 213 MB/s |
| Špičkové tepelné zatížení (vypalování GPU+CPU) | 73 °C, pokles o 0.6 % |
vLLM použil jádro awq — s awq_marlin je to 2–3x možné.
Není ideální pro
- Hustota Frontier 100B+ při bf16 (DeepSeek V3/R1, GLM-4.5+, Kimi-K2, Mistral Large 3 — vyžadují 256+ GB VRAM)
- Školení od nuly (spotřebitelská RTX 4090 postrádá NVLink)
Záruka a dodací lhůta
Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- Rozšíření paměti RAM na 512 GB (přidání 4x 64 GB DDR4 — čtyři volné sloty DIMM)
- 4TB sekundární disk NVMe pro staging datových sad/modelů
- Otevřená skříň 24U pro nasazení více serverů
Sdílet
