Kentino sro
K-AI 48 Řím 4090 1322TOPS — 2x RTX 4090 Základní AI server
K-AI 48 Řím 4090 1322TOPS — 2x RTX 4090 Základní AI server
Nelze načíst dostupnost vyzvednutí
K-AI 48 Řím 4090 1322TOPS
Server se 2 GPU a 48 GB VRAM
2x RTX 4090 | EPYC Řím | 1 322 TOPS INT8
48GB VRAM pool na dvou RTX 4090 – cenová hranice pro tenzorově paralelní inferenci třídy 32B.
Dvoujádrový server s umělou inteligencí Ada, postavený na platformě ROMED8-2T / EPYC Rome. Dvě grafické karty RTX 4090 poskytují dohromady 48 GB VRAM, která pohodlně zvládá 32B husté Q6-Q8, Hunyuan-A13B na Q6, 14B video Wan 2.1 a 12B Vision Pixtral – nejlepší všestranný výběr modelů za euro, který řada Kentino nabízí, než se přidá Blackwell.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 2x NVIDIA GeForce RTX 4090 24 GB GDDR6X (450 W, PCIe 4.0 x16) |
| Pool VRAM | 48 GB (bez NVLinku — tenzorově paralelní přes PCIe) |
| Procesor (CPU) | AMD EPYC 7542 Rome (32C/64T, 225 W, 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 128 GB DDR4-2666 ECC RDIMM (2x 64 GB) |
| Spouštění / úložiště | 1TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | Jeden 2kW ATX zdroj |
| Podvozek | 4U rackové, pasivní rozšiřující moduly Gen4 x16 |
| Chlazení | Věžový chladič SP3, 3x 120 mm přední sání + 1x 120 mm zadní výfuk |
| Síť | Duální integrovaný 10GbE (Intel X550) + IPMI |
Napájecí obálka
- Spotřeba energie GPU: 2 x 450 W = 900 W
- Celkový výkon systému při plném zatížení: ~1 225 W
- Celkový výkon zdroje: 2 000 W (jeden 2 kW ATX) — 38.75 % rezervy
- Pohodlná rezerva pro jeden zdroj
Topologie jízdních pruhů
ROMED8-2T rozděluje 2x16 přímo z kořenového komplexu CPU – žádný přepínač PLX. Spotřebitel 4090 nemá NVLink; tenzorově paralelní komunikace probíhá přes PCIe. PCIe Gen4 x16 na obou GPU.
Co můžete spustit
Díky 48 GB sdílené paměti VRAM na 2 kartách tento server zvládá husté LLM třídy 32B v 6. až 8. čtvrtletí, vlajkové lodě MoE, generování obrázků a videa, řečovou umělou inteligenci a obsluhu více klientů.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3-32B hustý Q6-Q8 (~25-35 tok/s jeden proud na 2x 4090, publikovaná reference); QwQ-32B Otázka 6; Qwen3.5-27B Q6-Q8
- Qwen3-30B-A3B / Qwen3-Coder-30B-A3B bf16 (~60 GB těsné; použijte Q6)
- Hunyuan-A13B Q6 nebo fp8 (~48 GB) — 80B/13B MoE, 256k ctx
- Seed-OSS-36B Q6 — 512k nativních ctx
- DeepSeek-R2 32B řídký MoE bf16 (~64 GB omezený — preferuji Q6 ~45 GB) (~30-40 tok/s jeden stream ve Q4, publikovaná reference)
- ERNIE-4.5-47B-A3B Q4 (~28 GB s rezervou) / Q6 (~42 GB)
Západní hranice
- Lama 3.3 70B Q4_K_M (~43 GB) tenzorově paralelní 2-cestný — ideální pro tuto třídu (~14-17 tok/s jeden stream na 2x 4090, publikovaná reference)
- Flame 4 Scout 109B/17B MoE Q3_K (~51 GB omezené)
- Mistral Malý 3 / Magistral Malý / Devstral Malý 2 (24B) bf16
- Mixtral 8x7B Q6
- Gemma 3 27B bf16; Phi-4 14B bf16
- Nemotron-Super 49B 4. čtvrtletí (~28 GB)
- Ostatní: OLMo 2 32B; Reka Flash 3 21B bf16; Falcon H1R 7B
Vize-jazyk
Qwen3-VL-32B / Qwen3-VL-30B-A3B MoE / Qwen3-Omni-30B-A3B; InternVL3-38B Q4-Q5; InternVL3.5-38B; DeepSeek-VL2; ERNIE-4.5-VL-28B-A3B-Thinking; Llama 3.2 11B Vision bf16; Pixtral 12B bf16; Gemma 3 27B multimodální; PaliGemma 2 28B Q4; MiniCPM-V 2.6 / MiniCPM-o 2.6.
Generování obrazu
FLUX.1 [dev] / [shnell] fp16 (24 GB) nebo fp8 (~12 GB) s velkorysou dávkou (~15-25 sekund na obrázek 1024x1024 při fp8 na kartu, publikovaná reference); FLUX.1 Kontext [dev]; SD 3.5 Large (18 GB fp16); SDXL 1.0 + ControlNet + AnimateDiff; HunyuanImage-2.1 bf16 (~34 GB se vejde do poolu); AuraFlow v0.3 / OmniGen v1 / Kolors 2.0.
Generování videa
Wan 2.1 14B T2V/I2V Q6/fp8; Wan 2.2 TI2V-5B bf16 s jednou kartou; Wan 2.2 T2V-A14B / I2V-A14B Q4 (~32 GB); HunyuanVideo 13B Q4-Q5 (~30 GB); HunyuanVideo 1.5 (8.3B) bf16; Open-Sora 2.0 (11B) Q8; CogVideoX-5B / 1.5 bf16; Mochi-1 Q4-Q8; LTX-Video 2B; Pyramid Flow 2B.
Zvuk / Řeč / TTS
Plný 24GB stack s dostatečným prostorem pro současné použití: Whisper v3 large + Parakeet-TDT + Canary 1B + Moshi + Step-Audio 2 mini + CosyVoice 3.0 + Kokoro 82M + Stable Audio Open, všechny rezidentní současně. Whisper v3 turbo běží na jedné kartě rychlostí ~50x reálného času (publikovaná reference).
Vícemodelový / vícenájemní
- 2–4 souběžní uživatelé na 32B Q6 LLM třídy přes vLLM tenzorově paralelní
- Smíšená zátěž: Qwen3-32B Q6 (~20 GB) + FLUX.1 fp8 (~12 GB) + Whisper-turbo (1.6 GB) + Moshi (8 GB) rezidentně na 2 kartách
- Jemné doladění LoRA / QLoRA u modelů 7-14B pohodlné, 24-32B těsné
Cílové úlohy
- Dvouoperátorská pracovní stanice s umělou inteligencí a kombinovaným zpracováním LLM + obrazu + zvuku
- Obslužný koncový bod třídy 32B pro vývojářské prostředí malých týmů (4–8 souběžných uživatelů na Qwen3-32B / Gemma 3 27B)
- Dávková produkce v rámci generování obrazu (FLUX.1 + SD 3.5 + ControlNet)
- Vývojová jednotka pro videogenerátory (Wan 2.1 / Wan 2.2 TI2V / HunyuanVideo 1.5)
- Výzkumný box LoRA / QLoRA pro jemné doladění čínských a západních vah 7-34B
Publikované reference výkonu
Publikovaná reference | 2x hardware srovnatelný s RTX 4090
| měřítko | Výsledek |
|---|---|
| Lama 3.3 70B Q4_K_M dekódování lamy.cpp | ~14-17 tok/s jeden proud |
| Qwen3-32B Q6 vLLM jednoproudový | ~35-45 tok/s dekódování |
| FLUX.1 [vývoj] 8. fázový procesor | ~2.5–3.0 s na 1024x1024 při 20 krocích |
| Agregát vLLM šarže-32 (extrapolováno z 4x4090) | ~90 tok/s agregát |
Publikované referenční body z porovnatelného hardwaru 2x4090. Nebylo měřeno na hardwaru Kentino.
Není ideální pro
- 70B hustota v Q6+ (vyžaduje 96GB pool — možnost rozšíření na 4x RTX 4090 nebo 4x RTX 5090)
- Frontier 100B+ MoE v bf16 (GLM-4.5, Kimi K2, Mistral Large 3)
Záruka a dodací lhůta
Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Upgradujte bootovací disk na 2 TB NVMe
- Upgrade RAM na 256 GB (4x 64 GB) – více prostoru pro mezipaměť KV pro dlouhodobé CTX MoE
- Rack PDU (měřená C13/C19) a 2 kVA online UPS
Sdílet
