Kentino sro
K-AI 64 Řím 5090 3352TOPS — 2x RTX 5090 Základní server Blackwell AI
K-AI 64 Řím 5090 3352TOPS — 2x RTX 5090 Základní server Blackwell AI
Nelze načíst dostupnost vyzvednutí
K-AI 64 Řím 5090 3352TOPS
Základní server Blackwell se 2 GPU
2x RTX 5090 | EPYC Milán | 3 352 TOPS INT8
Základní server Blackwell se 2 GPU — 64 GB sdílené VRAM, 3 352 INT8 TOPS, nativní FP8. Přechod od 2x4090 k Blackwellu.
Dvoujádrový server Blackwell s umělou inteligencí postavený na platformě ROMED8-2T / EPYC Milan. Dvě grafické karty RTX 5090 poskytují 64 GB sdílené paměti VRAM s nativní tenzorovou matematikou FP8 – zhruba dvojnásobek hrubého výkonu dvou grafických karet RTX 4090 ve stejném provedení šasi a první dvoujádrový server, který pohodlně pohání Llama 3.3 70B Q4, Qwen3.5-122B-A10B Q4 a HunyuanVideo na bázi bf16 / FP8 s dostatečnou rezervou.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 2x NVIDIA GeForce RTX 5090 32 GB GDDR7 (575 W, PCIe 5.0 x16, Blackwell) |
| Pool VRAM | 64 GB |
| Procesor (CPU) | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 128 GB DDR4-2666 ECC RDIMM (2x 64 GB) |
| Spouštění / úložiště | 1TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | Jeden 2kW ATX zdroj |
| Podvozek | 4U rackové, pasivní rozšiřující moduly Gen4 x16 |
| Chlazení | Věžový chladič SP3, 3x 120 mm přední sání + 1x 120 mm zadní výfuk (průmyslové ventilátory) |
| Síť | Duální integrovaný 10GbE (Intel X550) + IPMI |
Napájecí obálka
- Odběr energie z grafické karty: 2 x 575 W = 1 150 W
- Celkový výkon systému při plném zatížení: ~1 475 W
- Celkový výkon zdroje: 2 000 W (jeden 2 kW ATX) — 26.25 % rezervy
- Funkční rezerva s jedním zdrojem; možnost upgradu na dva zdroje pro větší prostor
Topologie jízdních pruhů
ROMED8-2T rozděluje 2x16 Gen4 z kořenového komplexu CPU. 5090 je křemík Gen5 s Gen4 x16 bez omezení šířky pásma pro inferenci. Žádný přepínač PCIe. Žádný NVLink na GeForce 5090 – tenzorově paralelní 2cestný P2P využívá PCIe.
Co můžete spustit
S 64 GB sdílené paměti GDDR7 VRAM na 2 kartách Blackwell tento server zvládá 70B Q4 tenzorově paralelní zpracování, vlajkové lodě MoE, nativní generování obrazu FP8, video AI a souběžné obsluhování více modelů.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3-32B Q8 / bf16 (kvalita blízká FP16) (~40-55 tok/s jeden proud na Blackwell FP8, publikovaná reference)
- QwQ-32B bf16; Qwen3-30B-A3B / Coder-30B-A3B bf16 (~60 GB pasuje)
- Qwen3.5-122B-A10B Q4 (~70-75 GB s únikem RAM) – vlajková loď MoE ve Q4 se hodí
- Hunyuan-A13B fp8 (cca 80 GB málo) nebo Q6 (cca 36 GB pohodlně)
- Seed-OSS-36B bf16 (~72 GB omezené — raději fp8 ~36 GB)
- DeepSeek-R2 32B řídký MoE bf16
- GLM-4.5-Air 106B/12B Q4_K_M (~60 GB) — MoE s rezervou
- ERNIE-4.5-47B-A3B Q6-Q8
Západní hranice
- Lama 3.3 70B Q4_K_M (~43 GB) — hlavní pracovní zatížení pro tuto úroveň (~20–28 tok/s jeden stream na 2x 5090, publikovaná reference)
- Hermes 3 70B / Tulu 3 70B Q4 – otevřené deriváty Llama po tréninku
- Mistral Malý 3 / Magistrál / Devstral Malý 2 24B bf16; Mixtral 8x7B bf16
- Gemma 3 27B multimodální bf16 + prostor pro uvažování
- Phi-4 14B bf16; Nemotron-Super 49B Q6-Q8
- gpt-oss-20b MXFP4 (16 GB) + gpt-oss-120b MXFP4 (80 GB — těsně se vejde s krátkým ctx)
- OLMo 2 32B / OLMo 3.1-32B-Mysli bf16
Vize-jazyk
Qwen3-VL-32B / Qwen3-VL-30B-A3B / Qwen3-Omni-30B-A3B bf16; InternVL3.5-38B bf16; Llama 3.2 90B Vision Q4 (~52 GB); Pixtral 12B bf16; Pixtral Large 124B Q3 (přibližně 58 GB); Gemma 3 27B multimodální bf16; PaliGemma 2 28B bf16; Molmo 72B Q4 (~45 GB).
Generování obrazu
5090 nativní fp8 je rychlostní příručka — FLUX.1 / SD 3.5 / HunyuanImage běží podstatně rychleji než na Adě: FLUX.1 [dev] / [schnell] fp8 nativní (~12 GB) s 2x paralelním snímáním napříč kartami (~8-12 sekund na obrázek 1024x1024 na Blackwellu, publikovaná reference); FLUX.1 Kontext [dev]; SD 3.5 Large (18 GB fp16 nebo 11 GB fp8); SDXL 1.0; HunyuanImage-2.1 bf16 (~34 GB); HunyuanImage-3.0 NF4; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0.
Generování videa
Wan 2.2 T2V-A14B / I2V-A14B bf16 (celkem ~54 GB) — MoE dva experty s plnou přesností; Wan 2.2 TI2V-5B bf16 na kartu, 2 paralelní tenanti; HunyuanVideo 13B Q4-Q5 (~30 GB), fp8 těsný; HunyuanVideo 1.5 (8.3B) bf16 na kartu; Open-Sora 2.0 (11B) bf16; CogVideoX-5B / 1.5 bf16; Mochi-1 bf16 (~42 GB pasuje); LTX-Video 2B; NVIDIA Cosmos Predict 2.
Zvuk / Řeč / TTS
Stejný kompletní čínský a západní hlasový stack jako u úrovně 4090, ale s větším prostorem: Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2 / R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2 + MMS. Na 5090 s nativním rozhraním FP8 dekódují Whisper / Parakeet s podstatně vyšším faktorem reálného času. Whisper v3 turbo běží na Blackwellu rychlostí ~75x reálného času (publikovaná reference).
Vícemodelový / vícenájemní
- Rezidentní stack: Llama 3.3 70B Q4 (~43 GB tenzorově paralelní 2-cestný) + FLUX.1 fp8 (~12 GB) + Whisper-turbo + Moshi
- 2–4 souběžní nájemníci v budově třídy 32B v 6.–8. čtvrtletí na kartu
- Jemné doladění LoRA / QLoRA: 7-14B pohodlné, 24-32B těsné
Cílové úlohy
- Vývojářská pracovní stanice pro malé týmy s kapacitou 70B Q4
- Blackwell vylepšení z boxu s 2x RTX 4090 – stejné šasi, ~2.5x TOPS, nativní FP8
- Pracovní stanice pro generování obrazu / videa s nativním zrychlením FLUX FP8
- Vícemodelový souběžný box: 70B Q4 + FLUX + Whisper + Moshi rezident současně
- Koncový bod inference 4–8 souběžných uživatelů pro LLM třídy 32B
Publikované reference výkonu
Publikovaná reference | 2x hardware srovnatelný s RTX 5090
| měřítko | Výsledek |
|---|---|
| Lama 3.3 70B Q4_K_M dekódování lamy.cpp | ~20-28 tok/s jeden proud |
| Qwen3-32B Q8 vLLM jednoproudový | ~45-60 tok/s dekódování při fp8 |
| FLUX.1 [dev] FP8 nativní pro Blackwell | ~1.5–1.9 s na 1024x1024 při 20 krocích |
| HunyuanVideo 13B Q5 TP-2 | 5 s 720p za ~5-7 min |
Publikováno, neměřeno na hardwaru Kentino. Kentino naměřilo referenční hodnotu na 4x RTX 4090: 647 TFLOPS fp16, 179 tok/s batch-32 aggregate.
Není ideální pro
- Modely s hustotou paměti 100+ GB na bázi bf16 (DeepSeek-V3, Kimi K2, Mistral Large 3 — potřebují více než 256 GB prostoru)
- Generování videa Frontier v plném rozlišení v dlouhém formátu pro BF16
Záruka a dodací lhůta
Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Upgradujte bootovací disk na 2 TB NVMe – nebo 4 TB
- Rozšíření paměti RAM na 256 GB (4x 64 GB) — MoE KV cache headroom / multimodel souběžné obsluhování
- Rack PDU (měřená C13/C19) a 3 kVA online UPS
Sdílet
