Přejít na informace o produktu
1 of 14

Kentino sro

K-AI 64 Řím 5090 3352TOPS — 2x RTX 5090 Základní server Blackwell AI

K-AI 64 Řím 5090 3352TOPS — 2x RTX 5090 Základní server Blackwell AI

Běžná cena EUR € 11.653,00
Běžná cena Prodejní cena EUR € 11.653,00
Výprodej Vyprodáno
Včetně daní. Přeprava spočítány u pokladny.

K-AI 64 Řím 5090 3352TOPS

Základní server Blackwell se 2 GPU
2x RTX 5090 | EPYC Milán | 3 352 TOPS INT8

3 352
TOPS INT8
64 GB
VRAM GDDR7
fp8
nativní tenzor
nosič
připravený

Základní server Blackwell se 2 GPU — 64 GB sdílené VRAM, 3 352 INT8 TOPS, nativní FP8. Přechod od 2x4090 k Blackwellu.

Dvoujádrový server Blackwell s umělou inteligencí postavený na platformě ROMED8-2T / EPYC Milan. Dvě grafické karty RTX 5090 poskytují 64 GB sdílené paměti VRAM s nativní tenzorovou matematikou FP8 – zhruba dvojnásobek hrubého výkonu dvou grafických karet RTX 4090 ve stejném provedení šasi a první dvoujádrový server, který pohodlně pohání Llama 3.3 70B Q4, Qwen3.5-122B-A10B Q4 a HunyuanVideo na bázi bf16 / FP8 s dostatečnou rezervou.

technické vybavení

Složka Detail
GPU 2x NVIDIA GeForce RTX 5090 32 GB GDDR7 (575 W, PCIe 5.0 x16, Blackwell)
Pool VRAM 64 GB
Procesor (CPU) AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0)
Základní deska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 128 GB DDR4-2666 ECC RDIMM (2x 64 GB)
Spouštění / úložiště 1TB NVMe M.2 (PCIe 4.0 x4)
napájení Jeden 2kW ATX zdroj
Podvozek 4U rackové, pasivní rozšiřující moduly Gen4 x16
Chlazení Věžový chladič SP3, 3x 120 mm přední sání + 1x 120 mm zadní výfuk (průmyslové ventilátory)
Síť Duální integrovaný 10GbE (Intel X550) + IPMI

Napájecí obálka

  • Odběr energie z grafické karty: 2 x 575 W = 1 150 W
  • Celkový výkon systému při plném zatížení: ~1 475 W
  • Celkový výkon zdroje: 2 000 W (jeden 2 kW ATX) — 26.25 % rezervy
  • Funkční rezerva s jedním zdrojem; možnost upgradu na dva zdroje pro větší prostor

Topologie jízdních pruhů

ROMED8-2T rozděluje 2x16 Gen4 z kořenového komplexu CPU. 5090 je křemík Gen5 s Gen4 x16 bez omezení šířky pásma pro inferenci. Žádný přepínač PCIe. Žádný NVLink na GeForce 5090 – tenzorově paralelní 2cestný P2P využívá PCIe.

Co můžete spustit

S 64 GB sdílené paměti GDDR7 VRAM na 2 kartách Blackwell tento server zvládá 70B Q4 tenzorově paralelní zpracování, vlajkové lodě MoE, nativní generování obrazu FP8, video AI a souběžné obsluhování více modelů.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3-32B Q8 / bf16 (kvalita blízká FP16) (~40-55 tok/s jeden proud na Blackwell FP8, publikovaná reference)
  • QwQ-32B bf16; Qwen3-30B-A3B / Coder-30B-A3B bf16 (~60 GB pasuje)
  • Qwen3.5-122B-A10B Q4 (~70-75 GB s únikem RAM) – vlajková loď MoE ve Q4 se hodí
  • Hunyuan-A13B fp8 (cca 80 GB málo) nebo Q6 (cca 36 GB pohodlně)
  • Seed-OSS-36B bf16 (~72 GB omezené — raději fp8 ~36 GB)
  • DeepSeek-R2 32B řídký MoE bf16
  • GLM-4.5-Air 106B/12B Q4_K_M (~60 GB) — MoE s rezervou
  • ERNIE-4.5-47B-A3B Q6-Q8

Západní hranice

  • Lama 3.3 70B Q4_K_M (~43 GB) — hlavní pracovní zatížení pro tuto úroveň (~20–28 tok/s jeden stream na 2x 5090, publikovaná reference)
  • Hermes 3 70B / Tulu 3 70B Q4 – otevřené deriváty Llama po tréninku
  • Mistral Malý 3 / Magistrál / Devstral Malý 2 24B bf16; Mixtral 8x7B bf16
  • Gemma 3 27B multimodální bf16 + prostor pro uvažování
  • Phi-4 14B bf16; Nemotron-Super 49B Q6-Q8
  • gpt-oss-20b MXFP4 (16 GB) + gpt-oss-120b MXFP4 (80 GB — těsně se vejde s krátkým ctx)
  • OLMo 2 32B / OLMo 3.1-32B-Mysli bf16

Vize-jazyk

Qwen3-VL-32B / Qwen3-VL-30B-A3B / Qwen3-Omni-30B-A3B bf16; InternVL3.5-38B bf16; Llama 3.2 90B Vision Q4 (~52 GB); Pixtral 12B bf16; Pixtral Large 124B Q3 ​​(přibližně 58 GB); Gemma 3 27B multimodální bf16; PaliGemma 2 28B bf16; Molmo 72B Q4 (~45 GB).

Generování obrazu

5090 nativní fp8 je rychlostní příručka — FLUX.1 / SD 3.5 / HunyuanImage běží podstatně rychleji než na Adě: FLUX.1 [dev] / [schnell] fp8 nativní (~12 GB) s 2x paralelním snímáním napříč kartami (~8-12 sekund na obrázek 1024x1024 na Blackwellu, publikovaná reference); FLUX.1 Kontext [dev]; SD 3.5 Large (18 GB fp16 nebo 11 GB fp8); SDXL 1.0; HunyuanImage-2.1 bf16 (~34 GB); HunyuanImage-3.0 NF4; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0.

Generování videa

Wan 2.2 T2V-A14B / I2V-A14B bf16 (celkem ~54 GB) — MoE dva experty s plnou přesností; Wan 2.2 TI2V-5B bf16 na kartu, 2 paralelní tenanti; HunyuanVideo 13B Q4-Q5 (~30 GB), fp8 těsný; HunyuanVideo 1.5 (8.3B) bf16 na kartu; Open-Sora 2.0 (11B) bf16; CogVideoX-5B / 1.5 bf16; Mochi-1 bf16 (~42 GB pasuje); LTX-Video 2B; NVIDIA Cosmos Predict 2.

Zvuk / Řeč / TTS

Stejný kompletní čínský a západní hlasový stack jako u úrovně 4090, ale s větším prostorem: Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2 / R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2 + MMS. Na 5090 s nativním rozhraním FP8 dekódují Whisper / Parakeet s podstatně vyšším faktorem reálného času. Whisper v3 turbo běží na Blackwellu rychlostí ~75x reálného času (publikovaná reference).

Vícemodelový / vícenájemní

  • Rezidentní stack: Llama 3.3 70B Q4 (~43 GB tenzorově paralelní 2-cestný) + FLUX.1 fp8 (~12 GB) + Whisper-turbo + Moshi
  • 2–4 souběžní nájemníci v budově třídy 32B v 6.–8. čtvrtletí na kartu
  • Jemné doladění LoRA / QLoRA: 7-14B pohodlné, 24-32B těsné

Cílové úlohy

  • Vývojářská pracovní stanice pro malé týmy s kapacitou 70B Q4
  • Blackwell vylepšení z boxu s 2x RTX 4090 – stejné šasi, ~2.5x TOPS, nativní FP8
  • Pracovní stanice pro generování obrazu / videa s nativním zrychlením FLUX FP8
  • Vícemodelový souběžný box: 70B Q4 + FLUX + Whisper + Moshi rezident současně
  • Koncový bod inference 4–8 souběžných uživatelů pro LLM třídy 32B

Publikované reference výkonu

Publikovaná reference | 2x hardware srovnatelný s RTX 5090

měřítko Výsledek
Lama 3.3 70B Q4_K_M dekódování lamy.cpp ~20-28 tok/s jeden proud
Qwen3-32B Q8 vLLM jednoproudový ~45-60 tok/s dekódování při fp8
FLUX.1 [dev] FP8 nativní pro Blackwell ~1.5–1.9 s na 1024x1024 při 20 krocích
HunyuanVideo 13B Q5 TP-2 5 s 720p za ~5-7 min

Publikováno, neměřeno na hardwaru Kentino. Kentino naměřilo referenční hodnotu na 4x RTX 4090: 647 TFLOPS fp16, 179 tok/s batch-32 aggregate.

Není ideální pro

  • Modely s hustotou paměti 100+ GB na bázi bf16 (DeepSeek-V3, Kimi K2, Mistral Large 3 — potřebují více než 256 GB prostoru)
  • Generování videa Frontier v plném rozlišení v dlouhém formátu pro BF16

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
  • Upgradujte bootovací disk na 2 TB NVMe – nebo 4 TB
  • Rozšíření paměti RAM na 256 GB (4x 64 GB) — MoE KV cache headroom / multimodel souběžné obsluhování
  • Rack PDU (měřená C13/C19) a 3 kVA online UPS
Zobrazit všechny podrobnosti