Pomiń, aby przejść do informacji o produkci
1 z 14

Kentino sro

K-AI 32 Řím 5090 1676TOPS — 1x pracovní stanice s umělou inteligencí RTX 5090

K-AI 32 Řím 5090 1676TOPS — 1x pracovní stanice s umělou inteligencí RTX 5090

Pravidelná cena EUR € 8.092,00
Pravidelná cena Propagační cena EUR € 8.092,00
V propagaci Vyprodáno
Z wliczonymi podatkami. Cena poštovného obliczony przy realizacji zakupu.

K-AI 32 Řím 5090 1676TOPS

Pracovní stanice Blackwell s jedním GPU
1x RTX 5090 | EPYC Milán | 1 676 TOPS INT8

1 676
TOPS INT8
32 GB
VRAM GDDR7
fp8
nativní tenzor
nosič
připravený

Jedna grafická karta Blackwell, 32 GB GDDR7, nativní FP8 — nejostřejší pracovní stanice s umělou inteligencí s jednou grafickou kartou, kterou Kentino sestavuje.

Server s umělou inteligencí na úrovni pracovní stanice s jedním GPU a platformou ROMED8-2T / EPYC Milan. Jedna grafická karta RTX 5090 nabízí 32 GB paměti GDDR7 VRAM s nativní tenzorovou matematikou FP8 – ideální volba pro vývojářský box, inferenční endpoint pro malé týmy nebo pracovní stanici pro generování obrázků/videa, kde jedna silná GPU poráží dvě slabší. Rackový tvar 4U, ale zároveň možnost zasunutí do racku pro tiché kancelářské nasazení pod stůl.

technické vybavení

Složka Detail
GPU 1x NVIDIA GeForce RTX 5090 32 GB GDDR7 (575 W, PCIe 5.0 x16, Blackwell)
Pool VRAM 32 GB
Procesor (CPU) AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0)
Základní deska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 128 GB DDR4-2666 ECC RDIMM (2x 64 GB)
Spouštění / úložiště 1TB NVMe M.2 (PCIe 4.0 x4)
napájení Jeden 2kW ATX zdroj
Podvozek 4U racková montáž, pasivní Gen4 x16 rozšiřující modul
Chlazení Věžový chladič SP3 (třída Arctic Freezer 4U-M), 3x 120 mm přední sání + 1x 120 mm zadní výfuk
Síť Duální integrovaný 10GbE (Intel X550) + IPMI

Napájecí obálka

  • Spotřeba energie GPU: 1 x 575 W = 575 W
  • Celkový výkon systému při plném zatížení: ~900 W
  • Celkový výkon zdroje: 2 000 W (jeden 2 kW ATX) — 55 % rezervy
  • Velkorysá přechodová rezerva, tichý provoz při nízkém zatížení

Topologie jízdních pruhů

PCIe Gen4 x16 na GPU (ROMED8-2T je Gen4; 5090 je křemíkový čip Gen5 s Gen4 bez omezení šířky pásma pro inferenci). 16 linek přímo z kořenového komplexu CPU. Žádný přepínač PCIe. Žádný NVLink na GeForce 5090.

Co můžete spustit

S 32 GB paměti GDDR7 VRAM a nativní tenzorovou matematikou FP8 zvládá tato pracovní stanice LLM s otevřenou hmotností až do hustoty 32B, generování obrázků pomocí FLUX.1, generování videa, řečovou umělou inteligenci a vícemodelové stacky s jedním vývojářem.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3-32B hustý Q6_K — 32k kontext, stěžejní obecné uvažování (~40-55 tok/s jeden stream na Blackwell FP8, publikovaná reference)
  • Qwen3-30B-A3B MoE v Q4_K_M s dlouhou KV rezervou (Qwen3-Coder-30B-A3B agentic, 256k ctx)
  • QwQ-32B Q6 – náhled zdůvodnění
  • DeepSeek-R2 32B řídké MoE ve 4. až 6. čtvrtletí — uvažování o jednom GPU s hodnocením 92.7 % AIME-2025 (~45-60 tok/s jeden stream na Blackwell FP8, publikovaná reference)
  • Qwen3.5-27B hustý Q6 (vydání z února 2026)
  • Hunyuan-A13B v Q4_K_M (~28-30 GB) — 80B/13B MoE, 256k ctx, duální uvažování
  • Seed-OSS-36B Q4_K_M — 512k nativní kontext pro analýzu dlouhých dokumentů

Západní hranice

  • Lama 3.3 70B v Q2_K (~27 GB omezené) nebo Q3_K (~34 GB s přebytečnou RAM) – použitelné pro obecný chat
  • Mistral Malý 3 / Magistral Malý / Devstral Malý 2 (hustota 24B) v Q6-Q8 nebo bf16
  • Gemma 3 27B multimodální v Q6 se 128k kontextem
  • Phi-4 14B / Úvaha o fí-4 bf16
  • Reka Flash 3 (21B Apache 2.0) v bf16
  • gpt-oss-20b nativní MXFP4 (~16 GB — hodí se i s velkorysým KV)

Vize-jazyk

Qwen3-VL-8B / -32B v Q4-Q6; Qwen3-VL-30B-A3B MoE; InternVL3.5-8B / -38B Q4; MiniCPM-V 2.6 / MiniCPM-o 2.6 (8B); Llama 3.2 11B Vision bf16; Pixtral 12B bf16 (24 GB — těsný, použijte Q8); Gemma 3 12B / 27B multimodální; PaliGemma 2 (3/10B); Phi-4-multimodální 5.6B; Aya Vision 8B.

Generování obrazu

FLUX.1 [dev] / [schnell] fp8 (~12 GB) nativní zrychlení Blackwellu (~8-12 sekund na obrázek 1024x1024 při 20 krocích na Blackwellu, publikovaná reference); FLUX.1 Kontext [dev] — úpravy v kontextu, konzistence znaků; SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0 10-12 GB fp16; HunyuanImage-2.1 NF4 (~14 GB); Kolors 2.0 fp8; AuraFlow v0.3 / OmniGen v1 / PixArt-Sigma.

Generování videa

Wan 2.2 TI2V-5B při ~16 GB — 720p@24fps na jedné 5090; Wan 2.1 T2V/I2V 14B při Q4-Q6 (~16 GB); HunyuanVideo 1.5 (8.3B) — minimálně 14 GB; CogVideoX-5B / 5B-I2V int8 (~12 GB); LTX-Video 2B v reálném čase 30 fps; Mochi-1 Q4 (~17-18 GB).

Zvuk / Řeč / TTS

  • ASR: Whisper v3 large / turbo (~50x realtime na jedné GPU, publikovaná reference); NVIDIA Parakeet-TDT 1.1B; Canary 1B
  • Překlad textu na řeč: CosyVoice 2.0 / Fun-CosyVoice 3.0; Kokoro 82M; Stabilní zvuk otevřený
  • Reálný čas / S2S: Kyutai Moshi (7B) — pouze otevřený plně duplexní hlas v reálném čase; Step-Audio 2 mini / R1

Vícemodelový / vícenájemní

  • Rezidentní stack pro jednoho vývojáře: Qwen3-32B Q6 (~20 GB) + FLUX.1 fp8 (~12 GB se vejde těsně) na swapu, nebo Qwen3-14B Q6 (~9 GB) + FLUX.1 + Whisper-turbo + Kokoro současně (~20-24 GB zapojených)
  • 2–4 souběžní uživatelé na LLM třídy 14–32B přes vLLM / SGLang
  • Jemné doladění LoRA / QLoRA modelů s hustotou 7-14B

Cílové úlohy

  • Vývojářská pracovní stanice pro jednoho inženýra umělé inteligence, který používá smíšenou inferenci a generování obrázků
  • Koncový bod kódovacího agenta pro malé týmy (Qwen3-Coder-30B-A3B) s 1–4 souběžnými uživateli
  • Zpracování obsahu: FLUX.1 nebo SD 3.5 Generování velkých dávek obrázků + krátké video Wan 2.2
  • Hlasový zásobník ASR + TTS pro pobočku (Whisper + Kokoro + Moshi) v místní síti
  • Výzkumný box Prosumer LLM + VLM — testování Qwen3, Llama 3.3, Gemma 3, Phi-4 na reálném hardwaru

Publikované reference výkonu

Publikovaná reference | hardware srovnatelný s jednou RTX 5090

měřítko Výsledek
Lama 3.3 70B Q4_K_M dekódování lamy.cpp ~18-22 tok/s s odlehčením CPU KV
Qwen3-32B Q6 vLLM jednoproudový ~45-55 tok/s dekódování při fp8
FLUX.1 [dev] fp8 na Blackwellu ~1.7–2.0 s na snímek 1024x1024 při 20 krocích
Klip Wan 2.2 TI2V-5B 720p ~3-4 minuty při fp16

Publikované referenční body z porovnatelného hardwaru s jedním čipem 5090. Naměřené hodnoty od Kentina budou zveřejněny, jakmile gf-logic rozšíří testovací systém na single-5090.

Není ideální pro

  • Modely s hustotou 70B v Q6+ (32 GB je nedostatečných – pro správný 64GB pool použijte 2x 5090)
  • Souběžné poskytování více uživatelů ve velkém měřítku (jeden tenzorově paralelní oddíl)
  • Frontier 100B+ MoE (GLM-4.5, Kimi K2, Mistral Large 3 — mimo dosah na jednu spotřebitelskou kartu)

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
  • Upgradujte bootovací disk na 2 TB NVMe – nebo 4 TB
  • Upgrade paměti RAM na 256 GB (4x 64 GB DDR4) pro větší KV cache / vícemodelové souběžné stacky
  • Rack PDU (měřená C13/C19) a 2 kVA online UPS
Pokaz zcela dane