Kentino sro
K-AI 32 Řím 5090 1676TOPS — 1x pracovní stanice s umělou inteligencí RTX 5090
K-AI 32 Řím 5090 1676TOPS — 1x pracovní stanice s umělou inteligencí RTX 5090
Nikdy można załadować gotowości do odbioru
K-AI 32 Řím 5090 1676TOPS
Pracovní stanice Blackwell s jedním GPU
1x RTX 5090 | EPYC Milán | 1 676 TOPS INT8
Jedna grafická karta Blackwell, 32 GB GDDR7, nativní FP8 — nejostřejší pracovní stanice s umělou inteligencí s jednou grafickou kartou, kterou Kentino sestavuje.
Server s umělou inteligencí na úrovni pracovní stanice s jedním GPU a platformou ROMED8-2T / EPYC Milan. Jedna grafická karta RTX 5090 nabízí 32 GB paměti GDDR7 VRAM s nativní tenzorovou matematikou FP8 – ideální volba pro vývojářský box, inferenční endpoint pro malé týmy nebo pracovní stanici pro generování obrázků/videa, kde jedna silná GPU poráží dvě slabší. Rackový tvar 4U, ale zároveň možnost zasunutí do racku pro tiché kancelářské nasazení pod stůl.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 1x NVIDIA GeForce RTX 5090 32 GB GDDR7 (575 W, PCIe 5.0 x16, Blackwell) |
| Pool VRAM | 32 GB |
| Procesor (CPU) | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 128 GB DDR4-2666 ECC RDIMM (2x 64 GB) |
| Spouštění / úložiště | 1TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | Jeden 2kW ATX zdroj |
| Podvozek | 4U racková montáž, pasivní Gen4 x16 rozšiřující modul |
| Chlazení | Věžový chladič SP3 (třída Arctic Freezer 4U-M), 3x 120 mm přední sání + 1x 120 mm zadní výfuk |
| Síť | Duální integrovaný 10GbE (Intel X550) + IPMI |
Napájecí obálka
- Spotřeba energie GPU: 1 x 575 W = 575 W
- Celkový výkon systému při plném zatížení: ~900 W
- Celkový výkon zdroje: 2 000 W (jeden 2 kW ATX) — 55 % rezervy
- Velkorysá přechodová rezerva, tichý provoz při nízkém zatížení
Topologie jízdních pruhů
PCIe Gen4 x16 na GPU (ROMED8-2T je Gen4; 5090 je křemíkový čip Gen5 s Gen4 bez omezení šířky pásma pro inferenci). 16 linek přímo z kořenového komplexu CPU. Žádný přepínač PCIe. Žádný NVLink na GeForce 5090.
Co můžete spustit
S 32 GB paměti GDDR7 VRAM a nativní tenzorovou matematikou FP8 zvládá tato pracovní stanice LLM s otevřenou hmotností až do hustoty 32B, generování obrázků pomocí FLUX.1, generování videa, řečovou umělou inteligenci a vícemodelové stacky s jedním vývojářem.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3-32B hustý Q6_K — 32k kontext, stěžejní obecné uvažování (~40-55 tok/s jeden stream na Blackwell FP8, publikovaná reference)
- Qwen3-30B-A3B MoE v Q4_K_M s dlouhou KV rezervou (Qwen3-Coder-30B-A3B agentic, 256k ctx)
- QwQ-32B Q6 – náhled zdůvodnění
- DeepSeek-R2 32B řídké MoE ve 4. až 6. čtvrtletí — uvažování o jednom GPU s hodnocením 92.7 % AIME-2025 (~45-60 tok/s jeden stream na Blackwell FP8, publikovaná reference)
- Qwen3.5-27B hustý Q6 (vydání z února 2026)
- Hunyuan-A13B v Q4_K_M (~28-30 GB) — 80B/13B MoE, 256k ctx, duální uvažování
- Seed-OSS-36B Q4_K_M — 512k nativní kontext pro analýzu dlouhých dokumentů
Západní hranice
- Lama 3.3 70B v Q2_K (~27 GB omezené) nebo Q3_K (~34 GB s přebytečnou RAM) – použitelné pro obecný chat
- Mistral Malý 3 / Magistral Malý / Devstral Malý 2 (hustota 24B) v Q6-Q8 nebo bf16
- Gemma 3 27B multimodální v Q6 se 128k kontextem
- Phi-4 14B / Úvaha o fí-4 bf16
- Reka Flash 3 (21B Apache 2.0) v bf16
- gpt-oss-20b nativní MXFP4 (~16 GB — hodí se i s velkorysým KV)
Vize-jazyk
Qwen3-VL-8B / -32B v Q4-Q6; Qwen3-VL-30B-A3B MoE; InternVL3.5-8B / -38B Q4; MiniCPM-V 2.6 / MiniCPM-o 2.6 (8B); Llama 3.2 11B Vision bf16; Pixtral 12B bf16 (24 GB — těsný, použijte Q8); Gemma 3 12B / 27B multimodální; PaliGemma 2 (3/10B); Phi-4-multimodální 5.6B; Aya Vision 8B.
Generování obrazu
FLUX.1 [dev] / [schnell] fp8 (~12 GB) nativní zrychlení Blackwellu (~8-12 sekund na obrázek 1024x1024 při 20 krocích na Blackwellu, publikovaná reference); FLUX.1 Kontext [dev] — úpravy v kontextu, konzistence znaků; SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0 10-12 GB fp16; HunyuanImage-2.1 NF4 (~14 GB); Kolors 2.0 fp8; AuraFlow v0.3 / OmniGen v1 / PixArt-Sigma.
Generování videa
Wan 2.2 TI2V-5B při ~16 GB — 720p@24fps na jedné 5090; Wan 2.1 T2V/I2V 14B při Q4-Q6 (~16 GB); HunyuanVideo 1.5 (8.3B) — minimálně 14 GB; CogVideoX-5B / 5B-I2V int8 (~12 GB); LTX-Video 2B v reálném čase 30 fps; Mochi-1 Q4 (~17-18 GB).
Zvuk / Řeč / TTS
- ASR: Whisper v3 large / turbo (~50x realtime na jedné GPU, publikovaná reference); NVIDIA Parakeet-TDT 1.1B; Canary 1B
- Překlad textu na řeč: CosyVoice 2.0 / Fun-CosyVoice 3.0; Kokoro 82M; Stabilní zvuk otevřený
- Reálný čas / S2S: Kyutai Moshi (7B) — pouze otevřený plně duplexní hlas v reálném čase; Step-Audio 2 mini / R1
Vícemodelový / vícenájemní
- Rezidentní stack pro jednoho vývojáře: Qwen3-32B Q6 (~20 GB) + FLUX.1 fp8 (~12 GB se vejde těsně) na swapu, nebo Qwen3-14B Q6 (~9 GB) + FLUX.1 + Whisper-turbo + Kokoro současně (~20-24 GB zapojených)
- 2–4 souběžní uživatelé na LLM třídy 14–32B přes vLLM / SGLang
- Jemné doladění LoRA / QLoRA modelů s hustotou 7-14B
Cílové úlohy
- Vývojářská pracovní stanice pro jednoho inženýra umělé inteligence, který používá smíšenou inferenci a generování obrázků
- Koncový bod kódovacího agenta pro malé týmy (Qwen3-Coder-30B-A3B) s 1–4 souběžnými uživateli
- Zpracování obsahu: FLUX.1 nebo SD 3.5 Generování velkých dávek obrázků + krátké video Wan 2.2
- Hlasový zásobník ASR + TTS pro pobočku (Whisper + Kokoro + Moshi) v místní síti
- Výzkumný box Prosumer LLM + VLM — testování Qwen3, Llama 3.3, Gemma 3, Phi-4 na reálném hardwaru
Publikované reference výkonu
Publikovaná reference | hardware srovnatelný s jednou RTX 5090
| měřítko | Výsledek |
|---|---|
| Lama 3.3 70B Q4_K_M dekódování lamy.cpp | ~18-22 tok/s s odlehčením CPU KV |
| Qwen3-32B Q6 vLLM jednoproudový | ~45-55 tok/s dekódování při fp8 |
| FLUX.1 [dev] fp8 na Blackwellu | ~1.7–2.0 s na snímek 1024x1024 při 20 krocích |
| Klip Wan 2.2 TI2V-5B 720p | ~3-4 minuty při fp16 |
Publikované referenční body z porovnatelného hardwaru s jedním čipem 5090. Naměřené hodnoty od Kentina budou zveřejněny, jakmile gf-logic rozšíří testovací systém na single-5090.
Není ideální pro
- Modely s hustotou 70B v Q6+ (32 GB je nedostatečných – pro správný 64GB pool použijte 2x 5090)
- Souběžné poskytování více uživatelů ve velkém měřítku (jeden tenzorově paralelní oddíl)
- Frontier 100B+ MoE (GLM-4.5, Kimi K2, Mistral Large 3 — mimo dosah na jednu spotřebitelskou kartu)
Záruka a dodací lhůta
Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Upgradujte bootovací disk na 2 TB NVMe – nebo 4 TB
- Upgrade paměti RAM na 256 GB (4x 64 GB DDR4) pro větší KV cache / vícemodelové souběžné stacky
- Rack PDU (měřená C13/C19) a 2 kVA online UPS
Sdílet
