Kentino sro
K-AI 64 Rome 5080 3600TOPS — 4x RTX 5080 Budget AI Server
K-AI 64 Rome 5080 3600TOPS — 4x RTX 5080 Budget AI Server
Podívejte se na mladý muž
K-AI 64 Řím 5080 3600TOPS
Levný server Blackwell se 4 grafickými procesory
4x RTX 5080 | EPYC Milán | 3 600 TOPS INT8
Kentino levný server Blackwell se 4 GPU — 64 GB VRAM, agregát 3 600 TOPS INT8, nejnižší cena za TOPS v řadě.
Inferenční server Blackwell se 4 GPU postavený na RTX 5080 — 360 W na kartu, sloty PCIe 5, 16 GB GDDR7 každá. Čtyři karty poskytují sdružených 64 GB VRAM a agregát 3 600 INT8 TOPS za nejlepší cenu CZK za TOPS, kterou Kentino nabízí. Vstup do světa inferenčního serveru Blackwell s více GPU: ideální pro vkládání clusterů, obsluha modelu 7-13B ve velkém měřítku, dávkové generování obrázků/videa a 70B Q4 tenzorový paralelní procesor.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 4x NVIDIA GeForce RTX 5080 16 GB GDDR7 (360 W, PCIe 5.0 x16) |
| Pool VRAM | 64 GB |
| Procesor (CPU) | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Spouštění / úložiště | 2TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | Jeden 2kW ATX zdroj |
| Podvozek | Montáž do racku 4U, 4x GPU, pasivní rozšiřující karty Gen4 x16, směrované proudění vzduchu zepředu dozadu |
| Chlazení | Věžový chladič SP3, 3x 120 mm přední sání + 1x 120 mm zadní výfuk (průmyslové ventilátory) |
| Síť | Duální integrovaný 10GbE (Intel X550) + IPMI |
Napájecí obálka
- Odběr energie z grafické karty: 4 x 360 W = 1 440 W
- Celkový výkon systému při plném zatížení: ~1 765 W
- Celkový výkon zdroje: 2 000 W (jeden 2 kW ATX) — 11.75 % rezervy
- Nad hranicí 10 %, ale s menším výkonem než jiné sestavy se 4 grafickými kartami; pro náročné úlohy se doporučuje upgrade na dva zdroje.
Topologie jízdních pruhů
ROMED8-2T rozděluje 4x16 Gen4 z kořenového komplexu CPU. 5080 je křemíkový čip PCIe Gen5 s Gen4 x16 bez úzkého pásma pro inferenci. Žádný přepínač PCIe. Žádný NVLink – tenzorový paralelní port přes PCIe.
Co můžete spustit
S 64 GB sdílené paměti VRAM na 4 kartách Blackwell tento server zvládá 70B Q4 tenzorově paralelní sběrnici, vkládání clusterů ve velkém měřítku, dávkové zpracování obrázků a videa a 7-13B multitenantní služby pro 64-128 souběžných uživatelů.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3-32B Q8 (hustý obraz s kvalitou blízkou fp16); Qwen3.5-27B bf16
- Qwen3-30B-A3B / Qwen3-Coder-30B-A3B bf16 (~60 GB se vejde těsně)
- Qwen3.5-122B-A10B Q4 (~70-75 GB — málo, přebytek na DDR4 RAM)
- Hunyuan-A13B fp8 (~80 GB nativní — omezený výkon, raději Q6)
- Seed-OSS-36B bf16 (~72 GB těsný)
- DeepSeek-R2 32B řídký MoE bf16 (~64 GB) (~45-60 tok/s jeden stream ve 4. čtvrtletí na Blackwellu, publikovaná reference)
- GLM-4.5-Air 106B/12B Q3_K (~55 GB) — malý prostor pro KV
- ERNIE-4.5-47B-A3B Q4 (~28 GB s rezervou pro druhý model)
Západní hranice
- Lama 3.3 70B Q4_K_M (~43 GB) — ideální pro tento pool (~30-36 tok/s jeden stream na 4x 5080, publikovaná reference)
- Hermes 3 70B / Tulu 3 70B Q4 – otevřené deriváty Llama s plnou transparentností po trénování
- Mistral Malý 3 / Magistrál / Devstral Malý 2 24B bf16
- Gemma 3 27B multimodální BF16
- Phi-4 14B / Nemotron-Super 49B Q6-Q8
- gpt-oss-20b MXFP4 (16 GB — 4 instance na 4 kartách pro paralelní klienty); gpt-oss-120b MXFP4 (80 GB – těsný; odolný proti úniku)
Vize-jazyk
Qwen3-VL-32B / Qwen3-VL-30B-A3B / Qwen3-Omni-30B-A3B; InternVL3.5-38B Q6-Q8; Llama 3.2 90B Vision Q4 (~52 GB těsná); Pixtral 12B / Pixtral Large 124B Q2-Q3; Gemma 3 27B multimodální bf16; PaliGemma 2 28B bf16; Molmo 72B Q4 (~45 GB); Aya Vision 32B bf16.
Generování obrazu
FLUX.1 [dev] / [schnell] fp16 — dávkové zpracování 4 paralelních procesů (~10-15 sekund na obrázek 1024x1024 při fp8 na Blackwellu, publikovaná reference); FLUX.1 Kontext [dev] — kontextová editace napříč 4 tenanty; SD 3.5 Large (18 GB fp16) — 4 paralelní generátory; SDXL 1.0 + ControlNet + AnimateDiff stacky x 4; HunyuanImage-2.1 bf16 na kartu; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0 / PixArt-Sigma.
Generování videa
Wan 2.2 TI2V-5B bf16 na jedné kartě — 4 paralelní tenanti; Wan 2.1 14B T2V/I2V Q4-Q6 na kartu; HunyuanVideo 13B Q4 (~30 GB) tenzorově paralelní 2-cestný; HunyuanVideo 1.5 (8.3B) bf16 na kartu; Open-Sora 2.0 (11B) Q8 na kartu — 4 paralelní generace; CogVideoX-5B int8; Mochi-1 Q4 na kartu.
Zvuk / Řeč / TTS
Na kartu se vejde kompletní západní a čínský audio stack: Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2 / R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2. Se 4 kartami může každá karta hostovat vyhrazeného řečového tenanta. Whisper v3 turbo běží rychlostí ~50x reálného času na kartu (publikovaná reference).
Vícemodelový / vícenájemní
Cílový případ použití. 16 GB na kartu odměňuje rozdělené úlohy:
- Vkládací cluster: BGE-M3 / Nomic / Jina-embed / E5 / Cohere Embed v3 — 4 nájemníci s vysokým RPS
- 7-13B obsluhované ve velkém měřítku: 16–32 souběžných uživatelů na kartu přes vLLM / SGLang; celkem 64–128 souběžných uživatelů
- Smíšené potrubí: Karta 1 = Qwen3-14B + reranker; Karta 2 = Whisper + Moshi; Karta 3 = FLUX.1; Karta 4 = Wan 2.2 TI2V
- 4cestná tenzorová paralelnost pro 70B Q4 — Llama 3.3 70B AWQ INT4 napříč 4 kartami, agregovaná dávka ~90-130 tok/s (extrapolováno z benchmarku gf-logic 4x4090)
Cílové úlohy
- Levná multi-GPU platforma pro obsluhu umělé inteligence pro startup nebo laboratoř s investičními náklady
- Vkládání + RAG infrastruktura v horizontálním měřítku ve 4 směrech
- Dávková farma pro generování obrazu / videa (Stable Diffusion / FLUX / Wan 2.2)
- Malý model 7–13 miliard obsluhující ve velkém měřítku — 4 nezávislí klienti nebo 64–128 souběžných klientů ve sdruženém systému
- Vývojový staging box pro tenzorově paralelní pracovní postupy 70B Q4
Publikované reference výkonu
Kentino naměřeno (referenční číslo 4x4090) + publikované odhady 5080
| měřítko | Výsledek |
|---|---|
| Referenční hodnota 4x4090: trvalá fp16 | 647 TFLOPS |
| 4x4090 reference: vLLM Llama 3.3 70B AWQ (šarže-32) | 179.3 tok/s agregát |
| 4x4090 reference: llama.cpp 70B Q4_K_M (jednoduchý) | Dekódování 20.3 tok/s |
| 5080 odhadovaných: Llama 3.3 70B Q4 TP-4 single | ~15-20 tok/s |
| 5080 odhadovaných: FLUX.1 fp8 na kartu | ~2.2–2.8 s na 1024x1024 při 20 krocích |
Propustnost tenzoru 5080 ~1.35x 4090 na INT8 TOPS; dekódování jednoho streamu je omezeno šířkou pásma paměti (GDDR7 ~960 GB/s vs 4090 ~1 008 GB/s – zhruba parita).
Není ideální pro
- Hustota 70B v Q6+ (limit 16 GB na kartu na kartu; kapacita 64 GB je pro Q6 omezená)
- Vlajkové lodě MoE s dlouhodobým kontextem (Qwen3-235B, GLM-4.5) – nedostatek VRAM i ve 2. čtvrtletí
- Práce s jedním streamem citlivá na latenci na velmi velkých modelech (režie TP spotřebovává 16GB karty)
Záruka a dodací lhůta
Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- Upgrade zdroje na duální 2kW ATX synchronizovaný – zvyšuje rezervu až o 55 %
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Upgradujte bootovací disk na 4 TB NVMe
- Upgrade paměti RAM na 384 GB (6x 64 GB) – lepší prostor pro souběžný provoz více modelů
- Rack PDU (měřená C13/C19) a 3 kVA online UPS
Sdílet
