Podívejte se na informace o produktu
1 av 7

Kentino sro

K-AI 64 Rome 5080 3600TOPS — 4x RTX 5080 Budget AI Server

K-AI 64 Rome 5080 3600TOPS — 4x RTX 5080 Budget AI Server

Obyčejné přís EUR € 11.940,00
Obyčejné přís Zlevněné ceny EUR € 11.940,00
Rea Vyprodáno
Skatter Ingår. Dopravni poplatek beräknas i kassan.

K-AI 64 Řím 5080 3600TOPS

Levný server Blackwell se 4 grafickými procesory
4x RTX 5080 | EPYC Milán | 3 600 TOPS INT8

3 600
TOPS INT8
64 GB
Pool VRAM
4 GPU
Blackwell
nosič
připravený

Kentino levný server Blackwell se 4 GPU — 64 GB VRAM, agregát 3 600 TOPS INT8, nejnižší cena za TOPS v řadě.

Inferenční server Blackwell se 4 GPU postavený na RTX 5080 — 360 W na kartu, sloty PCIe 5, 16 GB GDDR7 každá. Čtyři karty poskytují sdružených 64 GB VRAM a agregát 3 600 INT8 TOPS za nejlepší cenu CZK za TOPS, kterou Kentino nabízí. Vstup do světa inferenčního serveru Blackwell s více GPU: ideální pro vkládání clusterů, obsluha modelu 7-13B ve velkém měřítku, dávkové generování obrázků/videa a 70B Q4 tenzorový paralelní procesor.

technické vybavení

Složka Detail
GPU 4x NVIDIA GeForce RTX 5080 16 GB GDDR7 (360 W, PCIe 5.0 x16)
Pool VRAM 64 GB
Procesor (CPU) AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0)
Základní deska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Spouštění / úložiště 2TB NVMe M.2 (PCIe 4.0 x4)
napájení Jeden 2kW ATX zdroj
Podvozek Montáž do racku 4U, 4x GPU, pasivní rozšiřující karty Gen4 x16, směrované proudění vzduchu zepředu dozadu
Chlazení Věžový chladič SP3, 3x 120 mm přední sání + 1x 120 mm zadní výfuk (průmyslové ventilátory)
Síť Duální integrovaný 10GbE (Intel X550) + IPMI

Napájecí obálka

  • Odběr energie z grafické karty: 4 x 360 W = 1 440 W
  • Celkový výkon systému při plném zatížení: ~1 765 W
  • Celkový výkon zdroje: 2 000 W (jeden 2 kW ATX) — 11.75 % rezervy
  • Nad hranicí 10 %, ale s menším výkonem než jiné sestavy se 4 grafickými kartami; pro náročné úlohy se doporučuje upgrade na dva zdroje.

Topologie jízdních pruhů

ROMED8-2T rozděluje 4x16 Gen4 z kořenového komplexu CPU. 5080 je křemíkový čip PCIe Gen5 s Gen4 x16 bez úzkého pásma pro inferenci. Žádný přepínač PCIe. Žádný NVLink – tenzorový paralelní port přes PCIe.

Co můžete spustit

S 64 GB sdílené paměti VRAM na 4 kartách Blackwell tento server zvládá 70B Q4 tenzorově paralelní sběrnici, vkládání clusterů ve velkém měřítku, dávkové zpracování obrázků a videa a 7-13B multitenantní služby pro 64-128 souběžných uživatelů.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3-32B Q8 (hustý obraz s kvalitou blízkou fp16); Qwen3.5-27B bf16
  • Qwen3-30B-A3B / Qwen3-Coder-30B-A3B bf16 (~60 GB se vejde těsně)
  • Qwen3.5-122B-A10B Q4 (~70-75 GB — málo, přebytek na DDR4 RAM)
  • Hunyuan-A13B fp8 (~80 GB nativní — omezený výkon, raději Q6)
  • Seed-OSS-36B bf16 (~72 GB těsný)
  • DeepSeek-R2 32B řídký MoE bf16 (~64 GB) (~45-60 tok/s jeden stream ve 4. čtvrtletí na Blackwellu, publikovaná reference)
  • GLM-4.5-Air 106B/12B Q3_K (~55 GB) — malý prostor pro KV
  • ERNIE-4.5-47B-A3B Q4 (~28 GB s rezervou pro druhý model)

Západní hranice

  • Lama 3.3 70B Q4_K_M (~43 GB) — ideální pro tento pool (~30-36 tok/s jeden stream na 4x 5080, publikovaná reference)
  • Hermes 3 70B / Tulu 3 70B Q4 – otevřené deriváty Llama s plnou transparentností po trénování
  • Mistral Malý 3 / Magistrál / Devstral Malý 2 24B bf16
  • Gemma 3 27B multimodální BF16
  • Phi-4 14B / Nemotron-Super 49B Q6-Q8
  • gpt-oss-20b MXFP4 (16 GB — 4 instance na 4 kartách pro paralelní klienty); gpt-oss-120b MXFP4 (80 GB – těsný; odolný proti úniku)

Vize-jazyk

Qwen3-VL-32B / Qwen3-VL-30B-A3B / Qwen3-Omni-30B-A3B; InternVL3.5-38B Q6-Q8; Llama 3.2 90B Vision Q4 (~52 GB těsná); Pixtral 12B / Pixtral Large 124B Q2-Q3; Gemma 3 27B multimodální bf16; PaliGemma 2 28B bf16; Molmo 72B Q4 (~45 GB); Aya Vision 32B bf16.

Generování obrazu

FLUX.1 [dev] / [schnell] fp16 — dávkové zpracování 4 paralelních procesů (~10-15 sekund na obrázek 1024x1024 při fp8 na Blackwellu, publikovaná reference); FLUX.1 Kontext [dev] — kontextová editace napříč 4 tenanty; SD 3.5 Large (18 GB fp16) — 4 paralelní generátory; SDXL 1.0 + ControlNet + AnimateDiff stacky x 4; HunyuanImage-2.1 bf16 na kartu; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0 / PixArt-Sigma.

Generování videa

Wan 2.2 TI2V-5B bf16 na jedné kartě — 4 paralelní tenanti; Wan 2.1 14B T2V/I2V Q4-Q6 na kartu; HunyuanVideo 13B Q4 (~30 GB) tenzorově paralelní 2-cestný; HunyuanVideo 1.5 (8.3B) bf16 na kartu; Open-Sora 2.0 (11B) Q8 na kartu — 4 paralelní generace; CogVideoX-5B int8; Mochi-1 Q4 na kartu.

Zvuk / Řeč / TTS

Na kartu se vejde kompletní západní a čínský audio stack: Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2 / R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2. Se 4 kartami může každá karta hostovat vyhrazeného řečového tenanta. Whisper v3 turbo běží rychlostí ~50x reálného času na kartu (publikovaná reference).

Vícemodelový / vícenájemní

Cílový případ použití. 16 GB na kartu odměňuje rozdělené úlohy:

  • Vkládací cluster: BGE-M3 / Nomic / Jina-embed / E5 / Cohere Embed v3 — 4 nájemníci s vysokým RPS
  • 7-13B obsluhované ve velkém měřítku: 16–32 souběžných uživatelů na kartu přes vLLM / SGLang; celkem 64–128 souběžných uživatelů
  • Smíšené potrubí: Karta 1 = Qwen3-14B + reranker; Karta 2 = Whisper + Moshi; Karta 3 = FLUX.1; Karta 4 = Wan 2.2 TI2V
  • 4cestná tenzorová paralelnost pro 70B Q4 — Llama 3.3 70B AWQ INT4 napříč 4 kartami, agregovaná dávka ~90-130 tok/s (extrapolováno z benchmarku gf-logic 4x4090)

Cílové úlohy

  • Levná multi-GPU platforma pro obsluhu umělé inteligence pro startup nebo laboratoř s investičními náklady
  • Vkládání + RAG infrastruktura v horizontálním měřítku ve 4 směrech
  • Dávková farma pro generování obrazu / videa (Stable Diffusion / FLUX / Wan 2.2)
  • Malý model 7–13 miliard obsluhující ve velkém měřítku — 4 nezávislí klienti nebo 64–128 souběžných klientů ve sdruženém systému
  • Vývojový staging box pro tenzorově paralelní pracovní postupy 70B Q4

Publikované reference výkonu

Kentino naměřeno (referenční číslo 4x4090) + publikované odhady 5080

měřítko Výsledek
Referenční hodnota 4x4090: trvalá fp16 647 TFLOPS
4x4090 reference: vLLM Llama 3.3 70B AWQ (šarže-32) 179.3 tok/s agregát
4x4090 reference: llama.cpp 70B Q4_K_M (jednoduchý) Dekódování 20.3 tok/s
5080 odhadovaných: Llama 3.3 70B Q4 TP-4 single ~15-20 tok/s
5080 odhadovaných: FLUX.1 fp8 na kartu ~2.2–2.8 s na 1024x1024 při 20 krocích

Propustnost tenzoru 5080 ~1.35x 4090 na INT8 TOPS; dekódování jednoho streamu je omezeno šířkou pásma paměti (GDDR7 ~960 GB/s vs 4090 ~1 008 GB/s – zhruba parita).

Není ideální pro

  • Hustota 70B v Q6+ (limit 16 GB na kartu na kartu; kapacita 64 GB je pro Q6 omezená)
  • Vlajkové lodě MoE s dlouhodobým kontextem (Qwen3-235B, GLM-4.5) – nedostatek VRAM i ve 2. čtvrtletí
  • Práce s jedním streamem citlivá na latenci na velmi velkých modelech (režie TP spotřebovává 16GB karty)

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • Upgrade zdroje na duální 2kW ATX synchronizovaný – zvyšuje rezervu až o 55 %
  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
  • Upgradujte bootovací disk na 4 TB NVMe
  • Upgrade paměti RAM na 384 GB (6x 64 GB) – lepší prostor pro souběžný provoz více modelů
  • Rack PDU (měřená C13/C19) a 3 kVA online UPS
Visa alla uppgifter