Přejít na informace o produktu
1 of 7

Kentino sro

K-AI 96 Řím L40 724TOPS — 2x NVIDIA L40 ECC produkční inferenční server

K-AI 96 Řím L40 724TOPS — 2x NVIDIA L40 ECC produkční inferenční server

Běžná cena EUR € 23.144,00
Běžná cena Prodejní cena EUR € 23.144,00
Výprodej Vyprodáno
Včetně daní. Přeprava spočítány u pokladny.

K-AI 96 Řím L40 724TOPS

2x produkční server L40 ECC
96 GB ECC VRAM | EPYC Milán | 724 TOPS INT8

724
TOPS INT8
96 GB
ECC VRAM
ECC
úroveň datového centra
24/7
výroba

Základní podnikový ECC box s nepřetržitým provozem (24/7) – 2x pasivní L40, 96GB ECC VRAM pool, alternativa k úrovni 4090 na úrovni datových center pro regulovaná nasazení.

Dvouproudý inferenční server produkční třídy postavený na platformě ROMED8-2T / EPYC Milan se dvěma pasivními kartami NVIDIA L40. 96GB ECC GDDR6 pool se stejnou kapacitou VRAM jako čtyřnásobná grafická karta RTX 4090, ale s plnou certifikací pro datová centra, pamětí ECC na každé kartě a tepelným designem navrženým pro nepřetržitý pracovní cyklus. Správné rozhodnutí v případech, kdy by RTX 4090 vyvolávala obavy ze záruky, spolehlivosti nebo shody s předpisy – finance, zdravotnictví, formální ověřování a jakékoli provozování LLM / VLM s trvalou produkcí.

technické vybavení

Složka Detail
GPU 2x NVIDIA L40 48 GB GDDR6 ECC (Ada Lovelace, pasivní, 300 W, dvouslotová, PCIe 4.0 x16)
Pool VRAM 96 GB ECC (bez NVLinku)
Procesor (CPU) AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0)
Základní deska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Spouštění / úložiště 1TB NVMe M.2 (PCIe 4.0 x4)
napájení Jeden 2kW ATX zdroj
Podvozek 4U rackové, pasivní rozšiřující moduly Gen4 x16
Chlazení Věžový chladič SP3 (Arctic Freezer 4U-M), 3x 120 mm přední sání + 1x 120 mm zadní výfuk
Síť Duální integrovaný 10GbE (Intel X550) + IPMI

Napájecí obálka

  • Spotřeba energie GPU: 2 x 300 W = 600 W
  • Celkový výkon systému při plném zatížení: ~925 W
  • Celkový výkon zdroje: 2 000 W — 53.8 % volného prostoru
  • Pohodlná rezerva pro jeden zdroj, tichý provoz

Topologie jízdních pruhů

PCIe Gen4 x16 na obou GPU (L40 je nativní Gen4 x16). 16 linek přímo z kořenového komplexu CPU — žádný PCIe přepínač. NVLink není k dispozici na L40 — komunikace mezi GPU přes PCIe P2P. Šířka pásma paměti 864 GB/s na kartu.

Co můžete spustit

S 96 GB ECC VRAM na 2 pasivních kartách L40 tento server zvládá nepřetržité podnikové služby LLM, regulovaná nasazení, generování obrázků a videa a inferenci pro více klientů, kde záleží na spolehlivosti ECC a záruce datového centra.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3-32B bf16 s jednou GPU na jednom L40 s kapacitou 32k ctx (~18-22 tok/s jeden stream na L40, publikovaná reference)
  • Qwen3.5-27B bf16; Qwen3-30B-A3B / Qwen3-Coder-30B-A3B bf16 (~60 GB) 256k ctx
  • Qwen3.5-122B-A10B Q4 (~70 GB) — vlajková loď MoE, dlouhá doba trvání čtení
  • QwQ-32B bf16; Hunyuan-A13B 6. čtvrtletí (~48 GB)
  • DeepSeek-R2 32B řídký MoE bf16 — podpora jednoho GPU, dva paralelní streamy
  • GLM-4.5-Air 106B/12B Q4-Q5 (pohodlné 60-70 GB)
  • Seed-OSS-36B bf16 — 512k nativní ctx; ERNIE-4.5-47B-A3B Q6-Q8
  • Baichuan-M2-32B bf16 (lékařské uvažování – zde výhoda ECC)

Západní hranice

  • Lama 3.3 70B Q6 (~58 GB) s KV rezervou; Q4_K_M (~43 GB) velmi dlouhá doba přenosu dat (~15-18 tok/s jeden stream na 2x L40, publikovaná reference)
  • Hermes 3 70B / Tulu 3 70B Q4–Q6; Flame 4 Scout 109B/17B MoE Q4 (~63 GB)
  • Mistral Malý 3 / Magistral Malý 1.2 / Devstral Malý 2 (24B) bf16; Mixtral 8x22B Q3-Q4
  • gpt-oss-120b MXFP4 (~80 GB) s prostorem pro KV
  • Gemma 3 27B multimodální bf16 se 128k ctx
  • Phi-4 14B / Úvaha o fí-4 / Phi-4-multimodální bf16
  • Nemotron-Super 49B Q6–Q8; IBM Granite 4.0 H-Small 32B/9B – dodržování předpisů v podniku
  • Reka Flash 3 21B bf16; OLMo 2 32B / OLMo 3.1-32B-Mysli bf16

Modely vizuální a jazykové komunikace

Qwen3-VL-8B / 32B, Qwen3-VL-30B-A3B MoE, Qwen3-Omni-30B-A3B; InternVL3 až 78B Q4 (~48 GB); InternVL3.5-38B bf16; DeepSeek-VL2; ERNIE-4.5-VL-28B-A3B-Thinking; Llama 3.2 11B Vision bf16; Pixtral 12B bf16; Gemma 3 12B / 27B multimodální; PaliGemma 2 (3/10/28B); MiniCPM-V 2.6 / MiniCPM-o 2.6; GLM-4.6V-Flash; Molmo 72B Q4; Aya Vision 32B.

Generování obrazu

L40 má tenzorová jádra Ada a paměťovou propustnost 864 GB/s na kartu – solidní výkon pro produkční obrazové kanály: FLUX.1 [dev] / [schnell] fp16 (~24 GB) nebo fp8 (~12 GB) (~15–25 sekund na obrázek 1024x1024 při fp8, publikovaná reference); FLUX.1 Kontext [dev]; FLUX Tools (Fill / Depth / Canny / Redux); SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0 + ControlNet + AnimateDiff; HunyuanImage-2.1 bf16 (~34 GB); Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.

Generování videa

HunyuanVideo 13B bf16 se vejde na jednu L40 při krátkém klipu 720p; Wan 2.2 T2V-A14B / I2V-A14B bf16 (~54 GB) tensor-paralelní 2-cestný; Wan 2.2 TI2V-5B bf16 na kartu; Wan 2.1 14B fp8 / bf16; HunyuanVideo 1.5 (8.3B) bf16; Open-Sora 2.0 (11B) bf16; CogVideoX-5B / 1.5 bf16; Mochi-1 bf16 (~42 GB); LTX-Video 2B; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Zvuk / Řeč / TTS

  • ASR: Whisper v3 large / turbo (~50x realtime na jedné GPU, publikovaná reference); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • Překlad textu na řeč: CosyVoice 2 / Fun-CosyVoice 3.0; Kokoro 82M; Stable Audio Open; Coqui XTTS v2; StyleTTS 2; Step-Audio-EditX
  • Reálný čas / S2S: Kyutai Moshi (latence 200 ms, plně duplexní); Step-Audio 2 mini / R1 / R1.1; Qwen2.5-Omni-7B
  • Hudba / Znělky / Překlad: MusicGen; AudioGen; Suno Bark; SeamlessM4T v2; MMS

Vícemodelové / vícenájemnické služby

  • 4–8 souběžných uživatelů na LLM třídy 32-70B prostřednictvím tenzorově paralelního distribučního systému vLLM nebo distribučního systému na kartu
  • Smíšený stack: Qwen3-32B + FLUX.1 + Whisper-turbo + rezidentní Moshi s rozdělenou VRAM
  • Inference LoRA + jemné doladění 7-14B; u menších modelů možná plná parametrizace
  • RAG kanály s vloženími Command R / Qwen3 + BGE-M3 / E5 / Jina

Cílové úlohy

  • Enterprise LLM 24/7 obsluhuje — 70B Q4-Q6, Qwen3-32B bf16, Mistral Small 3 bf16
  • Regulované nasazení vyžadující paměť ECC (finance, zdravotnictví, formální ověření)
  • Dlouhodobé poskytování – Seed-OSS-36B 512k ctx se pohodlně vejde do 96GB poolu.
  • Střední třída obsluhující letouny MoE — Hunyuan-A13B Q6, GLM-4.5-Air Q4, Qwen3-30B-A3B bf16
  • Zpracování dokumentů VLM — InternVL3.5-38B, Pixtral 12B bf16, Qwen3-VL-32B

Publikované reference výkonu

Publikovaná reference | 2x hardware srovnatelný s NVIDIA L40

měřítko Výsledek
Lama 3.3 70B Q4_K_M přes 2x L40 tenzorově rozdělené ~15-18 tok/s jeden proud
Qwen3-32B bf16 s jednou GPU na jednom L40 ~18-22 tok/s jeden proud
vLLM Hunyuan-A13B Q6 na 2x L40 bazénu ~28-34 tok/s jeden proud
HunyuanVideo 13B bf16 na jednom L40 Krátký klip v rozlišení 720p – vejde se na 48 GB
Metriky pro jednotlivé karty 362 TOPS INT8, 864 GB/s, TDP 300 W

Publikováno, neměřeno na kování Kentino.

Není ideální pro

  • Optimalizace nákladů na TFLOPS — 4x RTX 4090 poskytuje souhrnný výkon 2 644 TFLOPS za přibližně 40 % ceny komponenty (bez záruky ECC / datového centra)
  • Modely Frontier s kapacitou 200B+ – platí limit 96 GB pro fond (potřebujete SKU 192+ GB)
  • Generování videa v plném rozlišení v dlouhém formátu bf16 (dvouexpertní WAN 2.2 MoE chce více VRAM)
  • Školení od nuly – L40 má certifikaci pro inferenci; pro školení použijte RTX Pro 6000 / pracovní stanici Blackwell

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

3letá záruka NVIDIA OEM pro datová centra na L40 + záruka na integraci Kentino (2 roky na díly, 1 rok na práci). Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a ověření funkčnosti.

Doporučené doplňky

  • Upgradujte na 4x L40 (K-AI 192 Rome L40 1448TOPS) pro 192GB ECC pool a služby na hraniční úrovni.
  • Upgradujte RAM na 512 GB (přidejte 4x 64 GB DDR4) pro větší embeddingové / rerankerové stacky
  • Upgrade NVMe na 4 TB pro knihovnu modelů a staging datových sad
  • Redundantní zdroj (dvojitý 2 kW synchronizovaný) k dispozici na vyžádání
  • Rack PDU + 3 kVA online UPS pro výrobní kolo
Zobrazit všechny podrobnosti