Kentino sro
K-AI 96 Řím L40 724TOPS — 2x NVIDIA L40 ECC produkční inferenční server
K-AI 96 Řím L40 724TOPS — 2x NVIDIA L40 ECC produkční inferenční server
Nelze načíst dostupnost vyzvednutí
K-AI 96 Řím L40 724TOPS
2x produkční server L40 ECC
96 GB ECC VRAM | EPYC Milán | 724 TOPS INT8
Základní podnikový ECC box s nepřetržitým provozem (24/7) – 2x pasivní L40, 96GB ECC VRAM pool, alternativa k úrovni 4090 na úrovni datových center pro regulovaná nasazení.
Dvouproudý inferenční server produkční třídy postavený na platformě ROMED8-2T / EPYC Milan se dvěma pasivními kartami NVIDIA L40. 96GB ECC GDDR6 pool se stejnou kapacitou VRAM jako čtyřnásobná grafická karta RTX 4090, ale s plnou certifikací pro datová centra, pamětí ECC na každé kartě a tepelným designem navrženým pro nepřetržitý pracovní cyklus. Správné rozhodnutí v případech, kdy by RTX 4090 vyvolávala obavy ze záruky, spolehlivosti nebo shody s předpisy – finance, zdravotnictví, formální ověřování a jakékoli provozování LLM / VLM s trvalou produkcí.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 2x NVIDIA L40 48 GB GDDR6 ECC (Ada Lovelace, pasivní, 300 W, dvouslotová, PCIe 4.0 x16) |
| Pool VRAM | 96 GB ECC (bez NVLinku) |
| Procesor (CPU) | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Spouštění / úložiště | 1TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | Jeden 2kW ATX zdroj |
| Podvozek | 4U rackové, pasivní rozšiřující moduly Gen4 x16 |
| Chlazení | Věžový chladič SP3 (Arctic Freezer 4U-M), 3x 120 mm přední sání + 1x 120 mm zadní výfuk |
| Síť | Duální integrovaný 10GbE (Intel X550) + IPMI |
Napájecí obálka
- Spotřeba energie GPU: 2 x 300 W = 600 W
- Celkový výkon systému při plném zatížení: ~925 W
- Celkový výkon zdroje: 2 000 W — 53.8 % volného prostoru
- Pohodlná rezerva pro jeden zdroj, tichý provoz
Topologie jízdních pruhů
PCIe Gen4 x16 na obou GPU (L40 je nativní Gen4 x16). 16 linek přímo z kořenového komplexu CPU — žádný PCIe přepínač. NVLink není k dispozici na L40 — komunikace mezi GPU přes PCIe P2P. Šířka pásma paměti 864 GB/s na kartu.
Co můžete spustit
S 96 GB ECC VRAM na 2 pasivních kartách L40 tento server zvládá nepřetržité podnikové služby LLM, regulovaná nasazení, generování obrázků a videa a inferenci pro více klientů, kde záleží na spolehlivosti ECC a záruce datového centra.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3-32B bf16 s jednou GPU na jednom L40 s kapacitou 32k ctx (~18-22 tok/s jeden stream na L40, publikovaná reference)
- Qwen3.5-27B bf16; Qwen3-30B-A3B / Qwen3-Coder-30B-A3B bf16 (~60 GB) 256k ctx
- Qwen3.5-122B-A10B Q4 (~70 GB) — vlajková loď MoE, dlouhá doba trvání čtení
- QwQ-32B bf16; Hunyuan-A13B 6. čtvrtletí (~48 GB)
- DeepSeek-R2 32B řídký MoE bf16 — podpora jednoho GPU, dva paralelní streamy
- GLM-4.5-Air 106B/12B Q4-Q5 (pohodlné 60-70 GB)
- Seed-OSS-36B bf16 — 512k nativní ctx; ERNIE-4.5-47B-A3B Q6-Q8
- Baichuan-M2-32B bf16 (lékařské uvažování – zde výhoda ECC)
Západní hranice
- Lama 3.3 70B Q6 (~58 GB) s KV rezervou; Q4_K_M (~43 GB) velmi dlouhá doba přenosu dat (~15-18 tok/s jeden stream na 2x L40, publikovaná reference)
- Hermes 3 70B / Tulu 3 70B Q4–Q6; Flame 4 Scout 109B/17B MoE Q4 (~63 GB)
- Mistral Malý 3 / Magistral Malý 1.2 / Devstral Malý 2 (24B) bf16; Mixtral 8x22B Q3-Q4
- gpt-oss-120b MXFP4 (~80 GB) s prostorem pro KV
- Gemma 3 27B multimodální bf16 se 128k ctx
- Phi-4 14B / Úvaha o fí-4 / Phi-4-multimodální bf16
- Nemotron-Super 49B Q6–Q8; IBM Granite 4.0 H-Small 32B/9B – dodržování předpisů v podniku
- Reka Flash 3 21B bf16; OLMo 2 32B / OLMo 3.1-32B-Mysli bf16
Modely vizuální a jazykové komunikace
Qwen3-VL-8B / 32B, Qwen3-VL-30B-A3B MoE, Qwen3-Omni-30B-A3B; InternVL3 až 78B Q4 (~48 GB); InternVL3.5-38B bf16; DeepSeek-VL2; ERNIE-4.5-VL-28B-A3B-Thinking; Llama 3.2 11B Vision bf16; Pixtral 12B bf16; Gemma 3 12B / 27B multimodální; PaliGemma 2 (3/10/28B); MiniCPM-V 2.6 / MiniCPM-o 2.6; GLM-4.6V-Flash; Molmo 72B Q4; Aya Vision 32B.
Generování obrazu
L40 má tenzorová jádra Ada a paměťovou propustnost 864 GB/s na kartu – solidní výkon pro produkční obrazové kanály: FLUX.1 [dev] / [schnell] fp16 (~24 GB) nebo fp8 (~12 GB) (~15–25 sekund na obrázek 1024x1024 při fp8, publikovaná reference); FLUX.1 Kontext [dev]; FLUX Tools (Fill / Depth / Canny / Redux); SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0 + ControlNet + AnimateDiff; HunyuanImage-2.1 bf16 (~34 GB); Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.
Generování videa
HunyuanVideo 13B bf16 se vejde na jednu L40 při krátkém klipu 720p; Wan 2.2 T2V-A14B / I2V-A14B bf16 (~54 GB) tensor-paralelní 2-cestný; Wan 2.2 TI2V-5B bf16 na kartu; Wan 2.1 14B fp8 / bf16; HunyuanVideo 1.5 (8.3B) bf16; Open-Sora 2.0 (11B) bf16; CogVideoX-5B / 1.5 bf16; Mochi-1 bf16 (~42 GB); LTX-Video 2B; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Zvuk / Řeč / TTS
- ASR: Whisper v3 large / turbo (~50x realtime na jedné GPU, publikovaná reference); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- Překlad textu na řeč: CosyVoice 2 / Fun-CosyVoice 3.0; Kokoro 82M; Stable Audio Open; Coqui XTTS v2; StyleTTS 2; Step-Audio-EditX
- Reálný čas / S2S: Kyutai Moshi (latence 200 ms, plně duplexní); Step-Audio 2 mini / R1 / R1.1; Qwen2.5-Omni-7B
- Hudba / Znělky / Překlad: MusicGen; AudioGen; Suno Bark; SeamlessM4T v2; MMS
Vícemodelové / vícenájemnické služby
- 4–8 souběžných uživatelů na LLM třídy 32-70B prostřednictvím tenzorově paralelního distribučního systému vLLM nebo distribučního systému na kartu
- Smíšený stack: Qwen3-32B + FLUX.1 + Whisper-turbo + rezidentní Moshi s rozdělenou VRAM
- Inference LoRA + jemné doladění 7-14B; u menších modelů možná plná parametrizace
- RAG kanály s vloženími Command R / Qwen3 + BGE-M3 / E5 / Jina
Cílové úlohy
- Enterprise LLM 24/7 obsluhuje — 70B Q4-Q6, Qwen3-32B bf16, Mistral Small 3 bf16
- Regulované nasazení vyžadující paměť ECC (finance, zdravotnictví, formální ověření)
- Dlouhodobé poskytování – Seed-OSS-36B 512k ctx se pohodlně vejde do 96GB poolu.
- Střední třída obsluhující letouny MoE — Hunyuan-A13B Q6, GLM-4.5-Air Q4, Qwen3-30B-A3B bf16
- Zpracování dokumentů VLM — InternVL3.5-38B, Pixtral 12B bf16, Qwen3-VL-32B
Publikované reference výkonu
Publikovaná reference | 2x hardware srovnatelný s NVIDIA L40
| měřítko | Výsledek |
|---|---|
| Lama 3.3 70B Q4_K_M přes 2x L40 tenzorově rozdělené | ~15-18 tok/s jeden proud |
| Qwen3-32B bf16 s jednou GPU na jednom L40 | ~18-22 tok/s jeden proud |
| vLLM Hunyuan-A13B Q6 na 2x L40 bazénu | ~28-34 tok/s jeden proud |
| HunyuanVideo 13B bf16 na jednom L40 | Krátký klip v rozlišení 720p – vejde se na 48 GB |
| Metriky pro jednotlivé karty | 362 TOPS INT8, 864 GB/s, TDP 300 W |
Publikováno, neměřeno na kování Kentino.
Není ideální pro
- Optimalizace nákladů na TFLOPS — 4x RTX 4090 poskytuje souhrnný výkon 2 644 TFLOPS za přibližně 40 % ceny komponenty (bez záruky ECC / datového centra)
- Modely Frontier s kapacitou 200B+ – platí limit 96 GB pro fond (potřebujete SKU 192+ GB)
- Generování videa v plném rozlišení v dlouhém formátu bf16 (dvouexpertní WAN 2.2 MoE chce více VRAM)
- Školení od nuly – L40 má certifikaci pro inferenci; pro školení použijte RTX Pro 6000 / pracovní stanici Blackwell
Záruka a dodací lhůta
3letá záruka NVIDIA OEM pro datová centra na L40 + záruka na integraci Kentino (2 roky na díly, 1 rok na práci). Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a ověření funkčnosti.
Doporučené doplňky
- Upgradujte na 4x L40 (K-AI 192 Rome L40 1448TOPS) pro 192GB ECC pool a služby na hraniční úrovni.
- Upgradujte RAM na 512 GB (přidejte 4x 64 GB DDR4) pro větší embeddingové / rerankerové stacky
- Upgrade NVMe na 4 TB pro knihovnu modelů a staging datových sad
- Redundantní zdroj (dvojitý 2 kW synchronizovaný) k dispozici na vyžádání
- Rack PDU + 3 kVA online UPS pro výrobní kolo
Sdílet
