Kentino sro
K-AI 192 Rome L40 1448TOPS — 4× NVIDIA L40 — EPYC Milan
K-AI 192 Rome L40 1448TOPS — 4× NVIDIA L40 — EPYC Milan
Impossibilní caricare la disponibilità di ritiro
K-AI 192 Řím L40 1448TOPS
192 GB ECC Enterprise Inference Server
4x NVIDIA L40 pasivní | EPYC Milan | 1 448 TOPS INT8
Čtyři pasivní datové karty L40 s pamětí ECC. Stejný 192GB pool jako u 8x RTX 4090 – ale na úrovni datových center, s ochranou ECC a zárukou OEM.
Rackový inferenční server s výškou 4U, čtyřmi pasivními kartami NVIDIA L40 spojenými se 192 GB ECC VRAM, jedním procesorem AMD EPYC 7643 Milan (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe bootovacím rozhraním a duálním synchronizovaným 2kW ATX zdrojem. L40 je datově-centrálním sourozencem RTX 4090 – s pasivním chlazením, vybavením ECC, hardwarovými kodéry NVENC/NVDEC na čipu a 3letou zárukou od NVIDIA OEM. Po vybalení z krabice spouští vLLM, SGLang, llama.cpp, Triton a TensorRT-LLM.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 4x NVIDIA L40 48 GB ECC GDDR6 (Ada Lovelace, pasivní, 300 W, dvouslotová, PCIe 4.0 x16) |
| Pool VRAM | 192 GB ECC na 4 kartách (bez NVLinku na L40) |
| Procesor (CPU) | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Spouštění / úložiště | 2TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | Duální 2kW ATX zdroj se synchronizačním kabelem |
| Podvozek | Montáž do racku 4U s usměrněným prouděním vzduchu zepředu dozadu |
| Chlazení | Arctic Freezer 4U-M SP3 tower + 3x 120 mm přední sání + 1x 120 mm zadní výfuk |
| Síť | Duální integrovaný 10GbE (Intel X550) |
Napájecí obálka
- Odběr energie z grafické karty: 4 x 300 W = 1 200 W
- Celkový výkon systému při plném zatížení: ~1 525 W
- Celkový výkon zdroje: 4 000 W (duální 2 kW synchronizovaný) — 61.9 % rezervy
- Duální zdroj pro rozdělené napájení a podporu N+1
Topologie jízdních pruhů
PCIe Gen4 x16 na kartu (L40 je nativní pro Gen4). Přímé připojení root-complex z jediné EPYC – žádný PCIe přepínač. Žádný NVLink – provoz mezi GPU probíhá PCIe peer-to-peer. Zbývají tři sloty x16 pro síťovou kartu / rozšíření úložiště.
Co můžete spustit
Díky 192 GB ECC VRAM na 4 datových kartách tento server ve 4. čtvrtletí zvládá více než 200 miliard virtuálních expanzí (MoE), poskytuje podnikové multitenantské služby s přísnou SLA a nepřetržitou produkční inferenci bez driftu bit-flip souvisejícího s ECC.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) s dlouhým kontextem — herní konfigurace (~12-18 tok/s jeden stream napříč 4x L40); Qwen3-Coder-480B-A35B Q2 (~160 GB, těsné); Qwen3.5-122B-A10B fp8 (~75 GB) s obrovským KV; Qwen3-32B hustý bf16 s více souběžnými streamy
- DeepSeek: DeepSeek-V3/R1/V3.1/V3.2 Q2 (~215 GB s menším únikem RAM); DeepSeek-R2 32B — 4 souběžné streamy, jeden na kartu
- GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — ideální pro tuto úroveň; GLM-4.5-Air 106B/12B fp8 nebo bf16
- Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) — 389B MoE s 256k ctx; Hunyuan-A13B fp8 (~80 GB) s obrovským KV
- Baidu ERNIE-4.5-424B Q3 (~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3.5-397B Q3 (~170 GB)
Západní hranice
- Meta láma: Llama 3.3 70B bf16 s masivním KV (~15-18 tok/s jednoproudový provoz na 4x L40); Llama 4 Scout bf16 (~218 GB) s omezenou kapacitou; Llama 4 Maverick 400B/17B Q3 (~188 GB)
- Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~102 GB) pohodlné; Mistral Small 3 vícestreamové
- OpenAI (otevřené váhy): gpt-oss-120b MXFP4 (80 GB) s velkorysým KV
- NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 více streamů
- Google Gemma 3: 27B multimodální bf16 – více rezidentních proudů
- Ostatní: Cohere Command R+ 104B Q6 (~85 GB); OLMo 3.1 32B; Reka Flash 3 21B; IBM Granite 4.0 H-Small
Modely vizuální a jazykové komunikace
InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16; Llama 3.2 90B Vision bf16 (~180 GB); Pixtral Large 124B Q6-bf16; Molmo 72B bf16; GLM-4.6V 106B fp8; Gemma 3 27B multimodální více streamů; InternVL3 78B bf16; DeepSeek-VL2 s plným rozsahem.
Generování obrazu
FLUX.1 [dev] / [shnell] bf16 se souběžným generováním (~3-4 s na obrázek 1024x1024 na L40); FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large bf16 x 2-3 souběžné; HunyuanImage-2.1 bf16 (~34 GB) multistream; HunyuanImage-3.0 base (80B MoE, 13B aktivní) bf16 (~80 GB); HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.
Generování videa
Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 duální expertní plný kontext; Wan 2.2 TI2V-5B rychlá cesta; HunyuanVideo 13B bf16 oba experti; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB) multistream; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Zvuk / Řeč / TTS
- ASR: Whisper v3 large / turbo (~50x v reálném čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stable Audio Open; Step-Audio-EditX
- Reálný čas / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2
Vícemodelové / vícenájemnické služby
- Podniková produkční LLM brána — Qwen3-235B Q4 nebo GLM-4.5/4.6 Q4 obsluhující 16–32 souběžných uživatelů s přísnou SLA
- Smíšený rezidentní stack: 235B MoE + FLUX.1 + Whisper-turbo + Moshi s rozdělenou VRAM a ochranou ECC
- Živé video + kanál AI — hardwarové kodéry NVENC/NVDEC streamují 6-8 paralelních kanálů titulků + moderování
- Multi-tenant RAG — embedder na straně dotazů + 70B čtečka + reranker s latencí P99 pod sekundu
Cílové úlohy
- Nepřetržitá produkční inference LLM na 192GB poolu (Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16)
- Podnikové multitenantské služby s přísným SLA – spolehlivost ECC po dlouhou dobu
- RAG + vektorová databáze obsluhující vysoce kvalitní vyhledávací modely souběžně
- Kanálové procesy umělé inteligence pro média/video — hardwarová cesta NVENC/NVDEC, vykreslování vizuálních efektů, přepis/překlad
- Nasazení v datových centrech s tichým provozem – pasivní karty, nízký akustický profil v blízkosti kancelářských prostor
Měřený výkon
Publikované reference | Datový list NVIDIA L40 + komunitní benchmarky
| měřítko | Výsledek |
|---|---|
| INT8 TOPS na kartu (datový list NVIDIA) | 362 TOPS |
| Agregát INT8 TOPS (4 karty) | 1 448 TOPŮ |
| VRAM na kartu | 48 GB ECC GDDR6, šířka pásma 864 GB/s |
| Lama 3.3 70B Q6 přes vLLM (komunita) | 30–50 tok/s jeden proud, 150+ tok/s dávkový-16 |
| FLUX.1 [vývoj] bf16 na L40 (komunitní) | ~3-4 s na obrázek 1024x1024 |
| NVENC / NVDEC | Hardwarové kodéry Gen-8 na čipu (kanál video AI) |
Publikované externí reference, neměřené na hardwaru Kentino. Kentino zveřejní data od první strany po první zákaznické sestavení.
Není ideální pro
- Trénování velkých modelů od nuly (bez NVLinku, omezené tenzorové výpočty v FP8)
- Odvození rozpočtu pro jednoho uživatele (4x L4 nebo 2x L40 je podstatně levnější)
- Hustý bf16 70B při velmi dlouhém kontextu na jednom modelu — preferuji 2x RTX Pro 6000 Server Edition (stejný 192GB pool, menší TP režijní náklady)
Záruka a dodací lhůta
3letá záruka NVIDIA OEM na L40 + záruka na integraci Kentino. Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a ověření funkčnosti. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- Rozšíření paměti RAM na 512 GB (přidání 4x 64 GB DDR4 – čtyři sloty DIMM jsou stále volné)
- 4 TB NVMe pro přípravu knihovny modelů
- Plná 24U racková skříň s řízeným PDU + online UPS 5 kVA
Sdílet
