Předejte všechny informace o produktu
1 su 7

Kentino sro

K-AI 192 Rome L40 1448TOPS — 4× NVIDIA L40 — EPYC Milan

K-AI 192 Rome L40 1448TOPS — 4× NVIDIA L40 — EPYC Milan

Ceník EUR € 40.798,00
Ceník Snížená cena EUR € 40.798,00
V nabídce strávil
Imposte inkuse. Poštovné vypočítat al check-out.

K-AI 192 Řím L40 1448TOPS

192 GB ECC Enterprise Inference Server
4x NVIDIA L40 pasivní | EPYC Milan | 1 448 TOPS INT8

1 448
Vrchy INT8
192 GB
ECC VRAM
ECC
úroveň datového centra
24/7
pasivně chlazené

Čtyři pasivní datové karty L40 s pamětí ECC. Stejný 192GB pool jako u 8x RTX 4090 – ale na úrovni datových center, s ochranou ECC a zárukou OEM.

Rackový inferenční server s výškou 4U, čtyřmi pasivními kartami NVIDIA L40 spojenými se 192 GB ECC VRAM, jedním procesorem AMD EPYC 7643 Milan (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe bootovacím rozhraním a duálním synchronizovaným 2kW ATX zdrojem. L40 je datově-centrálním sourozencem RTX 4090 – s pasivním chlazením, vybavením ECC, hardwarovými kodéry NVENC/NVDEC na čipu a 3letou zárukou od NVIDIA OEM. Po vybalení z krabice spouští vLLM, SGLang, llama.cpp, Triton a TensorRT-LLM.

technické vybavení

Složka Detail
GPU 4x NVIDIA L40 48 GB ECC GDDR6 (Ada Lovelace, pasivní, 300 W, dvouslotová, PCIe 4.0 x16)
Pool VRAM 192 GB ECC na 4 kartách (bez NVLinku na L40)
Procesor (CPU) AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0)
Základní deska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Spouštění / úložiště 2TB NVMe M.2 (PCIe 4.0 x4)
napájení Duální 2kW ATX zdroj se synchronizačním kabelem
Podvozek Montáž do racku 4U s usměrněným prouděním vzduchu zepředu dozadu
Chlazení Arctic Freezer 4U-M SP3 tower + 3x 120 mm přední sání + 1x 120 mm zadní výfuk
Síť Duální integrovaný 10GbE (Intel X550)

Napájecí obálka

  • Odběr energie z grafické karty: 4 x 300 W = 1 200 W
  • Celkový výkon systému při plném zatížení: ~1 525 W
  • Celkový výkon zdroje: 4 000 W (duální 2 kW synchronizovaný) — 61.9 % rezervy
  • Duální zdroj pro rozdělené napájení a podporu N+1

Topologie jízdních pruhů

PCIe Gen4 x16 na kartu (L40 je nativní pro Gen4). Přímé připojení root-complex z jediné EPYC – žádný PCIe přepínač. Žádný NVLink – provoz mezi GPU probíhá PCIe peer-to-peer. Zbývají tři sloty x16 pro síťovou kartu / rozšíření úložiště.

Co můžete spustit

Díky 192 GB ECC VRAM na 4 datových kartách tento server ve 4. čtvrtletí zvládá více než 200 miliard virtuálních expanzí (MoE), poskytuje podnikové multitenantské služby s přísnou SLA a nepřetržitou produkční inferenci bez driftu bit-flip souvisejícího s ECC.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) s dlouhým kontextem — herní konfigurace (~12-18 tok/s jeden stream napříč 4x L40); Qwen3-Coder-480B-A35B Q2 (~160 GB, těsné); Qwen3.5-122B-A10B fp8 (~75 GB) s obrovským KV; Qwen3-32B hustý bf16 s více souběžnými streamy
  • DeepSeek: DeepSeek-V3/R1/V3.1/V3.2 Q2 (~215 GB s menším únikem RAM); DeepSeek-R2 32B — 4 souběžné streamy, jeden na kartu
  • GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — ideální pro tuto úroveň; GLM-4.5-Air 106B/12B fp8 nebo bf16
  • Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) — 389B MoE s 256k ctx; Hunyuan-A13B fp8 (~80 GB) s obrovským KV
  • Baidu ERNIE-4.5-424B Q3 ​​(~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3.5-397B Q3 (~170 GB)

Západní hranice

  • Meta láma: Llama 3.3 70B bf16 s masivním KV (~15-18 tok/s jednoproudový provoz na 4x L40); Llama 4 Scout bf16 (~218 GB) s omezenou kapacitou; Llama 4 Maverick 400B/17B Q3 (~188 GB)
  • Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~102 GB) pohodlné; Mistral Small 3 vícestreamové
  • OpenAI (otevřené váhy): gpt-oss-120b MXFP4 (80 GB) s velkorysým KV
  • NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 více streamů
  • Google Gemma 3: 27B multimodální bf16 – více rezidentních proudů
  • Ostatní: Cohere Command R+ 104B Q6 (~85 GB); OLMo 3.1 32B; Reka Flash 3 21B; IBM Granite 4.0 H-Small

Modely vizuální a jazykové komunikace

InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16; Llama 3.2 90B Vision bf16 (~180 GB); Pixtral Large 124B Q6-bf16; Molmo 72B bf16; GLM-4.6V 106B fp8; Gemma 3 27B multimodální více streamů; InternVL3 78B bf16; DeepSeek-VL2 s plným rozsahem.

Generování obrazu

FLUX.1 [dev] / [shnell] bf16 se souběžným generováním (~3-4 s na obrázek 1024x1024 na L40); FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large bf16 x 2-3 souběžné; HunyuanImage-2.1 bf16 (~34 GB) multistream; HunyuanImage-3.0 base (80B MoE, 13B aktivní) bf16 (~80 GB); HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.

Generování videa

Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 duální expertní plný kontext; Wan 2.2 TI2V-5B rychlá cesta; HunyuanVideo 13B bf16 oba experti; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB) multistream; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Zvuk / Řeč / TTS

  • ASR: Whisper v3 large / turbo (~50x v reálném čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stable Audio Open; Step-Audio-EditX
  • Reálný čas / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2

Vícemodelové / vícenájemnické služby

  • Podniková produkční LLM brána — Qwen3-235B Q4 nebo GLM-4.5/4.6 Q4 obsluhující 16–32 souběžných uživatelů s přísnou SLA
  • Smíšený rezidentní stack: 235B MoE + FLUX.1 + Whisper-turbo + Moshi s rozdělenou VRAM a ochranou ECC
  • Živé video + kanál AI — hardwarové kodéry NVENC/NVDEC streamují 6-8 paralelních kanálů titulků + moderování
  • Multi-tenant RAG — embedder na straně dotazů + 70B čtečka + reranker s latencí P99 pod sekundu

Cílové úlohy

  • Nepřetržitá produkční inference LLM na 192GB poolu (Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16)
  • Podnikové multitenantské služby s přísným SLA – spolehlivost ECC po dlouhou dobu
  • RAG + vektorová databáze obsluhující vysoce kvalitní vyhledávací modely souběžně
  • Kanálové procesy umělé inteligence pro média/video — hardwarová cesta NVENC/NVDEC, vykreslování vizuálních efektů, přepis/překlad
  • Nasazení v datových centrech s tichým provozem – pasivní karty, nízký akustický profil v blízkosti kancelářských prostor

Měřený výkon

Publikované reference | Datový list NVIDIA L40 + komunitní benchmarky

měřítko Výsledek
INT8 TOPS na kartu (datový list NVIDIA) 362 TOPS
Agregát INT8 TOPS (4 karty) 1 448 TOPŮ
VRAM na kartu 48 GB ECC GDDR6, šířka pásma 864 GB/s
Lama 3.3 70B Q6 přes vLLM (komunita) 30–50 tok/s jeden proud, 150+ tok/s dávkový-16
FLUX.1 [vývoj] bf16 na L40 (komunitní) ~3-4 s na obrázek 1024x1024
NVENC / NVDEC Hardwarové kodéry Gen-8 na čipu (kanál video AI)

Publikované externí reference, neměřené na hardwaru Kentino. Kentino zveřejní data od první strany po první zákaznické sestavení.

Není ideální pro

  • Trénování velkých modelů od nuly (bez NVLinku, omezené tenzorové výpočty v FP8)
  • Odvození rozpočtu pro jednoho uživatele (4x L4 nebo 2x L40 je podstatně levnější)
  • Hustý bf16 70B při velmi dlouhém kontextu na jednom modelu — preferuji 2x RTX Pro 6000 Server Edition (stejný 192GB pool, menší TP režijní náklady)

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

3letá záruka NVIDIA OEM na L40 + záruka na integraci Kentino. Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a ověření funkčnosti. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • Rozšíření paměti RAM na 512 GB (přidání 4x 64 GB DDR4 – čtyři sloty DIMM jsou stále volné)
  • 4 TB NVMe pro přípravu knihovny modelů
  • Plná 24U racková skříň s řízeným PDU + online UPS 5 kVA
Vizualizace kompletních detailů