Přejděte přímo na informace o produktu
1 de 7

Kentino sro

K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 GB ECC VRAM)

K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 GB ECC VRAM)

Precio obvyklé EUR € 59.490,00
Precio obvyklé Precio de oferta EUR € 59.490,00
Nabídnout vyčerpaný
Impuestos incluidos. Los náklady na přepravu se počítají na platební obrazovce.

K-AI 288 Řím L40 2172TOPS

288 GB ECC VRAM Enterprise Server
6x NVIDIA L40 pasivní | EPYC Milan | 2 172 TOPS INT8

2 172
TOPS INT8
288 GB
ECC VRAM fond
ECC
End-to-end
24/7
produkčně hodnocené

Publikované externí reference. Nebylo měřeno na hardwaru Kentino.

Rackový podnikový inferenční server o výšce 4U se šesti pasivními datovými kartami NVIDIA L40 Ada Lovelace (každá s 48 GB ECC) sdílenými s 288 GB ECC VRAM, jedním procesorem AMD EPYC 7643 Milan (48C/96T), 384 GB DDR4-2666 ECC, 2 TB NVMe bootovacím diskem a duálním synchronizovaným 2.5kW ATX zdrojem. Komplexní ECC, navržený pro nepřetržitý provoz v podniku, kde záleží na integritě na úrovni bitů a provozuschopných doménách selhání.

technické vybavení

Složka Detail
GPU 6x NVIDIA L40 48 GB ECC (Ada Lovelace, pasivní datové centrum, 300 W, PCIe 4.0 x16, dvouslotová, 362 INT8 TOPS/karta)
Pool VRAM 288 GB agregované ECC na 6 kartách (bez NVLinku na L40 PCIe SKU)
Procesor (CPU) AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0)
Základní deska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 384 GB DDR4-2666 ECC RDIMM (6x 64 GB — 2 sloty DIMM volné pro upgrade na 512 GB)
Spouštění / úložiště 2TB NVMe M.2 (PCIe 4.0 x4)
napájení 2x 2.5 kW ATX se synchronizačním kabelem pro dva zdroje (agregát 5 kW)
Podvozek Montáž do racku 4U (6slotové uspořádání)
Chlazení Věžový chladič SP3 (třída Arctic Freezer 4U-M) + směrované proudění vzduchu zepředu dozadu (průmyslové ventilátory)
Síť Duální integrovaný 10GbE (Intel X550)

Napájecí obálka

  • Odběr energie z grafické karty: 6 x 300 W = 1 800 W
  • Celkový výkon systému při plném zatížení: ~2 175 W
  • Celkový výkon zdroje: 5 000 W (duální 2.5 kW synchronizovaný) — 56.5% rezerva
  • Duální zdroj pro rozdělené napájení – selhání jednoho zdroje = ztráta 2 grafických karet nebo 2 grafických karet a základní desky

Topologie jízdních pruhů

ROMED8-2T nabízí 7x PCIe 4.0 x16 přímo z EPYC Milan. Šest slotů je osazeno pasivními rozšiřujícími kartami Gen4 x16 – jeden volný slot pro síťovou kartu / úložiště. Není vyžadován žádný přepínač PCIe. Nativní linka L40 je PCIe 4.0 x16 – žádná ztráta šířky pásma. Žádný NVLink; provoz mezi GPU probíhá přes PCIe peer-to-peer.

Co můžete spustit

S 288 GB sdílené paměti ECC VRAM na 6 pasivních kartách L40 tento server zvládá LLM s otevřenou váhou na hranici Q4, souběžné obsluhování více modelů, kanály videa/médií a nepřetržitou inferenci podnikové produkce. Poznámka: L40 je Ada Lovelace, nikoli Blackwell – fp8 přetypuje na bf16. Pro maximální efektivitu VRAM použijte GGUF Q4/Q5 nebo AWQ/GPTQ int4.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3-235B-A22B Q4 (~132 GB) s velmi dlouhým kontextem + štědrým rozpočtem KV (~15-20 tok/s single, publikovaná reference)
  • GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) pohodlně na 6cestném TP (~12-18 tok/s single, publikovaná reference)
  • Hunyuan-velký 389B/52B Q3 (~160 GB); ERNIE-4.5-424B-A47B 3. čtvrtletí (~180 GB)
  • Qwen3-Coder-480B-A35B Vlajkový kódovací agent Q2 (~160 GB)
  • MiniMax-M1 / Text-01 Q3 (~180 GB) 1M-ctx Lightning Upozornění
  • Qwen3-30B-A3B / QwQ-32B / Qwen3-32B — jedna karta se 6 paralelními streamy
  • DeepSeek-R2 32B řídké MoE — jedna karta na stream, 6 souběžných relací

Západní hranice

  • Lama 3.3 70B bf16 (~142 GB) víceklientské prostředí (~17 tok/s pro jeden server, publikovaná reference) nebo Q4 (~43 GB se 6 souběžnými kopiemi
  • Flame 4 Scout 109B/17B bf16 (cca 218 GB) nebo Q4 (cca 63 GB) pohodlně
  • Mistral Malý 3 / Magistral / Devstral Malý (24B) bf16 (~40-50 tok/s jeden, publikovaná reference)
  • Pixtral Large / Mistral Large 2 Q6-Q8 (~90-140 GB)
  • Llama-3.1-Nemotron Ultra 253B 4. čtvrtletí (~119 GB)
  • gpt-oss-120b MXFP4 (~80 GB přes GGUF na Adě — poznámka k upozornění na upcast pro Adu)
  • Příkaz Cohere R+ 104B Q4 RAG stack

Modely vizuální a jazykové komunikace

Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B; InternVL3.5-78B / 241B-A28B Q4 (~135 GB); Llama 3.2 90B Vision bf16 (~180 GB); Pixtral 12B; Molmo 72B; Gemma 3 12B/27B multimodální; GLM-4.6V full (106B bf16); MiniCPM-o 2.6. NVENC/NVDEC v L40 je obzvláště užitečný pro vysoce propustné VLM dokumentové/video kanály.

Generování obrazu

FLUX.1 [dev] / Kontext / Nástroje pro více workerů současně (~3.5 s na obrázek 1024x1024 na jednom L40 fp8, publikovaná reference) — možná 6x ComfyUI worker farma; SD 3.5 Large; HunyuanImage-2.1 (17B) bf16; HunyuanDiT; Kolors 2.0; AuraFlow; OmniGen.

Generování videa

Wan 2.2 T2V-A14B / I2V-A14B dual-expert bf16 (~54 GB, ~20-30 s na 4s klip při 720p, publikovaná reference); HunyuanVideo 13B bf16 oba experty; Open-Sora 2.0 bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; NVIDIA Cosmos Predict 2. Hardware L40 s technologií NVENC/NVDEC zvládá titulky / moderování / překódování ve velkém měřítku a zároveň generuje data.

Zvuk / Řeč / TTS

  • ASR: Whisper v3 velký / turbo; Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; Stable Audio Open; XTTS v2; Step-Audio-EditX
  • Reálný čas / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B

Vícemodelové / vícenájemnické služby

  • Vícemodelová rezidenční platforma — Qwen3-235B Q4 + FLUX.1 + HunyuanVideo + Whisper-turbo + Moshi + embedder, vše rezidentní
  • 6 souběžných úloh třídy 48 GB (jedna na kartu): 6x Qwen3-VL-32B, nebo 6x FLUX.1 workerů, nebo 6x ASR streamů
  • 6cestná tenzorová paralelní analýza pro 200B+ MoE ve 4. čtvrtletí s reálným kontextem
  • RAG pipelines — Command R+ / Qwen3 + reranker + embedder + analýza obrazu na stejném hostiteli

Cílové úlohy

  • Nonstop produkční LLM inferenční backend – více než 100 souběžných uživatelů na více než 200 miliardách MoE ve 4. čtvrtletí, chráněno ECC
  • Procesor Media-AI v podnikovém měřítku — titulky + moderování + miniatura + překódování 6 paralelních streamů přes NVENC/NVDEC
  • Multitenant SaaS, kde je důležitá izolace pro jednotlivé klienty napříč fyzickými kartami
  • RAG backend s plně rezidentním čtecím modulem Command R+, rerankerem, embedderem a visionem
  • Dvojice zaměřená na spolehlivost, která nahrazuje 12x L40 Legacy – dva servery K-AI 288 = agregát 576 GB s nezávislými doménami selhání

Publikované reference výkonu

Externí reference | Neměřeno na kování Kentino

měřítko Výsledek
L40 na kartu INT8 TOPS 362 TOPS
Šířka pásma paměti L40 864 GB/s na kartu
vLLM — Llama 3.3 70B AWQ INT4 na 2x L40 TP (single) ~25-35 tok/s
vLLM — Llama 3.3 70B AWQ INT4 na 2x L40 TP (šarže-16) ~150-200 tok/s agregátu
llama.cpp — GLM-4.6 Q4 na 6x L40 (jednoduchý) ~12-18 tok/s
FLUX.1 [dev] na jednom L40 fp8 ~3.5 s na obrázek 1024x1024

Kentino zveřejní čísla od první strany po počátečním sestavení pro zákazníky.

Není ideální pro

  • FP8-nativní inference v plné rychlosti — Ada přetypuje na bf16; použijte místo toho GGUF Q4/Q5 nebo AWQ/GPTQ int4. Pro FP8 nativní viz K-AI 384 Rome RTXPro6000 (Blackwell)
  • Trénování velkých modelů od nuly (bez NVLinku)
  • Jednouživatelská inference s nízkým rozpočtem – 4x L4 nebo 4x 5080 je pro malé úlohy podstatně levnější
  • Hustota Frontier 600B+ ve 4. čtvrtletí+ (vyžaduje 576 GB+ RAM – viz 6x RTX Pro 6000)

Záruka a dodací lhůta

3 let
Záruka na grafické karty NVIDIA OEM
2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, zapálení, memtest a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • Upgrade paměti RAM na 512 GB DDR4 (přidáním 2x 64 GB — 2 volné sloty DIMM) pro náročnější KV
  • 4 TB NVMe Gen4 x4 pro přípravu knihovny modelů
  • Plná 24U racková skříň se spravovaným PDU + online UPS (kritická pro nepřetržitý provoz ECC)
  • Spárovaná druhá jednotka K-AI 288 – nahrazuje obálku 12x L40 Legacy dvěma nezávislými doménami selhání
Podívejte se na všechny podrobnosti