Kentino sro
K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 GB ECC VRAM)
K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 GB ECC VRAM)
Nelze načíst dostupnost vyzvednutí
K-AI 288 Řím L40 2172TOPS
288 GB ECC VRAM Enterprise Server
6x NVIDIA L40 pasivní | EPYC Milan | 2 172 TOPS INT8
Publikované externí reference. Nebylo měřeno na hardwaru Kentino.
Rackový podnikový inferenční server o výšce 4U se šesti pasivními datovými kartami NVIDIA L40 Ada Lovelace (každá s 48 GB ECC) sdílenými s 288 GB ECC VRAM, jedním procesorem AMD EPYC 7643 Milan (48C/96T), 384 GB DDR4-2666 ECC, 2 TB NVMe bootovacím diskem a duálním synchronizovaným 2.5kW ATX zdrojem. Komplexní ECC, navržený pro nepřetržitý provoz v podniku, kde záleží na integritě na úrovni bitů a provozuschopných doménách selhání.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 6x NVIDIA L40 48 GB ECC (Ada Lovelace, pasivní datové centrum, 300 W, PCIe 4.0 x16, dvouslotová, 362 INT8 TOPS/karta) |
| Pool VRAM | 288 GB agregované ECC na 6 kartách (bez NVLinku na L40 PCIe SKU) |
| Procesor (CPU) | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 384 GB DDR4-2666 ECC RDIMM (6x 64 GB — 2 sloty DIMM volné pro upgrade na 512 GB) |
| Spouštění / úložiště | 2TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | 2x 2.5 kW ATX se synchronizačním kabelem pro dva zdroje (agregát 5 kW) |
| Podvozek | Montáž do racku 4U (6slotové uspořádání) |
| Chlazení | Věžový chladič SP3 (třída Arctic Freezer 4U-M) + směrované proudění vzduchu zepředu dozadu (průmyslové ventilátory) |
| Síť | Duální integrovaný 10GbE (Intel X550) |
Napájecí obálka
- Odběr energie z grafické karty: 6 x 300 W = 1 800 W
- Celkový výkon systému při plném zatížení: ~2 175 W
- Celkový výkon zdroje: 5 000 W (duální 2.5 kW synchronizovaný) — 56.5% rezerva
- Duální zdroj pro rozdělené napájení – selhání jednoho zdroje = ztráta 2 grafických karet nebo 2 grafických karet a základní desky
Topologie jízdních pruhů
ROMED8-2T nabízí 7x PCIe 4.0 x16 přímo z EPYC Milan. Šest slotů je osazeno pasivními rozšiřujícími kartami Gen4 x16 – jeden volný slot pro síťovou kartu / úložiště. Není vyžadován žádný přepínač PCIe. Nativní linka L40 je PCIe 4.0 x16 – žádná ztráta šířky pásma. Žádný NVLink; provoz mezi GPU probíhá přes PCIe peer-to-peer.
Co můžete spustit
S 288 GB sdílené paměti ECC VRAM na 6 pasivních kartách L40 tento server zvládá LLM s otevřenou váhou na hranici Q4, souběžné obsluhování více modelů, kanály videa/médií a nepřetržitou inferenci podnikové produkce. Poznámka: L40 je Ada Lovelace, nikoli Blackwell – fp8 přetypuje na bf16. Pro maximální efektivitu VRAM použijte GGUF Q4/Q5 nebo AWQ/GPTQ int4.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3-235B-A22B Q4 (~132 GB) s velmi dlouhým kontextem + štědrým rozpočtem KV (~15-20 tok/s single, publikovaná reference)
- GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) pohodlně na 6cestném TP (~12-18 tok/s single, publikovaná reference)
- Hunyuan-velký 389B/52B Q3 (~160 GB); ERNIE-4.5-424B-A47B 3. čtvrtletí (~180 GB)
- Qwen3-Coder-480B-A35B Vlajkový kódovací agent Q2 (~160 GB)
- MiniMax-M1 / Text-01 Q3 (~180 GB) 1M-ctx Lightning Upozornění
- Qwen3-30B-A3B / QwQ-32B / Qwen3-32B — jedna karta se 6 paralelními streamy
- DeepSeek-R2 32B řídké MoE — jedna karta na stream, 6 souběžných relací
Západní hranice
- Lama 3.3 70B bf16 (~142 GB) víceklientské prostředí (~17 tok/s pro jeden server, publikovaná reference) nebo Q4 (~43 GB se 6 souběžnými kopiemi
- Flame 4 Scout 109B/17B bf16 (cca 218 GB) nebo Q4 (cca 63 GB) pohodlně
- Mistral Malý 3 / Magistral / Devstral Malý (24B) bf16 (~40-50 tok/s jeden, publikovaná reference)
- Pixtral Large / Mistral Large 2 Q6-Q8 (~90-140 GB)
- Llama-3.1-Nemotron Ultra 253B 4. čtvrtletí (~119 GB)
- gpt-oss-120b MXFP4 (~80 GB přes GGUF na Adě — poznámka k upozornění na upcast pro Adu)
- Příkaz Cohere R+ 104B Q4 RAG stack
Modely vizuální a jazykové komunikace
Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B; InternVL3.5-78B / 241B-A28B Q4 (~135 GB); Llama 3.2 90B Vision bf16 (~180 GB); Pixtral 12B; Molmo 72B; Gemma 3 12B/27B multimodální; GLM-4.6V full (106B bf16); MiniCPM-o 2.6. NVENC/NVDEC v L40 je obzvláště užitečný pro vysoce propustné VLM dokumentové/video kanály.
Generování obrazu
FLUX.1 [dev] / Kontext / Nástroje pro více workerů současně (~3.5 s na obrázek 1024x1024 na jednom L40 fp8, publikovaná reference) — možná 6x ComfyUI worker farma; SD 3.5 Large; HunyuanImage-2.1 (17B) bf16; HunyuanDiT; Kolors 2.0; AuraFlow; OmniGen.
Generování videa
Wan 2.2 T2V-A14B / I2V-A14B dual-expert bf16 (~54 GB, ~20-30 s na 4s klip při 720p, publikovaná reference); HunyuanVideo 13B bf16 oba experty; Open-Sora 2.0 bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; NVIDIA Cosmos Predict 2. Hardware L40 s technologií NVENC/NVDEC zvládá titulky / moderování / překódování ve velkém měřítku a zároveň generuje data.
Zvuk / Řeč / TTS
- ASR: Whisper v3 velký / turbo; Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; Stable Audio Open; XTTS v2; Step-Audio-EditX
- Reálný čas / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B
Vícemodelové / vícenájemnické služby
- Vícemodelová rezidenční platforma — Qwen3-235B Q4 + FLUX.1 + HunyuanVideo + Whisper-turbo + Moshi + embedder, vše rezidentní
- 6 souběžných úloh třídy 48 GB (jedna na kartu): 6x Qwen3-VL-32B, nebo 6x FLUX.1 workerů, nebo 6x ASR streamů
- 6cestná tenzorová paralelní analýza pro 200B+ MoE ve 4. čtvrtletí s reálným kontextem
- RAG pipelines — Command R+ / Qwen3 + reranker + embedder + analýza obrazu na stejném hostiteli
Cílové úlohy
- Nonstop produkční LLM inferenční backend – více než 100 souběžných uživatelů na více než 200 miliardách MoE ve 4. čtvrtletí, chráněno ECC
- Procesor Media-AI v podnikovém měřítku — titulky + moderování + miniatura + překódování 6 paralelních streamů přes NVENC/NVDEC
- Multitenant SaaS, kde je důležitá izolace pro jednotlivé klienty napříč fyzickými kartami
- RAG backend s plně rezidentním čtecím modulem Command R+, rerankerem, embedderem a visionem
- Dvojice zaměřená na spolehlivost, která nahrazuje 12x L40 Legacy – dva servery K-AI 288 = agregát 576 GB s nezávislými doménami selhání
Publikované reference výkonu
Externí reference | Neměřeno na kování Kentino
| měřítko | Výsledek |
|---|---|
| L40 na kartu INT8 TOPS | 362 TOPS |
| Šířka pásma paměti L40 | 864 GB/s na kartu |
| vLLM — Llama 3.3 70B AWQ INT4 na 2x L40 TP (single) | ~25-35 tok/s |
| vLLM — Llama 3.3 70B AWQ INT4 na 2x L40 TP (šarže-16) | ~150-200 tok/s agregátu |
| llama.cpp — GLM-4.6 Q4 na 6x L40 (jednoduchý) | ~12-18 tok/s |
| FLUX.1 [dev] na jednom L40 fp8 | ~3.5 s na obrázek 1024x1024 |
Kentino zveřejní čísla od první strany po počátečním sestavení pro zákazníky.
Není ideální pro
- FP8-nativní inference v plné rychlosti — Ada přetypuje na bf16; použijte místo toho GGUF Q4/Q5 nebo AWQ/GPTQ int4. Pro FP8 nativní viz K-AI 384 Rome RTXPro6000 (Blackwell)
- Trénování velkých modelů od nuly (bez NVLinku)
- Jednouživatelská inference s nízkým rozpočtem – 4x L4 nebo 4x 5080 je pro malé úlohy podstatně levnější
- Hustota Frontier 600B+ ve 4. čtvrtletí+ (vyžaduje 576 GB+ RAM – viz 6x RTX Pro 6000)
Záruka a dodací lhůta
Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, zapálení, memtest a funkční ověření. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- Upgrade paměti RAM na 512 GB DDR4 (přidáním 2x 64 GB — 2 volné sloty DIMM) pro náročnější KV
- 4 TB NVMe Gen4 x4 pro přípravu knihovny modelů
- Plná 24U racková skříň se spravovaným PDU + online UPS (kritická pro nepřetržitý provoz ECC)
- Spárovaná druhá jednotka K-AI 288 – nahrazuje obálku 12x L40 Legacy dvěma nezávislými doménami selhání
Sdílet
