Kentino sro
K-AI 144 Rome L4 1452TOPS — 6× NVIDIA L4 — EPYC Milan
K-AI 144 Rome L4 1452TOPS — 6× NVIDIA L4 — EPYC Milan
Podívejte se na mladý muž
K-AI 144 Řím L4 1452TOPS
144 GB VRAM Silent Edge Inference Server
6x NVIDIA L4 pasivní | EPYC Milan | 1 452 TOPS INT8
Šest pasivních L4 karet pro datová centra. Nejtišší server s umělou inteligencí v řadě Kentino – vhodný pro nasazení na okraji kanceláře.
4U jednosocketový inferenční server se šesti pasivními kartami NVIDIA L4 (každá po 24 GB, 144GB pool), jedním procesorem AMD EPYC 7643 Milan (48C/96T), 384 GB paměti DDR4 ECC, 2 TB NVMe bootovacím diskem a jedním 2kW ATX zdrojem s 62% rezervou. Inferenční server s vysokou hustotou pro vestavěné flotily, vícenájemnické malé/středně velké LLM servery a nasazení s nízkým výkonem (watty na dotaz) v blízkosti kancelářských prostor.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 6x NVIDIA L4 24 GB (Ada Lovelace, pasivní, 72 W, jednoslotová LP, PCIe Gen4 x8) |
| Pool VRAM | Celkem 144 GB na 6 kartách |
| Procesor (CPU) | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 384 GB DDR4-2666 ECC RDIMM (6x 64 GB) |
| Spouštění / úložiště | 2TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | 1x 2 kW ATX zdroj |
| Podvozek | Montáž do racku 4U (rozložení pro 6 karet) |
| Chlazení | Věžový chladič SP3 + směrované proudění vzduchu zepředu dozadu (průmyslové ventilátory) |
| Síť | Duální integrovaný 10GbE (Intel X550) |
Napájecí obálka
- Spotřeba energie GPU: 6 x 72 W = 432 W
- Celkový výkon systému při plném zatížení: ~757 W
- Celkový výkon zdroje: 2 000 W — 62 % volného prostoru
- Tichý provoz, masivní tepelná rezerva
Topologie jízdních pruhů
L4 je nativní pro PCIe Gen4 x8 – bez ztráty šířky pásma oproti hostiteli. ROMED8-2T nabízí 7 slotů x16; jeden slot je volný pro upsell síťové karty. Není potřeba žádný přepínač PCIe. Žádný NVLink.
Co můžete spustit
Při agregované paměti 144 GB na 6 fyzických kartách je ideální volbou souběžné obsluhování více modelů: souběžně spouštějte 70B hustý procesor ve 4. čtvrtletí, 30B MoE, 14B kodér, VLM a embeddingový model a stále si zachovejte rezervu v KV.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-30B-A3B Q4-Q6; QwQ-32B Q6; Qwen3-32B hustý Q6; Qwen3.5-122B-A10B Q4-Q5 (~75 GB pohodlný); Qwen3-235B-A22B Q3 (~112 GB) těsný, krátký ctx
- DeepSeek: DeepSeek-R2 32B řídký MoE Q4-Q6 (schopný jedné karty, 6 souběžných streamů, ~15-20 tok/s na stream); Seed-OSS-36B Q4-Q6 s 512k nativním kontextem
- GLM / Z.ai: GLM-4.5-Air Q4-Q5 (60-70 GB pohodlné); Hunyuan-A13B Q4-Q6 (~48 GB)
- Baidu ERNIE-4.5-47B-A3B Q4; Step-3.5-Flash Q3-Q4 s určitým přebytkem RAM
Západní hranice
- Meta láma: Llama 3.3 70B Q4-Q6 (43-58 GB) s velkorysým KV (~10-17 tok/s jeden proud přes 6x L4 tenzorově paralelní); Llama 4 Scout 109B/17B MoE Q4 (~63 GB) pohodlná
- Mistral: Mistral Small 3 / Magistral Small 1.2 / Devstral Small 2 (24B) na bf16 (~50-65 tok/s na kartu L4); Mixtral 8x22B Q4
- OpenAI (otevřené váhy): gpt-oss-120b MXFP4 nativní (~80 GB s volným místem; gpt-oss-20b MXFP4
- Google Gemma 3: 27B bf16; Phi-4 14B bf16
- NVIDIA Nemotron: Llama-3.1-Nemotron Super 49B Q4-Q6; Pixtral 12B / Pixtral Large Q4 (~72 GB)
Modely vizuální a jazykové komunikace
Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B MoE, InternVL3 až 78B Q4 (~48 GB), InternVL3.5-38B, DeepSeek-VL2, Llama 3.2 11B Vision bf16, Llama 3.2 90B Vision Q4 (~52 GB), Molmo 72B Q4, Gemma 3 12B/27B multimodální, MiniCPM-V 2.6 / MiniCPM-o 2.6, GLM-4.6V-Flash.
Generování obrazu
FLUX.1 [vývoj] / [rychle] fp8 (~20-35 s/obrázek na jednom L4 při fp8); FLUX.1 Kontext [vývoj]; FLUX Tools; SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0; HunyuanImage-2.1 (~34 GB bf16); HunyuanDiT; Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.
Generování videa
Wan 2.2 T2V-A14B / I2V-A14B MoE (těsný na bf16 ~ 54 GB); rychlá cesta Wan 2.2 TI2V-5B; HunyuanVideo 13B Q4-Q8 (~30 GB); HunyuanVideo 1.5 (8.3B); CogVideoX-5B; Open-Sora 2.0 Q8 (~16 GB); Mochi-1 Q4 (~18 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos.
Zvuk / Řeč / TTS
- ASR: Whisper v3 large / turbo (~50x v reálném čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; Stable Audio Open; XTTS v2; StyleTTS 2; Step-Audio-EditX
- Reálný čas / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2
Vícemodelové / vícenájemnické služby
- 6 souběžných streamů modelu Q4 s kapacitou 24 GB (jeden na kartu): např. 6 agentů Qwen3-14B Q4
- Smíšená flotila: Llama 3.3 70B Q4 (tenzorově paralelní přes 2 karty) + FLUX.1 (1 karta) + Whisper-turbo (1 karta) + Moshi (1 karta) + BGE-M3 embedder (1 karta)
- Embeddingová služba s vysokým QPS — 6 paralelních embed streamů BGE-M3 / E5 / Nomic / Cohere Embed
- Farma pro překódování videa — 6 paralelních streamů NVENC/NVDEC
Cílové úlohy
- SaaS multi-tenant LLM API – obsluha 20–40 souběžných uživatelů v modelu 24B/32B s prostorem pro image a ASR
- RAG backend — embedder na straně dotazů + 70B Q4 čtečka + reranker, latence pod sekundu, 50 QPS
- Video-AI pipeline — živý transkód + titulky + moderace na 6 paralelních streamech
- Zařízení Edge AI poblíž kanceláře – nízký akustický profil, nulová závislost na datovém centru
- Výzkumná a vývojová lavice pro modely střední úrovně – rychlá iterace s jemným doladěním 30–70 B, jedna karta na experiment
Měřený výkon
Publikované reference | Datový list NVIDIA L4 + komunitní benchmarky
| měřítko | Výsledek |
|---|---|
| INT8 TOPS na kartu (datový list NVIDIA) | 242 TOPS |
| Agregát INT8 TOPS (6 karty) | 1 452 TOPŮ |
| Lama 3.1 8B Q4 na jednom L4 (komunitní) | ~35-45 tok/s jeden proud |
| BGE-M3 s vloženým QPS na L4 (komunita) | ~800 QPS při vstupu s 512 tokeny |
| Faktor Whisper v3 turbo v reálném čase | ~1.5-2x reálný čas na kartu |
Publikované externí reference, neměřené na hardwaru Kentino. Kentino zveřejní data od první strany po první zákaznické sestavení.
Není ideální pro
- Frontier 200B+ MoE ve 4. čtvrtletí+ s dlouhým kontextem — 4x L40 nebo 8x RTX 4090 (192GB fond, souvislé TP) je tou správnou volbou
- Tréninkové zátěže – L4 postrádá FP8 a šířku pásma pro efektivní trénink
- Špičková propustnost při jednom úkolu – výpočetní výkon na kartu je skromný v porovnání s L40 / RTX Pro 6000
Záruka a dodací lhůta
3letá záruka NVIDIA OEM na L4 + záruka na integraci Kentino. Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a ověření funkčnosti. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- 4TB NVMe upgrade pro staging modelové knihovny
- 24U otevřená racková skříň s řízeným PDU
Sdílet
