Kentino sro
K-AI 48 Řím L4 484TOPS — 2x NVIDIA L4 pasivní server s umělou inteligencí na okraji
K-AI 48 Řím L4 484TOPS — 2x NVIDIA L4 pasivní server s umělou inteligencí na okraji
Nelze načíst dostupnost vyzvednutí
K-AI 48 Řím L4 484TOPS
Tichý 2x L4 pasivní edge server
48 GB ECC VRAM | EPYC Milán | 484 TOPS INT8
Tichý pasivní inferenční box 2x L4 – záruční cesta na úrovni datových center, 72 W na kartu, 48 GB ECC VRAM pro trvalé nasazení na okraji sítě.
2GPU inferenční server pro edge computing postavený na pasivních kartách NVIDIA L4 – tichá varianta třídy pro datová centra v řadě Kentino. Celkem 48 GB ECC VRAM, celkový příkon GPU 144 W, rozměry karty na jeden slot a proudění vzduchu řízené výhradně šasi. Pro pobočky, vysílací zařízení, nepřetržitou transkripci a jakékoli nasazení, kde akustický profil a záruka datového centra znamenají více než hrubou propustnost tenzorů.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 2x NVIDIA L4 24 GB GDDR6 pasivní (72 W, PCIe 4.0 x16, Ada Lovelace, ECC) |
| Pool VRAM | 48 GB ECC |
| Procesor (CPU) | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 128 GB DDR4-2666 ECC RDIMM (2x 64 GB) |
| Spouštění / úložiště | 1TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | Jeden 2kW ATX zdroj |
| Podvozek | 4U rackové, pasivní rozšiřující moduly Gen4 x16 |
| Chlazení | Věžový chladič SP3, 3x 120 mm přední sání + 1x 120 mm zadní výfuk (nízkootáčková PWM) |
| Síť | Duální integrovaný 10GbE (Intel X550) + IPMI |
Napájecí obálka
- Spotřeba energie GPU: 2 x 72 W = 144 W
- Celkový výkon systému při plném zatížení: ~469 W
- Celkový výkon zdroje: 2 000 W — 76.55 % volného prostoru
- Pohání ventilátory na nízkých otáčkách v klidu (~35 dBA v klidu, <45 dBA trvale)
Topologie jízdních pruhů
PCIe Gen4 x16 na obou GPU. L4 je nativní Gen4 x16; ROMED8-2T odvádí 2x16 přímo z CPU. Žádný přepínač, žádný NVLink. Udržovaná teplota GPU 55-65 °C – pasivní karty se zcela spoléhají na proudění vzduchu ze šasi.
Co můžete spustit
Díky 48 GB paměti ECC VRAM na 2 pasivních kartách L4 tento server zvládá trvale zapnutou inferenci LLM, nepřetržité kanály ASR + TTS, zpracování dokumentů VLM a nasazení na okraji sítě, kde záleží na tichém provozu a záruce datového centra.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3-32B hustý Q6 s 32k ctx (~15-20 tok/s jeden proud na L4, publikovaná reference)
- Qwen3-30B-A3B / Qwen3-Coder-30B-A3B Q4-Q6 (Ministerstvo hospodářství, 256 tisíc CTX)
- QwQ-32B Otázka 6; DeepSeek-R2 32B řídký MoE Q4-Q6 (~18-24 tok/s jeden proud v Q4 na L4, publikovaná reference)
- Hunyuan-A13B Q6 nebo fp8 (~48 GB) — 80B/13B MoE, 256k ctx
- Seed-OSS-36B Q4-Q6 — 512 tisíc nativních CTX
- ERNIE-4.5-47B-A3B Q4-Q6 (~28-42 GB)
Západní hranice
- Lama 3.3 70B Q4_K_M (~43 GB) tenzorově paralelní 2cestný (~8-12 tok/s jeden proud na 2x L4, publikovaná reference)
- Mistral Malý 3 / Magistrál / Devstral Malý 2 (24B) bf16
- Gemma 3 27B multimodální bf16
- Phi-4 14B / Úvaha o fí-4 bf16
- Nemotron-Super 49B 4. čtvrtletí (~28 GB)
- OLMo 2 32B / OLMo 3.1-32B-Mysli — výzkum plně otevřeného uvažování
Vize-jazyk
Qwen3-VL-8B / 32B Q4-Q6; InternVL3.5-38B Q4; Pixtral 12B bf16 (24 GB); Llama 3.2 11B Vision bf16; Gemma 3 12B / 27B multimodální; MiniCPM-V 2.6 / MiniCPM-o 2.6; Aya Vision 8B / 32B pro 23jazyčný VLM.
Generování obrazu
L4 je inferenčně vyladěná – použitelná pro stacionární zpracování obrazu, nikoli pro dávkové generování: FLUX.1 [dev] fp8 / Q4 – jeden obraz za 8–12 s; SD 3.5 Large fp8 / SDXL 1.0 / SD 3.5 Medium; HunyuanImage-2.1 NF4 (~14 GB); Kolors 2.0 fp8.
Generování videa
Nedoporučuje se pro nové video projekty na L4 – preferujte sestavení 4090/5090. Pro lehké T2V kanály: Wan 2.2 TI2V-5B na bf16 – 5 s 720p za ~6-10 minut; optimalizační cesta HunyuanVideo 1.5 (8.3B) Wan2GP.
Zvuk / Řeč / TTS
Skutečná síla L4 — 24/7 ASR + TTS + hlasové zásobníky v reálném čase.
- ASR: Whisper v3 large / turbo (~30x realtime na L4, publikovaná reference); NVIDIA Parakeet-TDT 1.1B; Canary 1B
- Překlad textu na řeč: CosyVoice 2.0 / Fun-CosyVoice 3.0; Kokoro 82M; Stabilní zvuk otevřený
- Reálný čas / S2S: Kyutai Moshi (7B, latence 200 ms, plně duplexní); Step-Audio 2 mini / R1
- Překlad: Meta SeamlessM4T v2 (~100 jazyků)
Vícemodelový / vícenájemní
- Whisper v3 + Kokoro + Moshi + Qwen3-14B Q6 všichni obyvatelé na kartě 1 (~18-20 GB); karta 2 rezervována pro druhého nájemníka nebo VLM
- 8–16 souběžných relací ASR na jednom L4 v reálném čase s technologií Whisper-turbo
- Koncový bod RAG: Qwen3-14B / Llama 3.1 8B (~48-72 tok/s jeden stream na L4, publikovaná reference) + vložení BGE-M3 + reranker
Cílové úlohy
- Tichý inferenční box pobočky nebo vysílacího zařízení
- Vždy zapnutý ASR + překladatelský kanál (call centra, přepis přednášek, titulky k médiím)
- Koncový bod Edge RAG pro firemní dokumenty s cestou záruky pro datové centrum
- Multimodální asistent 24/7 (Qwen3-VL-8B + MiniCPM-o 2.6) pro malou kancelář
- Vývojový staging box pro nasazení na úrovni datových center – stejný křemík L4 jako hyperscale edge
Publikované reference výkonu
Publikovaná reference | 2x hardware srovnatelný s NVIDIA L4
| měřítko | Výsledek |
|---|---|
| Lama 3.1 8B Q4_K_M dekódování lamy.cpp | ~30-40 tok/s jeden proud |
| Dekódování Qwen3-14B Q6 vLLM | ~20-28 tok/s |
| Velký faktor v reálném čase pro Whisper v3 | ~15-20x na L4 |
| Parakeet-TDT 1.1B Angličtina ASR | ~40-60x v reálném čase |
| Moshi 7B plně duplexní hlas | Latence 200 ms, vejde se na jeden L4 |
Publikováno, neměřeno na kování Kentino.
Není ideální pro
- Hustota 70B při Q6+ (i 48GB pool je těsný – použijte 4x4090 nebo 2x5090)
- Dávková práce s generováním obrázků/videí ve velkém měřítku (propustnost tenzoru L4 je laděna inferencí)
- LoRA / doladění pracovních postupů – používejte místo toho sestavení 4090/5090
Záruka a dodací lhůta
L4 nabízí záruku NVIDIA pro datová centra – což oproti spotřebitelským kartám představuje významnou výhodu pro nasazení v rámci SLA 24/7. Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření.
Doporučené doplňky
- Upgradujte na K-AI 96 Rome L4 968TOPS (4x L4, 96GB pool) pro zdvojnásobenou propustnost
- Upgradujte bootovací disk na 2 TB NVMe
- Upgrade paměti RAM na 256 GB (4x 64 GB) pro souběžné fungování více modelů
- Rack PDU + 2 kVA online UPS pro nasazení v pobočce
Sdílet
