Přejít na informace o produktu
1 of 7

Kentino sro

K-AI 48 Řím L4 484TOPS — 2x NVIDIA L4 pasivní server s umělou inteligencí na okraji

K-AI 48 Řím L4 484TOPS — 2x NVIDIA L4 pasivní server s umělou inteligencí na okraji

Běžná cena EUR € 11.374,00
Běžná cena Prodejní cena EUR € 11.374,00
Výprodej Vyprodáno
Včetně daní. Přeprava spočítány u pokladny.

K-AI 48 Řím L4 484TOPS

Tichý 2x L4 pasivní edge server
48 GB ECC VRAM | EPYC Milán | 484 TOPS INT8

484
TOPS INT8
48 GB
ECC VRAM
144 W
Celkem GPU
24/7
datové centrum

Tichý pasivní inferenční box 2x L4 – záruční cesta na úrovni datových center, 72 W na kartu, 48 GB ECC VRAM pro trvalé nasazení na okraji sítě.

2GPU inferenční server pro edge computing postavený na pasivních kartách NVIDIA L4 – tichá varianta třídy pro datová centra v řadě Kentino. Celkem 48 GB ECC VRAM, celkový příkon GPU 144 W, rozměry karty na jeden slot a proudění vzduchu řízené výhradně šasi. Pro pobočky, vysílací zařízení, nepřetržitou transkripci a jakékoli nasazení, kde akustický profil a záruka datového centra znamenají více než hrubou propustnost tenzorů.

technické vybavení

Složka Detail
GPU 2x NVIDIA L4 24 GB GDDR6 pasivní (72 W, PCIe 4.0 x16, Ada Lovelace, ECC)
Pool VRAM 48 GB ECC
Procesor (CPU) AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0)
Základní deska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 128 GB DDR4-2666 ECC RDIMM (2x 64 GB)
Spouštění / úložiště 1TB NVMe M.2 (PCIe 4.0 x4)
napájení Jeden 2kW ATX zdroj
Podvozek 4U rackové, pasivní rozšiřující moduly Gen4 x16
Chlazení Věžový chladič SP3, 3x 120 mm přední sání + 1x 120 mm zadní výfuk (nízkootáčková PWM)
Síť Duální integrovaný 10GbE (Intel X550) + IPMI

Napájecí obálka

  • Spotřeba energie GPU: 2 x 72 W = 144 W
  • Celkový výkon systému při plném zatížení: ~469 W
  • Celkový výkon zdroje: 2 000 W — 76.55 % volného prostoru
  • Pohání ventilátory na nízkých otáčkách v klidu (~35 dBA v klidu, <45 dBA trvale)

Topologie jízdních pruhů

PCIe Gen4 x16 na obou GPU. L4 je nativní Gen4 x16; ROMED8-2T odvádí 2x16 přímo z CPU. Žádný přepínač, žádný NVLink. Udržovaná teplota GPU 55-65 °C – pasivní karty se zcela spoléhají na proudění vzduchu ze šasi.

Co můžete spustit

Díky 48 GB paměti ECC VRAM na 2 pasivních kartách L4 tento server zvládá trvale zapnutou inferenci LLM, nepřetržité kanály ASR + TTS, zpracování dokumentů VLM a nasazení na okraji sítě, kde záleží na tichém provozu a záruce datového centra.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3-32B hustý Q6 s 32k ctx (~15-20 tok/s jeden proud na L4, publikovaná reference)
  • Qwen3-30B-A3B / Qwen3-Coder-30B-A3B Q4-Q6 (Ministerstvo hospodářství, 256 tisíc CTX)
  • QwQ-32B Otázka 6; DeepSeek-R2 32B řídký MoE Q4-Q6 (~18-24 tok/s jeden proud v Q4 na L4, publikovaná reference)
  • Hunyuan-A13B Q6 nebo fp8 (~48 GB) — 80B/13B MoE, 256k ctx
  • Seed-OSS-36B Q4-Q6 — 512 tisíc nativních CTX
  • ERNIE-4.5-47B-A3B Q4-Q6 (~28-42 GB)

Západní hranice

  • Lama 3.3 70B Q4_K_M (~43 GB) tenzorově paralelní 2cestný (~8-12 tok/s jeden proud na 2x L4, publikovaná reference)
  • Mistral Malý 3 / Magistrál / Devstral Malý 2 (24B) bf16
  • Gemma 3 27B multimodální bf16
  • Phi-4 14B / Úvaha o fí-4 bf16
  • Nemotron-Super 49B 4. čtvrtletí (~28 GB)
  • OLMo 2 32B / OLMo 3.1-32B-Mysli — výzkum plně otevřeného uvažování

Vize-jazyk

Qwen3-VL-8B / 32B Q4-Q6; InternVL3.5-38B Q4; Pixtral 12B bf16 (24 GB); Llama 3.2 11B Vision bf16; Gemma 3 12B / 27B multimodální; MiniCPM-V 2.6 / MiniCPM-o 2.6; Aya Vision 8B / 32B pro 23jazyčný VLM.

Generování obrazu

L4 je inferenčně vyladěná – použitelná pro stacionární zpracování obrazu, nikoli pro dávkové generování: FLUX.1 [dev] fp8 / Q4 – jeden obraz za 8–12 s; SD 3.5 Large fp8 / SDXL 1.0 / SD 3.5 Medium; HunyuanImage-2.1 NF4 (~14 GB); Kolors 2.0 fp8.

Generování videa

Nedoporučuje se pro nové video projekty na L4 – preferujte sestavení 4090/5090. Pro lehké T2V kanály: Wan 2.2 TI2V-5B na bf16 – 5 s 720p za ~6-10 minut; optimalizační cesta HunyuanVideo 1.5 (8.3B) Wan2GP.

Zvuk / Řeč / TTS

Skutečná síla L4 — 24/7 ASR + TTS + hlasové zásobníky v reálném čase.

  • ASR: Whisper v3 large / turbo (~30x realtime na L4, publikovaná reference); NVIDIA Parakeet-TDT 1.1B; Canary 1B
  • Překlad textu na řeč: CosyVoice 2.0 / Fun-CosyVoice 3.0; Kokoro 82M; Stabilní zvuk otevřený
  • Reálný čas / S2S: Kyutai Moshi (7B, latence 200 ms, plně duplexní); Step-Audio 2 mini / R1
  • Překlad: Meta SeamlessM4T v2 (~100 jazyků)

Vícemodelový / vícenájemní

  • Whisper v3 + Kokoro + Moshi + Qwen3-14B Q6 všichni obyvatelé na kartě 1 (~18-20 GB); karta 2 rezervována pro druhého nájemníka nebo VLM
  • 8–16 souběžných relací ASR na jednom L4 v reálném čase s technologií Whisper-turbo
  • Koncový bod RAG: Qwen3-14B / Llama 3.1 8B (~48-72 tok/s jeden stream na L4, publikovaná reference) + vložení BGE-M3 + reranker

Cílové úlohy

  • Tichý inferenční box pobočky nebo vysílacího zařízení
  • Vždy zapnutý ASR + překladatelský kanál (call centra, přepis přednášek, titulky k médiím)
  • Koncový bod Edge RAG pro firemní dokumenty s cestou záruky pro datové centrum
  • Multimodální asistent 24/7 (Qwen3-VL-8B + MiniCPM-o 2.6) pro malou kancelář
  • Vývojový staging box pro nasazení na úrovni datových center – stejný křemík L4 jako hyperscale edge

Publikované reference výkonu

Publikovaná reference | 2x hardware srovnatelný s NVIDIA L4

měřítko Výsledek
Lama 3.1 8B Q4_K_M dekódování lamy.cpp ~30-40 tok/s jeden proud
Dekódování Qwen3-14B Q6 vLLM ~20-28 tok/s
Velký faktor v reálném čase pro Whisper v3 ~15-20x na L4
Parakeet-TDT 1.1B Angličtina ASR ~40-60x v reálném čase
Moshi 7B plně duplexní hlas Latence 200 ms, vejde se na jeden L4

Publikováno, neměřeno na kování Kentino.

Není ideální pro

  • Hustota 70B při Q6+ (i 48GB pool je těsný – použijte 4x4090 nebo 2x5090)
  • Dávková práce s generováním obrázků/videí ve velkém měřítku (propustnost tenzoru L4 je laděna inferencí)
  • LoRA / doladění pracovních postupů – používejte místo toho sestavení 4090/5090

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

L4 nabízí záruku NVIDIA pro datová centra – což oproti spotřebitelským kartám představuje významnou výhodu pro nasazení v rámci SLA 24/7. Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a funkční ověření.

Doporučené doplňky

  • Upgradujte na K-AI 96 Rome L4 968TOPS (4x L4, 96GB pool) pro zdvojnásobenou propustnost
  • Upgradujte bootovací disk na 2 TB NVMe
  • Upgrade paměti RAM na 256 GB (4x 64 GB) pro souběžné fungování více modelů
  • Rack PDU + 2 kVA online UPS pro nasazení v pobočce
Zobrazit všechny podrobnosti