Podívejte se na informace o produktu
1 av 7

Kentino sro

K-AI 144 Rome L4 1452TOPS — 6× NVIDIA L4 — EPYC Milan

K-AI 144 Rome L4 1452TOPS — 6× NVIDIA L4 — EPYC Milan

Obyčejné přís EUR € 28.681,00
Obyčejné přís Zlevněné ceny EUR € 28.681,00
Rea Vyprodáno
Skatter Ingår. Dopravni poplatek beräknas i kassan.

K-AI 144 Řím L4 1452TOPS

144 GB VRAM Silent Edge Inference Server
6x NVIDIA L4 pasivní | EPYC Milan | 1 452 TOPS INT8

1 452
Vrchy INT8
144 GB
Pool VRAM
432 W
Obálka GPU
tichý
pasivní grafické karty

Šest pasivních L4 karet pro datová centra. Nejtišší server s umělou inteligencí v řadě Kentino – vhodný pro nasazení na okraji kanceláře.

4U jednosocketový inferenční server se šesti pasivními kartami NVIDIA L4 (každá po 24 GB, 144GB pool), jedním procesorem AMD EPYC 7643 Milan (48C/96T), 384 GB paměti DDR4 ECC, 2 TB NVMe bootovacím diskem a jedním 2kW ATX zdrojem s 62% rezervou. Inferenční server s vysokou hustotou pro vestavěné flotily, vícenájemnické malé/středně velké LLM servery a nasazení s nízkým výkonem (watty na dotaz) v blízkosti kancelářských prostor.

technické vybavení

Složka Detail
GPU 6x NVIDIA L4 24 GB (Ada Lovelace, pasivní, 72 W, jednoslotová LP, PCIe Gen4 x8)
Pool VRAM Celkem 144 GB na 6 kartách
Procesor (CPU) AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0)
Základní deska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 384 GB DDR4-2666 ECC RDIMM (6x 64 GB)
Spouštění / úložiště 2TB NVMe M.2 (PCIe 4.0 x4)
napájení 1x 2 kW ATX zdroj
Podvozek Montáž do racku 4U (rozložení pro 6 karet)
Chlazení Věžový chladič SP3 + směrované proudění vzduchu zepředu dozadu (průmyslové ventilátory)
Síť Duální integrovaný 10GbE (Intel X550)

Napájecí obálka

  • Spotřeba energie GPU: 6 x 72 W = 432 W
  • Celkový výkon systému při plném zatížení: ~757 W
  • Celkový výkon zdroje: 2 000 W — 62 % volného prostoru
  • Tichý provoz, masivní tepelná rezerva

Topologie jízdních pruhů

L4 je nativní pro PCIe Gen4 x8 – bez ztráty šířky pásma oproti hostiteli. ROMED8-2T nabízí 7 slotů x16; jeden slot je volný pro upsell síťové karty. Není potřeba žádný přepínač PCIe. Žádný NVLink.

Co můžete spustit

Při agregované paměti 144 GB na 6 fyzických kartách je ideální volbou souběžné obsluhování více modelů: souběžně spouštějte 70B hustý procesor ve 4. čtvrtletí, 30B MoE, 14B kodér, VLM a embeddingový model a stále si zachovejte rezervu v KV.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-30B-A3B Q4-Q6; QwQ-32B Q6; Qwen3-32B hustý Q6; Qwen3.5-122B-A10B Q4-Q5 (~75 GB pohodlný); Qwen3-235B-A22B Q3 (~112 GB) těsný, krátký ctx
  • DeepSeek: DeepSeek-R2 32B řídký MoE Q4-Q6 (schopný jedné karty, 6 souběžných streamů, ~15-20 tok/s na stream); Seed-OSS-36B Q4-Q6 s 512k nativním kontextem
  • GLM / Z.ai: GLM-4.5-Air Q4-Q5 (60-70 GB pohodlné); Hunyuan-A13B Q4-Q6 (~48 GB)
  • Baidu ERNIE-4.5-47B-A3B Q4; Step-3.5-Flash Q3-Q4 s určitým přebytkem RAM

Západní hranice

  • Meta láma: Llama 3.3 70B Q4-Q6 (43-58 GB) s velkorysým KV (~10-17 tok/s jeden proud přes 6x L4 tenzorově paralelní); Llama 4 Scout 109B/17B MoE Q4 (~63 GB) pohodlná
  • Mistral: Mistral Small 3 / Magistral Small 1.2 / Devstral Small 2 (24B) na bf16 (~50-65 tok/s na kartu L4); Mixtral 8x22B Q4
  • OpenAI (otevřené váhy): gpt-oss-120b MXFP4 nativní (~80 GB s volným místem; gpt-oss-20b MXFP4
  • Google Gemma 3: 27B bf16; Phi-4 14B bf16
  • NVIDIA Nemotron: Llama-3.1-Nemotron Super 49B Q4-Q6; Pixtral 12B / Pixtral Large Q4 (~72 GB)

Modely vizuální a jazykové komunikace

Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B MoE, InternVL3 až 78B Q4 (~48 GB), InternVL3.5-38B, DeepSeek-VL2, Llama 3.2 11B Vision bf16, Llama 3.2 90B Vision Q4 (~52 GB), Molmo 72B Q4, Gemma 3 12B/27B multimodální, MiniCPM-V 2.6 / MiniCPM-o 2.6, GLM-4.6V-Flash.

Generování obrazu

FLUX.1 [vývoj] / [rychle] fp8 (~20-35 s/obrázek na jednom L4 při fp8); FLUX.1 Kontext [vývoj]; FLUX Tools; SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0; HunyuanImage-2.1 (~34 GB bf16); HunyuanDiT; Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.

Generování videa

Wan 2.2 T2V-A14B / I2V-A14B MoE (těsný na bf16 ~ 54 GB); rychlá cesta Wan 2.2 TI2V-5B; HunyuanVideo 13B Q4-Q8 (~30 GB); HunyuanVideo 1.5 (8.3B); CogVideoX-5B; Open-Sora 2.0 Q8 (~16 GB); Mochi-1 Q4 (~18 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos.

Zvuk / Řeč / TTS

  • ASR: Whisper v3 large / turbo (~50x v reálném čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • Překlad textu na řeč: CosyVoice 2/3; Kokoro 82M; Stable Audio Open; XTTS v2; StyleTTS 2; Step-Audio-EditX
  • Reálný čas / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2

Vícemodelové / vícenájemnické služby

  • 6 souběžných streamů modelu Q4 s kapacitou 24 GB (jeden na kartu): např. 6 agentů Qwen3-14B Q4
  • Smíšená flotila: Llama 3.3 70B Q4 (tenzorově paralelní přes 2 karty) + FLUX.1 (1 karta) + Whisper-turbo (1 karta) + Moshi (1 karta) + BGE-M3 embedder (1 karta)
  • Embeddingová služba s vysokým QPS — 6 paralelních embed streamů BGE-M3 / E5 / Nomic / Cohere Embed
  • Farma pro překódování videa — 6 paralelních streamů NVENC/NVDEC

Cílové úlohy

  • SaaS multi-tenant LLM API – obsluha 20–40 souběžných uživatelů v modelu 24B/32B s prostorem pro image a ASR
  • RAG backend — embedder na straně dotazů + 70B Q4 čtečka + reranker, latence pod sekundu, 50 QPS
  • Video-AI pipeline — živý transkód + titulky + moderace na 6 paralelních streamech
  • Zařízení Edge AI poblíž kanceláře – nízký akustický profil, nulová závislost na datovém centru
  • Výzkumná a vývojová lavice pro modely střední úrovně – rychlá iterace s jemným doladěním 30–70 B, jedna karta na experiment

Měřený výkon

Publikované reference | Datový list NVIDIA L4 + komunitní benchmarky

měřítko Výsledek
INT8 TOPS na kartu (datový list NVIDIA) 242 TOPS
Agregát INT8 TOPS (6 karty) 1 452 TOPŮ
Lama 3.1 8B Q4 na jednom L4 (komunitní) ~35-45 tok/s jeden proud
BGE-M3 s vloženým QPS na L4 (komunita) ~800 QPS při vstupu s 512 tokeny
Faktor Whisper v3 turbo v reálném čase ~1.5-2x reálný čas na kartu

Publikované externí reference, neměřené na hardwaru Kentino. Kentino zveřejní data od první strany po první zákaznické sestavení.

Není ideální pro

  • Frontier 200B+ MoE ve 4. čtvrtletí+ s dlouhým kontextem — 4x L40 nebo 8x RTX 4090 (192GB fond, souvislé TP) je tou správnou volbou
  • Tréninkové zátěže – L4 postrádá FP8 a šířku pásma pro efektivní trénink
  • Špičková propustnost při jednom úkolu – výpočetní výkon na kartu je skromný v porovnání s L40 / RTX Pro 6000

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

3letá záruka NVIDIA OEM na L4 + záruka na integraci Kentino. Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a ověření funkčnosti. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • 4TB NVMe upgrade pro staging modelové knihovny
  • 24U otevřená racková skříň s řízeným PDU
Visa alla uppgifter