Podívejte se na informace o produktu
1 av 7

Kentino sro

K-AI 96 Rome RTXPro6000 2000TOPS — serverová pracovní stanice Blackwell s jednou grafickou kartou 96 GB

K-AI 96 Rome RTXPro6000 2000TOPS — serverová pracovní stanice Blackwell s jednou grafickou kartou 96 GB

Obyčejné přís EUR € 15.847,00
Obyčejné přís Zlevněné ceny EUR € 15.847,00
Rea Vyprodáno
Skatter Ingår. Dopravni poplatek beräknas i kassan.

K-AI 96 Řím RTXPro6000 2000TOPS

Serverová pracovní stanice s jednou kartou a 96 GB ECC
1x RTX Pro 6000 Blackwell | EPYC Milan | 2 000 TOPS INT8

2 000
Vrchy INT8
96 GB
ECC VRAM
singl
návrh karty
fp8
rodák z Blackwellu

Jedna karta, 96 GB ECC VRAM, celý tenzorový pipeline Blackwell. 70B hustý bf16 na jediné grafické kartě – žádná režie s tenzorovým paralelním zpracováním.

Racková pracovní stanice s výškou 4U, jednou grafickou kartou NVIDIA RTX Pro 6000 Blackwell Workstation (96 GB ECC GDDR7), jedním procesorem AMD EPYC 7643 Milan (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe bootovacím diskem a jedním 2kW ATX zdrojem s 54% rezervou. Nejjednodušší softwarová cesta, kterou Kentino nabízí – žádná tenzorově paralelní konfigurace, žádné ladění více GPU. vLLM, SGLang, llama.cpp a ComfyUI běží na jednom zařízení a prostě fungují.

technické vybavení

Složka Detail
GPU 1x grafická karta NVIDIA RTX Pro 6000 Blackwell Workstation 96 GB ECC GDDR7 (600 W, PCIe 5.0 x16)
VRAM 96 GB ECC na jedné kartě – žádné sdružování, žádná režie tenzorového paralelního jádra
Procesor (CPU) AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0)
Základní deska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Spouštění / úložiště 2TB NVMe M.2 (PCIe 4.0 x4)
napájení 1x 2 kW ATX zdroj
Podvozek Montáž do racku 4U (kapacita 4 slotů, 1 obsazený – prostor pro rozšíření)
Chlazení Arctic Freezer 4U-M SP3 tower + 3x 120 mm přední sání + 1x 120 mm zadní výfuk
Síť Duální integrovaný 10GbE (Intel X550)

Napájecí obálka

  • Spotřeba energie GPU: 1 x 600 W = 600 W
  • Celkový výkon systému při plném zatížení: ~925 W
  • Celkový výkon zdroje: 2 000 W — 53.8 % volného prostoru
  • Jeden zdroj, jednoduchá kabeláž – dostatečný prostor pro sestavení s jednou kartou

Topologie jízdních pruhů

PCIe Gen4 x16 na GPU (karta je nativní pro Gen5; deska Rome je omezena na Gen4). Přímé připojení root-complex – žádný PCIe přepínač. Není vyžadován NVLink – jedna karta, žádné propojení mezi GPU. Šest slotů x16 zůstává volných pro síťovou kartu / úložiště / rozšíření.

Co můžete spustit

S 96 GB ECC VRAM na jediné grafické kartě Blackwell tento server zpracovává 70B husté bf16 na jednom GPU, LLM s otevřenou váhou, modely vidění, generování obrázků a videa, řečovou umělou inteligenci a produkční inferenci – není nutná žádná tenzorově-paralelní koordinace.

LLM – text / uvažování / kódování

Čínská hranice

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-32B hustý bf16 (~65 GB) s velkorysým KV; Qwen3-72B Q6 (~58 GB, ~25-35 tok/s jeden stream); Qwen3-30B-A3B MoE bf16; Qwen3-Coder-30B-A3B agentický s 256k ctx; Qwen3.5-122B-A10B Q4 (~70 GB) s těsným KV; uvažování QwQ-32B bf16
  • DeepSeek: DeepSeek-R2 32B řídký MoE bf16 (~64 GB, 92.7 % AIME 2025, jedna karta); DeepSeek-R1-Distill-Qwen-32B bf16; DeepSeek-V2-Lite 16B plná přesnost
  • GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5 (60-70 GB); GLM-4.6V 106B Q4
  • Tencent Hunyuan: Hunyuan-A13B 80B/13B MoE Q4-fp8 (~48-80 GB) s 256k ctx a duálním uvažováním
  • ByteDance Seed-OSS-36B bf16 (zatíženo ~72 GB) nebo fp8 (~36 GB) s plným 512k nativním kontextem
  • Baidu ERNIE-4.5-47B-A3B Q4-8. RP s dlouhým kontextem

Západní hranice

  • Meta láma: Llama 3.3 70B na bf16 (~70 GB) na jedné kartě s 8-16k ctx — konfigurace pro hrdiny; Llama 3.3 70B Q6 (~58 GB, ~35-50 tok/s jeden stream); Llama 3.1 8B bf16 (~80-120 tok/s); Llama 3.2 90B Vision Q4 (~52 GB); Llama 4 Scout 109B/17B MoE Q4 (~63 GB)
  • Mistral: Mistral Small 3 / Magistral Small 1.2 / Devstral Small 2 (24B) všechny na bf16 s 256k ctx; Mixtral 8x7B Q6; Codestral Mamba 7B; Pixtral 12B bf16
  • OpenAI (otevřené váhy): gpt-oss-20b MXFP4 nativní (16 GB); gpt-oss-120b MXFP4 nativní (80 GB) – jedna karta, jeden stream
  • Google Gemma 3: 27B multimodální bf16 (~54 GB) se 128k ctx; 12B / 4B bf16
  • Microsoft Phi-4 14B hustá bf16; Phi-4-usuzování; Phi-4-multimodální
  • NVIDIA Nemotron: Llama-3.1-Nemotron-Super 49B Q6 (~40 GB); Nemotron-Nano 8B
  • Ostatní: IBM Granite 4.0 H-Small 32B/9B; OLMo 2 32B; Reka Flash 3 21B; Falcon H1R 7B; Command R 35B

Modely vizuální a jazykové komunikace

Qwen3-VL-8B / 32B bf16, Qwen3-VL-30B-A3B MoE bf16, Qwen3-Omni-30B-A3B; InternVL3 až 78B Q4 (~48 GB); InternVL3.5-38B bf16; DeepSeek-VL2 plný rozsah; Llama 3.2 11B Vision bf16; Llama 3.2 90B Vision Q4 (~52 GB); Pixtral 12B bf16; Molmo 72B Q4; Molmo 7B bf16; Gemma 3 12B / 27B multimodální; PaliGemma 2 28B; Phi-3.5-Vision; Aya Vision 8B / 32B; MiniCPM-V 2.6 / MiniCPM-o 2.6; GLM-4.6V.

Generování obrazu

FLUX.1 [dev] / [shnell] bf16 (~24 GB) a kvantizovaný (~15-25 s/obraz při fp8); FLUX.1 Kontext [dev] editace v kontextu; FLUX Tools (Fill / Depth / Canny / Redux); SD 3.5 Large bf16 (~18 GB); SDXL 1.0; HunyuanImage-2.1 bf16 (~34 GB) při 2K nativním rozlišení; HunyuanDiT 1.5B; Kolors / Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.

Generování videa

Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 (~54 GB, oba rezidenti expertů); rychlá cesta Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 (~60-80 GB, těsné při 720p); HunyuanVideo 1.5 (8.3B); CogVideoX-5B; Open-Sora 2.0 (11B) bf16; Genmo Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Zvuk / Řeč / TTS

  • ASR: Whisper v3 large / turbo (~50x reálný čas); NVIDIA Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • Překlad textu na řeč: CosyVoice 2 / Fun-CosyVoice 3.0; Kokoro 82M; Stable Audio Open; Coqui XTTS v2; StyleTTS 2; Step-Audio-EditX
  • Reálný čas / S2S: Kyutai Moshi (200 ms plně duplexní); Step-Audio 2 mini; Step-Audio-R1 / R1.1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: Meta MusicGen; AudioGen; Suno Bark; SeamlessM4T v2

Vícemodelové / vícenájemnické služby

  • Asistent streamování pro jednoho klienta — 70B hustá bf16, nízká latence, žádné penalizace TP
  • Smíšený rezidentní stack: Qwen3-32B bf16 + FLUX.1 fp8 + Whisper-turbo + Moshi na jedné kartě s rozdělenou VRAM
  • Jemné doladění: LoRA / QLoRA u modelů 13-34B; plné parametry u modelů 7B
  • Vestavná služba: BGE-M3 / E5 / Jina rezident vedle generátoru LLM

Cílové úlohy

  • Asistent streamování kódu pro jednoho klienta s Llama 3.3 70B bf16 nebo Qwen3-Coder-30B-A3B – bez režijních nákladů na koordinaci TP
  • Vývojářská pracovní stanice pro jednoho inženýra nebo úzký tým, která potřebuje model třídy 70B s kontextem 32–128 kB
  • Laboratoř pro generování videa nebo obrazu — HunyuanVideo 13B, Wan 2.2 duální expert, HunyuanImage-2.1, vše na úrovni bf16 rezidenta
  • Pracovní stůl VLM / OCR — Qwen3-VL-32B bf16 nebo InternVL3.5-38B s dlouhými dokumentovými kanály
  • Čisté zařízení pro malou bránu LLM API – jeden model, jedna karta, snadná obsluha

Měřený výkon

Publikované reference | Datový list NVIDIA RTX Pro 6000 Blackwell + komunitní benchmarky

měřítko Výsledek
INT8 TOPS na kartu (datový list NVIDIA) 2 000 TOPŮ
VRAM na kartu 96 GB ECC GDDR7
Šířka pásma paměti ~1 800 GB/s
Llama 3.3 70B Q6 s jedním GPU (komunitní) 40–55 tok/s jeden proud
Llama 3.3 70B bf16 s jedním GPU (komunitní) 15–25 tok/s jeden proud
Blackwell FP8 nativní DeepSeek-V3 fp8, Hunyuan-A13B fp8 běží bez přenosu bf16

Publikované externí reference, neměřené na hardwaru Kentino. Kentino zveřejní data od první strany po první zákaznické sestavení.

Není ideální pro

  • Trénování velkých modelů od nuly (jedna GPU — žádný paralelismus tenzorů/pipeline)
  • Frontier 200B+ MoE při reálných kvantizacích (Qwen3-235B Q4, GLM-4.5/4.6 — použijte K-AI 192 RTXPro6000 nebo větší)
  • Vysokorychlostní multitenantní inference (jedna karta omezuje agregovanou propustnost; 4x RTX 4090 nebo 4x L40 škálovatelnější)

Záruka a dodací lhůta

2 let
záruka na díly
1 rok
záruka na práci
10 28-dny
dodací lhůta

Tříletá záruka NVIDIA OEM na grafickou kartu RTX Pro 6000 + záruka na integraci s Kentino. Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a ověření funkčnosti. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.

Doporučené doplňky

  • Rozšíření paměti RAM na 512 GB (přidání 4x 64 GB DDR4 – čtyři sloty DIMM jsou stále volné)
  • 4TB sekundární disk NVMe pro knihovnu modelů / staging datových sad
  • Otevřená skříň 24U pro montáž do produkčního racku
  • Pro rychlost připojení Gen5 x16 zvažte variantu platformy Genoa na vyžádání.
Visa alla uppgifter