Kentino sro
K-AI 96 Rome RTXPro6000 2000TOPS — serverová pracovní stanice Blackwell s jednou grafickou kartou 96 GB
K-AI 96 Rome RTXPro6000 2000TOPS — serverová pracovní stanice Blackwell s jednou grafickou kartou 96 GB
Podívejte se na mladý muž
K-AI 96 Řím RTXPro6000 2000TOPS
Serverová pracovní stanice s jednou kartou a 96 GB ECC
1x RTX Pro 6000 Blackwell | EPYC Milan | 2 000 TOPS INT8
Jedna karta, 96 GB ECC VRAM, celý tenzorový pipeline Blackwell. 70B hustý bf16 na jediné grafické kartě – žádná režie s tenzorovým paralelním zpracováním.
Racková pracovní stanice s výškou 4U, jednou grafickou kartou NVIDIA RTX Pro 6000 Blackwell Workstation (96 GB ECC GDDR7), jedním procesorem AMD EPYC 7643 Milan (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe bootovacím diskem a jedním 2kW ATX zdrojem s 54% rezervou. Nejjednodušší softwarová cesta, kterou Kentino nabízí – žádná tenzorově paralelní konfigurace, žádné ladění více GPU. vLLM, SGLang, llama.cpp a ComfyUI běží na jednom zařízení a prostě fungují.
technické vybavení
| Složka | Detail |
|---|---|
| GPU | 1x grafická karta NVIDIA RTX Pro 6000 Blackwell Workstation 96 GB ECC GDDR7 (600 W, PCIe 5.0 x16) |
| VRAM | 96 GB ECC na jedné kartě – žádné sdružování, žádná režie tenzorového paralelního jádra |
| Procesor (CPU) | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 linek PCIe 4.0) |
| Základní deska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Spouštění / úložiště | 2TB NVMe M.2 (PCIe 4.0 x4) |
| napájení | 1x 2 kW ATX zdroj |
| Podvozek | Montáž do racku 4U (kapacita 4 slotů, 1 obsazený – prostor pro rozšíření) |
| Chlazení | Arctic Freezer 4U-M SP3 tower + 3x 120 mm přední sání + 1x 120 mm zadní výfuk |
| Síť | Duální integrovaný 10GbE (Intel X550) |
Napájecí obálka
- Spotřeba energie GPU: 1 x 600 W = 600 W
- Celkový výkon systému při plném zatížení: ~925 W
- Celkový výkon zdroje: 2 000 W — 53.8 % volného prostoru
- Jeden zdroj, jednoduchá kabeláž – dostatečný prostor pro sestavení s jednou kartou
Topologie jízdních pruhů
PCIe Gen4 x16 na GPU (karta je nativní pro Gen5; deska Rome je omezena na Gen4). Přímé připojení root-complex – žádný PCIe přepínač. Není vyžadován NVLink – jedna karta, žádné propojení mezi GPU. Šest slotů x16 zůstává volných pro síťovou kartu / úložiště / rozšíření.
Co můžete spustit
S 96 GB ECC VRAM na jediné grafické kartě Blackwell tento server zpracovává 70B husté bf16 na jednom GPU, LLM s otevřenou váhou, modely vidění, generování obrázků a videa, řečovou umělou inteligenci a produkční inferenci – není nutná žádná tenzorově-paralelní koordinace.
LLM – text / uvažování / kódování
Čínská hranice
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-32B hustý bf16 (~65 GB) s velkorysým KV; Qwen3-72B Q6 (~58 GB, ~25-35 tok/s jeden stream); Qwen3-30B-A3B MoE bf16; Qwen3-Coder-30B-A3B agentický s 256k ctx; Qwen3.5-122B-A10B Q4 (~70 GB) s těsným KV; uvažování QwQ-32B bf16
- DeepSeek: DeepSeek-R2 32B řídký MoE bf16 (~64 GB, 92.7 % AIME 2025, jedna karta); DeepSeek-R1-Distill-Qwen-32B bf16; DeepSeek-V2-Lite 16B plná přesnost
- GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5 (60-70 GB); GLM-4.6V 106B Q4
- Tencent Hunyuan: Hunyuan-A13B 80B/13B MoE Q4-fp8 (~48-80 GB) s 256k ctx a duálním uvažováním
- ByteDance Seed-OSS-36B bf16 (zatíženo ~72 GB) nebo fp8 (~36 GB) s plným 512k nativním kontextem
- Baidu ERNIE-4.5-47B-A3B Q4-8. RP s dlouhým kontextem
Západní hranice
- Meta láma: Llama 3.3 70B na bf16 (~70 GB) na jedné kartě s 8-16k ctx — konfigurace pro hrdiny; Llama 3.3 70B Q6 (~58 GB, ~35-50 tok/s jeden stream); Llama 3.1 8B bf16 (~80-120 tok/s); Llama 3.2 90B Vision Q4 (~52 GB); Llama 4 Scout 109B/17B MoE Q4 (~63 GB)
- Mistral: Mistral Small 3 / Magistral Small 1.2 / Devstral Small 2 (24B) všechny na bf16 s 256k ctx; Mixtral 8x7B Q6; Codestral Mamba 7B; Pixtral 12B bf16
- OpenAI (otevřené váhy): gpt-oss-20b MXFP4 nativní (16 GB); gpt-oss-120b MXFP4 nativní (80 GB) – jedna karta, jeden stream
- Google Gemma 3: 27B multimodální bf16 (~54 GB) se 128k ctx; 12B / 4B bf16
- Microsoft Phi-4 14B hustá bf16; Phi-4-usuzování; Phi-4-multimodální
- NVIDIA Nemotron: Llama-3.1-Nemotron-Super 49B Q6 (~40 GB); Nemotron-Nano 8B
- Ostatní: IBM Granite 4.0 H-Small 32B/9B; OLMo 2 32B; Reka Flash 3 21B; Falcon H1R 7B; Command R 35B
Modely vizuální a jazykové komunikace
Qwen3-VL-8B / 32B bf16, Qwen3-VL-30B-A3B MoE bf16, Qwen3-Omni-30B-A3B; InternVL3 až 78B Q4 (~48 GB); InternVL3.5-38B bf16; DeepSeek-VL2 plný rozsah; Llama 3.2 11B Vision bf16; Llama 3.2 90B Vision Q4 (~52 GB); Pixtral 12B bf16; Molmo 72B Q4; Molmo 7B bf16; Gemma 3 12B / 27B multimodální; PaliGemma 2 28B; Phi-3.5-Vision; Aya Vision 8B / 32B; MiniCPM-V 2.6 / MiniCPM-o 2.6; GLM-4.6V.
Generování obrazu
FLUX.1 [dev] / [shnell] bf16 (~24 GB) a kvantizovaný (~15-25 s/obraz při fp8); FLUX.1 Kontext [dev] editace v kontextu; FLUX Tools (Fill / Depth / Canny / Redux); SD 3.5 Large bf16 (~18 GB); SDXL 1.0; HunyuanImage-2.1 bf16 (~34 GB) při 2K nativním rozlišení; HunyuanDiT 1.5B; Kolors / Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.
Generování videa
Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 (~54 GB, oba rezidenti expertů); rychlá cesta Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 (~60-80 GB, těsné při 720p); HunyuanVideo 1.5 (8.3B); CogVideoX-5B; Open-Sora 2.0 (11B) bf16; Genmo Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Zvuk / Řeč / TTS
- ASR: Whisper v3 large / turbo (~50x reálný čas); NVIDIA Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- Překlad textu na řeč: CosyVoice 2 / Fun-CosyVoice 3.0; Kokoro 82M; Stable Audio Open; Coqui XTTS v2; StyleTTS 2; Step-Audio-EditX
- Reálný čas / S2S: Kyutai Moshi (200 ms plně duplexní); Step-Audio 2 mini; Step-Audio-R1 / R1.1; Qwen2.5-Omni-7B
- Hudba / Zvukové efekty: Meta MusicGen; AudioGen; Suno Bark; SeamlessM4T v2
Vícemodelové / vícenájemnické služby
- Asistent streamování pro jednoho klienta — 70B hustá bf16, nízká latence, žádné penalizace TP
- Smíšený rezidentní stack: Qwen3-32B bf16 + FLUX.1 fp8 + Whisper-turbo + Moshi na jedné kartě s rozdělenou VRAM
- Jemné doladění: LoRA / QLoRA u modelů 13-34B; plné parametry u modelů 7B
- Vestavná služba: BGE-M3 / E5 / Jina rezident vedle generátoru LLM
Cílové úlohy
- Asistent streamování kódu pro jednoho klienta s Llama 3.3 70B bf16 nebo Qwen3-Coder-30B-A3B – bez režijních nákladů na koordinaci TP
- Vývojářská pracovní stanice pro jednoho inženýra nebo úzký tým, která potřebuje model třídy 70B s kontextem 32–128 kB
- Laboratoř pro generování videa nebo obrazu — HunyuanVideo 13B, Wan 2.2 duální expert, HunyuanImage-2.1, vše na úrovni bf16 rezidenta
- Pracovní stůl VLM / OCR — Qwen3-VL-32B bf16 nebo InternVL3.5-38B s dlouhými dokumentovými kanály
- Čisté zařízení pro malou bránu LLM API – jeden model, jedna karta, snadná obsluha
Měřený výkon
Publikované reference | Datový list NVIDIA RTX Pro 6000 Blackwell + komunitní benchmarky
| měřítko | Výsledek |
|---|---|
| INT8 TOPS na kartu (datový list NVIDIA) | 2 000 TOPŮ |
| VRAM na kartu | 96 GB ECC GDDR7 |
| Šířka pásma paměti | ~1 800 GB/s |
| Llama 3.3 70B Q6 s jedním GPU (komunitní) | 40–55 tok/s jeden proud |
| Llama 3.3 70B bf16 s jedním GPU (komunitní) | 15–25 tok/s jeden proud |
| Blackwell FP8 nativní | DeepSeek-V3 fp8, Hunyuan-A13B fp8 běží bez přenosu bf16 |
Publikované externí reference, neměřené na hardwaru Kentino. Kentino zveřejní data od první strany po první zákaznické sestavení.
Není ideální pro
- Trénování velkých modelů od nuly (jedna GPU — žádný paralelismus tenzorů/pipeline)
- Frontier 200B+ MoE při reálných kvantizacích (Qwen3-235B Q4, GLM-4.5/4.6 — použijte K-AI 192 RTXPro6000 nebo větší)
- Vysokorychlostní multitenantní inference (jedna karta omezuje agregovanou propustnost; 4x RTX 4090 nebo 4x L40 škálovatelnější)
Záruka a dodací lhůta
Tříletá záruka NVIDIA OEM na grafickou kartu RTX Pro 6000 + záruka na integraci s Kentino. Sestavení zahrnuje montáž, konfiguraci BIOSu, instalaci ovladačů, záběhové testování a ověření funkčnosti. Dodací lhůta závisí na dostupnosti komponent, která bude potvrzena při objednávce.
Doporučené doplňky
- Rozšíření paměti RAM na 512 GB (přidání 4x 64 GB DDR4 – čtyři sloty DIMM jsou stále volné)
- 4TB sekundární disk NVMe pro knihovnu modelů / staging datových sad
- Otevřená skříň 24U pro montáž do produkčního racku
- Pro rychlost připojení Gen5 x16 zvažte variantu platformy Genoa na vyžádání.
Sdílet
