Vytvoření vlastního systému umělé inteligence: Kompletní průvodce spotřebitelským hardwarem GPU pro lokální LLM pro rok 2026

Vytvoření vlastního systému umělé inteligence: Kompletní průvodce spotřebitelským hardwarem GPU pro lokální LLM pro rok 2026

Hloubkový pohled na omezení VRAM, sdružování více GPU, omezení PCIe a výkon s plovoucí desetinnou čárkou

Technický tým Kentino.com | leden 2026


Úvod: Proč si vytvořit vlastní systém umělé inteligence?

Revoluce umělé inteligence se už neděje jen v datových centrech. S modely s otevřeným zdrojovým kódem, jako jsou DeepSeek R1, Qwen 3, Llama 4 a Gemma, které dosahují nebývalých možností, se provozování výkonné umělé inteligence lokálně stalo nejen možným, ale i praktickým.

Ale tady je háček, který vám nikdo neřekne: VRAM je král a všechno ostatní je kompromis.

Tato příručka vás provede od zmateného kupce grafických karet (GPU) k informovanému architektovi systémů s umělou inteligencí. Probereme vše od sestav s jednou grafickou kartou s modely o 8 miliardách parametrů až po konfigurace s více grafickými kartami schopné zvládnout giganty s více než 70 miliardami parametrů. Ať už stavíte programátorského asistenta, výzkumnou pracovní stanici nebo soukromý server s umělou inteligencí, tato příručka vás provede všemi potřebnými funkcemi.


Část 1: Pochopení VRAM – aktuální hodnota umělé inteligence

Proč je VRAM důležitější než cokoli jiného

Při spouštění modelů s velkým jazykem LLM (Large Language Models) je nejdůležitější specifikací VRAM (Video Random Access Memory) vaší grafické karty. Na rozdíl od her, kde VRAM primárně ukládá textury a vyrovnávací paměti snímků (frame buffers), úlohy umělé inteligence vyžadují VRAM pro:

  1. Váhy modelůMiliardy parametrů, které definují znalosti umělé inteligence
  2. KV mezipaměťPaměť, která roste s délkou konverzace (kontextové okno)
  3. Aktivační paměťDočasné výpočty během inference
  4. Systémová režieCUDA jádra, správa paměti, běhové buffery

Zlatý vzorec:

Required VRAM (GB) = (Parameters in Billions × Precision in Bytes) × 1.2

Examples:
- 8B model @ FP16 (2 bytes):   8 × 2 × 1.2 = ~19.2 GB
- 8B model @ Q4 (0.5 bytes):   8 × 0.5 × 1.2 = ~4.8 GB
- 70B model @ FP16 (2 bytes):  70 × 2 × 1.2 = ~168 GB
- 70B model @ Q4 (0.5 bytes):  70 × 0.5 × 1.2 = ~42 GB

Kvantizační revoluce

Kvantizace je technika, která umožňuje spouštění velkých modelů na spotřebitelském hardwaru. Snížením přesnosti vah modelů z 16 bitů (FP16) na 4 bity (Q4) můžete spouštět modely, které by jinak vyžadovaly podnikový hardware.

Kvantizace Bity na parametr Snížení paměti Dopad na kvalitu
FP16 16 bitů (2 bajtů) Výchozí stav 100%
Q8_0 8 bitů (1 bajt) 50% ~ 99%
Q5_K_M 5 bitů (0.625 bajtů) 68% ~ 97%
Q4_K_M 4 bitů (0.5 bajtů) 75% ~ 95%
Q3_K_M 3 bitů (0.375 bajtů) 81% ~ 90%

Ideální hodnota: Kvantizace Q4_K_M poskytuje 75% úsporu paměti s pouhou ~5% ztrátou kvality – což z ní činí zlatý standard pro spotřebitelské nasazení v roce 2026.


Část 2: Krajina GPU v roce 2026

Řada NVIDIA RTX 50 – nový standard

Architektura Blackwell od společnosti NVIDIA přináší významná vylepšení pro úlohy umělé inteligence:

RTX 5090 — Vlajková loď

Specifikace RTX 5090 RTX 4090 (předchozí generace)
VRAM 32 GB GDDR7 24 GB GDDR6X
Paměťová šířka pásma 1,792 GB / s 1,008 GB / s
CUDA Cores 21,760 16,384
Tenzorová jádra 680 (5. generace) 512 (4. generace)
AI TOPS (INT8) ~ 3,400 ~ 1,300
TDP 575W 450W
PCIe 5.0 x16 4.0 x16
Obvyklá cena $1,999 $1,599

Co vám 32GB VRAM přinese:

  • Qwen3-32B @ Q4_K_M — pohodlně
  • DeepSeek R1 32B @ Q4_K_M — s prostorem pro kontext
  • Lama 4 8B @ FP16 — plná přesnost
  • 70 miliard modelů @ Q4_K_M – s agresivními kontextovými limity

78% zlepšení šířky pásma u RTX 5090 oproti 4090 znamená rychlejší generování tokenů, což je obzvláště důležité pro větší modely, kde se šířka pásma paměti stává úzkým hrdlem.

RTX 5080 — Praktická volba

Specifikace RTX 5080
VRAM 16 GB GDDR7
Paměťová šířka pásma 960 GB / s
CUDA Cores 10,752
Tenzorová jádra 336 (5. generace)
AI TOPS (INT8) ~ 1,801
TDP 360W
Obvyklá cena $999

Co vám 16GB VRAM přinese:

  • Qwen3-14B @ Q4_K_M — skvělý výkon
  • DeepSeek R1 14B @ Q4_K_M — vynikající pro kódování
  • Lama 4 8B @ Q8_0 — vysoká kvalita
  • 32B modely s agresivní kvantizací – možné, ale těsné

RTX 5070 Ti — Budget AI Workhorse

Specifikace RTX 5070 Ti
VRAM 16 GB GDDR7
Paměťová šířka pásma 896 GB / s
CUDA Cores 8,960
Tenzorová jádra 280 (5. generace)
AI TOPS (INT8) ~ 1,406
TDP 300W
Obvyklá cena $749

RTX 5070 Ti nabízí stejnou 16GB VRAM jako 5080 za o 25 % nižší cenu – což z ní činí pravděpodobně nejlepší volbu pro dedikované práce s umělou inteligencí, když rychlost tokenů není kritická.

RTX 5070 — Vstupní bod

Specifikace RTX 5070
VRAM 12 GB GDDR7
Paměťová šířka pásma 672 GB / s
CUDA Cores 6,144
TDP 250W
Obvyklá cena $549

Problém s 12GB: I když je cena RTX 5070 atraktivní, 12GB VRAM představuje značná omezení. S modely s kapacitou 14 GB a více a delšími kontextovými okny narazíte na zdi. Dodatečných 4 GB u 5070 Ti berte jako nezbytnou pojistku.

Předchozí generace je stále životaschopná

RTX 4090 — Stále uchazeč o titul

RTX 4090 s 24GB VRAM zůstává pro AI vynikající. Pokud ji najdete za dobrou cenu, zvládne:

  • 14B modely s vysokou kvantizací
  • Modely 32B v Q4_K_M (těsné)
  • Více modelů 8B současně

RTX 3090 / 3090 Ti — Králové rozpočtu

S 24 GB VRAM (stejně jako 4090) mají tyto starší karty pro AI neuvěřitelnou hodnotu:

  • Pomalejší šířka pásma (936 GB/s)
  • Starší tenzorová jádra (3. generace)
  • Ale stejná kapacita 24 GB

Pokud je na čisté VRAM větší vliv než na rychlost (např. pro dávkové zpracování nebo vývoj), pak použitá 3090 za 700–900 dolarů poráží novou 5070 za 549 dolarů v oblasti úloh s umělou inteligencí.


Část 3: Pochopení omezení PCIe

Realita šířky pásma PCIe

PCIe (Peripheral Component Interconnect Express) je spojnicí mezi vaší grafickou kartou a zbytkem systému. Zde je to, co potřebujete vědět:

Verze PCIe Šířka pásma na linku Celkem x16 Celkem x8 Celkem x4
PCIe 3.0 ~ 1 GB / s ~ 16 GB / s ~ 8 GB / s ~ 4 GB / s
PCIe 4.0 ~ 2 GB / s ~ 32 GB / s ~ 16 GB / s ~ 8 GB / s
PCIe 5.0 ~ 4 GB / s ~ 64 GB / s ~ 32 GB / s ~ 16 GB / s

Kdy na PCIe záleží (a kdy ne)

PCIe je důležité pro:

  • Počáteční načítání modelu (ušetřené minuty u velkých modelů)
  • Komunikace mezi více GPU (kritická pro tenzorový paralelismus)
  • Smíšená inference CPU/GPU (když se model přesune do RAM)

PCIe nemá velký význam pro:

  • Inference pro jeden GPU po načtení modelu
  • Inference malého modelu
  • Dlouhotrvající relace, kde je doba načítání zanedbatelná

Praktický návod:

  • Jedna grafická karta: PCIe 4.0 x8 obvykle postačuje
  • Duální GPU: doporučeno PCIe 4.0 x16/x16 nebo x8/x8
  • Čtyřnásobná grafická karta: doporučeno PCIe 5.0 nebo podnikové platformy

Limity CPU linek podle platformy

Plošina Celkový počet linek PCIe Typická konfigurace
Intel 14. generace (stolní počítač) 20 z CPU + 4 z čipsetu 1 grafická karta x16 + NVMe
AMD Ryzen 9000 24 z procesoru 1 grafická karta x16 + NVMe
AMD Threadripper PRO 128 pruhů 4 grafické karty x16 v každé
Intel Xeon W 64-112 pruhů 2–4 grafické karty x16 každá

Úzké místo spotřebitelské platformy: Většina spotřebitelských procesorů (Intel Core, AMD Ryzen) poskytuje pouze 16–24 PCIe linek z CPU. To znamená:

  • První GPU s plnou x16
  • Přidání druhé grafické karty často nutí obě fungovat na x8/x8
  • Třetí a čtvrtá grafická karta mohou běžet na frekvenci x4

Pro seriózní práci s multi-GPU AI zvažte platformy Threadripper PRO nebo HEDT.


Část 4: Konfigurace s více GPU – Sdružování VRAM

Sen vs. realita

Sen: Zkombinujte 4× RTX 5090 pro 128 GB unifikované VRAM a pohánějte největší modely, jako by byly na H100.

Skutečnost: Je to složité, ale čím dál tím možná.

Jak funguje Multi-GPU pro LLM

Existují dva hlavní přístupy:

Tenzorový paralelismus (TP)

Rozděluje jednotlivé operace (jako je násobení matic) mezi více GPU. Vyžaduje vysokorychlostní komunikaci mezi GPU.

Nejlepší pro: Vysokokapacitní inference, aplikace citlivé na latenci Požadavky: Preferován NVLink, minimálně PCIe 4.0 x8 na GPU Podporováno: vLLM, TensorRT-LLM, DeepSpeed

Paralelismus potrubí (PP)

Rozdělí model do postupných fází, přičemž každá GPU zpracovává jiné vrstvy.

Nejlepší pro: Montáž velkých modelů, dávkové zpracování Požadavky: Střední šířka pásma mezi GPU Podporováno: llama.cpp, Ollama, většina frameworků

NVLink vs. PCIe – Tvrdá pravda

Odkaz NV poskytuje přímou komunikaci mezi grafickými kartami (GPU) rychlostí ~900 GB/s (pro NVLink 4.0). Umožňuje skutečné sdružování paměti, kde mohou grafické karty (GPU) přímo přistupovat k paměti VRAM ostatních.

Problém: Spotřebitelské grafické karty RTX již nepodporují NVLink. Posledními spotřebitelskými grafickými kartami s podporou NVLink byly RTX 3090/3090 Ti (NVLink 3.0 @ 112.5 GB/s obousměrně).

Bez NVLinku používá komunikace mezi více GPU rozhraní PCIe:

  • Mnohem pomalejší (~32–64 GB/s vs. 900 GB/s)
  • Vyšší latence
  • Nelze přímo sdružovat VRAM

Praktický dopad:

Konfigurace Očekávaný výkon
1× RTX 5090 (32 GB) Výchozí stav
2× RTX 5090 přes PCIe ~1.6–1.8x (ne 2x)
2× RTX 3090 přes NVLink ~1.8–1.9násobek
Podnik s NVLink ~1.95x+

Jak zajistit fungování více grafických karet bez NVLinku

Navzdory omezením jsou sestavy s více grafickými procesory na spotřebitelském hardwaru stále praktičtější:

Doporučený software:

  • lama.cppVynikající podpora více grafických karet, rozděluje vrstvy mezi kartami
  • OllamaJednoduché nastavení, automatické rozložení vrstev
  • vLLMVysoce výkonné obsluhování, podpora tenzorového paralelismu
  • exllama2Optimalizováno pro inferenci s více GPU

Tipy pro konfiguraci:

  1. Ujistěte se, že obě grafické karty jsou na stejném uzlu NUMA (ověřte si to pomocí nvidia-smi topo -m)
  2. Pro duální grafické karty použijte minimálně x8/x8 PCIe
  3. sada CUDA_VISIBLE_DEVICES správně
  4. Pokud je to možné, porovnávejte modely GPU (míchání generací funguje, ale může být neefektivní)

Příklady konfigurace s více GPU

Duální RTX 5090 (celkem 64 GB)

Models supported:
- Qwen3-70B @ Q4_K_M (needs ~42GB) ✓
- DeepSeek R1 70B @ Q4_K_M ✓
- Llama 4 70B @ Q4_K_M ✓
- Any 32B model @ FP16 ✓

Performance: ~40-50 tokens/sec on 70B models
Cost: ~$4,000 (GPUs only)
Power: 1,150W peak (GPUs only)

Čtyřnásobná grafická karta RTX 5090 (celkem 128 GB)

Models supported:
- Qwen3-235B-A22B (MoE, ~22B active) ✓
- Any 70B model @ Q8_0 ✓
- 120B+ dense models @ Q4_K_M ✓

Performance: Variable, depends heavily on PCIe topology
Cost: ~$8,000 (GPUs only)
Power: 2,300W peak (GPUs only)
Requires: HEDT/Server platform (Threadripper, Xeon)

Budgetová sestava: Použité dvě grafické karty RTX 3090 (celkem 48 GB)

Models supported:
- Qwen3-32B @ Q4_K_M ✓
- DeepSeek R1 32B @ Q4_K_M ✓
- 70B models @ aggressive Q3 quantization (marginal)

Performance: ~20-30 tokens/sec on 32B models
Cost: ~$1,400-1,800 (GPUs used)
Advantage: NVLink support!

Část 5: Podrobný přehled výkonu operací s plovoucí desetinnou čárkou

Vysvětlení přesných formátů

Moderní umělá inteligence používá různé formáty numerické přesnosti:

Formát Bity Rozsah Použijte pouzdro
FP32 32 ±3.4×10^38 Trénink, vysoká přesnost
FP16 16 ± 65,504 Inference, vyvážená
BF16 16 ±3.4×10^38 Školení, moderní GPU
FP8 8 ±448 (E4M3) Rychlá inference
INT8 8 -128 na 127 Kvantovaná inference
INT4 4 -8 na 7 Agresivní kvantizace

Výhoda Blackwellových FP4 a FP8

Řada RTX 50 zavádí nativní podporu FP4 v jádrech Tensor:

Přesnost RTX 4090 TOPS RTX 5090 TOPS zrychlení
FP16 330 418 1.27x
FP8 660 ~ 1,700 2.6x
FP4 N / A ~ 3,400 Nový
INT8 660 ~ 3,400 5.1x

Co to znamená:

  • Inference FP8 a FP4 je na grafických kartách řady RTX 50 dramaticky rychlejší.
  • Modely optimalizované pro FP8 dosahují masivního zrychlení
  • Generace Tensor Core jsou stejně důležité jako CUDA jádra

Šířka pásma paměti – další úzké hrdlo

U velkých modelů je šířka pásma paměti často důležitější než výpočetní výkon:

Tokeny/sekunda jsou omezeny:

Max Tokens/s = Memory Bandwidth (GB/s) / Bytes per Parameter

RTX 5090 with 70B Q4_K_M model:
1,792 GB/s / 35 GB = ~51 tokens/s theoretical maximum

RTX 4090 with same model:
1,008 GB/s / 35 GB = ~29 tokens/s theoretical maximum

78% zlepšení šířky pásma u RTX 5090 se přímo promítá do rychlejší generace dat u velkých modelů.


Část 6: Krajina open-source modelu – Co spustit

Úroveň 1: Vlajkové modely (doporučeno 32 GB+ VRAM)

Qwen3-235B-A22B (Ministerstvo životního prostředí)

  • Aktivní parametry: 22 miliard (celkem 235 miliard)
  • VRAM ve 4. čtvrtletí: ~28 GB
  • Souvislosti: 32 tisíc nativních verzí, 131 tisíc s YaRN
  • Silné stránky: Matematika, programování, vícejazyčnost (119 jazyků)
  • Nejlepší pro: Univerzální, kódování, výzkum

DeepSeek R1 70B

  • parametry: 70B
  • VRAM ve 4. čtvrtletí: ~42 GB
  • Souvislosti: 128
  • Silné stránky: Uvažování, myšlenkový řetězec, kódování
  • Nejlepší pro: Řešení komplexních problémů, výzkum

Lama 4 70B

  • parametry: 70B
  • VRAM ve 4. čtvrtletí: ~42 GB
  • Souvislosti: 128
  • Silné stránky: Obecné schopnosti, dodržování instrukcí
  • Nejlepší pro: Všestranné aplikace

Úroveň 2: Profesionální modely (16–24 GB VRAM)

Qwen3-32B

  • parametry: 32B
  • VRAM ve 4. čtvrtletí: ~19 GB
  • Souvislosti: 128
  • Silné stránky: Kódování (odpovídá GPT-4o), uvažování
  • Nejlepší pro: Jedna RTX 5090/4090, vývoj

DeepSeek R1 Distill 32B

  • parametry: 32B
  • VRAM ve 4. čtvrtletí: ~19 GB
  • Silné stránky: Úvaha vycházející z širšího modelu
  • Nejlepší pro: Nákladově efektivní uvažování

Gemma 3 27B

  • parametry: 27B
  • VRAM ve 4. čtvrtletí: ~16 GB
  • Souvislosti: 128
  • Silné stránky: Efektivní, kvalita od Googlu, multimodální
  • Nejlepší pro: Sestavení RTX 5080/5070 Ti

Úroveň 3: Spotřebitelské modely (8–16 GB VRAM)

Qwen3-14B

  • parametry: 14B
  • VRAM ve 4. čtvrtletí: ~8.4 GB
  • Souvislosti: 128
  • Silné stránky: Vynikající rovnováha mezi velikostí a schopnostmi
  • Nejlepší pro: RTX 5070 Ti, 4070 Ti, všeobecné použití

Qwen3-8B

  • parametry: 8B
  • VRAM ve 4. čtvrtletí: ~4.8 GB
  • Souvislosti: 32K nativní, 131K rozšířená
  • Silné stránky: Rychlý, schopný, vejde se kamkoli
  • Nejlepší pro: Základní sestavení, aplikace pracující v reálném čase

DeepSeek R1 Distill 14B (základna Qwen)

  • parametry: 14B
  • VRAM ve 4. čtvrtletí: ~8.4 GB
  • Silné stránky: Silné zdůvodnění z destilace
  • Nejlepší pro: Asistenti kódování, řešení problémů

Lama 4 8B

  • parametry: 8B
  • VRAM ve 4. čtvrtletí: ~4.8 GB
  • Silné stránky: Rychlé, všestranné
  • Nejlepší pro: Každodenní úkoly, chatovací aplikace

Úroveň 4: Edge/Embedded (4–8 GB VRAM)

Qwen3-4B

  • parametry: 4B
  • VRAM ve 4. čtvrtletí: ~2.4 GB
  • Silné stránky: Výkonnost rivalů Qwen2.5-7B
  • Nejlepší pro: Notebooky, integrovaná grafika, edge zařízení

Phi-4 (Microsoft)

  • parametry: 14B
  • VRAM ve 4. čtvrtletí: ~8.4 GB
  • Silné stránky: Výjimečná velikost, zaměření na STEM
  • Nejlepší pro: Vzdělávací, technické aplikace

Qwen3-0.6B

  • parametry: 0.6B
  • VRAM ve 4. čtvrtletí: <1 GB
  • Silné stránky: Běží kdekoli
  • Nejlepší pro: IoT, mobilní zařízení, prostředí s velmi nízkými nároky na zdroje

Vývojový diagram výběru modelu

What's your primary VRAM capacity?

├─ 32GB+ (RTX 5090, Dual 3090s)
│   └─ Qwen3-235B-A22B or DeepSeek R1 70B @ Q4
├─ 24GB (RTX 4090, 3090)
│   └─ Qwen3-32B @ Q4 or DeepSeek R1 32B @ Q4
├─ 16GB (RTX 5080, 5070 Ti, 4080)
│   └─ Qwen3-14B @ Q4 or Gemma 3 27B @ Q4
├─ 12GB (RTX 5070, 4070 Ti)
│   └─ Qwen3-8B @ Q4 or Llama 4 8B @ Q4
└─ 8GB (RTX 4070, 3070)
    └─ Qwen3-4B @ Q4 or Phi-4 @ aggressive quant

Část 7: Kompletní doporučení pro sestavení systému

Sestavení 1: Vstupní bod (1 200–1 500 USD)

Případ použití: Osobní asistent s umělou inteligencí, pomoc s kódováním, experimentování

Složka Doporučení Poznámky
GPU RTX 5070 Ti (16GB) Nejlepší hodnota za 16 GB
Procesor (CPU) AMD Ryzen 7 9700X 8 jader, PCIe 5.0
RAM 32GB DDR5-6000 Vyrovnávací paměť pro načítání modelu
Skladování 2TB NVMe PCIe 4.0 Rychlé načítání modelu
PSU 750W 80+ Gold Dostatečný prostor nad hlavou
Základní deska B650 s PCIe 5.0 Budoucnost

Může běžet:

  • Qwen3-14B @ Q4 (~8.4 GB) — vynikající
  • DeepSeek R1 14B @ Q4 – vynikající
  • Qwen3-32B @ Q3 (agresivní) — možné, ale těsné
  • Více modelů 8B současně

Odhadovaný výkon: 35–50 tokenů/s s modely 14B


Sestavení 2: Ideální místo pro proslumery (3 500–4 500 USD)

Případ použití: Profesní rozvoj, výzkum, tvorba obsahu

Složka Doporučení Poznámky
GPU RTX 5090 (32 GB) Maximální paměť VRAM pro jeden GPU
Procesor (CPU) AMD Ryzen 9 9950X 16 jader, vysoký single-thread
RAM 64GB DDR5-6400 Velká kontextová okna
Skladování 4TB NVMe Gen4 Knihovna modelů
PSU 1000W 80+ Gold Vyžadováno pro 575W grafickou kartu
Základní deska X670E Kompletní sada funkcí

Může běžet:

  • Qwen3-32B @ Q4 — pohodlná s 13GB rezervou
  • DeepSeek R1 32B @ Q6 — vyšší kvalita
  • Qwen3-235B-A22B @ Q4 — těsné, ale funguje
  • Jakýkoli model pod 32B ve vysoké kvalitě

Odhadovaný výkon: 50–80 tokenů/s s modely 32B


Sestavení 3: Lokální server s umělou inteligencí (7 000–10 000 USD)

Případ použití: Server pro týmové inference, experimentování s modely, produkční úlohy

Složka Doporučení Poznámky
GPU 2× RTX 5090 (celkem 64 GB) Tenzorový paralelismus připraven
Procesor (CPU) AMD Threadripper 7960x 24 jader, 48 drah
RAM 128GB DDR5-5600 ECC Korekce chyb pro spolehlivost
Skladování 8TB NVMe RAID 0 Rychlé přepínání modelů
PSU 1600W 80+ Titanium Duální GPU headroom
Základní deska TRX50 Plná podpora PCIe linek
Chlazení Vlastní smyčka řízení teploty

Může běžet:

  • DeepSeek R1 70B @ Q4 – plný výkon
  • Qwen3-235B-A22B @ Q4 – vynikající
  • Jakýkoli model s parametry pod 120B
  • Více 32B modelů pro A/B testování

Odhadovaný výkon: 40–50 tokenů/s s modely 70B


Sestavení 4: Budget Lab (trh s ojetými vozy za 2 000–2 500 dolarů)

Případ použití: Nadšenec pro učení, rozvoj a úspory

Složka Doporučení Poznámky
GPU 2× RTX 3090 (celkem 48 GB) Podporuje NVLink!
Procesor (CPU) AMD Ryzen 9 5950X Hodnota předchozí generace
RAM 64GB DDR4-3600 Stále schopný
Skladování 2 TB NVMe Úložiště modelů
PSU 1200W 80+ Gold Dvě grafické karty s výkonem 350 W
Základní deska X570 s 2× x16 Podpora NVLinku
Most NVLink RTX 3090 NVLink Použito ~80 dolarů

Výhoda NVLinku: Toto je jediná spotřebitelská konfigurace s podporou NVLink, která poskytuje skutečné sdružování VRAM s rychlostí 112.5 GB/s oproti ~32 GB/s u PCIe.

Může běžet:

  • Qwen3-32B @ Q8 (vyšší kvalita) – pohodlné
  • DeepSeek R1 32B @ FP16 – s pečlivou správou kontextu
  • Modely 70B @ agresivní Q3 – možné

Odhadovaný výkon: 25–35 tokenů/s s modely 32B (rychlejší, než se očekávalo díky NVLink)


Sestavení 5: Přenosný výkonný počítač (notebook)

Případ použití: Vývoj mobilní umělé inteligence, inference za pochodu

Spec Doporučení
GPU Mobilní RTX 5090 (24 GB)
Procesor (CPU) Intel Core Ultra 9 / AMD Ryzen 9
RAM 64GB
Skladování 2 TB NVMe
Display 16 "2560 × 1600

Pozoruhodné modely:

  • ASUS ROG Strix SCAR 18 (2026)
  • Razer Blade 18 (2026)
  • MSI Titan GT78 (2026)

Může běžet:

  • Qwen3-14B @ Q4 – výborně
  • DeepSeek R1 14B @ Q4 – vynikající
  • Qwen3-32B @ Q4 – těsné, ale funguje

Poznámka: Mobilní RTX 5090 má 24 GB (ne 32 GB) a nižší TDP. Očekávejte ~70 % výkonu stolního počítače.


Část 8: Doporučení pro softwarový stack

Základní nástroje

Ollama — Snadné tlačítko

praštit
# Install
curl -fsSL https://ollama.ai/install.sh | sh

# Run Qwen3 8B
ollama run qwen3:8b

# Run with specific quantization
ollama run qwen3:14b-q4_K_M

# Multi-GPU (automatic)
CUDA_VISIBLE_DEVICES=0,1 ollama run qwen3:32b

Nejlepší pro: Začínáme, jednoduché nasazení, poskytování API

LM Studio — Zážitek z grafického rozhraní

  • Prohlížeč vizuálních modelů
  • Stahování jedním kliknutím
  • Vestavěné rozhraní pro chat
  • Výběr kvantizace

Nejlepší pro: Netechničtí uživatelé, průzkum modelů

llama.cpp — Maximální kontrola

praštit
# Build with CUDA
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

# Run with multi-GPU
./llama-server -m qwen3-32b-q4_k_m.gguf \
  -ngl 99 \
  --tensor-split 0.5,0.5 \
  -c 8192

Nejlepší pro: Pokročilí uživatelé, vlastní nasazení, maximální výkon

vLLM — Produkční služby

praštit
# Install
pip install vllm

# Serve with tensor parallelism
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3-32B \
  --tensor-parallel-size 2 \
  --dtype auto

Nejlepší pro: Vysokokapacitní obsluha, koncové body API, produkce

Zdroje modelů

Zdroj URL Poznámky
Objímání obličeje huggingface.co Oficiální vydání
Ollamova knihovna ollama.com/knihovna Předkvantizované, snadné
TheBloke (HF) huggingface.co/TheBloke Kvantizace GGUF
Centrum studia LM lmstudio.ai Vybraný výběr

Část 9: Tipy pro optimalizaci

Optimalizace VRAM

  1. Použijte kvantizaci Q4_K_M — Nejlepší poměr velikosti a kvality
  2. Omezení délky kontextu — 8K místo 32K šetří ~40 % VRAM
  3. Zakázat mezipaměť KV pro jednorázové výzvy
  4. Použijte bleskovou pozornost 2 — Snižuje paměť pro dlouhé kontexty
  5. Povolit paměťově efektivní inferenci ve vLLM

Optimalizace rychlosti

  1. Maximalizace šířky pásma paměti GPU — Rychlejší RAM = rychlejší tokeny
  2. Použijte FP8, pokud je k dispozici — 2–3násobné zrychlení na grafických kartách řady RTX 50
  3. Povolit spekulativní dekódování — Použijte malý model k urychlení velkých
  4. Dávkové požadavky — Vyšší propustnost pro obsluhu
  5. Používejte kontinuální dávkování (vLLM) — Dynamické zpracování požadavků

Optimalizace pro více GPU

  1. Shoda modelů GPU — Vyhněte se míšení generací
  2. Zkontrolujte topologii NUMA — Stejný uzel = nižší latence
  3. Použijte minimálně 8 pruhů — x4 vytváří úzká hrdla
  4. Monitor s nvidia-smi — Dávejte pozor na nevyvážené využití
  5. Otestujte různé konfigurace TP/PP — Optimální hodnota se liší podle modelu

Část 10: Řešení běžných problémů

"CUDA má nedostatek paměti"

Příčiny:

  • Model je pro VRAM příliš velký
  • Kontextové okno je příliš dlouhé
  • Růst mezipaměti KV

Řešení:

  1. Použijte agresivnější kvantizaci (Q4 → Q3)
  2. Zkrácení délky kontextu
  3. Snížení velikosti dávky
  4. Povolit bleskovou pozornost
  5. Rozděleno mezi více GPU

Pomalé generování tokenů

Příčiny:

  • Omezená šířka pásma paměti
  • Odlehčení CPU je aktivní
  • Thermal škrcení

Řešení:

  1. Zajistěte, aby se model kompletně vešel do VRAM
  2. Zkontrolujte teplotu GPU (cílová teplota <85 °C)
  3. Použijte menší model
  4. Povolit režim výkonu GPU
  5. Zlepšení proudění vzduchu v skříni

Více GPU se neškáluje

Příčiny:

  • Úzké hrdlo šířky pásma PCIe
  • Nesprávné rozdělení vrstev
  • Problémy se vzdáleností NUMA

Řešení:

  1. Kontrola nvidia-smi topo -m pro topologii
  2. Úprava poměrů rozdělení tenzorů
  3. Zajistěte x8+ PCIe na GPU
  4. Zvažte NVLink (RTX 3090)
  5. Použijte paralelismus kanálu místo tenzoru

Závěr: Správná volba

Budování lokálního systému umělé inteligence v roce 2026 je dostupnější než kdy dříve. Zde je shrnutí:

Rychlá doporučení:

Rozpočet Nejlepší volba Klíčová výhoda
$ 500 800- Použitá RTX 3090 24 GB VRAM, podpora NVLink
$ 750 1000- RTX 5070 Ti Nová, 16GB, efektivní
$ 1000 1500- RTX 5080 16 GB, rychlejší
$ 2000 + RTX 5090 32GB, vlajková loď
$ 4000 + Duální RTX 5090 Modely s 64 GB a 70 GB

Zlatá pravidla:

  1. VRAM > Všechno ostatní — Více paměti = více modelových možností
  2. Kvantizace je váš přítel — Q4_K_M je ideální volbou
  3. Multi-GPU má klesající návratnost — Bez NVLinku očekávejte ~1.6x z 2 GPU
  4. Šířka pásma paměti je důležitá — Zejména pro velké modely
  5. Začněte v malém, postupně se rozšiřujte — Před investicí otestujte své pracovní zátěže

Ekosystém open-source umělé inteligence se rychle rozvíjí. Modely, které před dvěma lety vyžadovaly hardware za 100 tisíc dolarů, nyní běží na systémech za 2 tisíce dolarů. Ať už dnes postavíte cokoli, bude to s rostoucí efektivitou modelů jen narůstat.

Vítejte ve věku osobní umělé inteligence.


Doporučení k hardwaru a jeho dostupnost naleznete na Kentino.com


Dodatek: Stručné referenční tabulky

Požadavky na VRAM modelu (Q4_K_M)

Model parametry VRAM ve 4. čtvrtletí Minimální grafický procesor
Qwen3-0.6B 0.6B ~0.5 GB Žádný
Qwen3-4B 4B ~2.4 GB GTX 1650
Qwen3-8B 8B ~4.8 GB RTX 3060
Qwen3-14B 14B ~8.4 GB RTX 4070
Qwen3-32B 32B ~19 GB RTX 4090
Qwen3-235B-A22B 235B (22B aktivní) ~28 GB RTX 5090
DeepSeek R1 70B 70B ~42 GB 2× RTX 5090
Lama 4 405B 405B ~243 GB 8× RTX 5090

Porovnání GPU pro AI

GPU VRAM Šířka pásma AI TOPS TDP Obvyklá cena
RTX 5090 32GB 1,792 GB / s ~ 3,400 575W $1,999
RTX 5080 16GB 960 GB / s ~ 1,801 360W $999
RTX 5070 Ti 16GB 896 GB / s ~ 1,406 300W $749
RTX 5070 12GB 672 GB / s ~ 988 250W $549
RTX 4090 24GB 1,008 GB / s ~ 1,300 450W $1,599
RTX 3090 24GB 936 GB / s ~ 285 350W Použito ~800 dolarů

Poslední aktualizace: leden 2026 Článek připravil technický tým Kentino

Zpět na blog