Vytvoření vlastního systému umělé inteligence: Kompletní průvodce spotřebitelským hardwarem GPU pro lokální LLM pro rok 2026
Sdílet
Hloubkový pohled na omezení VRAM, sdružování více GPU, omezení PCIe a výkon s plovoucí desetinnou čárkou
Technický tým Kentino.com | leden 2026
Úvod: Proč si vytvořit vlastní systém umělé inteligence?
Revoluce umělé inteligence se už neděje jen v datových centrech. S modely s otevřeným zdrojovým kódem, jako jsou DeepSeek R1, Qwen 3, Llama 4 a Gemma, které dosahují nebývalých možností, se provozování výkonné umělé inteligence lokálně stalo nejen možným, ale i praktickým.
Ale tady je háček, který vám nikdo neřekne: VRAM je král a všechno ostatní je kompromis.
Tato příručka vás provede od zmateného kupce grafických karet (GPU) k informovanému architektovi systémů s umělou inteligencí. Probereme vše od sestav s jednou grafickou kartou s modely o 8 miliardách parametrů až po konfigurace s více grafickými kartami schopné zvládnout giganty s více než 70 miliardami parametrů. Ať už stavíte programátorského asistenta, výzkumnou pracovní stanici nebo soukromý server s umělou inteligencí, tato příručka vás provede všemi potřebnými funkcemi.
Část 1: Pochopení VRAM – aktuální hodnota umělé inteligence
Proč je VRAM důležitější než cokoli jiného
Při spouštění modelů s velkým jazykem LLM (Large Language Models) je nejdůležitější specifikací VRAM (Video Random Access Memory) vaší grafické karty. Na rozdíl od her, kde VRAM primárně ukládá textury a vyrovnávací paměti snímků (frame buffers), úlohy umělé inteligence vyžadují VRAM pro:
- Váhy modelůMiliardy parametrů, které definují znalosti umělé inteligence
- KV mezipaměťPaměť, která roste s délkou konverzace (kontextové okno)
- Aktivační paměťDočasné výpočty během inference
- Systémová režieCUDA jádra, správa paměti, běhové buffery
Zlatý vzorec:
Required VRAM (GB) = (Parameters in Billions × Precision in Bytes) × 1.2
Examples:
- 8B model @ FP16 (2 bytes): 8 × 2 × 1.2 = ~19.2 GB
- 8B model @ Q4 (0.5 bytes): 8 × 0.5 × 1.2 = ~4.8 GB
- 70B model @ FP16 (2 bytes): 70 × 2 × 1.2 = ~168 GB
- 70B model @ Q4 (0.5 bytes): 70 × 0.5 × 1.2 = ~42 GB
Kvantizační revoluce
Kvantizace je technika, která umožňuje spouštění velkých modelů na spotřebitelském hardwaru. Snížením přesnosti vah modelů z 16 bitů (FP16) na 4 bity (Q4) můžete spouštět modely, které by jinak vyžadovaly podnikový hardware.
| Kvantizace | Bity na parametr | Snížení paměti | Dopad na kvalitu |
|---|---|---|---|
| FP16 | 16 bitů (2 bajtů) | Výchozí stav | 100% |
| Q8_0 | 8 bitů (1 bajt) | 50% | ~ 99% |
| Q5_K_M | 5 bitů (0.625 bajtů) | 68% | ~ 97% |
| Q4_K_M | 4 bitů (0.5 bajtů) | 75% | ~ 95% |
| Q3_K_M | 3 bitů (0.375 bajtů) | 81% | ~ 90% |
Ideální hodnota: Kvantizace Q4_K_M poskytuje 75% úsporu paměti s pouhou ~5% ztrátou kvality – což z ní činí zlatý standard pro spotřebitelské nasazení v roce 2026.
Část 2: Krajina GPU v roce 2026
Řada NVIDIA RTX 50 – nový standard
Architektura Blackwell od společnosti NVIDIA přináší významná vylepšení pro úlohy umělé inteligence:
RTX 5090 — Vlajková loď
| Specifikace | RTX 5090 | RTX 4090 (předchozí generace) |
|---|---|---|
| VRAM | 32 GB GDDR7 | 24 GB GDDR6X |
| Paměťová šířka pásma | 1,792 GB / s | 1,008 GB / s |
| CUDA Cores | 21,760 | 16,384 |
| Tenzorová jádra | 680 (5. generace) | 512 (4. generace) |
| AI TOPS (INT8) | ~ 3,400 | ~ 1,300 |
| TDP | 575W | 450W |
| PCIe | 5.0 x16 | 4.0 x16 |
| Obvyklá cena | $1,999 | $1,599 |
Co vám 32GB VRAM přinese:
- Qwen3-32B @ Q4_K_M — pohodlně
- DeepSeek R1 32B @ Q4_K_M — s prostorem pro kontext
- Lama 4 8B @ FP16 — plná přesnost
- 70 miliard modelů @ Q4_K_M – s agresivními kontextovými limity
78% zlepšení šířky pásma u RTX 5090 oproti 4090 znamená rychlejší generování tokenů, což je obzvláště důležité pro větší modely, kde se šířka pásma paměti stává úzkým hrdlem.
RTX 5080 — Praktická volba
| Specifikace | RTX 5080 |
|---|---|
| VRAM | 16 GB GDDR7 |
| Paměťová šířka pásma | 960 GB / s |
| CUDA Cores | 10,752 |
| Tenzorová jádra | 336 (5. generace) |
| AI TOPS (INT8) | ~ 1,801 |
| TDP | 360W |
| Obvyklá cena | $999 |
Co vám 16GB VRAM přinese:
- Qwen3-14B @ Q4_K_M — skvělý výkon
- DeepSeek R1 14B @ Q4_K_M — vynikající pro kódování
- Lama 4 8B @ Q8_0 — vysoká kvalita
- 32B modely s agresivní kvantizací – možné, ale těsné
RTX 5070 Ti — Budget AI Workhorse
| Specifikace | RTX 5070 Ti |
|---|---|
| VRAM | 16 GB GDDR7 |
| Paměťová šířka pásma | 896 GB / s |
| CUDA Cores | 8,960 |
| Tenzorová jádra | 280 (5. generace) |
| AI TOPS (INT8) | ~ 1,406 |
| TDP | 300W |
| Obvyklá cena | $749 |
RTX 5070 Ti nabízí stejnou 16GB VRAM jako 5080 za o 25 % nižší cenu – což z ní činí pravděpodobně nejlepší volbu pro dedikované práce s umělou inteligencí, když rychlost tokenů není kritická.
RTX 5070 — Vstupní bod
| Specifikace | RTX 5070 |
|---|---|
| VRAM | 12 GB GDDR7 |
| Paměťová šířka pásma | 672 GB / s |
| CUDA Cores | 6,144 |
| TDP | 250W |
| Obvyklá cena | $549 |
Problém s 12GB: I když je cena RTX 5070 atraktivní, 12GB VRAM představuje značná omezení. S modely s kapacitou 14 GB a více a delšími kontextovými okny narazíte na zdi. Dodatečných 4 GB u 5070 Ti berte jako nezbytnou pojistku.
Předchozí generace je stále životaschopná
RTX 4090 — Stále uchazeč o titul
RTX 4090 s 24GB VRAM zůstává pro AI vynikající. Pokud ji najdete za dobrou cenu, zvládne:
- 14B modely s vysokou kvantizací
- Modely 32B v Q4_K_M (těsné)
- Více modelů 8B současně
RTX 3090 / 3090 Ti — Králové rozpočtu
S 24 GB VRAM (stejně jako 4090) mají tyto starší karty pro AI neuvěřitelnou hodnotu:
- Pomalejší šířka pásma (936 GB/s)
- Starší tenzorová jádra (3. generace)
- Ale stejná kapacita 24 GB
Pokud je na čisté VRAM větší vliv než na rychlost (např. pro dávkové zpracování nebo vývoj), pak použitá 3090 za 700–900 dolarů poráží novou 5070 za 549 dolarů v oblasti úloh s umělou inteligencí.
Část 3: Pochopení omezení PCIe
Realita šířky pásma PCIe
PCIe (Peripheral Component Interconnect Express) je spojnicí mezi vaší grafickou kartou a zbytkem systému. Zde je to, co potřebujete vědět:
| Verze PCIe | Šířka pásma na linku | Celkem x16 | Celkem x8 | Celkem x4 |
|---|---|---|---|---|
| PCIe 3.0 | ~ 1 GB / s | ~ 16 GB / s | ~ 8 GB / s | ~ 4 GB / s |
| PCIe 4.0 | ~ 2 GB / s | ~ 32 GB / s | ~ 16 GB / s | ~ 8 GB / s |
| PCIe 5.0 | ~ 4 GB / s | ~ 64 GB / s | ~ 32 GB / s | ~ 16 GB / s |
Kdy na PCIe záleží (a kdy ne)
PCIe je důležité pro:
- Počáteční načítání modelu (ušetřené minuty u velkých modelů)
- Komunikace mezi více GPU (kritická pro tenzorový paralelismus)
- Smíšená inference CPU/GPU (když se model přesune do RAM)
PCIe nemá velký význam pro:
- Inference pro jeden GPU po načtení modelu
- Inference malého modelu
- Dlouhotrvající relace, kde je doba načítání zanedbatelná
Praktický návod:
- Jedna grafická karta: PCIe 4.0 x8 obvykle postačuje
- Duální GPU: doporučeno PCIe 4.0 x16/x16 nebo x8/x8
- Čtyřnásobná grafická karta: doporučeno PCIe 5.0 nebo podnikové platformy
Limity CPU linek podle platformy
| Plošina | Celkový počet linek PCIe | Typická konfigurace |
|---|---|---|
| Intel 14. generace (stolní počítač) | 20 z CPU + 4 z čipsetu | 1 grafická karta x16 + NVMe |
| AMD Ryzen 9000 | 24 z procesoru | 1 grafická karta x16 + NVMe |
| AMD Threadripper PRO | 128 pruhů | 4 grafické karty x16 v každé |
| Intel Xeon W | 64-112 pruhů | 2–4 grafické karty x16 každá |
Úzké místo spotřebitelské platformy: Většina spotřebitelských procesorů (Intel Core, AMD Ryzen) poskytuje pouze 16–24 PCIe linek z CPU. To znamená:
- První GPU s plnou x16
- Přidání druhé grafické karty často nutí obě fungovat na x8/x8
- Třetí a čtvrtá grafická karta mohou běžet na frekvenci x4
Pro seriózní práci s multi-GPU AI zvažte platformy Threadripper PRO nebo HEDT.
Část 4: Konfigurace s více GPU – Sdružování VRAM
Sen vs. realita
Sen: Zkombinujte 4× RTX 5090 pro 128 GB unifikované VRAM a pohánějte největší modely, jako by byly na H100.
Skutečnost: Je to složité, ale čím dál tím možná.
Jak funguje Multi-GPU pro LLM
Existují dva hlavní přístupy:
Tenzorový paralelismus (TP)
Rozděluje jednotlivé operace (jako je násobení matic) mezi více GPU. Vyžaduje vysokorychlostní komunikaci mezi GPU.
Nejlepší pro: Vysokokapacitní inference, aplikace citlivé na latenci Požadavky: Preferován NVLink, minimálně PCIe 4.0 x8 na GPU Podporováno: vLLM, TensorRT-LLM, DeepSpeed
Paralelismus potrubí (PP)
Rozdělí model do postupných fází, přičemž každá GPU zpracovává jiné vrstvy.
Nejlepší pro: Montáž velkých modelů, dávkové zpracování Požadavky: Střední šířka pásma mezi GPU Podporováno: llama.cpp, Ollama, většina frameworků
NVLink vs. PCIe – Tvrdá pravda
Odkaz NV poskytuje přímou komunikaci mezi grafickými kartami (GPU) rychlostí ~900 GB/s (pro NVLink 4.0). Umožňuje skutečné sdružování paměti, kde mohou grafické karty (GPU) přímo přistupovat k paměti VRAM ostatních.
Problém: Spotřebitelské grafické karty RTX již nepodporují NVLink. Posledními spotřebitelskými grafickými kartami s podporou NVLink byly RTX 3090/3090 Ti (NVLink 3.0 @ 112.5 GB/s obousměrně).
Bez NVLinku používá komunikace mezi více GPU rozhraní PCIe:
- Mnohem pomalejší (~32–64 GB/s vs. 900 GB/s)
- Vyšší latence
- Nelze přímo sdružovat VRAM
Praktický dopad:
| Konfigurace | Očekávaný výkon |
|---|---|
| 1× RTX 5090 (32 GB) | Výchozí stav |
| 2× RTX 5090 přes PCIe | ~1.6–1.8x (ne 2x) |
| 2× RTX 3090 přes NVLink | ~1.8–1.9násobek |
| Podnik s NVLink | ~1.95x+ |
Jak zajistit fungování více grafických karet bez NVLinku
Navzdory omezením jsou sestavy s více grafickými procesory na spotřebitelském hardwaru stále praktičtější:
Doporučený software:
- lama.cppVynikající podpora více grafických karet, rozděluje vrstvy mezi kartami
- OllamaJednoduché nastavení, automatické rozložení vrstev
- vLLMVysoce výkonné obsluhování, podpora tenzorového paralelismu
- exllama2Optimalizováno pro inferenci s více GPU
Tipy pro konfiguraci:
- Ujistěte se, že obě grafické karty jsou na stejném uzlu NUMA (ověřte si to pomocí
nvidia-smi topo -m) - Pro duální grafické karty použijte minimálně x8/x8 PCIe
- sada
CUDA_VISIBLE_DEVICESsprávně - Pokud je to možné, porovnávejte modely GPU (míchání generací funguje, ale může být neefektivní)
Příklady konfigurace s více GPU
Duální RTX 5090 (celkem 64 GB)
Models supported:
- Qwen3-70B @ Q4_K_M (needs ~42GB) ✓
- DeepSeek R1 70B @ Q4_K_M ✓
- Llama 4 70B @ Q4_K_M ✓
- Any 32B model @ FP16 ✓
Performance: ~40-50 tokens/sec on 70B models
Cost: ~$4,000 (GPUs only)
Power: 1,150W peak (GPUs only)
Čtyřnásobná grafická karta RTX 5090 (celkem 128 GB)
Models supported:
- Qwen3-235B-A22B (MoE, ~22B active) ✓
- Any 70B model @ Q8_0 ✓
- 120B+ dense models @ Q4_K_M ✓
Performance: Variable, depends heavily on PCIe topology
Cost: ~$8,000 (GPUs only)
Power: 2,300W peak (GPUs only)
Requires: HEDT/Server platform (Threadripper, Xeon)
Budgetová sestava: Použité dvě grafické karty RTX 3090 (celkem 48 GB)
Models supported:
- Qwen3-32B @ Q4_K_M ✓
- DeepSeek R1 32B @ Q4_K_M ✓
- 70B models @ aggressive Q3 quantization (marginal)
Performance: ~20-30 tokens/sec on 32B models
Cost: ~$1,400-1,800 (GPUs used)
Advantage: NVLink support!
Část 5: Podrobný přehled výkonu operací s plovoucí desetinnou čárkou
Vysvětlení přesných formátů
Moderní umělá inteligence používá různé formáty numerické přesnosti:
| Formát | Bity | Rozsah | Použijte pouzdro |
|---|---|---|---|
| FP32 | 32 | ±3.4×10^38 | Trénink, vysoká přesnost |
| FP16 | 16 | ± 65,504 | Inference, vyvážená |
| BF16 | 16 | ±3.4×10^38 | Školení, moderní GPU |
| FP8 | 8 | ±448 (E4M3) | Rychlá inference |
| INT8 | 8 | -128 na 127 | Kvantovaná inference |
| INT4 | 4 | -8 na 7 | Agresivní kvantizace |
Výhoda Blackwellových FP4 a FP8
Řada RTX 50 zavádí nativní podporu FP4 v jádrech Tensor:
| Přesnost | RTX 4090 TOPS | RTX 5090 TOPS | zrychlení |
|---|---|---|---|
| FP16 | 330 | 418 | 1.27x |
| FP8 | 660 | ~ 1,700 | 2.6x |
| FP4 | N / A | ~ 3,400 | Nový |
| INT8 | 660 | ~ 3,400 | 5.1x |
Co to znamená:
- Inference FP8 a FP4 je na grafických kartách řady RTX 50 dramaticky rychlejší.
- Modely optimalizované pro FP8 dosahují masivního zrychlení
- Generace Tensor Core jsou stejně důležité jako CUDA jádra
Šířka pásma paměti – další úzké hrdlo
U velkých modelů je šířka pásma paměti často důležitější než výpočetní výkon:
Tokeny/sekunda jsou omezeny:
Max Tokens/s = Memory Bandwidth (GB/s) / Bytes per Parameter
RTX 5090 with 70B Q4_K_M model:
1,792 GB/s / 35 GB = ~51 tokens/s theoretical maximum
RTX 4090 with same model:
1,008 GB/s / 35 GB = ~29 tokens/s theoretical maximum
78% zlepšení šířky pásma u RTX 5090 se přímo promítá do rychlejší generace dat u velkých modelů.
Část 6: Krajina open-source modelu – Co spustit
Úroveň 1: Vlajkové modely (doporučeno 32 GB+ VRAM)
Qwen3-235B-A22B (Ministerstvo životního prostředí)
- Aktivní parametry: 22 miliard (celkem 235 miliard)
- VRAM ve 4. čtvrtletí: ~28 GB
- Souvislosti: 32 tisíc nativních verzí, 131 tisíc s YaRN
- Silné stránky: Matematika, programování, vícejazyčnost (119 jazyků)
- Nejlepší pro: Univerzální, kódování, výzkum
DeepSeek R1 70B
- parametry: 70B
- VRAM ve 4. čtvrtletí: ~42 GB
- Souvislosti: 128
- Silné stránky: Uvažování, myšlenkový řetězec, kódování
- Nejlepší pro: Řešení komplexních problémů, výzkum
Lama 4 70B
- parametry: 70B
- VRAM ve 4. čtvrtletí: ~42 GB
- Souvislosti: 128
- Silné stránky: Obecné schopnosti, dodržování instrukcí
- Nejlepší pro: Všestranné aplikace
Úroveň 2: Profesionální modely (16–24 GB VRAM)
Qwen3-32B
- parametry: 32B
- VRAM ve 4. čtvrtletí: ~19 GB
- Souvislosti: 128
- Silné stránky: Kódování (odpovídá GPT-4o), uvažování
- Nejlepší pro: Jedna RTX 5090/4090, vývoj
DeepSeek R1 Distill 32B
- parametry: 32B
- VRAM ve 4. čtvrtletí: ~19 GB
- Silné stránky: Úvaha vycházející z širšího modelu
- Nejlepší pro: Nákladově efektivní uvažování
Gemma 3 27B
- parametry: 27B
- VRAM ve 4. čtvrtletí: ~16 GB
- Souvislosti: 128
- Silné stránky: Efektivní, kvalita od Googlu, multimodální
- Nejlepší pro: Sestavení RTX 5080/5070 Ti
Úroveň 3: Spotřebitelské modely (8–16 GB VRAM)
Qwen3-14B
- parametry: 14B
- VRAM ve 4. čtvrtletí: ~8.4 GB
- Souvislosti: 128
- Silné stránky: Vynikající rovnováha mezi velikostí a schopnostmi
- Nejlepší pro: RTX 5070 Ti, 4070 Ti, všeobecné použití
Qwen3-8B
- parametry: 8B
- VRAM ve 4. čtvrtletí: ~4.8 GB
- Souvislosti: 32K nativní, 131K rozšířená
- Silné stránky: Rychlý, schopný, vejde se kamkoli
- Nejlepší pro: Základní sestavení, aplikace pracující v reálném čase
DeepSeek R1 Distill 14B (základna Qwen)
- parametry: 14B
- VRAM ve 4. čtvrtletí: ~8.4 GB
- Silné stránky: Silné zdůvodnění z destilace
- Nejlepší pro: Asistenti kódování, řešení problémů
Lama 4 8B
- parametry: 8B
- VRAM ve 4. čtvrtletí: ~4.8 GB
- Silné stránky: Rychlé, všestranné
- Nejlepší pro: Každodenní úkoly, chatovací aplikace
Úroveň 4: Edge/Embedded (4–8 GB VRAM)
Qwen3-4B
- parametry: 4B
- VRAM ve 4. čtvrtletí: ~2.4 GB
- Silné stránky: Výkonnost rivalů Qwen2.5-7B
- Nejlepší pro: Notebooky, integrovaná grafika, edge zařízení
Phi-4 (Microsoft)
- parametry: 14B
- VRAM ve 4. čtvrtletí: ~8.4 GB
- Silné stránky: Výjimečná velikost, zaměření na STEM
- Nejlepší pro: Vzdělávací, technické aplikace
Qwen3-0.6B
- parametry: 0.6B
- VRAM ve 4. čtvrtletí: <1 GB
- Silné stránky: Běží kdekoli
- Nejlepší pro: IoT, mobilní zařízení, prostředí s velmi nízkými nároky na zdroje
Vývojový diagram výběru modelu
What's your primary VRAM capacity?
├─ 32GB+ (RTX 5090, Dual 3090s)
│ └─ Qwen3-235B-A22B or DeepSeek R1 70B @ Q4
│
├─ 24GB (RTX 4090, 3090)
│ └─ Qwen3-32B @ Q4 or DeepSeek R1 32B @ Q4
│
├─ 16GB (RTX 5080, 5070 Ti, 4080)
│ └─ Qwen3-14B @ Q4 or Gemma 3 27B @ Q4
│
├─ 12GB (RTX 5070, 4070 Ti)
│ └─ Qwen3-8B @ Q4 or Llama 4 8B @ Q4
│
└─ 8GB (RTX 4070, 3070)
└─ Qwen3-4B @ Q4 or Phi-4 @ aggressive quant
Část 7: Kompletní doporučení pro sestavení systému
Sestavení 1: Vstupní bod (1 200–1 500 USD)
Případ použití: Osobní asistent s umělou inteligencí, pomoc s kódováním, experimentování
| Složka | Doporučení | Poznámky |
|---|---|---|
| GPU | RTX 5070 Ti (16GB) | Nejlepší hodnota za 16 GB |
| Procesor (CPU) | AMD Ryzen 7 9700X | 8 jader, PCIe 5.0 |
| RAM | 32GB DDR5-6000 | Vyrovnávací paměť pro načítání modelu |
| Skladování | 2TB NVMe PCIe 4.0 | Rychlé načítání modelu |
| PSU | 750W 80+ Gold | Dostatečný prostor nad hlavou |
| Základní deska | B650 s PCIe 5.0 | Budoucnost |
Může běžet:
- Qwen3-14B @ Q4 (~8.4 GB) — vynikající
- DeepSeek R1 14B @ Q4 – vynikající
- Qwen3-32B @ Q3 (agresivní) — možné, ale těsné
- Více modelů 8B současně
Odhadovaný výkon: 35–50 tokenů/s s modely 14B
Sestavení 2: Ideální místo pro proslumery (3 500–4 500 USD)
Případ použití: Profesní rozvoj, výzkum, tvorba obsahu
| Složka | Doporučení | Poznámky |
|---|---|---|
| GPU | RTX 5090 (32 GB) | Maximální paměť VRAM pro jeden GPU |
| Procesor (CPU) | AMD Ryzen 9 9950X | 16 jader, vysoký single-thread |
| RAM | 64GB DDR5-6400 | Velká kontextová okna |
| Skladování | 4TB NVMe Gen4 | Knihovna modelů |
| PSU | 1000W 80+ Gold | Vyžadováno pro 575W grafickou kartu |
| Základní deska | X670E | Kompletní sada funkcí |
Může běžet:
- Qwen3-32B @ Q4 — pohodlná s 13GB rezervou
- DeepSeek R1 32B @ Q6 — vyšší kvalita
- Qwen3-235B-A22B @ Q4 — těsné, ale funguje
- Jakýkoli model pod 32B ve vysoké kvalitě
Odhadovaný výkon: 50–80 tokenů/s s modely 32B
Sestavení 3: Lokální server s umělou inteligencí (7 000–10 000 USD)
Případ použití: Server pro týmové inference, experimentování s modely, produkční úlohy
| Složka | Doporučení | Poznámky |
|---|---|---|
| GPU | 2× RTX 5090 (celkem 64 GB) | Tenzorový paralelismus připraven |
| Procesor (CPU) | AMD Threadripper 7960x | 24 jader, 48 drah |
| RAM | 128GB DDR5-5600 ECC | Korekce chyb pro spolehlivost |
| Skladování | 8TB NVMe RAID 0 | Rychlé přepínání modelů |
| PSU | 1600W 80+ Titanium | Duální GPU headroom |
| Základní deska | TRX50 | Plná podpora PCIe linek |
| Chlazení | Vlastní smyčka | řízení teploty |
Může běžet:
- DeepSeek R1 70B @ Q4 – plný výkon
- Qwen3-235B-A22B @ Q4 – vynikající
- Jakýkoli model s parametry pod 120B
- Více 32B modelů pro A/B testování
Odhadovaný výkon: 40–50 tokenů/s s modely 70B
Sestavení 4: Budget Lab (trh s ojetými vozy za 2 000–2 500 dolarů)
Případ použití: Nadšenec pro učení, rozvoj a úspory
| Složka | Doporučení | Poznámky |
|---|---|---|
| GPU | 2× RTX 3090 (celkem 48 GB) | Podporuje NVLink! |
| Procesor (CPU) | AMD Ryzen 9 5950X | Hodnota předchozí generace |
| RAM | 64GB DDR4-3600 | Stále schopný |
| Skladování | 2 TB NVMe | Úložiště modelů |
| PSU | 1200W 80+ Gold | Dvě grafické karty s výkonem 350 W |
| Základní deska | X570 s 2× x16 | Podpora NVLinku |
| Most NVLink | RTX 3090 NVLink | Použito ~80 dolarů |
Výhoda NVLinku: Toto je jediná spotřebitelská konfigurace s podporou NVLink, která poskytuje skutečné sdružování VRAM s rychlostí 112.5 GB/s oproti ~32 GB/s u PCIe.
Může běžet:
- Qwen3-32B @ Q8 (vyšší kvalita) – pohodlné
- DeepSeek R1 32B @ FP16 – s pečlivou správou kontextu
- Modely 70B @ agresivní Q3 – možné
Odhadovaný výkon: 25–35 tokenů/s s modely 32B (rychlejší, než se očekávalo díky NVLink)
Sestavení 5: Přenosný výkonný počítač (notebook)
Případ použití: Vývoj mobilní umělé inteligence, inference za pochodu
| Spec | Doporučení |
|---|---|
| GPU | Mobilní RTX 5090 (24 GB) |
| Procesor (CPU) | Intel Core Ultra 9 / AMD Ryzen 9 |
| RAM | 64GB |
| Skladování | 2 TB NVMe |
| Display | 16 "2560 × 1600 |
Pozoruhodné modely:
- ASUS ROG Strix SCAR 18 (2026)
- Razer Blade 18 (2026)
- MSI Titan GT78 (2026)
Může běžet:
- Qwen3-14B @ Q4 – výborně
- DeepSeek R1 14B @ Q4 – vynikající
- Qwen3-32B @ Q4 – těsné, ale funguje
Poznámka: Mobilní RTX 5090 má 24 GB (ne 32 GB) a nižší TDP. Očekávejte ~70 % výkonu stolního počítače.
Část 8: Doporučení pro softwarový stack
Základní nástroje
Ollama — Snadné tlačítko
# Install
curl -fsSL https://ollama.ai/install.sh | sh
# Run Qwen3 8B
ollama run qwen3:8b
# Run with specific quantization
ollama run qwen3:14b-q4_K_M
# Multi-GPU (automatic)
CUDA_VISIBLE_DEVICES=0,1 ollama run qwen3:32b
Nejlepší pro: Začínáme, jednoduché nasazení, poskytování API
LM Studio — Zážitek z grafického rozhraní
- Prohlížeč vizuálních modelů
- Stahování jedním kliknutím
- Vestavěné rozhraní pro chat
- Výběr kvantizace
Nejlepší pro: Netechničtí uživatelé, průzkum modelů
llama.cpp — Maximální kontrola
# Build with CUDA
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release
# Run with multi-GPU
./llama-server -m qwen3-32b-q4_k_m.gguf \
-ngl 99 \
--tensor-split 0.5,0.5 \
-c 8192
Nejlepší pro: Pokročilí uživatelé, vlastní nasazení, maximální výkon
vLLM — Produkční služby
# Install
pip install vllm
# Serve with tensor parallelism
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3-32B \
--tensor-parallel-size 2 \
--dtype auto
Nejlepší pro: Vysokokapacitní obsluha, koncové body API, produkce
Zdroje modelů
| Zdroj | URL | Poznámky |
|---|---|---|
| Objímání obličeje | huggingface.co | Oficiální vydání |
| Ollamova knihovna | ollama.com/knihovna | Předkvantizované, snadné |
| TheBloke (HF) | huggingface.co/TheBloke | Kvantizace GGUF |
| Centrum studia LM | lmstudio.ai | Vybraný výběr |
Část 9: Tipy pro optimalizaci
Optimalizace VRAM
- Použijte kvantizaci Q4_K_M — Nejlepší poměr velikosti a kvality
- Omezení délky kontextu — 8K místo 32K šetří ~40 % VRAM
- Zakázat mezipaměť KV pro jednorázové výzvy
- Použijte bleskovou pozornost 2 — Snižuje paměť pro dlouhé kontexty
- Povolit paměťově efektivní inferenci ve vLLM
Optimalizace rychlosti
- Maximalizace šířky pásma paměti GPU — Rychlejší RAM = rychlejší tokeny
- Použijte FP8, pokud je k dispozici — 2–3násobné zrychlení na grafických kartách řady RTX 50
- Povolit spekulativní dekódování — Použijte malý model k urychlení velkých
- Dávkové požadavky — Vyšší propustnost pro obsluhu
- Používejte kontinuální dávkování (vLLM) — Dynamické zpracování požadavků
Optimalizace pro více GPU
- Shoda modelů GPU — Vyhněte se míšení generací
- Zkontrolujte topologii NUMA — Stejný uzel = nižší latence
- Použijte minimálně 8 pruhů — x4 vytváří úzká hrdla
- Monitor s nvidia-smi — Dávejte pozor na nevyvážené využití
- Otestujte různé konfigurace TP/PP — Optimální hodnota se liší podle modelu
Část 10: Řešení běžných problémů
"CUDA má nedostatek paměti"
Příčiny:
- Model je pro VRAM příliš velký
- Kontextové okno je příliš dlouhé
- Růst mezipaměti KV
Řešení:
- Použijte agresivnější kvantizaci (Q4 → Q3)
- Zkrácení délky kontextu
- Snížení velikosti dávky
- Povolit bleskovou pozornost
- Rozděleno mezi více GPU
Pomalé generování tokenů
Příčiny:
- Omezená šířka pásma paměti
- Odlehčení CPU je aktivní
- Thermal škrcení
Řešení:
- Zajistěte, aby se model kompletně vešel do VRAM
- Zkontrolujte teplotu GPU (cílová teplota <85 °C)
- Použijte menší model
- Povolit režim výkonu GPU
- Zlepšení proudění vzduchu v skříni
Více GPU se neškáluje
Příčiny:
- Úzké hrdlo šířky pásma PCIe
- Nesprávné rozdělení vrstev
- Problémy se vzdáleností NUMA
Řešení:
- Kontrola
nvidia-smi topo -mpro topologii - Úprava poměrů rozdělení tenzorů
- Zajistěte x8+ PCIe na GPU
- Zvažte NVLink (RTX 3090)
- Použijte paralelismus kanálu místo tenzoru
Závěr: Správná volba
Budování lokálního systému umělé inteligence v roce 2026 je dostupnější než kdy dříve. Zde je shrnutí:
Rychlá doporučení:
| Rozpočet | Nejlepší volba | Klíčová výhoda |
|---|---|---|
| $ 500 800- | Použitá RTX 3090 | 24 GB VRAM, podpora NVLink |
| $ 750 1000- | RTX 5070 Ti | Nová, 16GB, efektivní |
| $ 1000 1500- | RTX 5080 | 16 GB, rychlejší |
| $ 2000 + | RTX 5090 | 32GB, vlajková loď |
| $ 4000 + | Duální RTX 5090 | Modely s 64 GB a 70 GB |
Zlatá pravidla:
- VRAM > Všechno ostatní — Více paměti = více modelových možností
- Kvantizace je váš přítel — Q4_K_M je ideální volbou
- Multi-GPU má klesající návratnost — Bez NVLinku očekávejte ~1.6x z 2 GPU
- Šířka pásma paměti je důležitá — Zejména pro velké modely
- Začněte v malém, postupně se rozšiřujte — Před investicí otestujte své pracovní zátěže
Ekosystém open-source umělé inteligence se rychle rozvíjí. Modely, které před dvěma lety vyžadovaly hardware za 100 tisíc dolarů, nyní běží na systémech za 2 tisíce dolarů. Ať už dnes postavíte cokoli, bude to s rostoucí efektivitou modelů jen narůstat.
Vítejte ve věku osobní umělé inteligence.
Doporučení k hardwaru a jeho dostupnost naleznete na Kentino.com
Dodatek: Stručné referenční tabulky
Požadavky na VRAM modelu (Q4_K_M)
| Model | parametry | VRAM ve 4. čtvrtletí | Minimální grafický procesor |
|---|---|---|---|
| Qwen3-0.6B | 0.6B | ~0.5 GB | Žádný |
| Qwen3-4B | 4B | ~2.4 GB | GTX 1650 |
| Qwen3-8B | 8B | ~4.8 GB | RTX 3060 |
| Qwen3-14B | 14B | ~8.4 GB | RTX 4070 |
| Qwen3-32B | 32B | ~19 GB | RTX 4090 |
| Qwen3-235B-A22B | 235B (22B aktivní) | ~28 GB | RTX 5090 |
| DeepSeek R1 70B | 70B | ~42 GB | 2× RTX 5090 |
| Lama 4 405B | 405B | ~243 GB | 8× RTX 5090 |
Porovnání GPU pro AI
| GPU | VRAM | Šířka pásma | AI TOPS | TDP | Obvyklá cena |
|---|---|---|---|---|---|
| RTX 5090 | 32GB | 1,792 GB / s | ~ 3,400 | 575W | $1,999 |
| RTX 5080 | 16GB | 960 GB / s | ~ 1,801 | 360W | $999 |
| RTX 5070 Ti | 16GB | 896 GB / s | ~ 1,406 | 300W | $749 |
| RTX 5070 | 12GB | 672 GB / s | ~ 988 | 250W | $549 |
| RTX 4090 | 24GB | 1,008 GB / s | ~ 1,300 | 450W | $1,599 |
| RTX 3090 | 24GB | 936 GB / s | ~ 285 | 350W | Použito ~800 dolarů |
Poslední aktualizace: leden 2026 Článek připravil technický tým Kentino