AI koutek

Případová studie: 4x pracovní stanice s umělou inteligencí a RTX 4090

Tento článek dokumentuje kompletní sestavení zadané pro výzkumného zákazníka, který potřeboval inferenční pracovní stanici LLM s možností montáže do racku, která by mohla fungovat nepřetržitě, s dostatečnou pamětí VRAM pro hostování modelů třídy 70B bez závislosti na cloudu. Vše...

Případová studie: 4x pracovní stanice s umělou inteligencí a RTX 4090

Tento článek dokumentuje kompletní sestavení zadané pro výzkumného zákazníka, který potřeboval inferenční pracovní stanici LLM s možností montáže do racku, která by mohla fungovat nepřetržitě, s dostatečnou pamětí VRAM pro hostování modelů třídy 70B bez závislosti na cloudu. Vše...

TurboQuant: Čtení kompresního bloku mezipaměti KV...

Doba čtení: 10 min | Jak 3bitová komprese od Googlu zlevňuje dlouhokontextové LLM a co nám to říká o příštích 18 měsících inference s využitím umělé inteligence. Existuje tiché...

TurboQuant: Čtení kompresního bloku mezipaměti KV...

Doba čtení: 10 min | Jak 3bitová komprese od Googlu zlevňuje dlouhokontextové LLM a co nám to říká o příštích 18 měsících inference s využitím umělé inteligence. Existuje tiché...

Požadavky AI modelu VRAM napříč různými GPU...

Požadavky AI modelu VRAM v různých konfiguracích GPU Tato tabulka poskytuje přehled přibližných velikostí modelů (v miliardách parametrů), které lze provozovat na různých konfiguracích VRAM, spolu s...

Požadavky AI modelu VRAM napříč různými GPU...

Požadavky AI modelu VRAM v různých konfiguracích GPU Tato tabulka poskytuje přehled přibližných velikostí modelů (v miliardách parametrů), které lze provozovat na různých konfiguracích VRAM, spolu s...