TurboQuant: Čtení průlomu v kompresi mezipaměti KV

Doba čtení: 10 minut | Jak 3bitová komprese od Googlu zlevňuje dlouhokontextové LLM a co nám to říká o příštích 18 měsících inference s využitím umělé inteligence

Komprese mezipaměti KV — přehled dvoustupňového kanálu TurboQuant

V každé dlouhé konverzaci s rozsáhlým jazykovým modelem se skrývá tichý problém, a to je důvod, proč jsou tyto konverzace drahé. Říká se tomu KV cache a při dlouhých kontextech může spotřebovat více paměti než samotný model. 24. března tým Google Research publikoval... TurboQuant, která komprimuje tuto mezipaměť na tři bity na hodnotu bez měřitelné ztráty přesnosti a bez jemného doladění. Šestkrát méně paměti. Až osmkrát rychlejší pozornost na H100. Stojí za to to správně pochopit, protože komprese KV mezipaměti je v současnosti jedním z nejvýznamnějších problémů v nasazené umělé inteligenci a TurboQuant je dosud nejjasnějším veřejným signálem, že se toto pole posunulo dopředu.

Řídím Kentino. Součástí toho je pečlivé čtení článků, jako je tento, aby naši zákazníci – těžaři, stavitelé, zvědaví Evropané sledující umělou inteligenci a kryptoměny – nemuseli dělat nic jiného. Tento článek je mým pokusem vysvětlit, co TurboQuant vlastně dělá, jaké je jeho místo v širší vlně výzkumu komprese KV mezipaměti v letech 2025-2026 a co by měl rozumný člověk očekávat od příštích osmnácti měsíců.

Problém s mezipamětí KV, upřímně řečeno

Když transformátor generuje text, každý nový token se stará o každý předchozí token. Aby se zabránilo přepočítávání tenzorů klíčů a hodnot pro tyto starší tokeny v každém jednotlivém kroku, model je ukládá. Toto úložiště se nazývá KV cache.

Mezipaměť roste lineárně s délkou kontextu. Zdvojnásobte konverzaci, zdvojnásobte mezipaměť. Pro středně velký 8B model s kontextem o velikosti 128k tokenů v FP16, mezipaměť KV může snadno dosáhnout desítek gigabajtů pro jednu relaci. Váhy mohou být šestnáct. Mezipaměť je zastíní.

Z toho plynou tři praktické důsledky.

Zaprvé, dlouhodobá inference je vázána na paměť, než na výpočetní výkon. VRAM vám dojde dlouho předtím, než vám dojdou FLOPy.

Za druhé, náklady na poskytování služeb se značně zvyšují. Každý souběžný uživatel potřebuje vlastní mezipaměť. GPU, které by jinak mohlo zpracovat padesát krátkých konverzací, by mohlo zpracovat pět dlouhých.

Za třetí, inference na zařízení a na okraji sítě zůstává mimo dosah modelů, které by tam skutečně byly užitečné, protože mezipaměť, nikoli váhy, je to, co odmítá zapadat.

Dobrá komprese mezipaměti KV – tedy agresivní, levná a bez újmy na kvalitě výstupu – tedy není drobná optimalizace. Mění, které úlohy jsou životaschopné a které ne. To je problém, který TurboQuant řeší.

Co TurboQuant vlastně dělá

TurboQuant je dvoustupňový algoritmus. Obě fáze nevyžadují trénování a nezáleží na datech, což znamená žádné jemné doladění, kalibrační datovou sadu ani ladění jednotlivých modelů. Použijete algoritmus a on funguje. Upřímně řečeno, na tom záleží víc než na kompresním poměru, protože právě on umožňuje metodě bez problémů začlenit ji do existujícího inferenčního zásobníku.

První fáze: PolarQuant

První fází je PolarQuant, samostatný článek téže skupiny (Zandieh, Mirrokni et al., AISTATS 2026). Myšlenka je spíše strukturální než statistická.

Kvantování vysokorozměrných vektorů v kartézských souřadnicích je nepraktické. Přirozený krok – normalizace na jednotkovou sféru a následná kvantizace směru – se ukazuje jako nákladný, protože výpočet normy každého vektoru je úzkým hrdlem, kterému jste se snažili uniknout. Dřívější metody tuto cenu platily a stále ztrácely přesnost při nízkých bitových šířkách.

PolarQuant dělá dvě věci, aby se této pasti vyhnul. Nejprve aplikuje náhodnou rotaci, která, poněkud neintuitivně, činí geometrii vektorového rozdělení předvídatelnější a snáze ovladatelnou. Poté převádí vektor na polární souřadnice – poloměr pro velikost, úhel pro směr – a ty mapuje na kruhovou mřížku, kterou lze kvantizovat bez kroku normalizace. Výsledkem je čistá reprezentace každého vektoru s nízkým počtem bitů, která zachovává jeho základní geometrii.

Komprese KV mezipaměti — rotace PolarQuant a polární souřadnicová mřížka

Druhá fáze: QJL

Samotný PolarQuant zanechává zbytkovou chybu. Druhá fáze, kvantizovaná Johnson-Lindenstraussova rovnice (QJL), ji opravuje o jeden bit navíc na hodnotu.

Johnsonova-Lindenstraussova transformace je klasický výsledek: lze promítat vysokodimenzionální vektory do mnohem ménědimenzionálního prostoru s náhodným lineárním mapováním a přibližně zachovat párové vzdálenosti. QJL to jde ještě dál tím, že ponechává pouze znaménkový bit každé promítnuté souřadnice – plus jedna, mínus jedna, nic jiného. Žádné úložné režijní náklady nad rámec samotného bitu.

Matematicky vzato, QJL poskytuje nezaujatý odhad skóre pozornosti. Opravuje reziduum z PolarQuantu, aniž by znovu zaváděl zkreslení, kterým trpí naivní nízkobitové systémy. V tom je ten trik. Jeden pečlivě vybraný bit znaménka stačí k vyčištění chyby první fáze.

Čísla

Kombinace těchto dvou fází dosahuje tří bitů na hodnotu, šestkrát menší než FP16 Základní úroveň. Na grafické kartě NVIDIA H100 probíhá výpočet logitového ukazatele pozornosti až osmkrát rychleji při 4bitové bázi oproti 32bitové. Google testoval Gemma, Mistral a Llama-3.1-8B-Instruct v programech LongBench, Needle In A Haystack, ZeroSCROLLS, RULER a L-Eval. Přesnost byla zachována ve všech pěti benchmarkech s dlouhým kontextem. Vedlejší test vektorového vyhledávání na GloVe-200 ukázal lepší úplnost 1@k i oproti základním úrovním PQ a RabbiQ, což naznačuje, že metoda zobecňuje i mimo rámec KV mezipamětí.

Hlavní metriky TurboQuantu
metrický Hodnota
Bity na hodnotu v mezipaměti 3 bitů
Snížení mezipaměti KV 6 ×
Zrychlení pozornosti H100 (4bitové vs. 32bitové) až do 8 ×
Jemné doladění je nutné Nevyplněno
Požadované kalibrační údaje Nevyplněno
Ztráta přesnosti měření Nula napříč LongBench, NIAH, ZeroSCROLLS, RULER, L-Eval
Testované modely Gemma, Mistral, Llama-3.1-8B-Instruct

Celý zápis je na Blog Google ResearchTurboQuant bude představen na veletrhu ICLR 2026 v Rio de Janeiru.

Širší vlna

TurboQuant v tom není sám. Je to nejvýznamnější nedávný příspěvek v rychle se rozvíjející oblasti výzkumu a jeho čtení bez kontextu přehnaně zdůrazňuje jeho novost. Několik dalších metod z konce roku 2025 a začátku roku 2026 se zabývá stejným úzkým hrdlem z různých úhlů pohledu.

Metody komprese kV 2025-2026
Metoda Místo Přístup Výsledek titulku
TurboQuant ICLR 2026 PolarQuant + QJL, online inference 3 bitů, 6 × paměť, až 8 × zrychlení pozornosti, nulová ztráta přesnosti
KVTC (NVIDIA) ICLR 2026 Transformační kódování — PCA + adaptivní kvantizace + entropické kódování Až 20× komprese pro offline ukládání do mezipaměti a její opětovné použití
ChunkKV OpenReview, září 2025 Jednotka pro kompresi sémantických bloků Přesnost až +8.7 % při stejném kompresním poměru
PM-KVQ 2025 Progresivní smíšená přesnost pro modely uvažování 2.73–5.18× propustnost vs. FP16, +8 % v kritériích uvažování
KVPress (NVIDIA) Otevřený rámec Benchmarking a nasazení Umožňuje odborníkům testovat tyto metody ve velkém měřítku

Každý z nich cílí na jinou oblast. KVTC je určen pro offline opětovné použití – ukládání mezipaměti z jedné konverzace a její načítání do jiné, kde si můžete dovolit náročnější kódovací práci výměnou za mnohem vyšší kompresi. ChunkKV je určen pro případy, kdy je potřeba agresivně komprimovat, ale zachovat sémantický význam, což je důležité pro úlohy, kde ztráta tokenu bolí více než ztráta přesnosti o jednu číslici. PM-KVQ je vyladěn pro úlohy s dlouhým řetězcem myšlenek, které produkují modely uvažování. KVPress je instalatérství, které nám ostatním umožňuje poctivě je všechny porovnat.

Výrazným přínosem TurboQuantu je kombinace provozu bez nutnosti trénování, vhodnosti pro online inferenci a prokazatelně nezaujatého odhadu. Je to ten, který se s největší pravděpodobností dostane do produkčních frameworků jako první, a to právě proto, že od operátora modelu nic nepožaduje.

Co se tím odemkne

Když se odpoutáme od papíru a zamyslíme se nad tím, kam tohle směřuje: praktické dopady je snazší pojmenovat než odhadnout.

Dlouhodobá inference se stává podstatně levnější. Pokud je vaše KV mezipaměť šestkrát menší, můžete na stejném GPU dávkově obsluhovat více uživatelů, nebo obsluhovat delší kontexty se stejným rozpočtem, nebo obojí. Každý, kdo provozuje inferenční službu, to pocítí na svých maržích do čtvrtiny integrace.

Nasazení na okraji sítě se stává životaschopným pro třídy modelů, které byly dříve mimo dosah. Model 8B s dlouhým kontextem na grafickém procesoru pracovní stanice nebo model 3B na notebooku se při zmenšení mezipaměti o tento faktor mění z „sotva možného“ na „rutinní“. Podobného nárůstu se dočká i nasazení v místních systémech pro společnosti, které nemohou odesílat data do cloudových API – právní, lékařská, průmyslová telemetrie.

Příběh hardwaru navazuje přímo a právě zde přestává být abstraktní. Komprese jako TurboQuant nemění, které GPU existují; mění, které úlohy fit — a v současné době jsou úlohy, které lidé skutečně chtějí provozovat on-premise, čínské modely s otevřenou váhou na hranicích, které tiše obsadily místo v SOTA do 1. čtvrtletí roku 2026.

Aktuální sestavu stojí za to explicitně jmenovat, protože na to se nás zákazníci ptají. Kimi K2.5 od Moonshot AI — 1T celkové parametry, 32B aktivní, MŽP, 256K kontext, licence MIT — vydána 27. ledna a vede v kódových a matematických benchmarkech mezi otevřenými váhami. GLM-5 ze Z.ai — Celkem 744 miliard / 40B aktivní, 204K kontext, s licencí MIT — aktuálně na vrcholu žebříčku Intelligence Index s otevřenými vahami a ověřený v SWE-bench. MiniMax M2.5 - Celkem 229 miliard / 10B aktivní, 200K kontext — vydáno 12. února, agresivní cena, více než 80 % SWE-benchmark. Qwen3-Coder-Next z Alibaby — Celkem 80 miliard / 3B aktivní, 256K kontext nativní, rozšiřitelný na 1M s Příze — plus širší rodina Qwen3 z husté 0.8 B – 27 B přes 397B-A17B MoE. Všechny otevřené hmotnosti. Vše k odeslání dnes.

Stavíme stroje v Kentino konkrétně pro tuto pracovní zátěž, takže dovolte mi být ohledně matematiky konkrétní. Naším vlajkovým inferenčním serverem je 4× NVIDIA RTX 4090 stavět — 96 GB sdružené VRAM, AMD EPYC 7542 na ASRock Rack ROMED8-2T, 256 GB of DDR4-2666 ECC RDIMM, 2 TB NVMe, duální 2kW zdroje, v 24U stojanNad tím stavíme 4× RTX 5090 a 8× RTX 5090 konfigurace (128 GB a 256 GB sdílená VRAM) a na úrovni datových center 4× L40 / L40S (192 GB sloučeny ECC) pro trvalé zatížení podnikové třídy a nepřetržitý provoz produkčních systémů.

Co TurboQuant na tomto obrázku mění, je člen KV cache. Moderní modely MoE již používají komprimovanou pozornost (MLAlatentní pozornost ve stylu Kimi, GQA v Qwen3), takže jejich KV cache na token je od začátku menší než u starších čísel třídy Llama. Použijte TurboQuant a získáte další ~6 ×Praktickým efektem je, že kontextové okno, kterému dané pole skutečně slouží – na rozdíl od reklamy – smysluplně skáče. závaží se nepohnul. Úzké hrdlo ano.

Server Kentino × model × TurboQuant
Sestavení serveru Kentino Sdružená VRAM Model, který pohodlně padne S kompresí TurboQuant KV
4× RTX 4090 (AMD EPYC 7542, 256 GB ECC) 96 GB Qwen3-Coder-Next Celkem 80 miliard (FP8), Qwen3 hustá 27B (FP16) Qwen3-Coder-Next @ 256K kontext nativní pro jednoho uživatele nebo 80B @ 128K pro ~3-4 souběžné uživatele
4× RTX 5090 128 GB Qwen3-Coder-Next s rezervou, Qwen3 32B (FP16), třída MoE 100B (INT4) Qwen3-Coder-Next @ 1M kontextu prostřednictvím Přízenebo 80B při 256K souběžně
8× RTX 5090 256 GB MiniMax M2.5 (FP8, ~ 230 GB), Qwen3 397B-A17B (INT4), GLM-5 (INT4) MiniMax M2.5 při plném nabití 200K kontext produkční obsluha nebo Qwen3 397B @ 128K souběžně
4× L40 / L40S 192 GB ECC MiniMax M2.5 (INT4), Qwen3-Coder-Next produkce 24/7 Poskytování služeb na podnikové úrovni s ECC při dlouhém kontextu, trvalé zatížení

Dvě upřímné výhrady. Zaprvé, Kimi K2.5 a GLM-5 plně FP8 (1T a Celkem 744 miliard váhy) stále překračují to, co tyto rámečky obsahují – pro ty, kteří se dívají na klastr nebo přijímají agresivní INT4 kvantizace. Za druhé, přesné limity tokenů závisí na velikosti dávky, konfiguraci specifické pozornosti modelu a frameworku (vLLM, SGLang, TensorRT-LLM všechny implementují nízkobitový KV odlišně). Ale směr je ten, na kterém záleží: a 4× RTX 4090 krabice, která před rokem dávala smysl pro modely s hustotou 13B, je nyní tou správnou odpovědí pro Qwen3-Coder-Next v plném rozsahu 256K kontext. 4× RTX 5090 zvládá 80B aktivní-třídní kódovací model pohodlně s prostorem pro souběžné uživatele. 8× RTX 5090 or 4× L40S otevírá se MiniMax M2.5 a větší varianty Qwen3 MoE v produkčním měřítku. Hardware se nezvětšil; pracovní zátěž se zmenšila.

A jakákoli inferenční úloha, která běží nepřetržitě na provozní telemetrii, z toho úměrně těží. Optimalizace těžebního vozového parku je jedním z reálných příkladů: operátoři jako OneMiners provozovat systémy efektivity řízené umělou inteligencí na tisících ASIC a inferenční vrstva pod těmito systémy se škáluje přímo podle toho, kolik kontextu dokáže každý model levně pojmout. Tento výzkumný kurz netransformuje takové pracovní zátěže přes noc, ale posouvá křivku toho, co je cenově dostupné.

Poctivá prognóza je postupná. A 6 × Snížení paměti na jednom úzkém místě nevede k vytvoření nového světa. Vytváří o něco levnější, o něco delší a o něco lépe nasaditelnou verzi světa, který už máme. To je stále velká úspora peněz a inženýrských zátěží, agregovaných v celém odvětví.

Na co se dívat v letech 2026-2027

Několik konkrétních věcí, zhruba seřazených podle pravděpodobnosti.

Metody komprese mezipaměti KV ve srovnání s výzkumem z let 2025–2026

Integrace frameworku. vLLM, TensorRT-LLM, a SGLang si během několika měsíců osvojí metody ve stylu TurboQuantu, pravděpodobně prostřednictvím KVPress jako vrstvu pro benchmarking. Open-source implementace Tritonu, kterou publikoval tým Googlu, to činí téměř mechanickým.

Podpora na úrovni hardwaru. Společnost NVIDIA signalizovala zájem o nízkobitové primitivy zaměřené na pozornost prostřednictvím KVTC i KVPress. Očekává se, že nástroje generace Blackwell budou s 3-4bitovými KV formáty zacházet spíše jako s prvotřídními občany než s experimentálními.

Konsolidace metod. Pět výše uvedených přístupů řeší překrývající se problémy. Pravděpodobným konečným cílem je sjednocený zásobník – geometrická komprese ve stylu PolarQuant pro online pozornost, entropické kódování ve stylu KVTC pro offline ukládání a sémantické seskupování ve stylu ChunkKV jako front-end. Tam se nedostane žádný jednotlivý článek; zásobník se tvoří během roku integrační práce.

Skutečné snížení nákladů na obsluhu. Do konce roku 2026 by měly být náklady na služby pro dlouhodobou inferenci viditelně nižší než dnes, přičemž většina zisku by měla pocházet z komprese, nikoli z nového křemíku. To je nejčistší způsob, jak předpovědět, že tato linie práce bude úspěšná.

zavřít

TurboQuant je skutečný pokrok v řešení skutečného úzkého hrdla a objevil se v rámci výzkumné vlny, která řeší problém z několika úhlů najednou. Hlavní čísla jsou sama o sobě působivá – tři bity, šestkrát, osmkrát – ale důležitější vlastností je, že nevyžaduje nic od operátora modelu. Nasazují se metody bez trénování, které nezáleží na datech.

Pokud používáte dlouhodobou inferenci v jakémkoli měřítku, stojí za to ji sledovat. Pokud ne, stále stojí za to ji pochopit, protože ekonomiku modelů, které nakonec použijete, tiše určují články, jako je tento.

Zdroje

G
Blog Google ResearchZpracování článku TurboQuant
N
NVIDIA KVPressRámec pro benchmarking komprese KV
K
Kentino multi-GPU inferenční servery4× / 8× RTX 5090, 4× RTX 4090, L40 / L40S
B
Kentino blogDalší analýzy a návody k sestavení
Tento článek je technickou analýzou a komentářem. Uvedené referenční hodnoty pocházejí z odkazovaných publikací (TurboQuant, KVTC, ChunkKV, PM-KVQ, KVPress) a blogu Google Research. Hardwarové konfigurace popisují sestavení inferenčního serveru Kentino tak, jak byla nabízena v době psaní tohoto článku; přesné specifikace a dostupnost se mohou změnit. Počty parametrů modelu, délky kontextů a data vydání odrážejí veřejně oznámené údaje pro příslušné rodiny modelů s otevřenými váhami. 
Zpět na blog