Google TurboQuant: 3-бітна квантизація KV кешу без втрати точності, висока швидкість висновків до 8 разів

CoinNetwork · 2026-03-25T05:30:56+00:00

Google Research представив TurboQuant — алгоритм кількісного стиснення, який стискає KV-кеш великих мовних моделей до 3 бітів, зменшуючи використання пам'яті щонайменше у 6 разів без втрати точності моделі. Алгоритм демонструє відмінні результати у кількох еталонних тестах, значно прискорює обчислення та спеціально розроблений для вирішення вузьких місць KV-кешу.

CoinNetwork

2026-03-25 05:30:56

Генерація анотацій у процесі

За повідомленням CoinWorld, згідно з моніторингом 1M AI News, дослідницький інститут Google опублікував алгоритм кількісного стиснення TurboQuant, який може зменшити обсяг KV-кешу великих мовних моделей до 3 біт, зменшуючи використання пам’яті щонайменше у 6 разів, без необхідності тренування або доопрацювання та без втрати точності моделі. У режимі 4 біт на GPU NVIDIA H100 швидкість обчислення уваги підвищується до 8 разів у порівнянні з базовим 32-бітовим безкількісним режимом. Команда дослідників підтвердила ефективність TurboQuant на довгих контекстних бенчмарках LongBench, Needle In A Haystack, ZeroSCROLLS за допомогою моделей Gemma і Mistral, де він показав найкращі результати у всіх тестах. Алгоритм складається з двох підалгоритмів: PolarQuant, який за допомогою перетворення у полярні координати усуває пам’ятні витрати традиційних методів кількісного стиснення, та QJL, що коригує залишкову помилку всього за 1 біт. Це дослідження очолюють Амір Зандієх з Google Research і віце-президент та Google Fellow Вахаб Міррокні у співпраці з KAIST у Південній Кореї та Нью-Йоркським університетом, і воно буде опубліковане на ICLR 2026. Google зазначає, що одним із основних застосувань цієї технології є вирішення вузьких місць у KV-кешах моделей на кшталт Gemini.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.