Google показали TurboQuant квантование без потери качества Google представили TurboQuant новый по

✴️ Google показали TurboQuant — квантование без потери качества

Google представили TurboQuant — новый подход к квантованию, который может сильно изменить эффективность LLM. Суть в том, что проблема современных моделей — не только в параметрах, а в огромных объёмах векторов (KV-cache, RAG), которые тормозят инференс и съедают память.

Подробнее:
разбор от Google

Обычно квантование просто грубо округляет числа, из-за чего падает качество. TurboQuant делает это умнее, стараясь сохранить смысл данных при сильном сжатии.

Как это работает

Метод состоит из двух частей:
🟡 PolarQuant — сначала «поворачивает» вектор так, чтобы его можно было сжать с минимальными потерями
🟡 QJL (Quantized Johnson-Lindenstrauss) — добавляет дешёвую коррекцию ошибки (буквально +1 бит на компоненту), чтобы восстановить точность

Вместе это даёт сильное сжатие без заметной деградации.

Что это даёт на практике
🟡 длинный контекст становится дешевле
🟡 инференс на том же железе — быстрее
🟡 RAG и vector search — компактнее и эффективнее

В экспериментах:
🟡 KV-cache удалось сжать до ~3 бит
🟡 без дообучения
🟡 почти без потери качества

Причём результаты близки к теоретическому пределу эффективности.

Это не просто оптимизация, а инфраструктурный апгрейд:

чем дешевле память и быстрее доступ к векторам → тем масштабнее и быстрее становятся агентные системы и long-context модели

Если технология пойдёт в продакшн, это может стать новым стандартом для LLM-инференса.

🤑 ForgetMe | Boosty

Приобрести подписку на любые сервисы
@forgetshop_bot

#нейросети #llm #новости

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *