24 марта 2026 года компания Google Research официально представила TurboQuant - революционная технология сжатия данных ИИ, которая позволяет сжимать кэш ключей-значений (KV Cache), используемый при выводе больших языковых моделей, до 3-бит точность. Таким образом достигается 6-кратное сокращение использования памяти и до Увеличение скорости вывода в 8 разИ все это без потери точности модели. Это заявление вызвало немедленную волатильность на мировом рынке микросхем памяти: цена акций Micron Technology резко упала, а такие крупные игроки, как Samsung и SK Hynix, также пострадали, потеряв в общей сложности более $90 миллиардов рыночной стоимости. Что делает эту технологию такой мощной? Сможет ли она по-настоящему разрушить индустрию хранения данных? Как повлияют на нее такие продукты хранения данных, как Твердотельные накопители, DDR и HBM Развиваться?
Что такое TurboQuant?
TurboQuant это необучаемый, несмещенный по данным онлайн алгоритм векторного квантования разработанный компанией Google Research. Он специально разработан для агрессивного сжатия Кэш ключевых значений (KV Cache) во время вывода большой языковой модели.
Кэш KV - это временная структура данных, которая хранит контекстную информацию во время вывода модели. Он постоянно растет при увеличении длины разговоров, становясь критическим узким местом, ограничивающим способность модели обрабатывать длинные текстовые последовательности. Традиционные методы сжатия часто требуют переобучения модели, больших калибровочных наборов данных или дополнительного хранения параметров квантования. Прорыв TurboQuant заключается в способности достичь сжатия без потерь с 16/32 бит до 3 бит. Без каких-либо настроек модели, учебных данных или дополнительных затрат памяти - настоящее "plug-and-play" решение.
Архитектура двухступенчатого сжатия
Основная инновация TurboQuant - это двухступенчатая система сжатияВ нем используются математические преобразования, а не грубое квантование, что позволяет достичь идеального баланса эффективности и точности:
PolarQuant: Это основной этап сжатия, который преобразует высокоразмерные векторы из декартовых в полярные координаты. Сначала к входным векторам применяется случайное вращение, чтобы сделать распределение данных более равномерным. Затем каждый вектор разлагается на радиус (представляющий величину) и угол (представляющий семантическое направление), квантуя только угол. Этот процесс полностью исключает необходимость хранения параметров нормализации, требуемых традиционными методами.
QJL (квантованное преобразование Джонсона-Линденштрауса): Это этап коррекции остатков. На нем используется 1-бит (знаковый бит) для беспристрастной коррекции небольших ошибок, вносимых на этапе PolarQuant, что обеспечивает бескомпромиссную точность вычисления внимания. Этот шаг решает проблему накопления ошибок, характерную для традиционных методов сжатия, делая нулевая потеря точности теоретически возможно.
Такое сочетание "агрессивного основного сжатия + несмещенной коррекции остатков" позволяет TurboQuant достичь производительности на уровне 3-битная точность что соответствует или даже превосходит базовые значения с полной точностью, что подтверждается стандартными бенчмарками, такими как LongBench.
Ключевые особенности и преимущества
TurboQuant выделяется среди технологий сжатия благодаря четырем основным преимуществам:
Не требуется обучение или тонкая настройка: Его можно применять непосредственно к существующим моделям (Llama, Mistral, Gemma, Gemini и т. д.) без каких-либо корректировок или переобучения, что позволяет сразу же приступить к работе.
Непредвзятость данных: Его производительность не зависит от распределения входных данных, он эффективно работает со всеми типами текстовых, кодовых и графических данных, не нуждаясь в оптимизации под конкретный сценарий.
Нулевые накладные расходы: Он не требует дополнительного хранения параметров квантования, коэффициентов нормализации и т. д., что резко отличается от традиционных методов.
Теоретически оптимальный: Он обеспечивает математически близкие к оптимальным гарантии искажений, обеспечивая надежную предсказуемость производительности для крупномасштабного развертывания.
Облако над ореолом: краткая заметка об академических разногласиях
Наряду с потрясениями на рынке, вызванными появлением TurboQuant, возник и академический спор. 27 марта Цзяньян Гао, постдокторский научный сотрудник ETH Zurich, публично утверждали, что основная методология TurboQuant очень похожа на RaBitQалгоритм, который он опубликовал в 2024 году на SIGMOD. Гао отметил, что в статье команды Google не обсуждались методологические сходства, теоретические результаты RaBitQ были необоснованно названы "субоптимальными", а также использовались нечестные экспериментальные сравнения (тестирование RaBitQ на одноядерном CPU и тестирование TurboQuant на GPU A100).
По словам Гао, эти проблемы были доведены до сведения команды Google по электронной почте еще до выхода статьи. Хотя команда Google признала наличие некоторых проблем, они пообещали внести исправления только после конференции и отрицали наличие технических сходств. По состоянию на 31 марта команда RaBitQ размещен публичный комментарий к ICLR OpenReview и подал официальную жалобу в комитет по этике конференции ICLR. Эти разногласия служат напоминанием: техническая ценность TurboQuant еще требует времени для полного подтверждения, и вопросы академического поведения, связанные с этим, также заслуживают внимания.
Потенциальное влияние на индустрию хранения
Рациональный взгляд на реакцию рынка
Резкое падение котировок акций микросхем хранения данных после объявления TurboQuant было скорее чрезмерная реакция, вызванная настроениями на рынке чем рациональная оценка. Чтобы понять истинное влияние, необходимо сначала дать определение TurboQuant сфера влияния:
Влияет только на умозаключения: Это не влияет на процесс обучения модели, который является основным сценарием спроса на высокопроизводительную память типа HBM.
Сжимайте только кэш KV: Веса моделей, активации и другие основные данные не затрагиваются. Они являются основными потребителями ресурсов хранения.
Парадокс повышения эффективности: Исторический опыт показывает, что повышение эффективности вычислений часто приводит к появлению более масштабных приложений, потенциально увеличение общий спрос на хранение, а не уменьшение его (парадокс Джевонса).
Потенциальное влияние на SSD, DDR и HBM
TurboQuant может иметь двухударную память DDR. С одной стороны, это снижает зависимость от HBM, позволяя более экономично хранить KV Cache в DDR5/DDR6 вместо дорогостоящего HBM. Это создает новые возможности для высокоскоростных DDR5-8800+ и будущее DDR6что делает их экономически эффективной альтернативой HBM в серверах искусственного интеллекта. С другой стороны, TurboQuant ускоряет внедрение технологии расширения памяти CXL. Объединяя память DDR с помощью CXL, серверы искусственного интеллекта могут более гибко распределять ресурсы памяти для решения задач вывода различного объема, что еще больше повышает эффективность использования DDR и увеличивает спрос на рынке.
Вопреки опасениям рынка, TurboQuant, скорее всего, станет значительным положительным событием для твердотельных накопителей:
Хранение переполнения в длинном контексте: Когда объем KV Cache превышает объем памяти, твердотельные накопители с низким уровнем задержек и высокой надежностью (например, режим pSLC, NVMe 4.0/5.0) становятся идеальным вторичным кэшем, что значительно повышает спрос на производительность и емкость твердотельных накопителей корпоративного класса.
Расширение базы данных векторов: Все более широкое внедрение систем Retrieval-Augmented Generation (RAG), вызванное появлением TurboQuant, будет напрямую способствовать росту векторных баз данных, которые в значительной степени зависят от высокопроизводительных твердотельных накопителей, лежащих в их основе.
Развертывание краевого искусственного интеллекта: TurboQuant позволяет запускать модели искусственного интеллекта на устройствах потребительского класса, расширяя рынок клиентских SSD-накопителей, особенно повышая спрос на маломощные и высокопроизводительные устройства. Твердотельные накопители M.2.
Рыночная паника в отношении HBM кажется чрезмерной:
Четкое различие между обучением и умозаключением: TurboQuant затрагивает кэш KV только во время вывода. Требования к пропускной способности для обучения моделей на HBM остаются неизменными; HBM остается необходимым условием для обучения сверхбольших моделей.
Вес модели не изменяется: Веса моделей, на которые приходится более 90% потребляемой ИИ памяти, не сжимаются TurboQuant. Роль HBM как основного носителя для хранения этих весов остается надежной.
Оптимизация гибридной архитектуры: TurboQuant позволяет более эффективно распределять ресурсы HBM для критически важных вычислительных задач, способствуя развитию гибридных архитектур хранения данных, сочетающих HBM, DDR и SSD, а не просто заменяющих их.
Потенциальная новая парадигма для инфраструктуры искусственного интеллекта
Реальная ценность TurboQuant заключается не в "устранении" конкретного типа хранилища, а в изменении архитектуры уровней хранения в инфраструктуре ИИ, что позволяет создать более эффективную и экономичную иерархию памяти-хранилища.
Новый порядок интеллектуального потока данных
Будущие серверные архитектуры хранения данных с искусственным интеллектом, скорее всего, будут представлять собой четкую трехуровневую пирамиду:
Верхний уровень - HBM: Отвечает за хранение основных вычислительных данных, таких как веса и активации модели, удовлетворяя требования задач обучения и вывода, требующих большой пропускной способности.
Средний уровень - DDR: Выступает в качестве основного носителя для кэша KV. Благодаря эффективности сжатия TurboQuant, DDR5/DDR6 станут память рабочей лошадки для сценариев вывода.
Нижний ярус - SSD: Работает с переполнением длинного контекста, векторными базами данных и контрольными точками модели. Твердотельные накопители для предприятий с низким уровнем задержек и высокой надежностью откроют новые возможности для роста.
Основу этой многоуровневой архитектуры составляют интеллектуальное размещение данных - динамическое перемещение данных между уровнями в зависимости от частоты доступа, требований к задержкам и стоимости хранения для достижения оптимального баланса производительности и стоимости.
Восхождение программно-определяемых систем хранения данных
TurboQuant может ускорить внедрение Программно-определяемое хранилище (SDS) в области искусственного интеллекта, особенно в следующих областях:
Системы управления памятью: Программное обеспечение для управления, способное в режиме реального времени отслеживать объем кэша KV и грамотно принимать решения о сохранении данных в HBM, DDR или переливании их на SSD, станет стандартным компонентом инфраструктуры ИИ.
CXL Memory Pooling: Объединение ресурсов памяти DDR от нескольких серверов по протоколу CXL обеспечит эластично масштабируемые ресурсы памяти для кластеров ИИ, что позволит еще больше снизить требования к емкости HBM для каждого отдельного сервера.
Хранение с учетом сжатия: Устройства хранения данных начнут нативно поддерживать алгоритмы сжатия, такие как TurboQuant, обеспечивая быструю компрессию и декомпрессию данных на аппаратном уровне для повышения общей эффективности системы.
Выпуск TurboQuant - это не предзнаменование гибели для индустрии хранения данных, а скорее новая отправная точка для более глубокой интеграции систем хранения данных и искусственного интеллекта. Она не просто "устранит" определенный тип продуктов хранения данных. Напротив, благодаря революционному прорыву в технологии сжатия данных, она подтолкнет индустрию хранения данных к повышению эффективности и интеллектуальности. Это означает, что будущие сервисы искусственного интеллекта смогут обрабатывать более длинные тексты, давать более точные ответы и при этом потенциально снижать стоимость оборудования. Настоящая технологическая революция никогда не сводится к простой замене, а позволяет добиться скачка в эффективности использования ресурсов за счет инноваций, открывая тем самым двери для более широкого применения.





