TurboQuant: Reformulando o cenário de armazenamento de IA?

Em 24 de março de 2026, a Google Research revelou oficialmente TurboQuant - uma tecnologia de compressão de IA inovadora que comprime a cache de valores-chave (KV Cache) utilizada durante a inferência de modelos de linguagem de grande dimensão até 3 bits precisão. Desta forma, obtém-se uma Redução de 6x na utilização da memória e até um Aumento de 8x na velocidade de inferênciasem qualquer perda de precisão do modelo. O anúncio desencadeou uma volatilidade imediata no mercado global de chips de memória, com o preço das acções da Micron Technology a cair a pique e os principais intervenientes, como a Samsung e a SK Hynix, a sofrerem também, perdendo coletivamente mais de $90 mil milhões em valor de mercado. O que torna esta tecnologia tão poderosa? Será que vai realmente perturbar o sector do armazenamento? Como é que produtos de armazenamento como o SSDs, DDR, e HBM evoluir?

turboquant reformulando o mercado de armazenamento artigo header img 1400 TurboQuant: Reformulando o cenário de armazenamento de IA?

O que é o TurboQuant?

TurboQuant é um algoritmo de quantização vetorial em linha sem formação e sem enviesamento de dados desenvolvido pela Google Research. Foi especificamente concebido para comprimir agressivamente o cache de valores-chave (KV Cache) durante a inferência de modelos linguísticos de grande dimensão. 

A cache KV é uma estrutura de dados temporária que armazena informações de contexto durante a inferência do modelo. Cresce continuamente com conversas mais longas, tornando-se um estrangulamento crítico que limita a capacidade de um modelo para lidar com sequências de texto longas. Os métodos de compressão tradicionais requerem frequentemente a reciclagem do modelo, grandes conjuntos de dados de calibração ou armazenamento adicional para parâmetros de quantização. A inovação do TurboQuant reside na sua capacidade de obter uma compressão sem perdas de 16/32 bits para 3 bits sem quaisquer ajustes de modelos, dados de treino ou sobrecarga de memória adicional - uma verdadeira solução "plug-and-play".

Arquitetura de compressão em duas fases

A principal inovação da TurboQuant é a sua estrutura de compressão em duas fasesque utiliza transformações matemáticas em vez de quantização de força bruta para alcançar um equilíbrio ideal entre eficiência e precisão:

  1. PolarQuant: Esta é a principal fase de compressão, que transforma vectores de alta dimensão de coordenadas cartesianas para coordenadas polares. Começa por aplicar uma rotação aleatória aos vectores de entrada para tornar a distribuição dos dados mais uniforme. Em seguida, decompõe cada vetor em raio (representando a magnitude) e ângulo (representando a direção semântica), quantizando apenas o ângulo. Este processo elimina completamente a necessidade de armazenar parâmetros de normalização exigidos pelos métodos tradicionais.

  2. QJL (Transformada Quantizada de Johnson-Lindenstrauss): Esta é a fase de correção residual. Utiliza 1 bit (bit de sinal) para aplicar uma correção não enviesada aos pequenos erros introduzidos durante a fase PolarQuant, assegurando que a precisão do cálculo da atenção não é comprometida. Esta etapa resolve o problema de acumulação de erros encontrado nos métodos de compressão tradicionais, tornando perda de precisão zero teoricamente possível.

Esta combinação de "compressão principal agressiva + correção residual não enviesada" permite ao TurboQuant atingir um desempenho de Precisão de 3 bits que iguala ou excede mesmo as linhas de base de precisão total, um facto validado por padrões de referência como o LongBench.

Principais caraterísticas e vantagens

O TurboQuant destaca-se entre as técnicas de compressão devido a quatro vantagens principais:

  • Não é necessária formação ou afinação: Pode ser aplicado diretamente aos modelos existentes (Llama, Mistral, Gemma, Gemini, etc.) sem qualquer ajustamento ou reciclagem, o que permite uma implantação imediata.

  • Dados imparciais: O seu desempenho é independente da distribuição dos dados de entrada, funcionando eficazmente em todos os tipos de dados de texto, código e imagem, sem necessidade de otimização específica do cenário.

  • Zero despesas gerais: Não requer armazenamento adicional para parâmetros de quantização, factores de normalização, etc., o que contrasta fortemente com os métodos tradicionais.

  • Teoricamente ótimo: Oferece garantias de distorção matematicamente quase óptimas, proporcionando uma previsibilidade fiável do desempenho para uma implantação em grande escala.

Nuvem sobre o Halo: uma breve nota sobre a controvérsia académica

A par das ondas de choque no mercado causadas pela TurboQuant, surgiu uma disputa académica. A 27 de março, Jianyang Gao, pós-doutorado na ETH de Zurique, alegou publicamente que a metodologia principal da TurboQuant é muito semelhante à da RaBitQ, um algoritmo que publicou em 2024 na SIGMOD. Gao salientou que o artigo da equipa da Google evitava discutir semelhanças metodológicas, depreciava os resultados teóricos do RaBitQ como "subóptimos" sem justificação e utilizava comparações experimentais injustas (testando o RaBitQ numa CPU de núcleo único enquanto testava o TurboQuant numa GPU A100).

De acordo com Gao, estes problemas foram comunicados à equipa da Google por correio eletrónico antes da publicação do documento. Embora a equipa da Google tenha reconhecido alguns problemas, apenas prometeu fazer correcções após a conferência e negou as semelhanças técnicas. Em 31 de março, a equipa do RaBitQ tinha publicou um comentário público no ICLR OpenReview e apresentou uma queixa formal ao comité de ética da conferência do ICLR. Esta controvérsia serve como um lembrete: O valor técnico do TurboQuant ainda precisa de tempo para ser totalmente validado e as questões de conduta académica envolvidas são igualmente dignas de nota.

Impacto potencial no sector do armazenamento

Um olhar racional sobre a reação do mercado

A queda acentuada dos stocks de chips de armazenamento após o anúncio da TurboQuant foi mais uma reação exagerada impulsionada pelo sentimento do mercado do que uma avaliação racional. Para compreender o verdadeiro impacto, é fundamental definir primeiro o conceito de âmbito de influência:

  1. Afecta apenas a inferência: Não tem impacto no processo de treinamento do modelo, que é o cenário de demanda principal para a memória de ponta como a HBM.

  2. Comprime apenas a cache KV: Os pesos do modelo, as activações e outros dados principais não são afectados. Estes representam os principais consumidores de recursos de armazenamento.

  3. O paradoxo dos ganhos de eficiência: A experiência histórica sugere que as melhorias na eficiência computacional conduzem frequentemente a aplicações de maior escala, potencialmente crescente a procura global de armazenagem em vez de a diminuir (paradoxo de Jevons).

Impactos potenciais em SSD, DDR e HBM

O TurboQuant pode ter uma memória DDR de duplo impacto. Por um lado, reduz a dependência do HBM, permitindo que o cache KV seja armazenado de forma mais económica em DDR5/DDR6 em vez de exigir o caro HBM. Isso cria novas oportunidades para DDR5-8800+ de alta largura de banda e futura DDR6posicionando-os como uma alternativa económica ao HBM em servidores de IA. Por outro lado, o TurboQuant acelera a adoção da tecnologia de expansão de memória CXL. Ao agrupar a memória DDR via CXL, os servidores de IA podem alocar recursos de memória de forma mais flexível para lidar com tarefas de inferência de tamanhos variados, aumentando ainda mais a eficiência da utilização de DDR e a demanda do mercado.

Ao contrário das preocupações do mercado, o TurboQuant é provavelmente um desenvolvimento positivo significativo para os SSDs:

  1. Armazenamento de transbordo de contexto longo: Quando a cache KV excede a capacidade da memória, as SSDs de baixa latência e alta resistência (como o modo pSLC, NVMe 4.0/5.0) tornam-se a cache secundária ideal, aumentando significativamente a procura de desempenho e capacidade das SSDs de nível empresarial.

  2. Expansão da Base de Dados Vetorial: A crescente adoção de sistemas RAG (Retrieval-Augmented Generation), impulsionada pelo TurboQuant, irá alimentar diretamente o crescimento das bases de dados vectoriais, que dependem fortemente de SSDs de elevado desempenho para o seu armazenamento subjacente.

  3. Implementação da IA de ponta: O TurboQuant torna possível executar modelos de IA em dispositivos de consumo, expandindo o mercado de SSDs do lado do cliente, aumentando particularmente a demanda por baixo consumo de energia e alto desempenho SSDs M.2.

O pânico do mercado em relação à HBM parece ter sido exagerado:

  1. Distinção clara entre formação e inferência: TurboQuant só afeta o cache KV durante a inferência. As exigências de largura de banda para o treinamento de modelos no HBM permanecem inalteradas; o HBM continua sendo um requisito essencial para o treinamento de modelos de escala ultra-grande.

  2. Armazenamento do peso do modelo não afetado: Os pesos dos modelos, que representam mais de 90% do consumo de memória da IA, não são comprimidos pelo TurboQuant. O papel do HBM como o principal meio de armazenamento desses pesos permanece seguro.

  3. Otimização da arquitetura híbrida: O TurboQuant permite que os recursos HBM sejam alocados de forma mais eficiente para tarefas críticas de computação, promovendo o desenvolvimento de arquiteturas de armazenamento híbridas que combinam HBM, DDR e SSD, em vez de uma simples substituição.

Potencial novo paradigma para a infraestrutura de IA

O verdadeiro valor do TurboQuant não reside na "eliminação" de um tipo específico de armazenamento, mas na reformulação da arquitetura de armazenamento em camadas da infraestrutura de IA, conduzindo à criação de uma hierarquia de armazenamento de memória mais eficiente e económica.

Uma nova ordem de fluxo de dados inteligente

É provável que as futuras arquitecturas de armazenamento de servidores de IA apresentem uma clara pirâmide de três níveis:

  1. Top Tier - HBM: Responsável pelo armazenamento de dados computacionais essenciais, como pesos e activações de modelos, satisfazendo as exigências de largura de banda intensiva das tarefas de formação e inferência.

  2. Nível intermédio - DDR: Actua como o suporte principal para a cache KV. Beneficiando da eficiência de compressão do TurboQuant, a DDR5/DDR6 tornar-se-á a memória de trabalho para cenários de inferência.

  3. Escalão inferior - SSD: Lida com transbordamento de contexto longo, bases de dados vectoriais e pontos de verificação de modelos. As SSDs empresariais de baixa latência e alta resistência encontrarão novas oportunidades de crescimento.

O núcleo desta arquitetura em camadas é colocação inteligente de dados - movendo dinamicamente os dados entre camadas com base na frequência de acesso, nos requisitos de latência e no custo de armazenamento para alcançar o equilíbrio ideal entre desempenho e custo.

A ascensão do armazenamento definido por software

A TurboQuant pode acelerar a adoção de Armazenamento definido por software (SDS) na IA, nomeadamente nos seguintes domínios:

  1. Sistemas de gestão de memória: O software de gerenciamento que pode monitorar o tamanho do cache KV em tempo real e decidir de forma inteligente se os dados devem ser mantidos no HBM, DDR ou transbordados para SSDs se tornará um componente padrão da infraestrutura de IA.

  2. Pooling de memória CXL: O agrupamento de recursos de memória DDR de vários servidores através do protocolo CXL fornecerá recursos de memória elasticamente escaláveis para clusters de IA, reduzindo ainda mais o requisito de capacidade HBM por servidor individual.

  3. Armazenamento com capacidade de compressão: Os dispositivos de armazenamento começarão a suportar nativamente algoritmos de compressão como o TurboQuant, permitindo a rápida compressão e descompressão de dados ao nível do hardware para melhorar a eficiência geral do sistema.

oscoo 2b banner 1400x475 1 TurboQuant: Reformulando o cenário de armazenamento de IA?

O lançamento do TurboQuant não é um presságio de desgraça para a indústria de armazenamento, mas sim um novo ponto de partida para uma integração mais profunda entre o armazenamento e a IA. Não irá simplesmente "eliminar" um determinado tipo de produto de armazenamento. Em vez disso, através de um avanço revolucionário na tecnologia de compressão, conduzirá a indústria do armazenamento para uma maior eficiência e inteligência. Isto significa que os futuros serviços de IA serão capazes de lidar com textos mais longos, fornecendo respostas mais precisas e reduzindo potencialmente os custos de hardware. A verdadeira revolução tecnológica nunca tem a ver com uma simples substituição, mas sim com um salto na eficiência da utilização de recursos através da inovação, abrindo assim portas a aplicações mais vastas.

Deslocar para o topo

Contacte-nos

Preencha o formulário abaixo e entraremos em contacto em breve.

Formulário de contacto Produto