SK Hynix iHBM: Um novo caminho para a gestão do calor dos chips de IA

À medida que os modelos de IA crescem, memória de alta largura de banda (HBM) é construído com mais camadas e velocidades mais altas para acompanhar o ritmo. No entanto, isso aumenta o calor, especialmente na camada física die-to-die (D2D PHY), a interface que lida com a transferência de dados ultra-rápida entre o HBM e o chip AI. Esta pequena área torna-se o ponto mais quente do chip. O HBM tradicional força o calor a viajar através de várias camadas do núcleo da matriz antes que ele possa escapar, o que é um caminho longo e ineficiente. Se o calor não for removido rapidamente, a temperatura do chip aumenta e aciona o throttling - um mecanismo de autoproteção que reduz o desempenho. Resolver este estrangulamento térmico é essencial para desbloquear toda a potência dos chips de IA da próxima geração.

iHBM Um novo caminho para a gestão do calor dos chips de IA img de cabeçalho do artigo SK Hynix iHBM: Um novo caminho para a gestão do calor dos chips de IA

Componente principal e funcionamento da iHBM

A SK Hynix propôs uma solução para este problema de aquecimento chamada memória integrada de alta largura de banda, ou iHBM. O núcleo desta tecnologia é um componente de refrigeração especial incorporado na HBM. Este componente é denominado ICE. O ICE é feito de um material à base de silício. Este material tem duas propriedades-chave ao mesmo tempo. Primeiro, ele tem alta condutividade térmica, o que significa que transfere calor eficientemente. Em segundo lugar, é eletricamente isolante, pelo que pode ser colocado em segurança entre circuitos densos sem causar curto-circuitos. O componente ICE é colocado diretamente na área D2D PHY, onde o calor é mais concentrado e a troca de dados entre o HBM e o processador é mais pesada.

No design tradicional do HBM, o calor deve passar por várias camadas do núcleo antes de deixar o chip. Este caminho é longo. O iHBM muda este caminho. Ao usar o componente ICE embutido, ele cria um canal de calor dedicado dentro do chip. O calor pode agora viajar quase diretamente da fonte para a caixa da embalagem ou para o dissipador de calor, sem passar por muitas camadas funcionais. Isto encurta o caminho do calor e reduz a resistência que o calor encontra pelo caminho.

Do ponto de vista do fabrico, a iHBM baseia-se na tecnologia de empacotamento ao nível da bolacha MR-MUF já produzida em massa pela SK Hynix. MR-MUF significa ‘mass reflow molded underfill", um processo que proporciona uma elevada eficiência de produção e um bom rendimento. A adição da etapa de incorporação de componentes ICE a este processo existente torna viável a produção em massa de iHBM.

Principais vantagens da iHBM

A tecnologia iHBM oferece várias vantagens claras ao alterar o percurso do calor.

  • Melhor refrigeração. De acordo com dados divulgados pela SK Hynix, o iHBM reduz a resistência térmica em mais de 30% em comparação com as soluções tradicionais de resfriamento HBM. A resistência térmica é uma medida de quão difícil é o fluxo de calor. Uma menor resistência térmica significa que o calor gerado dentro do chip é removido mais facilmente. Para uma área de alta densidade de potência como o D2D PHY, uma redução de 30% na resistência térmica pode diminuir significativamente a temperatura de operação.
  • Melhoria da estabilidade do sistema. Quando a temperatura é bem controlada, a estabilidade do sistema melhora. Durante cargas de trabalho longas e pesadas, como treinamento e inferência de IA, a alta temperatura do chip pode desencadear o estrangulamento, o que reduz a capacidade de computação. Com a solução iHBM, o chip pode permanecer no seu desempenho máximo por períodos mais longos e sofrer menos eventos de estrangulamento. Isso é especialmente importante para tarefas de treinamento de modelos grandes que precisam ser executadas continuamente por dias ou até semanas.
  • Barreira de implantação reduzida. Outra vantagem da iHBM é a facilidade de implementação. A tecnologia mantém alta compatibilidade de design com os ambientes system-in-package existentes. Isso significa que os módulos HBM que usam o iHBM podem substituir os módulos HBM tradicionais sem uma grande reformulação da GPU ou do pacote do acelerador de IA. Para fabricantes de chips e provedores de serviços em nuvem, isso reduz o tempo e o custo necessários para validação de tecnologia e integração de produtos.
  • Pronto para produção em massa. Quanto à capacidade de fabricação, o iHBM é baseado no maduro processo de empacotamento em nível de wafer MR-MUF da SK Hynix. Este processo foi comprovado em várias gerações de produtos HBM, com alto rendimento e capacidade de produção em volume. Adicionar a etapa de incorporação de componentes ICE a uma linha de produção existente não requer a reconstrução de todo o fluxo de fabricação. Isto dá ao iHBM um caminho claro desde o laboratório até o uso comercial em larga escala.
oscoo 2b banner 1400x475 1 SK Hynix iHBM: Um novo caminho para a gestão do calor dos chips de IA

Principais casos de utilização

A tecnologia iHBM resolve o problema da gestão do calor em áreas de elevada densidade de potência, pelo que os seus principais casos de utilização são em domínios que exigem simultaneamente uma elevada potência de computação e um elevado consumo de energia.

Computação de alto desempenho (HPC). A HPC envolve frequentemente simulações científicas complexas, previsão meteorológica, análise de genomas e tarefas semelhantes. Estas tarefas exigem que muitos nós de computação trabalhem em paralelo e, muitas vezes, funcionam durante horas ou mesmo dias. Nestes ambientes, os chips permanecem sob carga pesada durante longos períodos e o calor acumula-se continuamente. Se o arrefecimento for insuficiente, os clusters de computação abrandarão devido à proteção da temperatura, prolongando o tempo total de computação. O iHBM ajuda os chips a manter uma temperatura estável, reduzindo a resistência térmica, garantindo assim uma potência de computação sustentada.

Centros de dados de IA. À medida que a IA generativa e os modelos de linguagem de grande dimensão se espalham, a densidade energética dos centros de dados de IA está a aumentar rapidamente. Um único servidor de IA já pode consumir vários quilowatts, sendo o HBM e a GPU as principais fontes de calor. Os centros de dados não só precisam de arrefecer os chips, como também têm de considerar os custos de energia e de espaço de todo o sistema de arrefecimento. Um resfriamento mais eficiente no nível do chip significa menos dependência de resfriamento líquido ou ventiladores de alta velocidade, reduzindo tanto o investimento de capital quanto as despesas operacionais para equipamentos de resfriamento. O iHBM gerencia o calor diretamente dentro do chip, ajudando a reduzir a carga de remoção de calor da fonte.

Dispositivos de IA de ponta do futuro. Atualmente, as necessidades de arrefecimento mais urgentes encontram-se nos centros de dados. Mas à medida que as capacidades de IA se deslocam para telemóveis, computadores pessoais, automóveis e outros dispositivos finais, os desafios de refrigeração nestes espaços compactos irão aumentar. Os dispositivos finais têm um espaço limitado para arrefecimento e não podem instalar grandes ventoinhas ou sistemas de arrefecimento líquido, pelo que dependem mais da eficiência de arrefecimento do próprio chip. Embora o iHBM seja atualmente destinado a produtos de memória de nível empresarial como o HBM5, a mesma ideia - incorporar um componente de refrigeração dedicado no ponto quente - poderia inspirar designs de refrigeração para dispositivos móveis.

Para além destes, qualquer sistema que utilize memória de elevada largura de banda e enfrente estrangulamentos de arrefecimento pode beneficiar da tecnologia iHBM. Por exemplo, as plataformas de computação de alto desempenho para condução autónoma e os servidores de computação periférica têm de controlar a temperatura em aplicações de alta densidade. Como a procura de computação continua a crescer, a gestão do calor está a passar de uma questão secundária do sistema para um problema central que determina os limites de desempenho. A direção que a iHBM representa tem, por conseguinte, um significado mais vasto.

Cenário competitivo das tecnologias de arrefecimento

Como a densidade de potência do HBM continua a aumentar, a capacidade de resfriamento está se tornando um fator-chave que determina a competitividade dos produtos HBM de próxima geração. Os três principais fabricantes de memória - SK Hynix, Samsung Electronics e Micron Technology - bem como alguns provedores de serviços de nuvem estão explorando diferentes caminhos de tecnologia de resfriamento. 

EmpresaTecnologiaIdeia centralDados principais
SK HynixiHBMIncorporar um componente de resfriamento de alta condutividade térmica e eletricamente isolante dentro da área quente D2D PHY da HBM, criando um caminho de calor dedicado>30% redução da resistência térmica
Samsung ElectronicsArrefecimento HPB + ligação híbrida de cobreAltere a estrutura de empilhamento de chips movendo a DRAM para o lado do processador e colocando um dissipador de calor de cobre diretamente acima do núcleo do processador; utilize a ligação cobre-cobre para eliminar a resistência térmica~30% de redução de temperatura; 16% de melhoria na impedância térmica
Tecnologia MicronMelhoria da conceção do circuito + matriz de base melhoradaMelhorar o arrefecimento e, ao mesmo tempo, aumentar o desempenho, aperfeiçoando o design do circuito interno e optimizando o desempenho da matriz de base>20% melhoria da eficiência energética
MicrosoftArrefecimento microfluídicoGravar microcanais na parte de trás do chip de silício e fornecer líquido de refrigeração diretamente às fontes de calor no interior do chipRemoção de calor 2-3 vezes melhor do que as placas frias; redução de 65% no pico de aumento de temperatura

Em suma, a SK Hynix assumiu uma posição de liderança na refrigeração com a tecnologia iHBM. A Samsung está a recuperar rapidamente o atraso com as suas abordagens HPB e de ligação híbrida de cobre. A Micron mantém-se competitiva através de melhorias constantes no processo de eficiência energética. Ao mesmo tempo, os fornecedores de serviços na nuvem, como a Microsoft, estão a explorar o arrefecimento microfluídico a partir do nível do sistema, abrindo novas possibilidades de arrefecimento de chips de IA ainda mais potentes no futuro.

Conclusão e perspectivas

A tecnologia iHBM da SK Hynix aborda um problema há muito ignorado, mas cada vez mais urgente: como remover eficientemente o calor dos pontos quentes dentro da memória de alta largura de banda. Para os utilizadores de centros de dados de IA e de computação de alto desempenho, uma melhor refrigeração significa uma potência de computação mais estável, custos de energia de refrigeração mais baixos e uma vida útil mais longa do equipamento. Como os modelos de IA continuam a crescer em tamanho, as camadas da pilha HBM e a densidade de energia aumentarão ainda mais. É provável que o gerenciamento de calor passe de uma questão secundária no design do sistema para um problema central que determina a viabilidade da infraestrutura de IA da próxima geração. A direção que o iHBM representa - resolver problemas de calor na fonte, dentro do pacote - oferece um caminho prático para esse desafio.

Deslocar para o topo

Contacte-nos

Preencha o formulário abaixo e entraremos em contacto em breve.

Formulário de contacto Produto