По мере роста моделей ИИ, Память с высокой пропускной способностью (HBM) Чтобы идти в ногу со временем, в конструкции используется больше слоев и более высокие скорости. Однако это увеличивает нагрев, особенно на физическом уровне между матрицами (D2D PHY) - интерфейсе, который обеспечивает сверхбыструю передачу данных между HBM и чипом ИИ. Эта небольшая область становится самым горячим местом на чипе. Традиционная HBM заставляет тепло проходить через несколько слоев основной матрицы, прежде чем оно сможет выйти наружу, что является длинным и неэффективным путем. Если тепло не отводится быстро, температура чипа повышается и запускается дросселирование - механизм самозащиты, снижающий производительность. Решение проблемы теплового узкого места необходимо для раскрытия всей мощи чипов следующего поколения с искусственным интеллектом.
Основной компонент и принцип работы iHBM
Компания SK Hynix предложила решение проблемы нагрева под названием интегрированная память с высокой пропускной способностью, или iHBM. В основе этой технологии лежит специальный компонент охлаждения, встроенный в HBM. Этот компонент получил название ICE. ICE изготовлен из материала на основе кремния. Этот материал обладает сразу двумя ключевыми свойствами. Во-первых, он обладает высокой теплопроводностью, то есть эффективно передает тепло. Во-вторых, он электроизоляционный, поэтому его можно смело размещать среди плотных схем, не вызывая короткого замыкания. Компонент ICE размещен непосредственно в области D2D PHY, где концентрация тепла наиболее высока, а обмен данными между HBM и процессором наиболее интенсивен.
При традиционной конструкции HBM тепло должно пройти через несколько слоев основной матрицы, прежде чем покинуть чип. Этот путь очень длинный. iHBM меняет этот путь. Благодаря использованию встроенного компонента ICE внутри чипа создается специальный тепловой канал. Теперь тепло может идти почти напрямую от источника к корпусу или теплораспределителю, не проходя через множество функциональных слоев. Это сокращает путь тепла и снижает сопротивление, которое тепло встречает на своем пути.
С точки зрения производства, iHBM основана на уже серийно выпускаемой компанией SK Hynix технологии упаковки на уровне пластин MR-MUF. MR-MUF означает массовое литье под давлением - процесс, обеспечивающий высокую эффективность производства и хороший выход продукции. Добавление этапа встраивания компонентов ICE в существующий процесс делает возможным массовое производство iHBM.
Ключевые преимущества iHBM
Технология iHBM обеспечивает ряд очевидных преимуществ за счет изменения теплового пути.
- Улучшенное охлаждение. Согласно данным, опубликованным SK Hynix, iHBM снижает тепловое сопротивление более чем на 30% по сравнению с традиционными решениями для охлаждения HBM. Тепловое сопротивление - это показатель того, насколько трудно течь теплу. Более низкое тепловое сопротивление означает, что тепло, генерируемое внутри чипа, отводится легче. Для области с высокой плотностью мощности, такой как D2D PHY, снижение теплового сопротивления на 30% может значительно снизить рабочую температуру.
- Улучшена стабильность системы. Если температура хорошо контролируется, стабильность системы повышается. Во время длительных и тяжелых рабочих нагрузок, таких как обучение и вывод данных ИИ, высокая температура чипа может вызвать дросселирование, что снижает вычислительную мощность. Благодаря решению iHBM чип может дольше оставаться на пике производительности и реже подвергаться дросселированию. Это особенно важно для задач обучения больших моделей, которые должны выполняться непрерывно в течение нескольких дней или даже недель.
- Низкий барьер для развертывания. Еще одно преимущество iHBM - простота развертывания. Технология сохраняет высокую совместимость с существующими системами "система в упаковке". Это означает, что модули HBM с использованием iHBM могут заменить традиционные модули HBM без существенного изменения дизайна GPU или AI-ускорителя. Для производителей чипов и поставщиков облачных услуг это сокращает время и затраты на проверку технологии и интеграцию продукта.
- Готовы к серийному производству. Что касается технологичности, то в основе iHBM лежит разработанный SK Hynix процесс упаковки на уровне пластин MR-MUF. Этот процесс был проверен на нескольких поколениях продуктов HBM, обеспечивая высокую производительность и возможность серийного производства. Добавление этапа встраивания компонентов ICE в существующую производственную линию не требует перестройки всего производственного процесса. Таким образом, у iHBM есть все шансы перейти от лабораторных исследований к крупномасштабному коммерческому использованию.
Основные примеры использования
Технология iHBM решает проблему управления тепловыделением в областях с высокой плотностью мощности, поэтому ее основное применение - в областях, где требуется одновременно высокая вычислительная мощность и высокое энергопотребление.
Высокопроизводительные вычисления (HPC). HPC часто связаны со сложными научными симуляциями, прогнозированием погоды, анализом генома и другими подобными задачами. Эти задачи требуют параллельной работы множества вычислительных узлов и часто выполняются в течение нескольких часов или даже дней. В таких условиях чипы долгое время находятся под высокой нагрузкой, и тепло постоянно увеличивается. При недостаточном охлаждении вычислительные кластеры замедляются из-за температурной защиты, увеличивая общее время вычислений. iHBM помогает чипам поддерживать стабильную температуру, снижая тепловое сопротивление, и тем самым обеспечивая устойчивую вычислительную мощность.
Центры обработки данных с искусственным интеллектом. По мере распространения генеративного ИИ и больших языковых моделей плотность мощности центров обработки данных ИИ стремительно растет. Один сервер ИИ уже может потреблять несколько киловатт, при этом основными источниками тепла являются HBM и GPU. Центрам обработки данных необходимо не только охлаждать чипы, но и учитывать затраты на электроэнергию и площадь всей системы охлаждения. Более эффективное охлаждение на уровне чипа означает меньшую зависимость от жидкостного охлаждения или высокоскоростных вентиляторов, что снижает капитальные вложения и эксплуатационные расходы на охлаждающее оборудование. iHBM управляет теплом непосредственно внутри чипа, помогая снизить нагрузку на отвод тепла от источника.
Устройства с искусственным интеллектом будущего. В настоящее время наиболее остро потребность в охлаждении ощущается в центрах обработки данных. Но по мере внедрения возможностей ИИ в телефоны, персональные компьютеры, автомобили и другие конечные устройства проблемы охлаждения в этих компактных пространствах будут возрастать. Конечные устройства имеют ограниченное пространство для охлаждения и не могут установить большие вентиляторы или системы жидкостного охлаждения, поэтому они больше зависят от эффективности охлаждения самого чипа. Хотя iHBM в настоящее время нацелена на продукты памяти корпоративного класса, такие как HBM5, та же идея - встраивание специального компонента охлаждения в горячую точку - может вдохновить на разработку систем охлаждения для мобильных устройств.
Кроме того, технология iHBM может пригодиться любой системе, использующей память с высокой пропускной способностью и сталкивающейся с проблемами охлаждения. Например, высокопроизводительные вычислительные платформы для автономного вождения и пограничные вычислительные серверы нуждаются в контроле температуры при высокой плотности развертывания. По мере роста спроса на вычисления управление теплом превращается из второстепенной проблемы системы в основную, определяющую пределы производительности. Поэтому направление, которое представляет iHBM, имеет более широкое значение.
Конкурентный ландшафт технологий охлаждения
По мере того как плотность мощности HBM продолжает расти, возможности охлаждения становятся ключевым фактором, определяющим конкурентоспособность продуктов HBM нового поколения. Три крупнейших производителя памяти - SK Hynix, Samsung Electronics и Micron Technology - а также некоторые поставщики облачных услуг исследуют различные пути развития технологий охлаждения.
| Компания | Технология | Основная идея | Ключевые данные |
|---|---|---|---|
| SK Hynix | iHBM | Встраивание охлаждающего компонента с высокой теплопроводностью и электрической изоляцией в горячую область D2D PHY HBM, создавая специальный тепловой путь | >30% снижение термического сопротивления |
| Samsung Electronics | Охлаждение HPB + гибридное медное соединение | Измените структуру укладки микросхем, переместив DRAM на боковую сторону процессора и разместив медный теплораспределитель непосредственно над ядром процессора; используйте соединение меди с медью для устранения теплового сопротивления | Снижение температуры на ~30%; улучшение теплового сопротивления на 16% |
| Технология Micron | Улучшение конструкции схемы + усовершенствованная базовая матрица | Улучшение охлаждения при одновременном повышении производительности за счет усовершенствования внутренней схемы и оптимизации характеристик базовой матрицы | >20% повышение энергоэффективности |
| Microsoft | Микрофлюидное охлаждение | Протравливание микроканалов на задней поверхности кремниевого чипа и подача охлаждающей жидкости непосредственно к источникам тепла внутри чипа | Отвод тепла в 2-3 раза лучше, чем у холодных пластин; снижение пикового повышения температуры на 65% |
Таким образом, SK Hynix заняла лидирующие позиции в области охлаждения с помощью технологии iHBM. Samsung быстро догоняет ее, применяя технологии HPB и гибридного медного соединения. Micron сохраняет конкурентоспособность благодаря постоянному совершенствованию технологических процессов в области энергоэффективности. В то же время поставщики облачных услуг, такие как Microsoft, изучают возможности микрофлюидного охлаждения на системном уровне, что открывает новые возможности для охлаждения еще более мощных чипов ИИ в будущем.
Заключение и перспективы
Технология iHBM компании SK Hynix решает давно забытую, но все более актуальную проблему: как эффективно отводить тепло от горячих точек внутри памяти с высокой пропускной способностью. Для пользователей центров обработки данных ИИ и высокопроизводительных вычислений улучшение охлаждения означает более стабильную вычислительную мощность, снижение затрат на электроэнергию для охлаждения и увеличение срока службы оборудования. Поскольку модели ИИ продолжают расти в размерах, уровни стека HBM и плотность мощности будут увеличиваться. Вполне вероятно, что управление тепловыделением превратится из второстепенного вопроса при проектировании системы в основную проблему, определяющую целесообразность создания инфраструктуры ИИ следующего поколения. Направление, которое представляет iHBM, - решение проблем с теплом у источника, внутри корпуса - предлагает практический путь к решению этой задачи.





