首先,数据量激增。 无论是模型训练阶段使用的海量原始数据,还是推理阶段需要反复访问的模型参数和向量数据库,数据规模都远远超过了传统应用。
其次,访问模式发生了根本变化。 人工智能工作负载通常涉及大量小规模、随机、高并发的数据块访问,而不是传统存储系统更擅长处理的大块连续读写。
第三,存储已开始直接影响计算效率。 在人工智能服务器中,GPU 或其他加速器的计算能力增长非常迅速。如果存储系统跟不上数据供应速度,就会出现 "计算空转",实际上降低了整个系统的效率。
正是在这种背景下,人工智能固态硬盘的概念开始被频繁提及,并逐渐从概念转变为具体的产品和技术路线图。
什么是人工智能固态硬盘?
对于许多刚刚接触这一概念的人来说,"AI SSD "很容易被误解为在固态硬盘中集成了人工智能算法,能够自行 "学习 "或 "优化 "的产品。然而,根据业界的主流定义,这种理解并不准确。AI SSD的核心不在于 "固态硬盘内部是否有AI",而在于 "固态硬盘是否为AI工作负载而生"。更准确地说,人工智能固态硬盘是一种针对人工智能训练、推理和数据服务场景进行深度优化的固态存储设备。这种优化既包括硬件层面的架构设计,也包括固件、协议和系统协作方式的改变。从功能定位上看,AI SSD 仍然是一种存储设备,它不会取代 GPU 或 CPU 的计算作用。但它的目标非常明确:最大限度地减少存储对人工智能系统性能的限制。
传统固态硬盘在人工智能应用场景中的实际瓶颈
要了解人工智能固态硬盘的价值,首先必须清楚传统固态硬盘在人工智能场景中面临的问题。
- 延迟成为比带宽更重要的指标。在传统应用中、 顺序读/写 带宽通常是评估固态硬盘性能的重要指标,如 7GB/s 或 14GB/s。但在人工智能场景中,延迟的重要性往往超过峰值带宽。这是因为人工智能任务涉及大量细粒度数据请求。如果每次访问都需要等待数十微秒,即使每次请求的数据量很小,累积效应也会大大降低整体进度。许多企业固态硬盘的典型访问延迟在 40-100 微秒之间,这在数据库或虚拟化场景中是可以接受的,但在大规模人工智能推理或训练中则显得相对较高。
- IOPS 不再只是 "足够好"。 IOPS(每秒输入/输出操作数)一直是固态硬盘的核心指标之一,但在传统业务中,达到数十万 IOPS 通常就足够了。人工智能工作负载则完全不同。向量检索、参数加载和模型分片访问等场景会产生大量随机读取请求。在这种情况下,传统固态硬盘的 IOPS 很快就会成为系统瓶颈。这就是为什么有关人工智能固态硬盘技术的讨论经常提到数百万甚至数千万 IOPS 的目标,而这在过去是非常罕见的。
- CPU 成为 "传输瓶颈"。 在传统的服务器架构中,固态硬盘和 GPU 之间的数据路径通常为固态硬盘 → CPU → 内存 → GPU。这种模式在通用计算时代行之有效,但在人工智能服务器中却暴露出明显的问题。一方面,CPU 需要处理大量的数据移动;另一方面,这种路径本身会带来额外的延迟。随着 GPU 计算能力的不断提高,这种 "绕过 CPU 到达 GPU "的数据路径正在成为整体系统效率的制约因素。
人工智能固态硬盘与传统固态硬盘的定位差异
为了更直观地理解两者的区别,我们可以从 "设计起点 "的角度对它们进行比较。
| 比较尺寸 | 传统固态硬盘 | 人工智能固态硬盘 |
|---|---|---|
| 首要目标 | 通用性能与成本之间的平衡 | 为人工智能工作负载提供极高的效率 |
| 优化重点 | 顺序读/写、容量、可靠性 | 低延迟、高 IOPS、高并发性 |
| 典型应用 | 个人电脑、服务器、数据库 | 人工智能训练、推理、矢量搜索 |
| 数据访问模式 | 混合型,主要是顺序型 | 小块、随机、高并发 |
| 系统协作 | 以 CPU 为中心 | 更接近 GPU/加速器 |
必须强调的是,人工智能固态硬盘并不是要取代传统固态硬盘。在绝大多数通用场景中,传统固态硬盘仍然是更合理、更具成本效益的选择。人工智能固态硬盘的存在是为了服务那些已经被人工智能工作负载 "逼到极限 "的系统。
人工智能固态硬盘的核心定位
从系统的角度来看,人工智能固态硬盘的本质作用可以用一句话来概括:它的任务不仅仅是存储数据本身,而是高效、稳定、持续地为人工智能计算单元提供数据。为了实现这一目标,人工智能固态硬盘通常会在以下几个方向进行重点优化:
- 极低的访问延迟
- 极高的随机 IOPS 能力
- 内部架构更适合人工智能数据访问模式
- 更紧密的系统级协作方法
这些特性不是通过简单的堆叠参数就能实现的,通常需要重新思考固态硬盘的控制器设计、闪存管理策略,甚至是系统接口方法。
人工智能固态硬盘的主要技术特点和架构方法
人工智能固态硬盘并不是简单地将现有的企业固态硬盘,提升控制器性能,增加闪存,最大限度地提高接口速度,自然而然地适应人工智能的应用场景。真正的困难在于人工智能工作负载的访问模式与传统存储应用的结构差异。人工智能固态硬盘的技术演进本质上是围绕数据访问模式的重新设计。
极低的延迟
在人工智能系统中,存储延迟往往直接决定了计算资源的利用率。以 GPU 为例,其计算能力的增长速度远高于存储系统。如果 GPU 在等待数据时处于空闲状态,那么即使 GPU 的理论计算能力很高,实际吞吐量也会大幅下降。在这种情况下,平均延迟是不够的,尾部延迟更为关键。延迟异常的单个 IO 操作会拖慢整个批处理的执行速度。
传统企业级 NVMe SSD 的访问延迟一般在几十微秒级别,这是一个非常成熟稳定的结果。但在人工智能应用场景中,业界正试图将延迟进一步压缩到十微秒甚至接近个位数微秒的水平。要实现这一目标,不仅仅是提高接口速度,还需要在以下方面进行系统优化:
- 减少控制路径中的中断和上下文切换
- 优化闪存访问调度策略
- 缩短控制器内部数据处理路径
可以说,延迟优化是一项系统工程,贯穿于人工智能固态硬盘的整个设计过程。
超高 IOPS
在模型训练和推理过程中,数据访问往往表现出 "碎片化 "特征。例如
- 模型参数被分成许多小块。
- 矢量数据库需要频繁访问索引和特征。
- 多个模型或任务并行运行。
在这些情况下,固态硬盘面对的不是几个连续的大请求,而是大量并发的小请求。这使得 IOPS 成为决定性能上限的关键指标。在传统的企业固态硬盘中,几十万 IOPS 已经算是高端了。在人工智能固态硬盘的规划中,常见的目标是数百万、数千万甚至数千万的 IOPS。需要注意的是,这里所说的 IOPS 不仅仅是实验室条件下的峰值,而是在高并发、低延迟约束下的可持续能力。提高 IOPS 并不是 "打开更多队列 "就能解决的问题。当并发请求数量极大时,很快就会出现以下问题:
- 增加队列管理的复杂性
- 闪存通道之间负载不均
- 写入放大和垃圾回收的干扰
因此,人工智能固态硬盘通常需要在固件层面引入更积极的并发调度策略,同时对闪存资源进行更精细的管理。
GPU 和加速器的系统协同设计
在传统的服务器架构中,固态硬盘和 GPU 之间通常没有直接的数据路径。数据必须首先经过 CPU 和系统内存,然后才能发送到 GPU。这种架构的问题在人工智能服务器中更加严重。随着 GPU 数量的增加和单卡计算能力的不断提高,这种间接路径的效率问题变得更加突出。为了解决这一问题,人工智能固态硬盘开始在系统层面进行新的尝试,例如
- 支持 GPU 直接或近似直接数据访问模式。
- 减少不必要的 CPU 参与。
- 优化存储和加速器之间的数据传输路径。
这些设计并不一定意味着完全绕过 CPU,而是在适当的场景下减少数据复制和传输时间,从而提高整体效率。在这种架构中,存储不再只是一个 "被动的数据仓库",而更像是人工智能系统中一个主动的数据服务节点。它需要了解上层访问模式,快速响应并发请求,并与计算单元形成高效协作。这也是为什么人工智能固态硬盘的设计往往需要与整个机器系统甚至 GPU 制造商进行深度合作。
大容量、高密度
随着大型模型参数规模的不断增长,单个模型往往达到数百 GB 甚至数 TB,存储系统必须具备足够的容量和密度,以支持实际部署。此外,人工智能系统通常需要存储多个版本的模型、训练数据、中间结果、向量数据库、索引等。这使得大容量和高密度成为人工智能固态硬盘的另一个重要特性。然而,大容量并非 "免费"。提高闪存密度往往需要成本:
- 增加每个闪存芯片的访问延迟。
- 并发性能有限。
- 耐久性和可靠性面临挑战。
因此,在追求容量的同时,人工智能固态硬盘还需要通过架构和调度设计,尽量减少高密度带来的性能损失。
人工智能固态硬盘的行业现状和未来趋势
如果从技术生命周期的角度来看,人工智能固态硬盘仍处于 "早期采用、快速探索 "的阶段。一方面,AI SSD 并不仅仅是一个停留在概念层面的营销术语,AI 工作负载已经存在,并在数据中心、云计算平台和大型企业中快速发展。另一方面,AI SSD 还没有形成完全统一和标准化的产品形态。真正完全围绕人工智能设计的固态硬盘还主要局限于定制、预研和高端企业级产品,距离普及还有一定距离。
随着人工智能固态硬盘的发展,传统存储产业链中的角色也在发生变化。过去,固态硬盘制造商更关注单个设备的性能和可靠性。在人工智能场景中,他们需要更早地参与系统级设计,与服务器、GPU 和云平台提供商合作,并针对特定的人工智能工作负载进行深度优化。这就模糊了存储原始设备制造商、控制器制造商和系统集成商之间的界限。
未来的人工智能固态硬盘可能不再只是 "一个插入 PCIe 插槽的设备",而是在系统层面与计算资源进行更深入的协同设计。这可能体现在:更直接的数据路径、更少的中间副本以及更紧密的软硬件协作。这将进一步削弱存储与计算之间的界限。另一方面,随着人工智能系统规模的扩大,"将所有计算交给 GPU "并不一定是最佳解决方案。在某些情况下,让存储设备处理一些数据处理或预处理任务,有助于降低整个系统的负载。尽管这些想法仍处于探索阶段,但已成为业界关注的焦点。
人工智能固态硬盘并不是从根本上改变存储的新物种,而是以人工智能工作负载为中心对存储角色的重塑。它的出现源于人工智能给数据访问模式带来的根本性变化;它的价值不在于夸大单个指标的改进,而在于持续提高系统效率;它的未来不会取代所有固态硬盘,但将成为人工智能基础设施不可或缺的一部分。如果说 GPU 是 AI 系统的 "引擎",那么 AI SSD 更像是提供稳定、持续供应的燃料系统。它可能不是最显眼的,但一旦落后,整个系统都会受到影响。





