Les centres de données d'IA n'utilisent pas exclusivement des disques SSD ou des disques durs. Ils déploient généralement les deux types de disques de manière hybride. Les disques SSD, avec leurs excellentes performances, gèrent les charges de travail principales dans les opérations d'IA qui exigent une vitesse élevée, servant de moyen principal pour débloquer la puissance de calcul. Les disques durs, grâce à leur grande capacité et à leur faible coût, prennent en charge le stockage et l'archivage de quantités massives de données. Les deux fonctionnent ensemble pour former un système de stockage complet.
Pourquoi un déploiement hybride est-il nécessaire ?
Les centres de données d'IA adoptent un déploiement hybride de SSD et HDD principalement parce que les deux ont des atouts clairement complémentaires en termes de performances et de coûts. Les disques SSD ne comportent aucune pièce mobile et lisent et écrivent les données entièrement par le biais de signaux électroniques, ce qui les rend extrêmement rapides. Leur temps de latence est généralement mesuré en microsecondes, et leur performance en lecture/écriture aléatoire (IOPS) est des centaines, voire des milliers de fois supérieure à celle des disques durs. Ces caractéristiques permettent aux disques SSD de répondre aux exigences de vitesse d'accès aux données de l'apprentissage et de l'inférence de l'IA. Les disques durs, en revanche, s'appuient sur des têtes magnétiques pour lire et écrire des données sur des disques en rotation. En raison de leur structure mécanique, leur temps de latence se mesure en millisecondes et leurs performances en lecture/écriture aléatoire sont bien inférieures à celles des disques SSD. Leur avantage réside dans leur coût.
| Fonctionnalité | SSD | DISQUE DUR |
|---|---|---|
| Principe de fonctionnement | Mémoire flash, pas de pièces mobiles | Les têtes magnétiques lisent/écrivent sur des disques en rotation, ce qui implique des pièces mobiles. |
| Temps de latence | Niveau de la microseconde | Niveau en millisecondes |
| Performances en lecture/écriture aléatoire | Très élevé (IOPS des centaines de fois supérieur à celui d'un disque dur) | Relativement faible |
| Coût par tuberculose | Environ 10 à 20 fois plus que les disques durs | Relativement faible |
| Capacité maximale par lecteur | Atteindre le niveau de 128 To-245 To | Atteindre 32 To et plus (technologie HAMR) |
| Efficacité énergétique | Puissance par TB bien inférieure à celle des disques durs | Rotation continue, consommation d'énergie relativement plus élevée |
Selon le Données de VDURA à partir du premier trimestre 2026, le coût par unité de capacité des disques SSD d'entreprise 30 To QLC a atteint 22,6 fois celui des disques durs de même capacité. Le prix des disques SSD d'entreprise TLC de 30 To est passé d'environ $3,062 to à propos de $Les prix des disques SSD ont augmenté de 17 500 euros au cours de l'année écoulée, alors que les prix des disques durs n'ont augmenté que d'environ 35% au cours de la même période. Cet écart rend les solutions purement SSD de plus en plus inabordables.
La modélisation par VDURA d'une configuration typique de centre de données montre que sur un cycle de vie de trois ans, le coût total de possession d'un système de stockage hybride est d'environ $.7,31 millions, tandis qu'un système SSD pur coûte environ $Le coût de la solution hybride est de 31,06 millions d'euros. Le coût sur trois ans de la solution hybride est environ quatre fois moins élevé que celui de la solution SSD pure. En bref, les disques SSD offrent la vitesse, tandis que les disques durs offrent la capacité et le contrôle des coûts. Les deux ont une valeur irremplaçable, c'est pourquoi le déploiement hybride est un choix inévitable pour les centres de données aujourd'hui.
Logique de sélection du stockage pour les opérations de base de l'IA
L'étape de la préparation des données traite les données brutes. Cette étape implique principalement des lectures séquentielles à grande échelle, qui ne nécessitent pas de performances élevées en matière de lecture/écriture aléatoire, mais exigent une capacité importante. L'industrie adopte généralement des solutions de stockage basées sur des disques durs, complétées par un cache SSD pour améliorer la vitesse d'accès aux données chaudes.
L'étape de l'apprentissage du modèle a les exigences les plus élevées en matière de performances de stockage. L'ensemble du processus nécessite la lecture continue d'échantillons d'entraînement massifs et l'écriture fréquente de fichiers de points de contrôle du modèle, ce qui crée des exigences extrêmement élevées en matière de débit de données. Si les disques durs étaient utilisés comme stockage principal, leur latence inhérente entraînerait un retard dans l'approvisionnement des données par rapport aux calculs du GPU, ce qui conduirait directement à des cycles de calcul inactifs et à une baisse significative de l'utilisation du matériel. C'est pourquoi, dans les grappes de formation, les disques SSD NVMe sont déployés à la fois localement sur les serveurs GPU et dans les grappes de stockage partagé. Des technologies telles que RDMA et NVMe-oF sont utilisées pour construire des systèmes de fichiers parallèles, fournissant un flux continu de données pour les clusters multi-GPU.
L'étape de l'inférence a deux exigences fondamentales : une faible latence de réponse et une grande capacité de concurrence. Les grandes applications courantes de modèles de langage et les services de génération augmentée par récupération (RAG) génèrent un grand nombre de requêtes de cache KV et de récupération de vecteurs. Ces types d'accès aux données sont très aléatoires et sensibles à la latence, et doivent donc être exécutés sur des disques SSD. Les poids des modèles et les bases de données vectorielles utilisés dans l'inférence sont également entièrement déployés sur des disques SSD NVMe afin de garantir un temps de réponse rapide au premier jeton et la stabilité globale du service. Les disques durs ne jouent qu'un rôle de soutien dans l'inférence, en stockant les journaux historiques, les bases de connaissances rarement consultées et les fichiers de sauvegarde - ils ne participent pas aux services frontaux en temps réel.
Architecture de stockage à plusieurs niveaux
Aujourd'hui, les centres de données d'IA matures adoptent tous une architecture de stockage à plusieurs niveaux. Les données sont réparties en trois niveaux - chaud, tiède et froid - en fonction de la fréquence d'accès et des exigences de performance, et la configuration matérielle change en conséquence pour équilibrer les performances et les coûts.
- L'étage chaud est la partie la plus performante de l'architecture, comprenant la mémoire, la mémoire GPU à large bande passante et les disques SSD NVMe locaux dans les serveurs. Sa capacité totale ne représente que 5% à 20% de l'empreinte de stockage globale. Ce niveau stocke les poids des modèles, les caches en temps réel et les données d'entraînement fréquemment utilisées. Il détermine directement l'efficacité du GPU et constitue le lien central qui garantit le bon fonctionnement des charges de travail d'IA.
- L'étage chaud utilise généralement des disques SSD NVMe QLC de grande capacité ou des disques durs haute performance et, dans certains cas, des matrices de disques durs accélérées par le cache SSD. Il stocke des données à accès modéré, telles que des ensembles de données nettoyés et des fichiers de modèles couramment utilisés, en trouvant un équilibre entre les performances, la capacité et le coût.
- L'étage froid occupe plus de 80% de la capacité de stockage d'un centre de données. Son matériel principal est constitué de baies de disques durs d'entreprise ; certains très grands clusters intègrent également des bibliothèques de bandes. Il est dédié au stockage des données froides rarement consultées, telles que les corpus bruts, les données périmées et les sauvegardes complètes, ce qui permet de contrôler au mieux les coûts globaux de déploiement.
État de l'industrie et tendances technologiques
En termes de capacité globale, les disques durs représentent encore aujourd'hui environ 80% de la capacité totale de stockage dans les centres de données d'IA, servant de base pour les données massives. Bien que les disques SSD excellent en termes de performances, leur part de capacité reste relativement limitée en raison des contraintes de coût. Si l'on considère les tendances de croissance, l'essor de l'industrie de l'IA stimule la demande pour les deux types de produits de stockage. Cependant, le taux de croissance annuel composé des SSD d'entreprise est beaucoup plus élevé que celui des disques durs, ce qui reflète le rôle essentiel du stockage à haute performance dans les scénarios d'IA.
Avec l'évolution de la technologie de la mémoire flash, les disques SSD QLC de grande capacité se généralisent et empiètent progressivement sur les marchés des données chaudes qui appartenaient auparavant aux disques durs. Certaines données à accès modéré commencent à être stockées sur des disques SSD. Toutefois, à long terme, les disques durs ne seront pas complètement remplacés. Dans les scénarios d'archivage de données froides à l'échelle du pétaoctet ou de l'exaoctet, les disques durs restent irremplaçables en raison de leur coût par unité de capacité, tandis que les disques SSD - limités par leurs caractéristiques physiques et leur prix - ne prendront probablement pas totalement le relais du stockage d'archives de grande capacité. La coexistence à long terme des deux types de matériel, fonctionnant ensemble de manière hiérarchisée, constituera à l'avenir le modèle de stockage dominant pour les centres de données d'IA.
Les disques SSD et les disques durs ne sont pas des alternatives concurrentes, mais des composants complémentaires dans l'architecture de stockage des centres de données d'IA. Les disques SSD basés sur la technologie NVMe gèrent les charges de travail centrales à haute performance, ce qui permet de libérer pleinement les capacités de calcul de l'IA. Les disques durs d'entreprise conservent une grande capacité et un faible coût, ce qui permet de répondre aux besoins de stockage des données massives. Le modèle de déploiement hybride et hiérarchisé équilibre les performances, la capacité et le coût - les trois facteurs essentiels. Il s'agit de la solution de stockage la plus raisonnable pour les centres de données d'IA aujourd'hui et le restera dans un avenir prévisible.





