Pendant longtemps, le rôle des SSD était relativement claire. Sa tâche principale consistait à remplacer les disques durs mécaniquesLes disques durs SSD améliorent ainsi la réactivité globale et le débit de données du système. Que ce soit dans les ordinateurs grand public, les serveurs d'entreprise ou les centres de données, l'évolution technologique des disques SSD s'est essentiellement articulée autour de plusieurs objectifs fixes : des vitesses de lecture/écriture séquentielles plus élevées, une plus grande capacité, un coût plus faible et une meilleure fiabilité. Cependant, avec le développement rapide de l'intelligence artificielle, en particulier des grands modèles et de l'apprentissage profond, les charges de travail auxquelles sont confrontés les systèmes de stockage ont considérablement changé. Dans les scénarios d'intelligence artificielle, les données ne sont plus simplement "lues, traitées et écrites". Au contraire, elles présentent plusieurs nouvelles caractéristiques :
Premièrement, le volume de données a explosé. Qu'il s'agisse des données brutes massives utilisées dans la phase d'apprentissage du modèle ou des paramètres du modèle et des bases de données vectorielles qui nécessitent des accès répétés pendant la phase d'inférence, la taille des données dépasse de loin celle des applications traditionnelles.
Deuxièmement, le modèle d'accès a fondamentalement changé. Les charges de travail de l'IA impliquent souvent un grand nombre de petits accès aléatoires à des blocs de données à haute concordance, plutôt que des lectures et écritures séquentielles de gros blocs que les systèmes de stockage traditionnels sont mieux à même de gérer.
Troisièmement, le stockage a commencé à avoir un impact direct sur l'efficacité des calculs. Dans les serveurs d'intelligence artificielle, la puissance de calcul des GPU ou d'autres accélérateurs augmente très rapidement. Si le système de stockage ne peut pas suivre la vitesse d'alimentation des données, il se produit un "ralentissement du calcul", ce qui réduit l'efficacité globale du système.
C'est dans ce contexte que le concept de SSD IA a commencé à être fréquemment mentionné et qu'il est progressivement passé du concept à des produits spécifiques et à des feuilles de route techniques.
Qu'est-ce que l'AI SSD ?
Pour de nombreux néophytes de ce concept, le "AI SSD" peut facilement être compris comme un produit qui intègre des algorithmes d'IA à l'intérieur du disque dur, capable d'"apprendre" ou d'"optimiser" par lui-même. Toutefois, selon la définition courante de l'industrie, cette interprétation n'est pas exacte. Le cœur de l'AI SSD n'est pas de savoir "s'il y a de l'IA à l'intérieur du SSD", mais de savoir "si le SSD est conçu pour les charges de travail liées à l'IA". Plus précisément, un SSD d'IA est un type de dispositif de stockage à l'état solide profondément optimisé pour les scénarios d'entraînement, d'inférence et de service de données de l'IA. Cette optimisation comprend à la fois la conception de l'architecture au niveau du matériel et des changements dans les microprogrammes, les protocoles et les méthodes de collaboration du système. En termes de positionnement fonctionnel, l'AI SSD reste un dispositif de stockage ; il ne remplacera pas le rôle de calcul des GPU ou des CPU. Mais son objectif est très clair : minimiser les limites de performance imposées par le stockage sur les systèmes d'IA.
Goulets d'étranglement pratiques des disques SSD traditionnels dans les scénarios d'IA
Pour comprendre la valeur des disques SSD pour l'IA, il faut d'abord bien comprendre les problèmes auxquels les disques SSD traditionnels sont confrontés dans les scénarios d'IA.
- La latence devient un paramètre plus critique que la largeur de bande.Dans les applications traditionnelles, lecture/écriture séquentielle La bande passante est souvent un indicateur important pour évaluer les performances d'un SSD, comme 7GB/s ou 14GB/s. Mais dans les scénarios d'intelligence artificielle, l'importance de la latence dépasse souvent la bande passante maximale. En effet, les tâches d'intelligence artificielle impliquent un grand nombre de requêtes de données très fines. Si chaque accès nécessite une attente de plusieurs dizaines de microsecondes, même si la quantité de données par demande est faible, l'effet cumulatif ralentira considérablement la progression globale. La latence d'accès typique pour de nombreux disques SSD d'entreprise se situe entre 40 et 100 microsecondes, ce qui est acceptable dans les scénarios de base de données ou de virtualisation, mais semble relativement élevé pour l'inférence ou l'apprentissage de l'IA à grande échelle.
- L'IOPS n'est plus seulement "suffisant". L'IOPS (Input/Output Operations Per Second) est depuis longtemps l'une des principales mesures pour les disques SSD, mais dans les entreprises traditionnelles, il suffisait souvent d'atteindre des centaines de milliers d'IOPS. Les charges de travail de l'IA sont complètement différentes. Des scénarios tels que la récupération de vecteurs, le chargement de paramètres et l'accès aux modèles génèrent un très grand nombre de requêtes de lecture aléatoire. Dans de tels cas, l'IOPS des disques SSD traditionnels devient rapidement un goulot d'étranglement pour le système. C'est pourquoi les discussions sur la technologie des disques SSD pour l'IA mentionnent souvent des objectifs de millions, voire de dizaines de millions d'IOPS, ce qui était très rare dans le passé.
- L'unité centrale devient un "goulot d'étranglement pour le transfert". Dans l'architecture classique d'un serveur, le chemin des données entre le SSD et le GPU est généralement le suivant : SSD → CPU → Mémoire → GPU. Ce modèle a bien fonctionné à l'époque de l'informatique généraliste, mais il pose des problèmes évidents dans les serveurs d'intelligence artificielle. D'une part, l'unité centrale doit gérer une grande quantité de mouvements de données ; d'autre part, ce chemin introduit lui-même une latence supplémentaire. Alors que la puissance de calcul des GPU continue d'augmenter, ce chemin de données qui "contourne le CPU pour atteindre le GPU" devient une contrainte pour l'efficacité globale du système.
Différences de positionnement entre les SSD IA et les SSD traditionnels
Pour comprendre plus intuitivement la différence entre les deux, nous pouvons les comparer du point de vue de leur "point de départ de la conception".
| Dimension de comparaison | SSD traditionnel | AI SSD |
|---|---|---|
| Objectif principal | Équilibre entre les performances et le coût d'un usage général | Efficacité extrême pour les charges de travail d'IA |
| Focus sur l'optimisation | Lecture/écriture séquentielle, capacité, fiabilité | Faible latence, IOPS élevé, forte concurrence |
| Applications typiques | PC, serveur, base de données | Formation à l'IA, inférence, recherche vectorielle |
| Modèle d'accès aux données | Mixte, principalement séquentiel | Petit bloc, aléatoire, à haute teneur en devises |
| Collaboration au sein du système | Centré sur l'unité centrale | Plus proche du GPU/accélérateur |
Il est important de souligner que les disques SSD IA ne sont pas destinés à remplacer les disques SSD traditionnels. Dans la grande majorité des scénarios à usage général, les disques SSD traditionnels restent un choix plus raisonnable et plus rentable. L'existence de l'AI SSD vise à servir les systèmes qui sont déjà "poussés à la limite" par les charges de travail de l'IA.
Le positionnement de base de l'IA SSD
Du point de vue du système, le rôle essentiel du SSD d'IA peut être résumé en une phrase : sa tâche ne consiste pas seulement à stocker des données, mais aussi à fournir des données à l'unité de calcul d'IA de manière efficace, stable et continue. Pour atteindre cet objectif, les disques durs intelligents se concentrent généralement sur l'optimisation dans les directions suivantes :
- Temps de latence d'accès extrêmement faible
- Capacité d'IOPS aléatoire très élevée
- Architecture interne mieux adaptée aux modèles d'accès aux données de l'IA
- Des méthodes de collaboration plus étroites au niveau du système
Ces caractéristiques ne sont pas obtenues par un simple empilement de paramètres, mais nécessitent souvent de repenser la conception du contrôleur du SSD, les stratégies de gestion de la mémoire flash et même les méthodes d'interface du système.
Principales caractéristiques techniques et approches architecturales des SSD IA
L'AI SSD ne consiste pas simplement à prendre un SSD d'entreprise existant, à augmenter les performances du contrôleur, à ajouter plus de mémoire flash et à maximiser la vitesse de l'interface pour s'adapter naturellement aux scénarios d'IA. La véritable difficulté réside dans la différence structurelle entre les modèles d'accès des charges de travail d'IA et les applications de stockage traditionnelles. L'évolution technologique des disques SSD pour l'IA est essentiellement une refonte centrée sur les schémas d'accès aux données.
Temps de latence extrêmement faible
Dans les systèmes d'intelligence artificielle, la latence du stockage détermine souvent directement le taux d'utilisation des ressources informatiques. Si l'on prend l'exemple du GPU, sa puissance de calcul augmente beaucoup plus rapidement que celle des systèmes de stockage. Si le GPU reste inactif en attendant les données, même si la puissance de calcul théorique du GPU est élevée, le débit réel diminuera considérablement. Dans ce cas, la latence moyenne n'est pas suffisante ; la latence de queue est encore plus critique. Une seule opération d'E/S avec une latence anormale peut ralentir l'exécution d'un lot entier.
La latence d'accès des disques SSD NVMe d'entreprise traditionnels est généralement de l'ordre de dizaines de microsecondes, ce qui est un résultat très mature et stable. Mais dans les scénarios d'IA, l'industrie essaie de comprimer davantage la latence pour atteindre le niveau de dix microsecondes, voire même des microsecondes à un chiffre. Pour y parvenir, il ne suffit pas d'augmenter la vitesse de l'interface ; il faut une optimisation systématique dans les domaines suivants :
- Réduire les interruptions et les changements de contexte dans le chemin de contrôle
- Optimisation des stratégies d'ordonnancement des accès à la mémoire flash
- Raccourcissement du chemin de traitement interne des données au sein du responsable du traitement
On peut dire que l'optimisation de la latence est un projet systématique qui se déroule tout au long du processus de conception du disque SSD IA.
IOPS très élevé
Lors de l'apprentissage et de l'inférence d'un modèle, l'accès aux données présente souvent des caractéristiques "fragmentées". Par exemple :
- Les paramètres du modèle sont divisés en de nombreux petits blocs.
- Les bases de données vectorielles nécessitent un accès fréquent aux index et aux caractéristiques.
- Plusieurs modèles ou tâches sont exécutés en parallèle.
Dans ces scénarios, le disque SSD n'est pas confronté à quelques requêtes importantes et continues, mais à un nombre massif de petites requêtes simultanées. L'IOPS est donc un indicateur clé qui détermine le plafond de performance. Dans les disques SSD d'entreprise traditionnels, plusieurs centaines de milliers d'IOPS sont déjà considérés comme le haut de gamme. Dans la planification des disques SSD pour l'IA, les objectifs courants sont des millions, plusieurs millions, voire des dizaines de millions d'IOPS. Il est important de noter que l'IOPS dont il est question ici n'est pas seulement une valeur maximale dans des conditions de laboratoire, mais une capacité durable dans des conditions de forte concurrence et de faible latence. L'amélioration de l'IOPS n'est pas un problème qui peut être résolu simplement en "ouvrant plus de files d'attente". Lorsque le nombre de requêtes simultanées est extrêmement élevé, les problèmes suivants apparaissent rapidement :
- Complexité accrue de la gestion des files d'attente
- Charge inégale entre les canaux de mémoire flash
- Interférences dues à l'amplification de l'écriture et au ramassage des ordures
Par conséquent, les disques SSD IA doivent souvent introduire des stratégies de planification concurrente plus agressives au niveau du micrologiciel, tout en gérant plus finement les ressources de mémoire flash.
Co-conception de systèmes pour les GPU et les accélérateurs
Dans une architecture de serveur classique, il n'y a généralement pas de chemin de données direct entre le SSD et le GPU. Les données doivent d'abord passer par le CPU et la mémoire système avant d'être envoyées au GPU. Les problèmes de cette architecture sont amplifiés dans les serveurs IA. À mesure que le nombre de GPU augmente et que la puissance de calcul d'une seule carte continue de s'améliorer, les problèmes d'efficacité de ce chemin indirect deviennent plus prononcés. Pour résoudre ce problème, les disques SSD pour l'IA commencent à faire de nouvelles tentatives au niveau du système, comme par exemple :
- Prise en charge des modes d'accès direct ou quasi-direct aux données par le GPU.
- Réduction de l'intervention inutile de l'unité centrale.
- Optimisation du chemin de transmission des données entre le stockage et les accélérateurs.
Ces conceptions ne signifient pas nécessairement le contournement complet de l'unité centrale, mais plutôt la réduction des temps de copie et de transfert des données dans des scénarios appropriés afin d'améliorer l'efficacité globale. Dans cette architecture, le stockage n'est plus seulement un "entrepôt de données passif", mais plutôt un nœud de service de données actif au sein du système d'IA. Il doit comprendre les schémas d'accès de niveau supérieur, répondre rapidement aux demandes simultanées et collaborer efficacement avec les unités de calcul. C'est également la raison pour laquelle la conception des disques SSD pour l'IA nécessite souvent une collaboration étroite avec l'ensemble du système de la machine, et même avec les fabricants de GPU.
Grande capacité et haute densité
La taille des paramètres des grands modèles ne cessant de croître, les modèles individuels atteignant souvent des centaines de Go, voire plusieurs To, les systèmes de stockage doivent disposer d'une capacité et d'une densité suffisantes pour prendre en charge le déploiement réel. En outre, les systèmes d'IA doivent souvent stocker plusieurs versions de modèles, des données d'entraînement, des résultats intermédiaires, des bases de données vectorielles, des index, etc. C'est pourquoi la capacité et la densité élevées constituent une autre caractéristique importante des disques SSD pour l'IA. Cependant, une capacité élevée n'est pas "gratuite". L'augmentation de la densité de la mémoire flash s'accompagne souvent de coûts :
- Augmentation de la latence d'accès par matrice flash.
- Performances simultanées limitées.
- Défis en matière d'endurance et de fiabilité.
Par conséquent, tout en recherchant la capacité, les SSD d'IA doivent également minimiser la perte de performance causée par la haute densité grâce à des conceptions architecturales et de programmation.
État de l'industrie et tendances futures des disques durs intelligents
Du point de vue du cycle de vie de la technologie, l'AI SSD se trouve encore à un stade d'adoption précoce et d'exploration rapide. D'une part, l'AI SSD n'est pas seulement un terme marketing qui reste au niveau conceptuel ; les charges de travail d'IA existent déjà et se développent rapidement dans les centres de données, les plateformes d'informatique en nuage et les grandes entreprises. D'autre part, l'AI SSD n'a pas encore pris la forme d'un produit complètement unifié et standardisé. Les véritables SSD entièrement conçus autour de l'IA sont encore principalement limités aux produits personnalisés, aux produits de pré-recherche et aux produits d'entreprise haut de gamme, et sont encore loin d'une adoption généralisée.
Avec les progrès des SSD IA, les rôles au sein de la chaîne traditionnelle de l'industrie du stockage sont en train de changer. Dans le passé, les fabricants de SSD se concentraient davantage sur les performances et la fiabilité des appareils individuels. Dans le scénario de l'IA, ils doivent participer plus tôt à la conception du système, collaborer avec les fournisseurs de serveurs, de GPU et de plateformes cloud, et effectuer une optimisation approfondie pour les charges de travail spécifiques de l'IA. Les frontières entre les fabricants d'équipements d'origine de stockage, les fabricants de contrôleurs et les intégrateurs de systèmes s'estompent donc.
Les futurs disques SSD d'IA ne seront probablement plus simplement "un dispositif branché dans un emplacement PCIe", mais seront plus profondément conçus avec les ressources informatiques au niveau du système. Cela peut se traduire par des chemins de données plus directs, moins de copies intermédiaires et une collaboration plus étroite entre le logiciel et le matériel. La frontière entre le stockage et le calcul s'en trouvera encore affaiblie. D'autre part, à mesure que les systèmes d'IA évoluent, "confier tous les calculs au GPU" n'est pas nécessairement la solution optimale. Dans certains scénarios, le fait de confier au dispositif de stockage certaines tâches de traitement ou de prétraitement des données peut contribuer à réduire la charge globale du système. Bien que ces idées en soient encore au stade exploratoire, elles sont devenues un sujet d'attention pour l'industrie.
L'AI SSD n'est pas une nouvelle espèce qui change fondamentalement ce qu'est le stockage, mais une refonte du rôle du stockage centrée sur les charges de travail de l'IA. Son émergence découle des changements fondamentaux que l'IA apporte aux modèles d'accès aux données ; sa valeur ne réside pas dans l'amélioration exagérée des métriques individuelles, mais dans l'amélioration continue de l'efficacité du système ; son avenir ne remplacera pas tous les disques SSD, mais deviendra un élément indispensable de l'infrastructure de l'IA. Si le GPU est le "moteur" du système d'IA, le SSD d'IA est plutôt le système de carburant qui fournit une alimentation stable et continue. Il n'est peut-être pas le plus visible, mais dès qu'il prend du retard, c'est tout le système qui est affecté.





