Intelligence Artificielle Intelligence Artificielle - Actualités IA/ML : HP s’attaque au goulet de la mémoire des PC pour...

IA/ML : HP s’attaque au goulet de la mémoire des PC pour l’inférence et l’analytique

Par

Mourad Krim

30/09/2024

L’exploitation des données est devenue un levier essentiel de compétitivité des entreprises, mais les architectures et les microarchitectures informatiques traditionnelles, hormis le parallélisme massif des GPU (et encore, avec certaines restrictions), peinent à répondre aux exigences croissantes des charges de travail basées sur l’analytique et l’intelligence artificielle. En effet, ces architectures conventionnelles ne sont pas conçues pour les calculs vectoriels et matriciels complexes.

Dans ce contexte, HP, lors de son événement annuel, HP Imagine, a levé le voile sur une série d’innovations technologiques dont l’une d’elles est l’introduction d’une nouvelle architecture mémoire destinée à optimiser l’intelligence artificielle embarquée dans les PC.

Spécifiquement conçus pour gérer les flux de travail intensifs et les tâches les plus exigeantes, les modules de mémoire LPDDR5x de 64 Go annoncée par HP atteignent des vitesses de transfert de 80 Go/s. Une puissance de traitement renforcée par l’intégration du NPU (Neural Processing Unit) AMD Ryzen PRO de nouvelle génération, capable de délivrer une performance de calcul pouvant atteindre 55 TOPS (téraopérations par seconde, soit 1000 milliards d’opérations par seconde). Pour mémoire, les ordinateurs PC IA commercialisés dernièrement atteignent 45 TOPS.

Une mémoire écoénergétique

Comparés aux systèmes basés sur la LPDDR4x, DDR4 ou même la LPDDR5 (sans le « x »), qui dominent encore le marché, ces systèmes atteignent des vitesses de bande passante typiques allant jusqu’à 64 Go/s pour la LPDDR5. Bien que suffisantes pour des applications classiques comme la bureautique ou les jeux, ces vitesses deviennent rapidement constrictives pour des charges de travail basées sur l’IA ou l’analyse des données, où des quantités massives de données doivent être traitées en temps réel.

HP a également pris en compte l’impact environnemental dans la conception de cette architecture mémoire. Le système est conçu pour être plus écoénergétique, avec une utilisation optimisée des ressources pour minimiser la consommation d’énergie tout en maximisant les performances. Outre la vitesse de transfert, le TDP de 40 W couplé à des ventilateurs turbo permet d’assurer des performances élevées tout en maintenant des températures stables. Cette gestion thermique intelligente est combinée à la technologie HP Smart Sense, pour un système réactif et silencieux.

X86, une architecture dépassée pour l’IA et l’Analytique

Les architectures x86 traditionnelles reposent sur un modèle CISC (Complex Instruction Set Computing), où chaque instruction est complexe et peut exiger plusieurs cycles d’horloge pour être exécutée. Bien que les processeurs modernes disposent de plusieurs cœurs, ils ne peuvent traiter efficacement qu’un nombre limité d’instructions simultanément. Cela limite leur capacité à exécuter les calculs massivement parallèles que requièrent les opérations matricielles ou les convolutions dans les réseaux neuronaux.

Les exigences fonctionnelles d’une architecture traditionnelle, conçue pour traiter une suite d’instructions séquentielles, diffèrent considérablement de celles d’une architecture destinée à traiter des masses de données en parallèle pour le machine learning et l’inférence. Ces différences s’expliquent par la nature des tâches à exécuter et les besoins en termes de calcul, de mémoire et de parallélisme massif. En bref, les architectures x86 et SOC, qui dominent le marché des ordinateurs actuellement, ne sont pas optimisées pour les calculs matriciels et vectoriels.

Elles reposent sur un modèle CISC (Complex Instruction Set Computing), où chaque instruction est complexe et peut exiger plusieurs cycles d’horloge pour être exécutée. Bien que les processeurs modernes disposent de plusieurs cœurs (jusqu’à 64 dans les processeurs pour serveurs haut de gamme), ils ne peuvent traiter efficacement qu’un nombre limité d’instructions simultanément. Cela limite leur capacité à exécuter les calculs massivement parallèles que requièrent les opérations matricielles ou les convolutions dans les réseaux neuronaux.

Le mode séquentiel domine

Conçues pour exécuter des instructions séquentielles, ces architectures ont été développées pour répondre à des besoins généraux, tels que le traitement de tâches bureautiques, la gestion de bases de données ou l’exécution d’applications interactives. Les CPU également opèrent selon un mode séquentiel, exécutant les instructions dans des pipelines. Un processus qui fonctionne par étapes, tels fetch, decode et execute. Certes, le multithreading (l’Hyperthreading chez Intel) permet une exécution en parallèle des instructions, mais cela n’est pas suffisant pour des traitements à grande échelle.

Quant à la gestion de la mémoire et de la bande passante sur la carte mère, en somme tout le l’infrastructure d’interconnexion reliant les composants entre eux, les bus de communication et les contrôleurs, elle comporte des goulets et implique plusieurs étapes d’accès et de traitement des données. Ce circuit permettant de transférer les données, via les bus (DMI, PCIe…) depuis le stockage à long terme (disque dur ou SSD) jusqu’au CPU, en passant par la mémoire vive, est parcouru de goulets, comme les différentes latences des supports de stockage, celles de la mémoire vive et des mémoires caches (s’étendant sur trois niveaux, L1, L2 et L3).

Une véritable refonte architecturale est nécessaire

Les architectures modernes intègrent des unités de traitement spécialisées, comme les Tensor Cores dans les GPU NVIDIA, les TPU (Tensor Processing Units) et les NPU (Neural Processing Units), dans des architectures spécifiques (SIMD, Systolique, NoC ou MIMD, entre autres). Celles-ci permettent l’exécution simultanée de plusieurs flux d’instructions sur différents flux de données. Elles sont plus efficaces pour accélérer les calculs matriciels utilisés dans les réseaux neuronaux profonds (par exemple, une multiplication de matrices 4x4 en un seul cycle d’horloge), et manipuler d’immenses quantités
de données simultanément.

Si les systèmes traditionnels ont permis de soutenir les tâches informatiques standards, ils montrent aujourd’hui leurs limites face à l’ampleur et à la complexité des données massives et aux besoins de calcul intensif. Pour l’heure, les fournisseurs se contentent d’introduire des évolutions éparses pour améliorer, çà et là et en ordre dispersé, les architectures traditionnelles. Mais, celles-ci fonctionnent toujours selon un mode séquentiel dépassé. Elles peinent à exécuter des calculs massivement parallèles de manière efficace et écologique. HP s’attaque directement au goulet d’étranglement de la mémoire, mais c’est d’une véritable refonte architecturale et microarchitecturale qu’il faut aux PC, pour qu’ils deviennent de véritables PC IA.

Une mémoire écoénergétique

X86, une architecture dépassée pour l’IA et l’Analytique

Le mode séquentiel domine

Une véritable refonte architecturale est nécessaire

Derniers Articles de fond

Dernières Actualités

Dernières Expériences