Après ChatGPT, les preuves de concept ayant trait à l’usage de l’IA dans les applications et les terminaux pour des cas d’usage grand public et professionnels se multiplient. Qualcomm AI Research vient d’annoncer avoir réussi à déployer le modèle de fondation (Foundation model) populaire à paramètres 1B+ (plus d’un milliard de paramètres) sur un périphérique grâce à l’optimisation full-stack de l’IA ou IA à pile complète.

Un modèle de base est un grand réseau neuronal formé sur une grande quantité de données mises à l’échelle, ce qui permet d’obtenir un modèle qui peut être adapté à un large éventail de tâches avec des performances élevées. Stable Diffusion est un modèle de base d’IA générative texte-image capable de créer des images photoréalistes à partir de n’importe quel texte. Avec plus d’un milliard de paramètres, Stable Diffusion était jusqu’à présent confiné à une exécution dans le cloud.

En réalisant cette intégration, Qualcomm démontre la faisabilité du déploiement d’applications d’IA directement sur les terminaux, tels les smartphones. En raison du nombre de paramètres, Stable Diffusion était jusqu’à cette expérimentation cantonnée à fonctionner dans le cloud. Car, outre les capacités de computation brutes (CPU, GPU, quantité de mémoire vive…), l’écosystème du terminal envisagé pour le déploiement doit également proposer une pile technologique permettant le déploiement et l’exécution du modèle.

Une inférence rapide sur smartphone

Dans l’ensemble, le déploiement d’un modèle de fondation de paramètres 1B+ populaire sur un périphérique par le biais d’une optimisation d’IA complète implique une série d’étapes complexes qui nécessitent une expertise à la fois en IA et en informatique périphérique. Cependant, une fois que le modèle est déployé avec succès, il peut permettre de puissantes applications d’IA qui peuvent s’exécuter localement sur le périphérique, sans nécessiter de connexion au cloud ou à un réseau à haut débit.

Pour ce faire, les chercheurs de Qualcomm ont procédé à l’optimisation de l’application, du modèle de réseau neuronal, des algorithmes, du logiciel et du matériel. « Pour la diffusion stable, nous avons commencé par la version FP32 1-5 du modèle open source de Hugging Face et avons procédé à des optimisations par quantification, compilation et accélération matérielle pour l’exécuter sur un téléphone équipé de la plateforme mobile Snapdragon 8 Gen 2 », explique le fabricant.

La compilation a été entreprise pour faire fonctionner le programme sur les smartphones du fabricant, basés sur les processeurs Qualcomm Hexagon. Les chercheurs ont ainsi utilisé l’environnement AI Engine pour mapper le réseau neuronal en un programme qui s’exécute efficacement sur le matériel cible. Le résultat de cette optimisation full-stack est l’exécution de Stable Diffusion sur un smartphone en moins de 15 secondes pour 20 étapes d’inférence afin de générer une image de 512x512 pixels. « C’est l’inférence la plus rapide sur un smartphone et comparable à la latence du cloud », affirme Qualcomm.