Qualcomm propose ainsi au marché de combiner deux ensembles de solutions de son catalogue, AI On-Prem Appliance Solution et AI Inference Suite. La première est une solution d’IA sur site alimentée par des accélérateurs Qualcomm Cloud AI. Elle est conçue pour être compacte et facilement déployable. Elle prend en charge des modèles LLM (Large Language Models) allant jusqu’à 70 milliards de paramètres et offre une gestion
multi-utilisateur ainsi qu’un pipeline complet de génération augmentée
par récupération (RAG).
Un déploiement simplifié
Qualcomm AI Inference Suite propose un déploiement simplifié de l’IA. Elle est compatible avec divers types de modèles, incluant les modèles génératifs, la vision par ordinateur et le traitement du langage naturel. Elle permet un déploiement flexible sur site ou dans le cloud, tout en maximisant l’efficacité et en assurant une stricte confidentialité des données. Cette suite inclut des outils pour intégrer des frameworks comme LangChain et propose une gestion avancée via des conteneurs auto-extensibles.La solution inclut des équipements matériels et un écosystème logiciel proposant des niveaux de performance qui varient selon les besoins. Les équipements matériels sont disponibles en trois niveaux (Low Tier, Mid Tier et High Tier), chacun adapté à des modèles d’IA. Les accélérateurs Qualcomm Cloud AI, déclinés en versions Pro, Ultra et Standard, offrent des performances allant jusqu’à 288 TFLOPS en FP16 et intègrent des mémoires performantes avec une bande passante élevée.
Le logiciel inclut des outils pour le développement et le déploiement, comme des serveurs d’inférence, des bibliothèques de transformateurs, et des API pour des intégrations ouvertes. Qualcomm fournit également des frameworks prêts à l’emploi pour le déploiement d’applications IA génératives.
Des performances adaptées selon les besoins
Concernant la plateforme matérielle que propose Qualcomm, elle est pourvue d’une gamme d’accélérateurs d’intelligence artificielle, dotés de niveaux de performance adaptés à différentes exigences, en fonction de la taille des modèles et des charges de travail. Les accélérateurs d’IA sont disponibles en trois configurations principales :- Low Tier : cette configuration supporte des modèles d’IA allant jusqu’à 10 milliards de paramètres. Elle est idéale pour les charges légères avec moins de 5 utilisateurs simultanés et consomme 75 watts.
- Mid Tier : conçue pour des modèles jusqu’à 30 milliards de paramètres, cette configuration peut gérer jusqu’à 20 utilisateurs simultanés avec une consommation énergétique de 150 watts.
- High Tier : destinée aux charges de travail intensives, cette configuration prend en charge des modèles allant jusqu’à 70 milliards de paramètres et peut accueillir jusqu’à 40 utilisateurs simultanés. Sa puissance est de 300 watts.
Un challenger sérieux sur le marché des solutions d’IA
Avec ces annonces, Qualcomm se positionne comme un challenger sérieux sur le marché des solutions d’IA sur site et à la périphérie. Un marché dominé par Nvidia et Intel grâce à des écosystèmes bien établis. Nvidia domine le marché grâce à ses GPU et son écosystème CUDA largement adopté, et des outils comme le Triton Inference Server, adaptés aux déploiements cloud et sur site.Intel capitalise sur son infrastructure existante dans les entreprises avec ses processeurs Xeon optimisés pour l’IA et son framework OpenVINO. Ceci sans compter les géants du cloud avec leurs écosystèmes intégrés.
Pour Qualcomm, rivaliser avec ces acteurs implique de se différencier clairement sur des aspects comme l’efficacité énergétique, le coût total de possession, la simplicité d’intégration, ainsi que les performances. Sa stratégie basée sur la confidentialité, la flexibilité et les coûts maîtrisés est bien alignée avec les besoins actuels du marché. Cependant, pour rivaliser pleinement avec Nvidia et Intel, Qualcomm devra intensifier ses efforts en matière de développement logiciel et de partenariats stratégiques.
Qui plus est, les entreprises sont souvent réticentes à adopter de nouvelles solutions qui nécessitent des modifications coûteuses de leur infrastructure. Qualcomm doit donc garantir que ses solutions s’intègrent facilement avec des frameworks courants (TensorFlow, PyTorch) et des systèmes de gestion existants ; qu’elles supportent des standards ouverts pour réduire les frictions d’adoption ; et qu’elles comportent des outils permettant une transition sans friction des modèles et des workflows existants.