L'apprentissage multimodal permet aux entreprises de tirer parti de l’IoT et de l’intelligence artificielle. En analysant les données de plusieurs sources et en les combinant, l’apprentissage multimodal permet des inférences plus pertinentes et même de nouvelles idées et élimine les silos de l’IA.

Avec la diffusion des appareils munis de capteurs, des milliards de pétaoctets de données circulent chaque jour dans des dispositifs pourvus d’intelligence artificielle. Pourtant la plupart de ces appareils, à l’heure actuelle, fonctionnent indépendamment les uns des autres. Cependant, les choses changent vite, car au fur et à mesure que le volume de données circulant à travers ces dispositifs augmentera dans les années à venir, les entreprises technologiques et les responsables de la mise en œuvre devront trouver un moyen pour orchestrer l’apprentissage de manière à faire « réfléchir » et travailler ensemble les dispositifs pour vraiment tirer parti de l’IA.

« La clé pour en faire une réalité est l’apprentissage multimodal, et il est en train de devenir rapidement l’un des domaines les plus passionnants, et potentiellement transformateurs de l’IA », explique ABI Research dans un article publié récemment.

Consolider des données hétérogènes

Pour que l’intelligence artificielle puisse comprendre le monde qui l’entoure, elle doit être capable de raisonner et d’interpréter des messages multimodaux. L’apprentissage machine multimodal vise à construire des modèles qui peuvent traiter et relier des informations provenant de multiples modalités. Il permet aux systèmes de collecte et d’analyse des données de fonctionner à la manière des êtres humains, qui combinent plusieurs informations multimodales, c’est-à-dire provenant de plusieurs sources et de nature différentes, pour en tirer une synthèse. Ainsi, l’apprentissage multimodal « consolide une série de données hétérogènes et déconnectées provenant de divers capteurs et entrées de données en un seul modèle ».

Contrairement aux systèmes d’apprentissage monomode traditionnels, dans les systèmes multimodaux « les dispositifs peuvent véhiculer des informations complémentaires les uns sur les autres, qui ne deviendront évidentes que lorsqu’elles seront toutes inclues dans le processus d’apprentissage », explique ABI Research.

Par conséquent, les méthodes d’apprentissage fondées sur l’analyse et l’apprentissage et qui combinent des signaux provenant de différentes modalités d’apprentissage sont capables de générer des inférences plus solides, ou même de nouvelles idées, ce qui serait impossible dans un système monomodal.

L’apprentissage multimodal présente deux avantages principaux :

  1. Des capteurs multiples observant les mêmes données peuvent faire des prédictions plus robustes, car la détection de changements dans ces données n’est possible que lorsque les deux modalités sont présentes.
  2. La fusion de plusieurs capteurs peut faciliter la saisie d’informations ou de tendances qui peuvent ne pas être saisies par des modalités individuelles.

Sortir des silos de l’IA

Le multimodal est bien placé pour être mis à l’échelle dans les entreprises, car les technologies sous-jacentes comme les réseaux neuronaux profonds ont déjà ouvert la voie dans des applications unimodales comme la reconnaissance d’images ou la reconnaissance vocale et le traitement du langage naturel des assistants virtuels comme Alexa. De plus, le coût de développement de nouveaux systèmes multimodaux a diminué parce que le marché des capteurs matériels et des logiciels de perception est déjà très concurrentiel.

De plus, les organisations commencent à reconnaître la nécessité d’investir dans l’apprentissage multimodal afin de sortir des silos de l’IA. Au lieu de dispositifs d’IA indépendants, ils veulent gérer et automatiser des processus qui couvrent l’ensemble de leurs opérations.

Sources : ABI Research