La prochaine évolution de l'interaction homme-machine pourrait entraîner une synergie réelle et sans précédent entre l'homme et la machine, dont la CX serait le bénéficiaire évident.

Traditionnellement, les gens interagissent avec la technologie par le biais de commandes strictes et bien définies, utilisées pour accomplir des tâches étroitement spécifiées. Dans le cas du service client, cela s'est traduit par des SVI traditionnels, grâce auxquels les clients donnaient des ordres via des interfaces utilisateur à touches en vue d’obtenir les informations souhaitées ou pour effectuer une certaine transaction.

Si le secteur de l’expérience client (CX) a évolué, ce mode d'interaction traditionnel n'a pas beaucoup changé. Nous avons assisté au déploiement de nouvelles technologies impressionnantes, mais la manière dont elles sont utilisées a maintenu la plupart des flux de travail liés aux interfaces technologiques traditionnelles.

La bonne nouvelle, c'est que cette situation est en train d’évoluer rapidement avec l'avènement des interfaces d'IA générative multimodale, qui peuvent non seulement comprendre les entrées à travers différentes modalités et en tirer des intentions, mais aussi générer du contenu et des résultats à travers elles.

En quoi cela est-il utile ? Examinons le problème en prenant l'exemple de l'IA conversationnelle. Cette technologie promettait un nouveau paradigme grâce auquel les clients pouvaient simplement spécifier leur intention - sans fournir le moindre détail sur la manière d'atteindre le résultat souhaité - et la solution vocale ou le robot de conversation reconnaîtra cette intention et accomplira la tâche attendue. D'un point de vue CX, cela signifie qu'il n'est plus nécessaire de naviguer de manière complexe dans les arborescences d’un serveur vocal interactif (SVI), ce qui est évidemment préférable.

Cependant, en raison de sa nature souvent rigide et scénarisée et de sa dépendance à l'égard de scénarii préconfigurés, l'IA conversationnelle n'a pas répondu à elle seule aux attentes de nombreuses personnes qui pensaient qu'elle réduirait les efforts des clients et améliorerait leur expérience. En fait, dans la plupart des cas, elle n'est devenue qu'une autre technologie basée sur des commandes, reflétant les mauvaises pratiques associées aux SVI traditionnels.

La prochaine étape de l'IA générative

Avec l'émergence de l'IA générative, nous avons entrevu l'espoir d'améliorations spectaculaires de la CX en ce qui concerne le self-service : ses capacités conversationnelles spectaculaires et son aptitude à gérer des problèmes complexes peuvent enfin humaniser les conversations des clients avec les robots vocaux et les robots de conversation. Et elle résout définitivement le problème de l'intention, ne serait-ce que sur les canaux
voix et texte.

Mais que se passerait-il si nous pouvions atteindre la complexité d'une véritable conversation humaine, à différents niveaux et selon différentes modalités ? Outre la communication verbale, les gens communiquent par des gestes, des expressions faciales, des mouvements oculaires, etc. L'IA générative dans sa forme actuelle ne peut pas atteindre la complexité de ce type de communication, mais avec l'avènement de l'IA générative multimodale, nous pourrions nous en rapprocher.

Avec les LLM multimodaux, les bots vocaux et de chat traditionnels évolueront vers un nouveau type d'interface utilisateur : les avatars multimodaux de service à la clientèle. Un avatar d'IA est un personnage virtuel ressemblant à un être humain, créé à l'aide d'une génération texte-vidéo. Les avatars seront capables de traiter non seulement la voix et le texte, mais aussi les images, les gestes, les expressions faciales et les
mouvements oculaires.

À l'avenir, des capacités supplémentaires seront ajoutées en exploitant les équipements haptiques et les données bio-sensorielles. Outre la capacité de produire des résultats multimodaux correspondants, les avatars seront également en mesure d'offrir des conversations bidirectionnelles simultanées - contrairement aux interactions basées sur la demande et la réponse fournies par les robots traditionnels.

Les avatars multimodaux seront nettement plus performants que les robots actuels dans leur compréhension des intentions et des émotions des clients, réduisant l'ambiguïté et offrant une hyper-personnalisation - y compris la capacité d'empathie avec l'état émotionnel du client, non seulement par des mots et des phrases, mais aussi par des expressions faciales, une posture, l'ajustement de la parole et plus encore.

Les interfaces utilisateur alimentées par l'IA multimodale ne vont pas seulement révolutionner les fonctions de contact avec la clientèle. Nous nous attendons à un impact similaire dans le domaine des agents assistants basés sur l'IA, qui gagnent déjà
en popularité.

Ce qui est vraiment important ici, c'est que nous ne parlons pas d'un lointain futur. Gartner prévoit que les interfaces multimodales deviendront une caractéristique standard des assistants virtuels au cours des deux prochaines années.

Mise en pratique de l'IA générative multimodale

Pour autant et malgré ces capacités impressionnantes, les interfaces multimodales ne représenteront pas une solution magique pour tout - et les solutions basées sur elles ne seront pas sans risques. Par exemple, la mise en œuvre d'une interface vocale ne serait pas utile dans des environnements très fréquentés tels que les aéroports ou les bureaux en open-space.

De plus, la puissance de l'IA générative multimodale pourrait troubler les clients en créant des attentes de “simili-humanité” de la part des solutions en libre-service - par exemple, en faisant preuve d'esprit critique. De telles attentes non viables peuvent facilement conduire à la frustration voire à la perte de confiance. En outre, la multiplication des modalités d'entrée des données par l'utilisateur permet d'exposer davantage de sources de d’informations. Bien sûr, cela peut améliorer les capacités de la solution, mais cela augmente aussi les risques pour la confidentialité des données.

Pour atténuer ses contraintes, les entreprises doivent sélectionner avec soin les cas d'utilisation dans lesquels les interfaces multimodales peuvent apporter des améliorations évidentes à l'expérience du client. Dans certains cas, les interfaces unimodales traditionnelles peuvent encore présenter un avantage. Les entreprises doivent également faire preuve de transparence quant à l'utilisation de l'IA multimodale et informer les clients de ses capacités et de ses limites. Enfin, il va sans dire qu'une attention particulière doit toujours être accordée à la sécurité et à la confidentialité des données.

De fait, à un niveau stratégique plus profond, les déploiements d'IA multimodale les plus réussis pourraient finir par être basés sur une compréhension approfondie de l'interaction humaine. Cela implique de tirer parti de connaissances approfondies en sciences comportementales, cognitives, psychologiques et sociologiques, qui pourraient alors s'avérer plus importantes que la programmation et d'autres connaissances informatiques.

L'évolution de l'interaction homme-machine, des interfaces de ligne de commande aux interfaces multimodales, pourrait donner lieu à une synergie réelle et sans précédent entre l'homme et la machine - une relation à faible effort qui offre des interactions de type humain, empathiques et basées sur les résultats. Quand cela se produira, la CX en sera évidemment un bénéficiaire, et le résultat ne sera rien de moins qu'une révolution.

Par François Rachez, expert IA d'Avaya