Microsoft et Nuance Communications viennent d’annoncer un accord définitif aux termes duquel Microsoft rachètera Nuance pour 19,7 milliards de dollars. Créé en 1994, Nuance a connu le succès grâce à son application de reconnaissance de la parole Dragon Naturally Speaking, renommée depuis Dragon et Dragon Medical. Si la communication de Microsoft insiste sur le marché médical, il nous paraît peu probable qu’un géant aux ambitions planétaires débourse autant d’argent pour ce seul marché vertical, certes lucratif, mais somme toute assez limité.

On voit mal ce que pourrait faire Microsoft de mieux sur un marché labouré par Nunace depuis trois décennies. Rappelons que la spécialité de Nuance est un moteur de reconnaissance vocale, basé sur l’IA, pas le diagnostic de maladies basé sur l’IA ni les interfaces conversationnelles avec les patients en consultation. D’ailleurs, Nuance plafonnait dans son évolution depuis des années et lançait régulièrement des appels du pied pour se faire racheter.

Et si Nuance s’est taillé un beau morceau de marché chez les praticiens et les établissements de santé et dans le juridique, c’est qu’il propose un produit qui a fait son chemin dans les cabinets médicaux depuis ses débuts, grâce à un besoin très spécifique à ces métiers. En effet, les comptes rendus d’examens médicaux et d’opérations sont traditionnellement enregistrés sur dictaphones et retranscrits par les secrétaires médicales. C’est ce qu’on voit dans les polars et les séries policières où le médecin légiste enregistre ses constatations vocalement. Il en va de même pour les juristes et les avocats qui doivent synthétiser des dossiers d’instruction qui tiennent parfois dans plusieurs cartons.

Des ambitions au-delà du marché de la santé

Avec le temps, Nuance a développé un produit spécifiquement destiné à la santé, en commençant par la terminologie médicale et en aboutissant à un produit dans le cloud destiné aux établissements de santé. Une infrastructure applicative en mode SaaS somme toute assez conventionnelle, avec interface d’administration et provisionnement à la demande.

Il n’y a là rien qui puisse attirer un géant du cloud dont les offres SaaS reposent sur des infrastructures bien plus complexes. Donc, si l’on délaisse la fausse piste de la santé et que l’on décortique ce qu’il y a dans le panier de courses de Microsoft, on y décèle des ambitions bien plus importantes. Même Luc Julia, cofondateur de Nuance et l’un des concepteurs de Siri, ne voit pas ce que Microsoft vient faire dans ce marché vertical. Interrogé par notre confrère François Sorel de BFM Business, il pointe vers Cortana, se demandant pourquoi Microsoft n’a pas poursuivi le développement de celui-ci et préfère racheter Nuance. En suivant son regard nous aboutissons au thème du système d'exploitation et aux interfaces Humain/machine.

Les interfaces du futur seront vocales et gestuelles

Pour paraphraser les polars, ce n’est pas un faisceau d’indices que nous suivons dans notre raisonnement, mais des trajectoires algorithmiques convergentes. En effet, Microsoft lorgne vers les interfaces du futur, qui seront une combinaison de reconnaissance gestuelle et de la parole. Les gestes étant limités, ils doivent être complétés par la parole pour des interactions plus riches avec les systèmes d’exploitation. On pense notamment à des films comme Minority Report qui illustrent très bien cet usage.

La technologie gestuelle devant être complétée par la parole, on voit de suite ce que peut apporter le moteur de reconnaissance de la parole développé par nuance. Spécialisé dans la dictée vocale depuis presque trente ans, Dragon comporte une série de commandes vocales pour naviguer dans le texte, sélectionner un mot et le déplacer, corriger la ponctuation, formater le texte (alignement, liste à puce...)… Si l’on étend cette navigation à toute une interface, on voit de suite son utilité pour Microsoft. Ceci en plus de la reconnaissance de la parole basée sur l’IA qui permet des interactions en temps réel et dont la complexité peut évoluer grâce à l’apprentissage automatique. Les interactions avec les robots, humanoïdes ou pas, reposeront un jour sur le traitement du langage naturel basé sur l'IA et le ML.

Un retour sur le marché des appareils mobiles

Ce n’est pas de la science-fiction ou des projets de laboratoire, les briques technologiques à la base de ces interfaces sont déjà disponibles et opérationnelles avec les lunettes de réalité augmentée Hololens (en version 2 actuellement), les algorithmes d'IA et de reconnaissance gestuelle issus de Kinect, ainsi que les briques de reconnaissance d’objets et d’ancrage spatial Custom Vision et Azure Spatial Anchors, entre autres. La sortie récente de Mesh, l’interface collaborative de réalité virtuelle, s’inscrit également dans cette démarche.

Rappelons que le métier d’origine de Microsoft est développeur d’interfaces. Ayant raté les virages de l’Internet, des smartphones et des Stores, Microsoft n’a, pendant des années, pu compter que sur sa présence hégémonique avec Windows et Office pour rester un grand acteur de l’informatique.

Une interface futuriste, capitalisant sur l’expérience des systèmes d’exploitation et des marchés de masse, semble plus digne du rôle de défricher technologique de cet acteur historique de la numérisation de la planète. Il pourrait alors revenir sur les marchés des terminaux mobiles avec des écrans pliables et commandés via des lunettes connectées et intégrant la reconnaissance de la parole et des gestes. On pourra alors lancer un appel ou dicter un SMS ou un courriel (entre autres) sans même déployer l’écran de son smartphone au poignet… les mains dans les poches.