Selon une étude d’Applause, ChatGPT et autres chatbots génératifs sont de plus en plus utilisés au quotidien en lieu et place des outils de recherche tels Google. La moitié des utilisateurs estiment que les réponses de ces IA sont toujours appropriées. La transparence du fonctionnement des modèles et de l’origine des données en entrée sont cependant des problèmes majeurs.

L’évaluation des performances et de la pertinence des réponses des IA Génératives (IAGen) est essentielle pour prendre du recul et corriger leurs biais, erreurs et « hallucinations » (réponses aberrantes). Applause, acteur des tests de logiciels, a interrogé 6361 utilisateurs des IAGEn dans le monde, consommateurs, développeurs de logiciels et professionnels de l'assurance qualité. L’élément saillant de cette enquête est édifiant sur les bouleversements en cours dans ces professions.

Ainsi, pour la plupart des utilisateurs, les chatbots seraient en voie de remplacer les outils de recherche existants avec une proportion de 91 % des personnes interrogées qui ont utilisé des chatbots pour effectuer des recherches. Un répondant sur trois utilise quotidiennement Gen AI pour effectuer des recherches et pour 81 % des participants à l'enquête, les chatbots auraient remplacé Google et autres outils. Résultat encore plus explicite, 32 % d'entre eux disent utiliser quotidiennement les chatbots pour leurs recherches d’informations.

Parmi les autres usages réguliers de l’IAGen figurent la traduction, la rédaction créative et la rédaction de courriels, la génération de propositions ou de communications commerciales similaires.

D’autres applications telles la correction d’erreurs de codage ou création de scénarios de tests de logiciels

Il semble que les IAGen se transforment progressivement en couteau suisse des usages du numérique. Parmi les professionnels de l'assurance qualité des applications, 19 % d’entre eux font appel à l’intelligence artificielle générative, 17 % pour la génération de texte pour les données de tests et 16 % pour la création de rapports de tests. À cet effet, GitHub Copilot et OpenAI's Codex sont les outils les plus populaires.

Il reste des biais, des erreurs et l’opacité sur l’origine des données

L’étude indique que 38 % des interrogés déclarent avoir noté des hallucinations des outils d’IAGen, la moitié d’entre eux ont remarqué des contenus biaisés et 19 % ont vu des contenus jugés désobligeants. Il reste que ces dysfonctionnements représentent 1 à 2 % de plus que dans les résultats de l'année dernière. S’agit-il de problèmes liés aux outils d’IA ou d’une plus grande attention des utilisateurs aux résultats ?

Bien qu'une plus grande proportion d'utilisateurs a rencontré de tels problèmes cette année, 75 % des personnes interrogées ont déclaré que les chatbots s'améliorent dans la gestion des réponses toxiques ou inexactes.

A noter, les réticences envers ces nouveaux outils perdurent cependant. Ainsi, une proportion notable des participants à l’étude, soit 28 %, répondent qu'ils ne veulent pas les utiliser.

Il faut néanmoins s’interroger sur le problème majeur de l’origine des données, mis en exergue dans une étude intéressante de l’Université américaine de Stanford qui a évalué les chabots génératifs GPT4, LLaMA de Meta, PaLM2 de Google et autres. Les chercheurs pointent en particulier l’impossibilité de s’assurer de l’utilisation par ces IAGen de données protégées par le droit d’auteur.