Les entreprises explorent chaque jour de nouvelles applications concrètes pour les technologies d’intelligence artificielle générative (IAG). La synthèse automatique de documents fait partie de celles qui retiennent particulièrement leur attention en raison des gains de productivité qu’elle promet, particulièrement pour les activités qui reposent sur l’analyse et la maîtrise de vastes corpus documentaires.

En tirant parti des grands modèles de langage (LLM), celle-ci permet d’extraire rapidement les informations principales ou certains détails pertinents contenus dans des ensembles de textes parfois très volumineux et d’en faire usage pour faciliter et rationaliser la prise de décision ou l’acquisition de connaissance. Les professionnels du droit, par exemple, épaulés de ces technologies, peuvent s’approprier de longs textes de loi qu’ils ne maîtrisent pas encore ou rechercher efficacement les extraits importants d’un contrat.

Toutefois, ces « résumés automatiques » générés par l’IA présentent encore quelques défis pour une intégration parfaite dans les flux de travail des entreprises.

Appliqué à l’eDiscovery

Particulièrement utile pour synthétiser des textes (extrêmement) longs, le résumé automatique vient capter les grandes lignes et informations clés pour son utilisateur. Ce gain de temps séduit de nombreux professionnels à la recherche d’un résumé objectif et pertinent ou de détails spécifiques, qui garantissent la compréhension et évitent de mauvaises interprétations. Que le produit généré mette en exergue les sections les plus importantes ou qu’il dresse un bilan du contenu, on imagine aisément de nombreux secteurs d’activités qui pourraient en bénéficier.

Récemment, des experts ont estimé que les tâches de révision représentaient 65 % des coûts associés au eDiscovery – une pratique essentielle pour collecter, préserver et produire des informations surtout pour les universitaires préparant leurs recherches ou les juristes à la recherche d’informations légales sur lesquelles s’appuyer. Toute personne qui a dû trier et examiner manuellement une grande quantité de documents sait à quel point il s’agit d’un travail qui peut s’avérer fastidieux, parfois ingrat.

Avec des automatisations classiques, le résultat peut s’avérer frustrant, peu pertinent et peu fiable, forçant ainsi les utilisateurs à recommencer le travail « à la main ». La génération de résumés des documents par IA permet d’assurer une compréhension et une classification beaucoup plus rapide de chaque document. Par conséquent, de nombreuses solutions d’eDiscovery ajoutent cette fonctionnalité.

Ces fonctionnalités peuvent même être appliquées à l’analyse des correspondances écrites et même vidéo, en interne ou en externe. Le résumé de pièces jointes volumineuses, de longs échanges d’emails, de chats ou d’enregistrements audio/vidéo devient une aide précieuse, surtout lorsqu’il permet de mettre en exergue un problème qui nécessite un examen plus approfondi.

De plus, l’IA permet de consolider les informations provenant de différentes sources, donnant ainsi une vue globale sur les risques ou des problèmes de conformité, quels que soient le nombre d’interlocuteurs, la période ou les types de canaux concernés. Plus cette fonctionnalité d’IAG effectuera cette tâche, plus elle « s’entraînera », et plus les synthèses seront efficaces.

Résumer sans perdre de substance : tout un programme !

Comme toute nouvelle technologie, cette fonctionnalité de l’IAG doit gagner en maturité pour être plus précise et finalement devenir complètement fiable. L’altération du sens initial ou l’omission d’informations essentielles doivent être complètement éradiquées, ce qui n’est pas simple, surtout si l’analyse porte sur des documents volumineux riches en informations. Par ailleurs, le résumé automatique doit prendre en compte le fait que certaines langues sont riches en nuances et que leur sens exact varie selon le contexte.

Même un LLM avancé peut avoir des difficultés à comprendre et à saisir le sens de textes complexes ou techniques. Pire encore, les échanges oraux utilisant du sarcasme ou des acronymes non définis sont un vrai défi. Cela vaut également lorsque l’outil est confronté à une évolution du langage (nouveaux termes, argot, tendance grammaticale). Seules les mises à jour régulières des modèles peuvent venir à bout de ces fluctuations.

Outre les difficultés liées au langage, le traitement de divers types de fichiers peut aussi être un enjeu. Les fichiers se présentent sous différents types et structures, qu’il s’agisse de documents structurés (comme des articles de recherche) ou non structurés (emails, chat ou postes sur les réseaux sociaux). Avec ces différents types de fichiers et niveaux de texte, générer des résumés cohérents et pertinents n’est pas garanti. Il est donc recommandé de tester et d’échantillonner les résumés générés pour vérifier leur pertinence dans un contexte donné.

Que ce soit pour l’eDiscovery ou pour synthétiser des conversations, les LLM ont la possibilité de changer le quotidien de nombreuses professions grâce au résumé automatisé. Cette possibilité ne pourra se concrétiser qu’avec de l’entraînement pour éviter les erreurs et gagner en précision et en pertinence ; comme on le ferait avec n’importe quel résultat généré par l’IA.

L’utilisation de l’IA et des LLM pour générer des résumés automatiques semble tomber dans les « solutions faciles » pour les utilisateurs. Par conséquent, il ne faut jamais prendre pour argent comptant les réponses que donne l’IA : pour le moment, seule la supervision d’un être humain permet d’apporter la justesse et la nuance dont est dénuée la machine.

Par Jean-Pierre Boushira, VP Southern EMEA, Benelux and Nordics chez Veritas Technologies