Les Large Language Models type ChatGPT apprennent sur de gigantesques corps de données textuelles traitant de tous les sujets car ils ont une vocation universelle mais pour les applications dédiées aux entreprises, l’apprentissage se fait sur des données plus spécialisées, plus étroites et sans cesse renouvelées.
Pour éviter toute réponse erronée - comme tout un chacun a pu en faire l’expérience avec Gemini ou ChatGPT - ces données d'apprentissage devront être contrôlées, ainsi la qualité des données va devenir un enjeu majeur, si elle ne l’est pas déjà.
Si l’IA professionnelle n’en est qu’à ses débuts, on voit beaucoup d’entreprises commencer à développer des projets. Dans quelques années, elles seront omniprésentes et les coûts engendrés par une mauvaise qualité de données deviendront astronomiques et les conséquences business problématiques.
En parallèle d’une course à l’intégration de solutions dotées d’IA et l’exploitation d’un maximum de données, les entreprises commencent à prendre conscience des risques inhérents à la qualité de la collecte.
Certaines, après en avoir payé le prix.
Chère donnée
Selon le dernier rapport de l’Université de Stanford, les investissements en IA ont connu une croissance spectaculaire, atteignant 25,2 Mds$ en 2023, soit près de neuf fois plus que l’année précédente.L’étude souligne également l’augmentation drastique des coûts d’apprentissage de ces systèmes, les estimant à 78 m$ pour le GPT-4 d’OpenAI et à plus de 191 m$ pour le Gemini Ultra de Google.
Dans le cas de systèmes d’IA conçus pour les entreprises - construits sur-mesure, à partir de problématiques complexes et contraints par des impératifs techniques et business - les investissements nécessaires à l'entraînement des algorithmes et autres réseaux de neurones resteront élevés.
Nécessaire qualité
Ce coût d’apprentissage doit être anticipé et budgété. Et maîtrisé sur la durée. Un modèle d’IA doit rester constamment alimenté par des données fraîches pour garder sa pertinence et s’adapter aux changements. Ce devoir de vigilance est d’autant plus crucial qu’il s’agit ici de coûts cachés, tant les conséquences d’une ingestion de données erronées sont diffuses et insidieuses.Et les conséquences sont lourdes : En 2017, une erreur de taux de commission appliqué à ses chauffeurs oblige Uber à débourser 45m$. En 2018, une erreur de frappe fait perdre 300m$ à Samsung. En 2020, un mauvais format de fichier fait disparaître les fiches de plus de 15.000 cas positifs de Covid-19.
Et que dire d’Unity, en 2022, dont le système d’apprentissage régissant la diffusion publicitaire et la monétisation des jeux intègre un corps de données erronées provenant d’un partenaire. Résultat pour l’entreprise : un coût de 110 m$ entre la perte de chiffre d'affaires, les indemnisations et la réinitialisation totale de l’apprentissage du modèle corrompu - qui nécessite des mois de préparation et d’entraînement.
Il existe des dizaines d’exemples de ce type, tous dû à une mauvaise qualité des données initiales ou à une absence de contrôles à l’ingestion des données. Et donc évitables.
Gartner estime à 20 % des revenus d’une entreprise le coût d’une mauvaise qualité de données répartis entre une réputation en berne, de mauvaises décisions et le temps humain consacré à corriger les conséquences. En outre, 40 % du temps des analystes est passé à corriger les conséquences d’erreurs de données.
Des équipes ou des outils chargés de la qualité des données
Le coût de la correction de données de mauvaise qualité introduites dans un système est exponentiel au fil du temps.Selon un chercheur d’une université de nouvelle-angleterre, si les mauvaises données sont détectées à l’entrée, avant d’être intégrées dans les systèmes d’IA, le coût maximal est estimé à 1$ par donnée. Si elles doivent être nettoyées après intégration dans le système, le coût unitaire passe à 10$. Enfin, si elles se diffusent et entraînent des actions faussées, le coût de correction est de 100$ ou plus par donnée.
Plus la détection est tardive, plus les conséquences seront dommageables et le coût important.
Face à l’ampleur du phénomène, certaines entreprises se dotent d’équipes chargées de contrôler les données en amont, de les classifier et de s’assurer de la pertinence de chaque nomenclature, afin qu’elles soient comprises et bien interprétées par les IA. Des outils spécifiques voient aussi le jour, développés en interne dans les entreprises mais de plus en plus issus de solutions SaaS permettant d’en limiter les coûts.
A plus ou moins grande échelle, ce type de précautions vaut pour tous les secteurs, dès lors qu’une collecte continue de données est à l’œuvre. C’est un investissement supplémentaire à engager mais qui peut éviter de lourdes pertes.
D’ailleurs, rendu crédible par la généralisation de l’IA dans nos économies, il pourrait bien s’agir d’un nouveau marché au très fort potentiel…
Par Stéphane Gendrel, CMO de Commanders Act