Le phénomène n’est pas nouveau : il existe des biais dans l’Intelligence Artificielle (IA) ; des logiciels de recrutement qui évincent les femmes pour des postes de développeurs, des systèmes de polices qui semblent racistes, la liste est malheureusement longue.

Mais soyons rassurés : le secteur de l’IA y travaille. Et même si nous n'avons pas de solution miracle pour résoudre le problème dès demain, nous avons quelques idées pratiques sur la façon de lutter contre les biais et progresser vers ce que nous voulons tous : une IA pleinement "responsable".

Nous nous devons d’être honnêtes ici et commencer par comprendre que les modèles d'IA seront forcément biaisés. Le défi sous-jacent est que les données que nous introduisons dans les systèmes d'IA sont une représentation de la réalité et, en fin de compte, l'apprentissage automatique a hérité d'un biais. Pourquoi ? Parce que ces modèles ne sont qu'une représentation du monde, et qu'il y a des biais inhérents à ce monde.

Les biais: trop endémiques pour être résolus ?

Inutile de rentrer dans les détails psychologiques, philosophiques ou sociologiques, mais l’homme est un être imparfait dont la vision du monde qui l’entoure n’est pas purement logique. Le biais est partout, dans toutes les décisions qui sont prises. Mais si le biais est endémique, est-ce un problème trop important pour être résolu ? Absolument pas ; des choses peuvent être faites pour s’assurer d’aborder ces questions particulières. Nous relevons le défi et confions la tâche aux spécialistes du Machine Learning et aux data scientists, et parions que cela débouchera sur une réglementation. Mais quelle que soit la manière dont nous voulons faire avancer les choses, la première étape est toujours de comprendre que les biais existent sous différentes formes.

Comment s’en accommoder ? Comment faire pour découvrir les biais et construire un cadre autour d’eux afin de permettre aux gens de faire confiance aux logiciels et aux résultats qui en découlent ? Si nous pensons à l'apprentissage automatique et à ce qu'il essaie de faire, il s'agit en fin de compte de créer des systèmes qui apprennent par l'expérience. Et la seule façon d'y parvenir est de s'appuyer sur des données et de construire des systèmes basés sur des données.

Cela nous oblige à avoir à l’esprit – avant de construire les modèles de machine learning et de les incorporer dans des systèmes IA – que des biais existeront dans le processus. Alors, comment être sûr que nous mettons tout en place pour prévenir les biais qui s’introduisent systématiquement dans le processus d’apprentissage automatique ? Actuellement, ces modèles sont généralement optimisés pour être précis. Alors les data scientists essaient donc d’aller chercher le point de pourcentage supplémentaire – mais en se concentrant sur la précision, ils oublient d’optimiser l’équité.

Par conséquent, les data scientists doivent relever le défi de s’assurer, lorsqu’ils construisent des modèles d’apprentissage automatique, que les données sont nettoyées, précises, et exemptes de tout biais qui pourrait fausser les résultats. Aujourd’hui, parfois ces algorithmes de machine learning mettent rapidement en évidence ces biais qui sont naturellement en nous et partagés universellement, mais nous devons toujours être particulièrement attentifs à ne pas introduire d’autre biais dans le système lors de la sélection des données, ou dans l’identification des types de données que nous voulons collecter.

Les biais se glissent très souvent dans les processus de construction de modèles. La clé ici est de s'assurer que toutes les étapes de collecte et de sélection des données sont documentées et de vérifier la partialité des données que nous mettons dans ces modèles. Cela signifie que, d'un point de vue pratique, tout le monde, que ce soit un vendeur, un homme d'affaires, un développeur open source, une organisation gouvernementale ou un citoyen qui construit de l'IA, doit prendre les mesures nécessaires pour garantir que les décisions prises par ces plateformes d'apprentissage automatique ne sont pas entachées de biais.

Développer la diversité dans la data science

L'étape suivante consiste à explorer tous les aspects de la question. Cette étape consiste à savoir où chercher les biais qui pourraient exister. Mais l'un des grands défis que nous rencontrons en data science est le profil des personnes qui travaillent dans l'informatique : des hommes, intellectuels, comme le veut le stéréotype. Nous devrions donc vraiment élargir la diversité des experts en data science, si possible, car plus nous avons de voix différentes dans l'équipe, plus nous sommes en mesure de trouver les biais dans ce processus décisionnel.

Nous devons élargir la diversité des données que nous collectons et que nous analysons. Nous avons tendance à nous lancer dans l'analyse d'un sous-ensemble de données, alors que nous devrions plutôt nous demander comment créer une sélection plus large de données à partir desquelles ce modèle d'apprentissage automatique pourrait être construit. Pour être honnête, je pense que beaucoup d'organisations se lancent directement dans la construction d'un modèle d'apprentissage automatique le plus précis possible : nous avons des données, construisons un modèle et augmentons la précision au lieu de nous demander : "Qu'essayons-nous de résoudre ici ? Quelles sont les décisions que nous allons prendre sur la base de ce modèle d'apprentissage automatique, et quelles données allons-nous utiliser pour l'alimenter ? Et regardons ces données, tout d'abord, pour voir si elles posent problème avant de construire le modèle d'apprentissage automatique. Je ne pense pas que nous consacrions suffisamment de temps à cela actuellement, mais nous pouvons et devons absolument le faire.

Ainsi, il suffit de quelques étapes simples pour identifier les biais et créer les éléments constitutifs d’une IA responsable. Ce processus peut-il être automatisé ? Je ne pense pas complètement, pour l’instant. On peut automatiser le processus de vérification de la qualité des données selon un certain nombre de critères, comme par exemple, vérifier que l’on dispose d’un nombre représentatif d’hommes et de femmes, ou un échantillon représentatif de tous les types de caractéristiques auxquels nous voulons être attentifs.

L'un des obstacles est qu'il n'existe pas de norme définissant ce à quoi doivent ressembler des données non biaisées – mais il n’y a pas de raison pour que l’on n’y aboutisse pas. Nous disposons d'outils qui peuvent nous aider à mesurer le degré d'équité d'un modèle, par exemple pour savoir s'il existe un biais envers différents groupes, grâce à ce que l'on appelle l'analyse d'impact disparate. Pour ce faire, il suffit d'afficher certaines caractéristiques sélectionnées, d'observer les points communs de l'ensemble de données entre différentes caractéristiques à ne pas négliger et de vérifier si les résultats obtenus sont similaires (par exemple, si l'on examine le sexe, la précision du modèle est-elle la même pour les hommes et les femmes ?).

N’oublions pas que les modèles sont comme des poissons. Ils peuvent facilement nous échapper. Si nous ne surveillons pas attentivement nos modèles de machine learning, si nous ne les examinons pas et ne les reconstruisons pas en permanence, les biais peuvent s’installer dans le processus de décision. Un très bon moyen d'éviter les biais est donc de s'assurer que nous disposons d'un processus de gouvernance autour de la construction des modèles.

L’entreprise pour laquelle je travaille l’applique déjà, par ailleurs. Nous travaillons avec un certain nombre d'organismes de services financiers sur cette question, car ils portent une attention toute particulière à l'élimination des biais. Par exemple, le spécialiste de l’émission et de la commercialisation de cartes de crédit américain Discover Financial Services utilise notre technologie pour accélérer le processus de vérification de ses modèles. Il est désormais capable de créer des mesures qui décomposent les prédictions d'apprentissage automatique individuelles en différentes composantes. Tout cela se fait par le biais d'algorithmes d'apprentissage automatique très sophistiqués permettant de déterminer quels clients accepter ou refuser, et l’entreprise est parfaitement en mesure de donner des explications détaillées sur sa décision. Cela signifie que pour chaque crédit qu'elle accepte ou refuse, la société peut donner à un individu les raisons spécifiques pour lesquelles sa demande a été approuvée, ou refusée.

‘Toutes les entreprises que je rencontre sont conscientes des biais sexistes ou racistes’

Pour résumer, je pense que l’IA doit prendre à bras le corps le problème des biais, mais que les développeurs d’IA en sont déjà très conscients. Les marques sont de plus en plus ouvertes à l'idée d'utiliser la technologie de l'apprentissage automatique pour accélérer un processus, mais elles sont aussi très conscientes que les modèles d'apprentissage automatique ont la réputation d'être des boîtes noires et donc opaques, et elles essaient de les ouvrir. Toutes les entreprises auxquelles je parle sont réellement conscientes qu'elles ne peuvent pas avoir des processus de décision basés sur un apprentissage automatique qui comporte des biais sexistes ou raciaux, et elles vérifient de plus en plus chaque jour tous les arbitrages pour éviter les biais.

Et soyons honnêtes, d'un point de vue commercial, la pire chose qui puisse arriver est une mauvaise réputation : si vous commencez à être connus pour le fait que votre système de décision automatique ne propose pas vos produits à une certaine catégorie de personnes, cela vous retombera dessus.

Par Vincent Bonnot, Directeur Commercial SEMEA chez H2O.ai