James W. Marshall et ChatGPT 3.5 ont une chose en commun : tous deux sont à l’initiative d’une« ruée » qui a changé le monde. La découverte de la première pépite d’or en 1848 a précipité 300 000 personnes vers la Californie. Le lancement de ChatGPT 3.5 en novembre 2022 a propulsé l'IA et les grands modèles de langage (LLM) sur le devant de la scène et attiré des millions d'utilisateurs à travers le monde.

L'essor de l'IA a rapidement soulevé des questions cruciales : respect des droits d'auteur, biais algorithmiques, enjeux éthiques, confidentialité des données, sécurité et impact sur l'emploi. La volonté de l'UE de réguler l'IA via l'AI Act arrive à point nommé. Dans ce contexte, les entreprises du monde entier explorent les possibilités offertes par l'IA pour optimiser leurs opérations et stimuler leur croissance.

Ne pas occulter les risques et les effets de bord

L'IA est la nouvelle ruée vers l'or, mais attention à ne pas tomber dans les travers d’un Far West numérique ! Trop d'entreprises se précipitent sans mesurer les dangers, alors qu’elles ont la responsabilité d'utiliser l'IA de manière responsable et éthique.

Les risques sont réels : fuites de données, biais algorithmiques, atteinte à la réputation. L'exemple dechatbot Tay en 2016, aux dérives racistes et misogynes, est un rappel des dangers potentiels. L'inquiétude des consommateurs, reflétée par une récente étude
(78 % s'inquiètent de l'utilisation de leurs données par l'IA), souligne l'importance d'une approche prudente et transparente.

L'IA est déjà largement utilisée, mais souvent sans gouvernance, comme ce fut le cas lors de l'adoption précipitée du cloud. Ce manque de contrôle peut engendrer des erreurs coûteuses. Pour éviter de répéter les mêmes erreurs, les entreprises doivent impérativement encadrer l'utilisation de l'IA. Cela passe par une régulation interne, un contrôle strict des accès et la mise en place de politiques d'utilisation claires. Des entreprises comme Amazon et JPMC ont déjà pris des mesures en restreignant l'accès à ChatGPT, prévoyant une réintroduction progressive et contrôlée une fois
les garde-fous en place.

Il est essentiel que les entreprises déterminent clairement quelles données leurs projets d'IA peuvent utiliser et comment. Un système de contrôle d'accès basé sur les rôles, associant chaque rôle à des tâches et des autorisations spécifiques pour chaque source de données, offre une solution évolutive. Ce système garantit que seuls les individus disposant des privilèges nécessaires peuvent accéder aux données, en conformité avec les réglementations légales et les exigences géographiques, notamment la souveraineté
des données.

Un aspect souvent négligé, mais crucial, est la traçabilité des données utilisées pour entraîner les modèles d'IA. Savoir quelles données ont été utilisées et dans quel ordre est essentiel pour comprendre le fonctionnement et les potentiels biais de l'IA. Ce manque de transparence peut avoir des conséquences juridiques, morales et éthiques considérables, notamment si l'IA prend une décision aux conséquences graves. En cas de litige, la traçabilité de l'apprentissage de l'IA sera un élément clé. La conservation d'un historique complet des versions d'entraînement est donc impérative.

Favoriser la transparence des processus d'apprentissage et la « réversibilité »

Classifier et documenter les données d'entraînement est essentiel pour la transparence et la qualité de l'apprentissage de l'IA. Mais malgré les meilleures intentions, la complexité et le délai de mise en œuvre des processus d’apprentissage de l’IA peut engendrer des risques et dérives.

Prenons l'exemple de Tesla, qui a entraîné son IA pendant des années pour la conduite autonome. Comment le protéger efficacement contre les erreurs, les pertes, le vol ou les manipulations ? Comment garantir le respect de la propriété intellectuelle dans l'entraînement de l'IA, comme l'illustre le procès du New York Times, dont les articles ont été utilisés sans autorisation pour former des LLM ? Une approche responsable et gouvernée est indispensable.

À ce jour, aucune technologie ne permet d'enregistrer précisément les modifications subies par un modèle d'IA lors de son apprentissage avec de nouvelles données. Si un modèle est entraîné avec des données erronées, par exemple du contenu protégé par des droits d'auteur, il est impossible de le restaurer directement à un état antérieur.

Des solutions de contournement, inspirées des pratiques de sécurité informatique, sont nécessaires. Les snapshots système notamment, permettant de revenir à une version antérieure, offrent une alternative, même si certaines données récentes sont perdues. Les entreprises doivent prendre en compte cette approche pour gérer les risques liés à l'IA.

Par Laurent Garcia, Directeur des Ventes Europe du Sud chez Cohesity