ChatGPT est devenu le symbole des possibilités sans limites qu’offre l’intelligence artificielle. Son avènement a déclenché une véritable révolution technologique qui bouleverse de nombreux aspects de la vie moderne et redessine les frontières de la collaboration homme-machine. La dernière version en date, ChatGPT-4, réussit non seulement à maîtriser l’art d’imiter le langage humain, mais aussi à coder dans différents langages de programmation. Nous ne sommes pas les seuls à découvrir les innombrables avantages et possibilités de cette application : les hackers aussi. Ils exploitent le potentiel de cet outil pour perfectionner leurs attaques en rédigeant des e-mails de phishing plus efficaces, en créant des malwares indétectables et en affinant leurs techniques d’imposture.

Si, placé entre de mauvaises mains, ChatGPT représente effectivement un danger, d’autres usages, apparemment inoffensifs pourraient également poser des problèmes de sécurité. ChatGPT a été entraîné à partir d’une très grande quantité de données, issues de sources variées, mais il continue d’apprendre en utilisant les informations personnelles et les saisies des utilisateurs, dont certaines peuvent contenir des données sensibles. Cette situation et les risques cyber qu’elle entraîne soulèvent beaucoup de questions, notamment en ce qui concerne la confidentialité des données et la violation des droits d’auteur.

Pourtant, bien que de nombreuses instances publiques et privées se penchent avec attention sur ces problèmes, il n’existe toujours aucune directive officielle ni législation pour réglementer l’utilisation de cet outil. À la lumière de ces nouveaux défis, il est important de bien comprendre ce qu’implique vraiment l’utilisation de ChatGPT en termes de cybersécurité et d’apprendre à l’utiliser en toute sécurité. Dans cet article, nous vous expliquons tout ce que vous avez besoin de savoir pour trouver le bon équilibre, et vous ouvrir à l’innovation tout en limitant les risques.

Qu’est-ce que ChatGPT ? Comment fonctionne-t-il ?

ChatGPT est un modèle de langage d’IA sophistiqué conçu pour générer des textes imitant la conversation humaine en analysant et en traitant les saisies des utilisateurs. L’application a été entraînée à partir de sources variées pour qu’elle ait un large éventail de connaissances sur différents sujets et elle apprend en prédisant et en générant du texte, mot à mot, de façon qu’il ait du sens dans un contexte donné.

Le modèle utilise une technique de machine learning appelée « transfer learning » ou apprentissage par transfert. Elle consiste à entraîner, dans un premier temps, la machine à partir d’une tâche avec beaucoup de données, avant de l’affiner pour une activité spécifique. Au cours de la première phase de pré-entraînement, l’apprentissage se fait à partir d’une très grande base de données contenant des pans entiers du Web sans que la machine sache précisément quelles en sont les sources. Il faut bien noter que, une fois entraîné, le modèle ne consulte pas Internet pour générer ses réponses. C’est la raison pour laquelle ses connaissances se limitent aux informations qu’il a emmagasinées au cours de son entraînement, lesquelles ne vont pas au-delà de septembre 2021.

En plus de son entraînement de base, ChatGPT se perfectionne en permanence grâce aux réponses et aux informations saisies par les utilisateurs. Au cours de cette phase, les entraîneurs d’IA proposent à la machine des exemples de conversation et évaluent la qualité des réponses générées. Si elle contribue à améliorer l’expérience client, cette procédure présente cependant des risques en matière de protection des données et de confidentialité.
Femme utilisant ChatGPT sur son ordinateur portable.

La sécurité des données à l’ère de l’IA : préserver les droits des utilisateurs dans l’univers de ChatGPT

Les risques liés au traitement d’informations à caractère personnel s’inscrivent dans les trois dimensions de la sécurité des données : la confidentialité et la conformité au RGPD, la propriété intellectuelle et les violations du droit d’auteur, et la déformation des propos ou la désinformation.

Confidentialité et conformité au RGPD

Dans sa politique de confidentialité, OpenAI déclare collecter les informations personnelles des utilisateurs, y compris celles qu’ils saisissent pour créer leur compte ou interagir avec le chatbot. L’application recueille aussi les données techniques dérivées de l’utilisation qui est faite de ses services, notamment les entrées de journal, les données d’utilisation, les informations sur le périphérique, les cookies et les résultats d’analyses. La collecte et l’exploitation de ces informations sont donc soumises au Règlement Général sur la Protection des Données (RGPD) de l’Union européenne.

Depuis le lancement de ChatGPT, de nombreux experts européens ont exprimé des préoccupations quant à la conformité de l’outil au RGPD et à la confidentialité des données de manière générale. Ils ont mis en lumière plusieurs zones d’ombre allant du lieu de traitement des données à la vulnérabilité de ces informations face aux éventuelles violations de données et cyberattaques. En réaction, certains gouvernements européens ont décidé de lancer des enquêtes, voire, comme c’est le cas en Italie, interdit temporairement ChatGPT sur leur territoire. Voici certains points actuellement dans le collimateur des autorités :
  1. Aucune base légale pour la collecte des données des particuliers : à l’heure où cet article est publié, OpenAI n’offre aucune garantie légale pour assurer la protection et l’utilisation des données à caractère personnel de ses utilisateurs, contrairement à ce qu’exige le RGPD. Pour ce qui est de l’usage commercial, OpenAI a rédigé un amendement sur le traitement des données (Data Processing Addendum) qui s’applique uniquement à ses prestations de services pour les entreprises (API de remplissage de formulaires, images, intégrations du chatbot, modérations, etc.), mais pas aux services pour les consommateurs tels que ChatGPT ou DALL-E.
  2. Impossibilité de respecter le « droit à l’oubli » : l’article 17 du RGPD dispose que toute personne a le droit de demander l’effacement de ses données lorsqu’elles ne sont plus nécessaires au regard des finalités pour lesquelles elles ont été initialement collectées. Les grands modèles de langage comme ChatGPT ne sont pas en mesure de procéder à l’effacement total des données à partir desquelles ils ont été entraînés. Au mieux, ils peuvent leur donner moins d’importance pour faire en sorte que ces informations soient moins souvent utilisées. En outre, dans la mesure où des données sont traitées en continu pour produire de nouvelles réponses susceptibles d’être utilisées pour différentes finalités, il est quasiment impossible d’effacer toute trace d’une information donnée.
  3. Vulnérabilité aux violations de données et aux cyberattaques : le stockage d’énormes quantités de données sur de vastes serveurs ne va pas sans risques, comme l’a montré un récent incident. Un bug de ChatGPT a permis à de nombreuses personnes d’accéder à des demandes d’autres utilisateurs, mais aussi à leurs e-mails de connexion, leurs informations de paiement et leurs numéros de téléphone. Si cet incident n’a, dans l’ensemble, pas eu de conséquences graves, les experts ont pointé du doigt la possibilité que des hackers détournent à leur avantage cette collecte massive pour perpétrer des violations de données dévastatrices. Il suffirait qu’ils y associent des techniques sophistiquées, telles que la rétro-ingénierie, qui permet de remonter la conversation, dans le chat, pour obtenir les données personnelles de l’utilisateur.
  4. L’exploitation des données par ChatGPT est susceptible d’enfreindre les conditions d’utilisation d’autres sites Internet. Les données utilisées pour entraîner ChatGPT ont été récupérées sur des centaines de milliers de sites Internet avec, chacun, leurs propres conditions d’utilisation. Certains d’entre eux arrivent même à interdire tout usage commercial de ces informations. Selon certains experts, ChatGPT est un produit commercial et, à ce titre, il exploite les données collectées de manière illégale.

Propriété intellectuelle et violation du droit d’auteur

Les réponses de ChatGPT posent aussi la question troublante des éventuelles atteintes à la propriété intellectuelle et aux droits d’auteur. Les conditions générales d’utilisation d’OpenAI transfèrent à l’utilisateur tous les droits sur le contenu généré et affirment son caractère original (mais pas nécessairement unique). Donc, il semble possible d’exploiter les réponses fournies par l’outil pour un usage commercial. Or, d’autres aspects entrent en ligne de compte, notamment les données utilisées lors de l’entraînement et les méthodes qui ont servi à les collecter.

Même au-delà des problèmes évidents de confidentialité que pose le fait d’extraire des milliards de données provenant de sites Internet, il est impossible de savoir si les réponses fournies par le chatbot dérivent de contenus protégés par des droits d’auteur, auquel cas il s’agit purement et simplement d’une violation de ces droits. Il faut rappeler ici que ChatGPT ne cite pas ses sources, contrairement à ce que font les humains lorsqu’ils rédigent un texte. Il est donc fortement recommandé de vérifier que les réponses ne sont pas sujettes à des droits d’auteurs et de consulter un conseiller juridique avant de les utiliser à des fins commerciales.

Déformation des propos et désinformation

Le manque de transparence d’OpenAI en ce qui concerne les données qui ont servi à entraîner l’outil soulève de nombreux doutes quant à l’exactitude, l’intégrité et l’objectivité des réponses fournies par le chatbot. OpenAI prévient d’ailleurs que « ChatGPT peut fournir des informations inexactes sur des personnes, des lieux ou des faits ». C’est ce que les experts appellent des « hallucinations ». Elles sont particulièrement inquiétantes lorsqu’elles incluent des données utilisateurs obsolètes ou erronées. Selon le RGPD européen, les utilisateurs ont le droit de modifier ou d’effacer leurs données si elles sont incorrectes. Or, à l’heure actuelle, ChatGPT n’offre pas aux utilisateurs la possibilité de supprimer ou d’effacer les informations les concernant. Ceux-ci n’ont donc aucun contrôle sur leurs propres données. Dans la mesure où les réponses du chatbot se basent sur les informations qui ont servi à l’entraîner, elles présentent un certain risque de réponses biaisées qui, si elles ne sont pas corrigées, pourraient perpétuer des stéréotypes sociaux.

ChatGPT est donc capable de générer de fausses déclarations susceptibles d’être réutilisées, intentionnellement ou non, à des fins de désinformation et de diffusion de fake news. Sans compter que, plus l’usage de ChatGPT se généralise, plus le risque de voir des personnes s’y référer pour résoudre des questions sensibles telles que des litiges juridiques ou des problèmes de santé, augmente dangereusement. Si cet outil peut s’avérer d’une grande aide dans de très nombreux cas de figure, il est très important de toujours garder à l’esprit qu’il vaut mieux consulter des professionnels pour les situations sensibles dans lesquelles des informations fausses pourraient avoir de graves conséquences.
Citation de Katrin Suder, PhD.

Le détournement de ChatGPT pour menacer la cybersécurité : un phénomène qui s’amplifie

Les risques liés à la sécurité de l’information sur ChatGPT ne sont en réalité qu’une partie du problème. Au fur et à mesure que notre société s’approprie les différentes possibilités offertes par cet outil, les cybercriminels – y compris ceux qui ont le moins d’expertise technique – s’adaptent également à ce nouvel outil et trouvent le moyen de le détourner à leur avantage.

Malgré tous les efforts déployés par OpenAI pour éviter une utilisation illicite, les pirates sont parvenus à contourner les restrictions pour exploiter ChatGPT à des fins malveillantes et parfaire encore leurs attaques. Selon 74 % des professionnels interrogés par SoSafe, cet usage frauduleux de ChatGPT risque de peser encore sur le paysage des menaces cyber.

Les fonctionnalités les plus inquiétantes de ChatGPT sont, notamment, le codage de malwares, la rédaction d’e-mails de phishing de masse très bien tournés et ses capacités d’imitation et d’arnaques par catphishing.
74 % des professionnels de la cybersécurité pensent que l’intelligence artificielle va aggraver les menaces cyber

Codage de malwares

ChatGPT a été employé pour développer des logiciels malveillants, notamment pour générer des scripts de chiffrement pouvant être utilisés pour des attaques par rançongiciel ou pour perfectionner le code d’un malware existant. Parmi les applications qui sont le plus susceptibles d’envenimer la situation, il faut noter la capacité de cet outil à produire du code pour créer un malware polymorphe ultra sophistiqué : un type de logiciel doté d’un code très versatile capable de changer de forme constamment et de déjouer la vigilance des mécanismes de sécurité traditionnels, décuplant ainsi l’efficacité des cyberattaques.

Les possibilités qu’offre ChatGPT pour simplifier l’écriture de code inquiètent de nombreux experts en cybersécurité, dans la mesure où elles permettent à des personnes sans grandes connaissances techniques de générer des codes fonctionnels. Bien que les capacités de codage de ChatGPT restent limitées et que les résultats obtenus nécessitent généralement d’être adaptés, ils peuvent suffire à compenser le manque de connaissances de hackers amateurs et contribuer dangereusement à la démocratisation de la cybercriminalité.

Rédaction d’e-mails de phishing de masse difficiles à détecter

Une étude récente menée par l’équipe d’ingénierie sociale de SoSafe a montré que les outils d’IA générative pouvaient aider les groupes de hackers à rédiger des e-mails de phishing avec un taux d’efficacité accru d’au moins 40 %, leur facilitant ainsi la tâche pour sophistiquer leurs attaques de masse. D’autant que ces tentatives de phishing de masse sont de moins en moins faciles à identifier : comme ChatGPT est en mesure de rédiger des e-mails habilement conçus et bien tournés, sans faute d’orthographe ni coquille et ce, dans de nombreuses langues, les attaques gagnent en efficacité et leur portée s’élargit. Des données récentes, recueillies anonymement sur la plateforme de sensibilisation de SoSafe suite à l’évaluation de près de 1 500 simulations d’attaques par phishing, ont montré que 78 % des gens ont cliqué sur les e-mails de phishing rédigés par l’IA et qu’une personne sur cinq est même allée jusqu’à cliquer sur les éléments malveillants qui s’y trouvaient, liens ou pièces jointes.
1 personne sur 5 clique sur les e-mails de phishing générés par l’IA

Imitation et catphishing

ChatGPT peut générer des personas convaincants qui réussissent à gagner l’affection de leurs victimes pour leur extorquer, au bout du compte, des sommes conséquentes ou des informations sensibles.

Ces escroqueries sentimentales sont d’ores et déjà un commerce dangereusement juteux. La commission fédérale américaine du commerce a signalé que près de 70 000 consommateurs avaient été victimes de ce type d’arnaques en 2022, avec des pertes s’élevant à près d’1,3 milliard de dollars. La rapidité et la simplicité avec lesquelles ChatGPT parvient à se faire passer pour quelqu’un de manière cohérente inquiètent : on craint que ces escroqueries « à la romance » ne se multiplient et gagnent en efficacité.

Pour en savoir plus sur l’impact explosif de l’innovation technologique sur la cybercriminalité, consultez notre rapport Analyse du risque humain 2023.

Les meilleures pratiques pour tirer le meilleur parti de ChatGPT

Étant donné les dangers que présente un outil aussi puissant, il est important de savoir en faire bon usage, en tirant parti de ses avantages tout en limitant au maximum les risques qu’il pose. ChatGPT peut augmenter votre productivité, vous inspirer des idées, vous aider dans vos recherches et se montrer utile dans des milliers d’autres cas de figure, mais il est indispensable de savoir l’employer de manière responsable et en toute sécurité. Pour vous aider à trouver le bon équilibre, nous avons rassemblé un certain nombre de bonnes pratiques, à garder à l’esprit lorsque vous utilisez ChatGPT :
  • Demandez conseil à un juriste avant d’utiliser les résultats fournis par ChatGPT à des fins commerciales. Votre délégué à la protection des données vous informera des restrictions, des limites et des recommandations s’appliquant à la confidentialité des données, à la propriété intellectuelle et à la protection du droit d’auteur.
  • N’oubliez jamais que les informations commerciales sont des données sensibles qui peuvent être confidentielles. En les saisissant dans ChatGPT, vous risquez d’enfreindre la politique interne de votre entreprise, ainsi que certains contrats (ou accords de confidentialité) passés avec les clients.
  • Si vous devez saisir des données personnelles, remplacez-les par de fausses informations. Vous pourrez toujours y substituer les véritables informations en dehors de ChatGPT, après qu’il aura généré le résultat escompté.
  • Contrôlez la crédibilité du résultat. Vérifiez toujours l’exactitude du résultat en le recoupant avec d’autres recherches, afin d’éviter de répandre de fausses informations.
  • Ne saisissez pas d’invite ayant des motifs contraires à l’éthique, incitant à la discrimination et à la haine.
  • Évitez de demander au chatbot des conseils médicaux ou juridiques. La réponse de ChatGPT peut être inexacte ou fausse. Pour ces domaines sensibles, faites toujours appel à des professionnels.
  • Il est désormais possible de désactiver l’historique dans ChatGPT. Dans ce cas, OpenAI n’utilisera pas les données contenues dans ces chats pour entraîner ses modèles.

Et ensuite ? Combler le fossé entre les droits des utilisateurs et la technologie innovante de l’IA

La vitesse à laquelle les outils d’IA générative tels que ChatGPT se développent laisse entrevoir à la fois des perspectives immenses et des risques significatifs pour la cybersécurité. Alors que nous intégrons ces technologies dans notre quotidien, il est essentiel qu’OpenAI et les instances européennes coopèrent pour trouver un juste milieu sur les points qui posent problème tels que la conformité au RGPD, les violations du droit d’auteur et la propagation de fausses informations.

Les avantages de l’IA sont indéniables, mais il nous faut rester vigilants et regarder en face tous les doutes, les préoccupations et les craintes que suscitent ces avancées technologiques. La nécessité d’établir, dans un futur proche, des autorités qui régulent l’utilisation de ces outils se fait aujourd’hui sentir. En attendant, les gouvernements et les instances européennes travaillent à combler ces lacunes en légiférant, comme le montre la récente Législation sur l’intelligence artificielle.

Parallèlement à ces initiatives, les particuliers ont également la possibilité de suivre les recommandations actuelles pour protéger leurs données sensibles. Les sociétés ont, elles aussi, intérêt à favoriser une culture de sensibilisation à la cybersécurité en formant leurs équipes pour qu’elles protègent les informations confidentielles de l’entreprise. Les formations de sensibilisation à la cybersécurité, comme celle proposée par SoSafe, enseignent aux employés à apprivoiser l’innovation technique et à exploiter tout le potentiel des outils d’IA sans compromettre la sécurité et les données confidentielles de l’entreprise.