Rendre publiques et indexables ses conversations avec une IA, c’est potentiellement livrer un dossier complet de ses intentions, de ses contraintes et de ses données sensibles à n’importe qui, sans contrôle sur leur diffusion future. C’est ce qui est arrivé à des utilisateurs de ChatGPT.
À la fin de juillet dernier, le journaliste et chercheur Henk van Ess publiait sur Digital Digging une enquête intitulée « The ChatGPT Confession Files ». Son analyse portait sur 512 conversations qui ont été rendues publiques, c’est-à-dire autorisées par la fonction
« make this chat discoverable » de ChatGPT. Certaines contenaient des aveux personnels, des données de santé, des informations de ressources humaines, ou encore des éléments stratégiques d’entreprises. En croisant ces contenus avec les résultats de recherche de Google, il a pu identifier 4 500 conversations accessibles directement depuis le moteur, et plus de 110 000 copies conservées dans la Wayback Machine d’Archive.org.
Ces incidents confirment l’ampleur du phénomène et la sensibilité de certains échanges, parfois rédigés sur un ton intime et détaillant des situations professionnelles ou personnelles précises. Le problème ne vient pas d’une faille technique d’OpenAI, mais d’un paramétrage volontaire qui rendait ces conversations publiques et indexables, sans que les utilisateurs en mesurent toujours les conséquences.
Une réaction rapide, mais des données persistantes
À la suite de ces révélations, OpenAI a désactivé la fonctionnalité de partage indexable et a demandé à Google de retirer les conversations des résultats de recherche. Mais ces mesures ne permettent pas de faire disparaître les données déjà archivées dans des environnements externes comme la Wayback Machine, qui n’est pas soumise aux demandes de suppression. La persistance de ces contenus rappelle qu’une fois publiées, les données peuvent circuler et rester accessibles, même si elles ont été masquées ou retirées de leur source d’origine.Dans la plupart des cas, la valeur des informations ne se limite pas à leur contenu brut. Ce qui rend ces conversations particulièrement sensibles, c’est leur contenu : un fil chronologique, clair, où les informations sont structurées par thème et par contexte à mesure qu’elles sont échangées. Cette structuration, inhérente à l’échange avec une IA conversationnelle, donne à l’ensemble une cohérence et une lisibilité immédiates. Au lieu de données éparses, l’attaquant se retrouve face à un fil continu, où chaque élément prend sens dans un contexte, ce qui en facilite considérablement l’exploitation.
Des informations immédiatement exploitables
Un fil de discussion complet n’est pas une suite de phrases isolées : c’est un récit structuré, avec un début, un développement, un enchaînement logique et souvent des références croisées à d’autres données ou événements. Ce qui donne à l’ensemble une cohérence et une lisibilité immédiates, qui facilitent son exploitation. De plus, le fil se construit au fil des interactions, s’enrichit progressivement et maintient une cohérence d’ensemble. Chaque nouvel élément de contexte ou de précision vient compléter les précédents, formant peu à peu un tableau clair de la situation. Dans le cas des IA générative, cette continuité est amplifiée par la capacité de l’IA à garder en mémoire le contexte de l’échange, ce qui donne aux conversations publiques une valeur stratégique bien supérieure à celle de fragments isolés.Là où un acteur malveillant devait, dans un environnement classique, collecter des fragments épars, les trier, les interpréter et les relier entre eux, ici, la structuration naturelle d’un échange a déjà effectué une grande partie de ce travail. Le résultat est un corpus prêt à l’emploi, dans lequel les éléments clés, dates, noms, intentions, contraintes, décisions, apparaissent dans un contexte clair. Ce type de structuration réduit considérablement l’effort nécessaire pour reconstituer un scénario ou extraire des informations exploitables, et augmente mécaniquement la valeur stratégique de la fuite.
La convergence, recherchée dans les architectures modernes pour unifier le traitement des données et accélérer l’inférence, décuple aussi l’impact d’une exposition volontaire. Dans un tel environnement, un simple lien partagé ne livre pas un fragment isolé, mais un ensemble déjà structuré et contextualisé, donnant une vision d’ensemble que l’attaquant n’aurait pas pu reconstituer aussi facilement à partir de données dispersées.
Un avertissement pour les usages professionnels…
Pour les entreprises, cette affaire est un rappel abrupt que la confidentialité ne se limite pas à la protection technique des systèmes. Elle dépend aussi de la conception des fonctionnalités et de la compréhension qu’en ont les utilisateurs. Dans des environnements où l’IA agrège et corrèle des données auparavant cloisonnées, le moindre point d’exposition peut livrer un ensemble d’informations stratégiques, qu’il s’agisse de projets internes, de relations commerciales ou de données sensibles de clients.Les responsables IT et RSSI devraient intégrer ce type de scénario dans leurs politiques internes : contrôle strict des options de partage, sensibilisation aux risques, audit régulier des flux de données sortants, et limitation de la persistance des informations dans des environnements non maîtrisés. La sécurité doit être pensée à plusieurs niveaux, applicatif, indexation, archivage et gouvernance, pour répondre aux défis posés par la convergence des données sous l’effet de l’IA.
Les informations qui étaient autrefois stockées, traitées dans des systèmes distincts, et donc cloisonnées, sont désormais agrégées et exploitées ensemble dans un même environnement, souvent orchestré par l’IA. Celle-ci peut ainsi accéder à des données venant de différentes applications, bases ou flux (CRM, ERP, documents internes, échanges avec les clients, API tierces) et les traiter dans un espace commun.
… et un signal d’alarme pour la gouvernance de l’IA
Au-delà du cas ChatGPT, cet incident illustre la difficulté de maintenir un cloisonnement efficace des données dans un environnement où les outils d’IA générative peuvent centraliser, organiser et rendre consultables des informations issues de multiples sources. L’efficacité de ces systèmes repose sur leur capacité à corréler, mais cette même capacité devient un multiplicateur de risque si la gouvernance et la sécurité ne suivent pas.En d’autres termes, la puissance de l’IA qui, en usage maîtrisé, permet de détecter des signaux faibles et d’optimiser la prise de décision, devient dans un contexte non sécurisé un amplificateur de risque : elle donne à l’attaquant une vision d’ensemble qu’il ne pourrait pas obtenir en explorant uniquement des données fragmentées. La leçon est limpide : dans un environnement où l’IA devient un point de convergence, les entreprises doivent adopter une approche proactive et multiniveau de la sécurité, en considérant que la frontière entre privé et public peut basculer à tout moment si elle n’est pas explicitement contrôlée.