Reddit a déposé plainte contre Perplexity AI et plusieurs sociétés de scraping qu’elle accuse d’avoir contourné ses dispositifs techniques pour exploiter illégalement ses contenus publics à des fins d’entraînement de modèles d’IA. Cette action marque une nouvelle étape dans la lutte des éditeurs de plateformes contre l’aspiration massive de données sans licence, en particulier lorsqu’elle transite par des résultats de recherche Google.

La plainte de Reddit contre Perplexity, enregistrée auprès du tribunal fédéral de New York, cristallise plusieurs tensions majeures autour de l’extraction (scraping) de données sur Internet par les modèles d’intelligence artificielle. Elle est le dernier développement d’une série de contentieux de plus en plus structurants opposant les éditeurs de plateformes aux fournisseurs d’intelligence artificielle autour de l’exploitation de contenus librement accessibles sur Internet.

La plainte vise quatre entités : Perplexity AI, SerpApi, Oxylabs et AWMProxy. Reddit reproche à ces entreprises d’avoir sciemment contourné ses mesures de protection contre le scraping automatisé, notamment en récupérant massivement du contenu via les pages de résultats de Google (SERP) au lieu d’accéder directement à sa plateforme. Selon Reddit, ces pratiques violent le Digital Millennium Copyright Act (DMCA) et constituent une concurrence déloyale en détournant ses investissements et les contributions de ses utilisateurs.

Un contenu public, n’est pas nécessairement libre de droits

Le reproche fait à Perplexity porte sur la distinction entre accessibilité technique et droit d’usage. Un contenu public, c’est-à-dire librement consultable via un navigateur ou un moteur de recherche, n’est pas nécessairement libre de droits. Or, Reddit soutient que ses données, bien qu’indexées par Google, restent protégées par des conditions d’utilisation et des dispositifs techniques explicites. Cette position pose la question fondamentale : le fait de pouvoir techniquement accéder à un contenu autorise-t-il son exploitation commerciale par des systèmes automatisés ?

En juin 2025, Reddit avait accusé Anthropic d’avoir utilisé, sans accord, des données issues de ses forums afin d’entraîner ses modèles. La plateforme rejoint ici d’autres démarches engagées par le New York Times, Getty Images ou la Authors Guild, qui reprochent à divers acteurs de l’IA d’avoir capté des corpus massifs sans respecter les droits associés. Le cœur du litige ne porte pas sur l’accès à ces contenus, souvent publics et indexés par les moteurs de recherche, mais sur leur réutilisation automatisée à des fins d’entraînement ou d’inférence commerciale, sans cadre contractuel ni consentement des auteurs.

Dans ce contexte, la plainte contre Perplexity prote des accusations quelque peu différente : elle cible la captation indirecte des données, via le détournement des résultats de recherche Google, et entend faire reconnaître l’illégalité de l’extraction industrielle, même en l’absence d’accès direct aux serveurs sources. Le débat dépasse le cas Reddit pour interroger l’économie même des grands modèles linguistiques, dont les performances reposent en grande partie sur l’absorption de contenus publics.

Des « billets marqués » pour piéger Perplexity

Reddit affirme avoir tendu un piège numérique à Perplexity en insérant un contenu invisible, sauf pour les robots de Google. Ce contenu s’est rapidement retrouvé cité dans les réponses générées par l’« answer engine » de Perplexity, prouvant, selon Reddit, que la jeune pousse exploitait des données obtenues par contournement. Reddit précise que Perplexity avait été formellement mise en demeure dès 2024 de cesser toute utilisation non autorisée de ses contenus. Depuis, les citations de Reddit par Perplexity auraient été multipliées par quarante.

La procédure vise aussi les fournisseurs d’infrastructures d’extraction (scraping) à grande échelle. Reddit accuse SerpApi et Oxylabs d’avoir conçu des services spécifiquement destinés à contourner les barrières techniques de Google, notamment via des proxys résidentiels et des requêtes en parallèle, permettant d’aspirer des volumes colossaux de pages de résultats contenant des contenus Reddit. L’analogie utilisée dans la plainte compare ces méthodes à « un braquage du fourgon blindé plutôt que du coffre-fort », soulignant la volonté d’échapper aux garde-fous mis en place tant par Reddit que par Google.

Reddit réclame une injonction immédiate, des dommages-intérêts, et le retrait de toute donnée obtenue sans accord contractuel. La plateforme insiste sur le fait qu’elle a signé des accords avec des acteurs comme Google ou OpenAI, incluant des garde-fous pour protéger les droits des utilisateurs. Ce recours pourrait faire jurisprudence et redessiner les règles d’accès aux contenus publics pour l’entraînement des grands modèles de langage. Il s’ajoute à d’autres procédures intentées par Reddit, notamment contre Anthropic en juin 2025, sur des motifs similaires.

publicité