Les outils de recherche associent désormais leurs moteurs aux chatbots propulsés par l’IA générative (IAGen). Une association qui peut produire des résultats douteux. Certains outils de nouvelle génération outrepassent les règles du SEO en ignorant les interdictions d’exploration du fichier robots.txt présent sur les sites web. 

De nombreux acteurs cherchent à exploiter les capacités des chatbots pour tenter une nouvelle approche face aux performances de Google ou Bing, en utilisant des LLM inspirés de GPT-4 d'Open AI, Claude d’Anthropic et Gemini de Google. Dans ce domaine, la startup Perplexity AI est en pointe. Créé par un ex-chercheur d’OpenAI, qui a levé des dizaines de millions de dollars auprès de Jeff Bezos et d'autres gros investisseurs, elle se pose de fait en perturbateur potentiel de Google et Bing qui ont aussi recours aux IAGen. Mais les obstacles ne manquent pas pour cette jeune pousse technologique accusée par des médias tels Forbes de leur voler des informations à valeur ajoutée et facteur aggravant, d’inventer des citations fausses.

Pour bloquer l’accès à tout ou partie du contenu de leurs sites web, leurs administrateurs placent des interdictions d’exploration par les moteurs de recherche dans le fichier robots.txt, placé à la racine du code du site. Des règles que Perplexity AI et autres ignorent sciemment. La revue Wired et le développeur indépendant Rob Knight, cité par notre confrère Developpez.com, ont démontré que le bot d’exploration de Perplexity AI a fouillé dans les zones explicitement interdites aux robots des moteurs de recherche. Plus précisément, Rob Knight a identifié le navigateur sans interface utilisateur de Perplexity AI. Pour passer sous les radars du fichier robots.txt, la chaîne de l'agent utilisateur ne contenait pas la partie "PerplexityBot".

D’autres outils tels Google-Safety, un des robots de Google, ignorent aussi le fichier robots.txt mais le géant américain explique qu’il s’agit d’explorations liées à la sécurité afin de s’assurer que les sites ne contiennent pas de code malveillant.

Google et Bing, sommés de réinventer

Face à la vague des chatbots dopés à l’IA Générative, les moteurs de recherche historiques n’ont pas tardé à se mettre en ordre de bataille. Bing, à intégré ChatGPT4 dans son outil Copilot et Google associe IA Gemini à son moteur de recherche. Une enquête d’Applause assure qu’un répondant sur trois à son enquête utilise quotidiennement une IAGen pour effectuer des recherches et que pour 81 % des participants à l'enquête, les chatbots nouvelle génération auraient remplacé Google et consorts. Une information à confirmer.

Les fausses nouvelles produites par Perplexity AI se multiplient. Ainsi, l’agence de presse américaine Associated Press a découvert un autre article de Perplexity AI inventant de fausses citations de personnes réelles, notamment celle d'un ancien élu de Martha's Vineyard qui aurait déclaré qu'il ne voulait pas que cette île du Massachusetts devienne une destination pour la marijuana. Une invention totale qui a suscité l’indignation d’un élu local.

Beaucoup de médias sont vent debout contre le pillage de leurs contenus exclusifs, coûteux à produire. En décembre 2023, le « New York Times » a poursuivi en justice Microsoft et OpenAI, créateur de ChatGPT pour violation de droits d’auteur. Contrairement au quotidien français « Le Monde » qui a conclut un accord pluriannuel avec le même OpenAI, un partenariat qui porte à la fois sur l’entraînement des LLM d’IA développés par l’entreprise américaine et sur les services de ChatGPT.

La frontière est étroite pour développer des accords équilibrés qui tiennent réellement compte des intérêts de chaque partie.