Une étude de Fastly montre que les robots d’indexation pour l’IA représentent
80 % du trafic total des bots IA. La quasi-totalité des requêtes des robots de collecte provient des robots d'OpenAI. Ces bots peuvent induire des problèmes pour les sites web.


Quand les IA Generatives ChatGpt, Claude et autres s’alimentent aux sources du web, leur impact n’est pas anodin. Lors de la collecte de données, elles peuvent consommer de la bande passante, fausser les analyses d’audience, interrompre des services et augmenter les coûts opérationnels. L’étude de la plateforme Fastly repose sur des milliards de requêtes, sur les architectures edge, cloud natif et de nombreuses autres origines.

De nombreux LLM d'IA sont entraînés à partir de ces données collectées, souvent en association avec leurs propres sources. Le robot d’indexation CCBot de Common crawl, une organisation à but non lucratif, est l’un des principaux bots fournissant des données en libre accès contenant du contenu Web brut.

L’analyse de Fastly éclaire une face méconnue de l’activité de collecte des IA génératives

D’abord, les bots IA peuvent exercer une grosse pression sur les infrastructures web non protégées, avec des pics de trafic pouvant atteindre 39.000 requêtes par minute. Cela peut perturber l’activité des sites web dans de nombreux domaines. Autre point important, les secteurs du commerce, des médias et du divertissement, ainsi que des hautes technologies sont les plus touchés par le scraping (collecte de données) destiné à l'entraînement
des LLM.


Ensuite, les crawlers (indexation des sites web) d’IA représentent 80 % du trafic des bots IA. Noter qu’environ la moitié de ces flux sont attribués au seul Meta. Cela situe l’importance de cet acteur éminent des GAFAM. Quant aux robots de récupération IA, ils représentent les 20 % restants du trafic global des bots. Sans surprises, ChatGPT génère le plus de trafic en temps réel vers les sites web, 98 % des requêtes des robots de récupération étant attribuables aux robots d'OpenAI.

L’Amérique du Nord concentre la plupart des contenus collectés

La plupart des LLM sont surtout entraînés sur des contenus provenant d'Amérique du Nord. Cela peut expliquer les biais des réponses des IA en ce qui concerne la vision culturelle et géopolitique de cette région. Loin derrière, on trouve l’Amérique latine (72 %) et dans la région APAC (58 %), la majorité du trafic des robots IA provient des robots d'indexation. Dans la région EMEA, ce pourcentage est inférieur à la moitié (41 %) des flux.

En revanche, dans cette région, 59 % du trafic des robots IA provient des bots de collecte, ce qui devrait interroger les opérateurs dans cette zone géographique.

Les secteurs d’activités les plus impactés par les bots d’IA

La répartition du trafic entre les crawlers (bots d’indexation) et les fetchers (bots de collecte) est typiquement de 80/20. Une proportion que l’on retrouve dans les services financiers (74 %) et les hautes technologies (81 %).

Cependant, trois secteurs dépassent la répartition globale, avec plus de 90 % de leur trafic provenant de robots d'indexation IA, à savoir le commerce (92 %), la santé (92 %) et le secteur public (96 %).

Pour mieux gérer l’activité des bots, des solutions, dont Fastly Bot Management, offrent aux propriétaires de sites web la possibilité de contrôler les bots d'IA, la fréquence d'accès au site et le contenu dont autorisé.