C’est ce que font la plupart les larges modèles de langage du commerce, comme Stable Diffusion, qui utilisent Common Crawl, le service ouvert de référentiel de données du Web. GPTBot est ainsi utilisé pour parcourir les pages web et collecter des données textuelles, qui sont ensuite utilisées pour améliorer les performances des modèles de langage d'OpenAI.
L'objectif de GPTBot est d'améliorer la précision et la sécurité des réponses générées par l'IA. Les données collectées seront utilisées pour former les futurs modèles d'IA tels que GPT-5. Doté de garde-fous pour éviter son « intoxication », GPTBot filtre les sources de données qui violent la vie privée et d'autres politiques.
Une pratique dénoncée par les propriétaires de sites Web
En ce qui concerne les opérations techniques de GPTBot, tous les appels effectués vers des sites web proviennent de plages d'adresses IP documentées sur le site web d'OpenAI. Ceci permet une transparence accrue aux administrateurs de sites web en ce qui concerne la source du trafic sur leurs sites.Bien entendu, un outil de collecte de données à grande échelle comme GPTBot ne pouvait laisser les propriétaires de sites web et de blogs sans réaction. D’abord ils n’en tirent aucun avantage, ensuite certains considèrent que cette collecte à grande échelle est du pillage de propriété intellectuelle. En effet, OpenAI se sert de leur travail pour vendre des services et les concurrencer avec leurs propres contenus.
Concernant le statut juridique du web scraping dans l’Union européenne, il est plutôt complexe. Sans être formellement interdit, il est encadré par plusieurs lois et règlements : le règlement général sur la protection des données (RGPD), la directive sur le droit d'auteur dans le marché unique numérique et la loi sur l'utilisation abusive de l'informatique. Toutefois, le web scraping tel que pratiqué par OpenAI, pourrait porter atteinte aux droits de propriété intellectuelle, et certaines lois prévoient une protection spécifique pour les bases de données.
Pour faire taire ces critiques, OpenAI répond que les propriétaires de site web peuvent interdire ou restreindre l’accès de GPTBot à leurs sites. Pour ce faire, ils doivent modifier leur fichier robots.txt. Ils peuvent empêcher GPTBot d'accéder à l'intégralité de leur site web ou en restreindre l’accès à certaines pages seulement.