CONTENUS ACTUALITES OpenAi lance GPTBot, un web crawler qui soulève la controverse avec les...

OpenAi lance GPTBot, un web crawler qui soulève la controverse avec les propriétaires de sites Web

Par

09/08/2023

En attendant la sortie officielle de ChatGPT5, OpenAI vient de lancer GPTBot, un robot d'exploration qui récupère automatiquement des données sur Internet afin d'améliorer ses futurs modèles d'IA. Dans un marché où le risque de se faire disrupter à tout moment et où les géants investissent des millions pour lancer des produits concurrents, OpenAI veut un modèle de LLM qui puisse intégrer les dernières informations en parcourant le Web.

C’est ce que font la plupart les larges modèles de langage du commerce, comme Stable Diffusion, qui utilisent Common Crawl, le service ouvert de référentiel de données du Web. GPTBot est ainsi utilisé pour parcourir les pages web et collecter des données textuelles, qui sont ensuite utilisées pour améliorer les performances des modèles de langage d'OpenAI.

L'objectif de GPTBot est d'améliorer la précision et la sécurité des réponses générées par l'IA. Les données collectées seront utilisées pour former les futurs modèles d'IA tels que GPT-5. Doté de garde-fous pour éviter son « intoxication », GPTBot filtre les sources de données qui violent la vie privée et d'autres politiques.

Une pratique dénoncée par les propriétaires de sites Web

En ce qui concerne les opérations techniques de GPTBot, tous les appels effectués vers des sites web proviennent de plages d'adresses IP documentées sur le site web d'OpenAI. Ceci permet une transparence accrue aux administrateurs de sites web en ce qui concerne la source du trafic sur leurs sites.

Bien entendu, un outil de collecte de données à grande échelle comme GPTBot ne pouvait laisser les propriétaires de sites web et de blogs sans réaction. D’abord ils n’en tirent aucun avantage, ensuite certains considèrent que cette collecte à grande échelle est du pillage de propriété intellectuelle. En effet, OpenAI se sert de leur travail pour vendre des services et les concurrencer avec leurs propres contenus.

Concernant le statut juridique du web scraping dans l’Union européenne, il est plutôt complexe. Sans être formellement interdit, il est encadré par plusieurs lois et règlements : le règlement général sur la protection des données (RGPD), la directive sur le droit d'auteur dans le marché unique numérique et la loi sur l'utilisation abusive de l'informatique. Toutefois, le web scraping tel que pratiqué par OpenAI, pourrait porter atteinte aux droits de propriété intellectuelle, et certaines lois prévoient une protection spécifique pour les bases de données.

Pour faire taire ces critiques, OpenAI répond que les propriétaires de site web peuvent interdire ou restreindre l’accès de GPTBot à leurs sites. Pour ce faire, ils doivent modifier leur fichier robots.txt. Ils peuvent empêcher GPTBot d'accéder à l'intégralité de leur site web ou en restreindre l’accès à certaines pages seulement.

OpenAi lance GPTBot, un web crawler qui soulève la controverse avec les propriétaires de sites Web

Une pratique dénoncée par les propriétaires de sites Web

Derniers articles de fond

Dans les organisations en pointe, le marketing ne fonctionne plus sans...

Après le choc Broadcom, le marché de la virtualisation se réorganise...

Messageries chiffrées, comment le FBI a contourné Signal sans avoir à...

Derniers livres blancs

Voir ce que les attaquants voient : reprenez la main sur...

Réussir ma migration de messagerie vers exchange on line

Pourquoi et comment migrer sharepoint maintenant

Dernières actualités

AWS S3 Files monte les buckets en système de fichiers réseau

Nutanix formalise une offre dédiée aux opérateurs qui quittent VMware

ServiceNow intègre l’IA à l’ensemble de son portefeuille, la fin des...

OVHcloud consolide sa rentabilité et se positionne sur l’IA souveraine et...

Derniers Articles de fond

Dans les organisations en pointe, le marketing ne fonctionne plus sans...

Après le choc Broadcom, le marché de la virtualisation se réorganise...

Messageries chiffrées, comment le FBI a contourné Signal sans avoir à...

Dernières Actualités

AWS S3 Files monte les buckets en système de fichiers réseau

Nutanix formalise une offre dédiée aux opérateurs qui quittent VMware

ServiceNow intègre l’IA à l’ensemble de son portefeuille, la fin des...

Dernières Expériences

Organisation d’un exercice de crise cyber | RSSI – Ville de...

Sensibilisation des jeunes sur la cybercriminalité | Général de division –...

Migration de l’infrastructure traditionnelle vers AWS | DevOps – Algofi |...