SEOArticle

Google Extended : Faut-il bloquer les robots qui alimentent les IA ?

Date de publication : 02 octobre 2023

Temps de lecture : 3 min.

Niveau : Débutant

Bon nombre d’éditeurs de sites Web s’inquiètent actuellement de l’utilisation des contenus de leurs pages par les IA génératives de réponses instantanées telles que Bard, ChatGPT et d’autres. Partagés entre la protection de vos droits en tant qu'éditeurs de contenus et les avantages potentiels de l’IA, beaucoup se posent la question de bloquer ou non l'accès de leurs contenus aux robots des IA génératives. L'équipe SLAP digital vous apporte des éclaircissements sur les avantages et inconvénients d'un tel blocage mais également les méthodes pour retreindre l'accès de vos contenus aux IA. Tout pour vous aider à prendre la bonne décision !

Soucieux d’offrir le choix aux éditeurs de sites, Google a annoncé (comme OpenAI avec ChatGPT) la création d’un nouveau user-agent Google-Extended qui peut être utilisé dans le fichier robots.txt afin de bloquer l’accès à votre site par les robots (crawler) de Google et leur utilisation de vos contenus pour entraîner ses IA génératives telles que Bard, Vertex AI (la plateforme de machine learning) mais également celles à venir.

Même si Google incite les éditeurs de sites à laisser un accès à ses IA pour les rendre plus performantes, l’utilisation de ce nouveau user-agent n’impactera pas le Googlebot classique qui crawle votre site (selon les dernières communications de Google sur le sujet).

A noter :  si vous mettez en place ces directives de blocage dans votre fichier robots.txt, cela n’impactera que vos nouveaux contenus … pas de roll-back ! En clair, tous les contenus qui ont déjà été crawlés par Google resteront dans l’index de Google et continueront à être utilisés par les IA génératives, tout comme pour Bing Chat et ChatGPT.

Les experts de notre agence SEO vous expliquent tout !

Quels avantages pour les éditeurs de sites ?

Le principal avantage est de permettre aux éditeurs de sites de pouvoir reprendre le contrôle de leurs données et de l’exploitation de leurs contenus.

Cependant, en raison de l’absence de rétroactivité suite de la mise en place des directives de blocage, vous devez savoir que nombre de vos contenus ont déjà été utilisés pour former les modèles d’IA génératives et que ces derniers resteront utilisables. La directive est donc efficace uniquement pour les nouveaux contenus mais pas pour ceux visibles avant la mise en place des directives dans votre fichier robots.txt.

Quels inconvénients à la suite du blocage des robots des IA ?

L’émergence des IA et leur importance croissante dans les pages de résultats de recherche des moteurs de recherche n’est plus une surprise. En choisissant de bloquer les robots des IA, nul ne peut garantir à ce jour que cela n’aura aucun impact sur la visibilité d’un site à moyen et long terme sur les moteurs de recherche.

À lire aussi :

SEO

Les 30 erreurs Facebook Ads - Partie 1

Quelle est la procédure pour bloquer l’utilisation de vos contenus par les IA génératives de Google (Bard par exemple) ?

Si vous souhaitez tout de même mettre en place le blocage, ajoutez la directive suivante dans votre fichier robots.txt, situé à la racine de votre site :

UserAgent: Google-Extended
Disallow: /

Quelle est la procédure pour bloquer l’utilisation de vos contenus par ChatGTP ?

De la même manière que pour la directive Google Extended, dans votre fichier robots.txt, situé à la racine de votre site, ajoutez :

UserAgent: GPTBot
Disallow: /

A contrario, si vous souhaitez autoriser de manière explicite ChatGPT à crawler votre site, vous pouvez ajouter la directive ci-dessous à votre fichier robots.txt :

UserAgent: GPTBot
Disallow:

En complément du crawler de ChatGPT, d’autres extensions et plugins de ChatGPT sont en mesure d’accéder à tout moment à votre site Web. Dans ce cas, le crawler se nomme ChatPGT-User et peut être bloqué avec la directive ci-dessous :

UserAgent: ChatGPT-User
Disallow: /

Empêcher l’accès à vos contenus des robots des IA : est-ce efficace ?

Malheureusement, malgré toutes ces directives, il n’existe pas de moyen simple d’empêcher tous les robots des IA génératives d’accéder à votre site web.

Devant l’émergence régulière de nouvelles IA, il est pratiquement impossible de bloquer manuellement tous leurs robots et crawlers, et il n’existe aucune garantie qu’ils respectent tous les directives de votre fichier robots.txt.

En conclusion, le mise en place du nouvel user-agent Google Extended permet d’apporter plus de transparence et de contrôle aux éditeurs de site Web au moment où certaines voix se lèvent en faveur du droit des éditeurs et créateurs de contenus. Il existe cependant un équilibre à prendre en compte entre la protection des droits des éditeurs et les avantages potentiels de l’IA dans l’optimisation de votre visibilité en ligne qui nécessite une réflexion quant aux implications de vos décisions à long terme.

A noter que de nombreux médias tels que le New York Times, The Guardian, CNN, Reuters, mais également certaines plateformes comme Amazon, Tumblr ou encore Airbnb avaient déjà choisis de bloquer GPTBot.

Maintenant, à vous de décider ! 

Vous souhaitez en savoir plus sur le blocage des robots des IA ?

Contactez notre équipe d'experts SEO dès maintenant !

Découvrez nos prestations

Téléchargez nos livres blancs

Découvrez nos livres blancs spécialisés sur les divers thèmes du marketing digital et téléchargez les gratuitement.

Nos livres blancs

Besoin d'un coup de main ?

Vous souhaitez nous faire part de vos projets ou de vos besoins d’accompagnement ?

N’hésitez pas à nous contacter par téléphone au 01 85 08 03 49 ou à remplir le formulaire. Nous vous contacterons rapidement pour en savoir plus. Venez nous challenger, nous en ferons autant !

Contactez-nous

Merci, votre message a bien été envoyé !