GoogleBot ne prend plus en charge les instructions du fichier Robots.txt

Officiellement Google a annoncé que GoogleBot n’obéirait plus à une directive Robots.txt relative à l’indexation. Les webmasters qui s’appuient sur la directive robots.txt noindex ont jusqu’au 1er septembre 2019 pour la supprimer et commencer à utiliser une alternative.

Nous avons déjà mentionné dans notre série sur le référencement naturel qu’il est recommandé d’utiliser le fichier robots.txt pour désindexer une page spécifique ou une partie de votre site Web. Le 2 Juillet 2019, Google a annoncé sur 👉 le blog Google Webmaster qu’il cesserait de prendre en charge le fichier robots.txt.

noindex dans le fichier robots.txt

“Dans l’intérêt de maintenir un écosystème sain et de nous préparer à d’éventuelles versions open source, nous supprimons tout code qui traite des règles non prises en charge et non publiées (telles que noindex) le 1er septembre 2019. Pour ceux d’entre vous qui ont utilisé le noindex directive d’indexation dans le fichier robots.txt, qui contrôle l’analyse, il existe un certain nombre d’options alternatives”

,Google a dit

Quelles sont les alternatives du fichier robots.txt ?

Google a répertorié les options suivantes, celles que vous auriez probablement dû utiliser de toute façon :

    1. Noindex dans les balises meta robots
    2. Codes de statut HTTP 404 et 410
    3. Protection de la page par mot de passe
    4. Disallow dans le fichier robots.txt
    5. Outil de suppression des URL dans Search Console

1. Noindex dans les balises meta robots

Pris en charge à la fois dans les en-têtes de réponse HTTP et en HTML, la directive noindex est le moyen le plus efficace de supprimer les URL de l’index lorsque l’analyse est autorisée. Noindex dans les balises meta robots

2. Codes de statut HTTP 404 et 410

les deux codes de statut signifient que la page n’existe pas, ce qui supprime ces URL de l’index de Google une fois qu’elles ont été analysées et traitées. Codes de statut HTTP 404 et 410

3. Protection de la page par mot de passe

à moins que le marquage ne soit utilisé pour indiquer un contenu d’abonnement ou payant, le fait de masquer une page derrière un identifiant la supprimera généralement de l’index de Google. C’est le cas de votre backoffice ou votre espace client. Protection de la page par mot de passe

4. Disallow dans le fichier robots.txt

les moteurs de recherche ne peuvent indexer que les pages dont ils ont connaissance. Par conséquent, le blocage de l’exploration de la page signifie souvent que son contenu ne sera pas indexé. Bien que le moteur de recherche puisse également indexer une URL en fonction de liens provenant d’autres pages, sans voir le contenu lui-même, Google vise à rendre ces pages moins visibles à l’avenir.

5. Outil de suppression des URL dans Search Console

cet outil est une méthode simple et rapide pour supprimer temporairement une URL des résultats de recherche de Google. Outil de suppression des URL dans Search Console

la page ne doit pas être bloquée par un fichier robots.txt

Tester votre fichier robots.txt

L’outil de test du fichier robots.txt vous indique si votre fichier robots.txt empêche nos robots d’explorer des URL spécifiques sur votre site. Par exemple, vous pouvez utiliser cet outil pour voir si le robot d’exploration Googlebot-Image est autorisé à explorer l’URL d’une image que vous souhaitez bloquer de Google Recherche d’images.

Questions fréquentes

Dois-je forcément utiliser un fichier robots.txt sur mon site Web ?

Non. Lorsque nous consultons un site Web à l’aide de Googlebot, nous demandons d’abord l’autorisation d’explorer ce site en tentant de récupérer le fichier robots.txt. En général, même si un site Web n’a pas de fichier robots.txt, de balise Meta pour les robots ou d’en-tête HTTP « X-Robots-Tag », nous l’explorons et l’indexons normalement.

Puis-je utiliser ces méthodes pour supprimer le site d'un tiers ?

Non. Ces méthodes ne sont valables que pour les sites dont vous pouvez modifier le code ou sur lesquels vous pouvez ajouter des fichiers. Si vous souhaitez supprimer le contenu d’un site tiers, vous devez contacter le webmaster pour lui demander de retirer ledit contenu. Demandez un spécialiste SEO chez Web Hors Piste

Puis-je placer le fichier robots.txt dans un sous-répertoire ?

Non. Le fichier doit être placé dans le répertoire racine du site Web.

Comment puis-je ralentir l'exploration de mon site Web par Google ?

Vous pouvez généralement modifier la fréquence d’exploration dans votre compte Google Search Console.

Pourquoi Google change-t-il maintenant ?

Cela fait des années que Google cherche à changer cela et, déterminé à normaliser le protocole, il peut désormais aller de l’avant. Google a déclaré avoir « analysé l’utilisation des règles robots.txt ». Google se concentre sur les implémentations non prises en charge du brouillon Internet, telles que crawl-delay, nofollow et noindex.

« Comme ces règles n’ont jamais été documentées par Google, leur utilisation par rapport à Googlebot est naturellement très faible, ». Google a déclaré « Ces erreurs nuisent à la présence des sites Web dans les résultats de recherche de Google d’une manière non souhaitée par les webmasters. »

Conclusion

Le plus important est de vous assurer que vous n’utilisez pas la directive noindex dans le fichier robots.txt. Si tel est le cas, vous devrez apporter les modifications suggérées ci-dessus avant le 1er septembre 2019. Vérifiez également si vous utilisez les commandes nofollow ou crawl-delay et le cas échéant, utilisez la bonne méthode prise en charge pour ces directives.

Liens utiles

Si vous avez besoin de l’avis d’un spécialiste du référencement naturel pour votre site web, nous proposons un mini-audit gratuit afin de signaler les corrections majeures à mettre en place en termes de SEO sur votre site.

Consultez notre piste bleue 👉 le référencement naturel pour demander votre mini-audit SEO.

N’hésitez pas à poser vos questions, ou laissez nous un petit mot en commentaire en bas pour partager votre expérience avec l’optimisation de votre site pour le SEO!

Laissez un commentaire ou une questions

Votre adresse mail ne sera pas publique. * = champ obligatoires