Définition robots.txt : guide et usage SEO

Lorsque l’on souhaite optimiser son SEO, on tombe vite sur un fichier particulier : le robots.txt. Mais alors, c’est quoi exactement et comment ça marche ? La réponse ici ⬇️

Qu’est-ce que le fichier robots.txt ?

Le fichier robots.txt est, comme son nom l’indique, un fichier texte. Ce dernier est toujours placé à la racine du site web auquel il appartient. 

Pour le trouver, rien de plus simple, entrez simplement l’url : https://www.mon-site.com/robots.txt. Ce fichier est donc accessible à n’importe qui, vous n’êtes pas obligé de détenir le site web pour le consulter, vous pouvez d’ailleurs ci-dessous voir celui d’Amazon, l’un des plus grand site web de la planète. 

Amazon robots.txt


Le fichier robots.txt a pour fonction d’indiquer aux moteurs de recherche (comme Google), les parties du site qu’ils doivent explorer et celles qu’ils ne doivent pas explorer.

Fonctionnement du robots.txt

D’un point de vue général, le fichier robots.txt dirige les moteurs de recherche dans leur exploration du site web auquel il appartient. 

Il va donc leur indiquer s’ils ont le droit d’aller ou pas sur certains types de pages à l’aide de diverses instructions : 

  • User-Agent
  • Disallow
  • Allow

Si aucun fichier robots.txt n’est présent sur un site ou s’il est vide, les moteurs de recherche auront accès à l’entièreté du site et pourront donc indexer (ou pas) ce qu’ils souhaitent.

Importance du robots.txt pour le référencement

Avoir un fichier robots.txt bien remplit peut avoir un très bon impact sur votre référencement naturel. Ce fichier est d’autant plus important pour les sites plus importants, qui possède des milliers de pages

En effet, lorsque l’on possède un grand site comme un e-commerce ou une marketplace, on peut vite se heurter à un problème concernant l’indexation de ses nouvelles pages.

En remplissant correctement votre fichier robots.txt, vous indiquez aux moteurs de recherche les pages qu’il faut et celles qu’il ne faut pas indexer. Et cela a un impact sur le “crawl budget”, le temps et l’espace que Google accorde à votre site dans son index. Et oui, Google n’a pas des journées entières à consacrer à votre site web, en lui donnant les bonnes instructions, vous lui facilitez la vie et il saura vous remercier.

 

Pourquoi utiliser un fichier robots.txt ?

Comme on vient de le voir, utiliser un fichier robots.txt peut être positif pour votre référencement naturel. Voyons maintenant quelques exemples concrets d’utilisation.

Empêcher l’indexation de certaines pages

L’utilisation du fichier robots.txt permet d’empêcher l’indexation de pages spécifiques. Il est judicieux de bloquer l’accès aux pages administratives, aux duplicatas de contenu, aux pages de test ou aux URsL générées de manière dynamique

Par exemple, pour un site e-commerce, on pourrait empêcher l’indexation des pages de panier ou de compte utilisateur avec la directive suivante dans le robots.txt :

User-agent: *
Disallow: /panier/
Disallow: /mon-compte/


Cette configuration aide à concentrer l’attention des moteurs de recherche sur les pages les plus pertinentes.

Optimiser le crawl de votre site

Le crawl budget représente les ressources qu’un moteur de recherche alloue à l’exploration de votre site. Le robots.txt joue un rôle dans l’optimisation du crawl budget en guidant les robots vers les pages importantes et en les éloignant des contenus moins pertinents. 

En définissant des règles, vous permettez aux moteurs de recherche de découvrir et d’indexer plus efficacement vos pages clés. Cela peut se traduire par une meilleure visibilité dans les résultats de recherche et une indexation plus rapide des nouvelles pages. 

Sécuriser des zones sensibles

Les zones sensibles d’un site web sont généralement les espaces d’administration, les pages de connexion, les zones de test ou de développement, et les contenus réservés aux membres ou autres. Le fichier robots.txt peut offrir une première ligne de défense en empêchant les robots d’explorer ces zones. Par exemple :

User-agent: *
Disallow: /admin/
Disallow: /dev/
Disallow: /membres-only/

Cependant, cette protection a des limites. Le robots.txt n’empêche pas l’accès direct à ces pages. Pour une sécurité optimale, vous devez combiner cette méthode avec d’autres mesures de protection comme l’authentification et le contrôle d’accès.

Quelles instructions utiliser dans le robots.txt ?

Voyons maintenant les instructions que l’on peut utiliser dans le robots.txt pour guider au mieux les moteurs de recherche dans leur exploration de votre site web.

La directive User-agent

Un User-agent est l’identifiant unique d’un robot de moteur de recherche. La directive User-agent dans le robots.txt permet de spécifier des règles pour différents robots. On peut cibler tous les robots avec « * » ou des robots spécifiques comme « Googlebot« . Voici quelques exemples de syntaxe :

User-agent: *
User-agent: Googlebot
User-agent: Bingbot

Cette directive permet d’appliquer des règles différentes selon les moteurs de recherche. Par exemple, vous pouvez autoriser Google à explorer certaines sections tout en les interdisant à d’autres robots. Vous pouvez commencer par des règles générales pour tous les robots, puis d’ajouter des exceptions spécifiques si nécessaire.

La directive Disallow

La directive Disallow indique aux robots les parties du site qu’ils ne doivent pas explorer. Elle est essentielle pour protéger les zones sensibles ou optimiser le crawl. Exemples d’utilisation :

Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Bonnes pratiques :

  1. Utilisez des chemins complets.
  2. Soyez spécifique pour éviter de bloquer accidentellement du contenu important.
  3. Testez vos règles avec les outils de validation des moteurs de recherche.
  4. Vérifiez régulièrement votre fichier robots.txt pour s’assurer qu’il reste pertinent avec votre site et vos nouveaux contenus.

La directive Allow

La directive Allow est utilisée pour autoriser explicitement l’accès à certaines pages ou répertoires, généralement en complément de règles Disallow plus larges. Elle est particulièrement utile dans les cas suivants :

  1. Autoriser des sous-dossiers spécifiques dans un répertoire globalement interdit.
  2. Permettre l’accès à certains fichiers dans un dossier restreint.

Exemple :

User-agent: *
Disallow: /private/
Allow: /private/public-docs/

Il faut savoir que Allow a la priorité sur Disallow lorsque les deux directives s’appliquent au même chemin. Cette hiérarchie permet de gérer l’accès des robots à votre contenu.

La directive Sitemap

La directive Sitemap dans le robots.txt indique l’emplacement de votre sitemap XML, facilitant sa découverte par les moteurs de recherche. Pour l’intégrer, ajoutez simplement :

Sitemap: https://www.votresite.com/sitemap.xml

Cette pratique améliore l’efficacité de l’indexation en guidant les robots vers vos pages les plus importantes à l’aide votre Sitemap.

Outil de test du robots.txt par Google Google

Pour vérifier votre fichier robots.txt, rendez-vous dans votre Google Search Console, puis dans l’onglet Paramètre, puis robots.txt. Ensuite, vous pouvez voir si le fichier a bien été récupéré par Google dans la case “État”. Vous pouvez de plus, cliquer dessus et voir votre fichier. 

Exemples de fichiers robots.txt

Exemple d’un fichier robots.txt pour bloquer l’indexation d’un répertoire

User-agent: *
Disallow: /private/
Allow: /private/public-docs/
Sitemap: https://www.example.com/sitemap.xml

Explication :

  • Ligne 1 : S’applique à tous les robots
  • Ligne 2 : Bloque l’accès au répertoire /private/
  • Ligne 3 : Autorise l’accès à un sous-dossier spécifique
  • Ligne 4 : Indique l’emplacement du sitemap

Ce type de configuration est couramment utilisé pour protéger des zones administratives ou des contenus réservés aux membres, tout en permettant l’accès à certains documents publics.

Exemple d’un fichier robots.txt pour autoriser l’indexation de tout le site

User-agent: *
Disallow:
Sitemap: https://www.example.com/sitemap.xml

Ce code autorise l’indexation complète du site. C’est parfois nécessaire pour les nouveaux sites ou après une refonte, afin d’assurer une indexation maximale. 

Cependant, soyez prudent : assurez-vous que toutes les pages sont prêtes à être indexées et qu’aucun contenu sensible n’est exposé.

Exemple avec des instructions pour plusieurs robots

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: Bingbot
Disallow: /notforbing/

User-agent: *
Disallow: /private/
Allow: /private/public-docs/

Sitemap: https://www.example.com/sitemap.xml

Ce fichier robots.txt différencie les instructions par robot, permettant un contrôle précis de l’indexation. Par exemple, on peut réserver certains contenus à Google tout en les cachant à Bing, ou avoir des règles spécifiques pour certains crawlers

Le sommaire

ON PREND
CONTACT ?