
Deja c’est quoi un fichier robots ?
Le fichier robots.txt est un fichier au format texte, placé à la racine d’un site web
Interrogé par les robots des moteurs de recherche, il leur donne les instructions, ainsi chacun d’entre eux saura ce qu’il peut faire ou non sur votre site Internet.
Il est donc très important de guider les robots pour qu’ils visitent vos pages sur lequel vous les autorisez à avoir accès, et à contrario qu’ils n’aillent pas voir les pages que vous souhaitez rendre invisible aux moteurs de recherche.
Exemple :
Pour autoriser les robots des moteurs de recherche à indexer votre site :
Insérer ces 2 lignes dans votre fichier robots.txt :
User-agent: *
Disallow:
User-agent: * signifie que vous donnez l’accès à tous les robots des moteurs de recherche.
Disallow: indique les pages, repertoire à bloquer. Ici rien n’est à bloquer comme rien n’est spécifié.
Pour interdire totalement ou partiellement l’accès à votre site web :
Interdire à tous les robots de visiter votre site :
Insérer ces 2 lignes :
User-agent: *
Disallow: /
Interdire aux robots de visiter une page :
User-agent: *
Disallow: toto.html
Interdire aux robots de visiter le contenu d’un répertoire :
User-agent: *
Disallow: /perso
Pour interdire à certains et autoriser à d’autres :
User-agent: *
Disallow: /
User-agent: googlebot
Disallow:
Dans ce cas le robot de Google à tous les droits de visite sur votre site et les autres ne peuvent rien voir.
Localisation du fichier sitemap.xml :
Pour faire connaître la localisation de votre fichier sitemap vous pouvez rajouter cette ligne dans votre fichier robots.txt :
Sitemap: http://www.votresite.com/sitemap.xml
A vos claviers !

