Le fichier Robots.txt.
Nous allons vous expliquer,
ici, le fonctionnement du fichier robots.txt.
Son avantage ? Il vous permettra d'avoir vos pages web indexées par la
plupart des robots utilisés par les moteurs de recherche.
Il va aussi vous permettre d'interdire l'accès à certaines de
vos pages aux moteurs de recherche.
En gros, pour simplifier
les choses, le fichier " robots.txt " qui devra OBLIGATOIREMENT se
trouver à la racine de votre site internet, donnera simplement des instructions
au spider du moteur en lui indiquant ce qu'il peut faire et ce qu'il ne doit
pas faire .
Quand un robot arrive sur
un site pour indexer ses pages ou simplement pour voir les pages ajoutées
(par exemple, http://www.votresite.com/), il va automatiquement rechercher le
fichier " robots.txt " à la racine du site, qui sera donc à
l'adresse http://www.votresite.com/robots.txt, avant de rechercher n'importe
quelle autre page.
Si ce fichier existe, il commencera par lire les instructions qu'il contient
et suivra les commandes à la lettre.
Si, de surcroît, il ne trouve pas de fichier " robots.txt "
à la racine de votre site, il commencera son travail de lecture et d'indexation
de vos pages afin de les ajouter à sa base de données, considérant
que rien ne lui est interdit.
En outre, vous ne pouvez
avoir qu'un seul fichier robots.txt sur votre serveur, il doit se trouver à
la racine de votre site et doit TOUJOURS être écrit en minuscules.
Le style de contenu du fichier
robots.txt se présente de la façon suivante :
User-agent: *
Disallow: /cgi-bin/
Disallow: /temps/
Disallow: /personel/
Disallow: /services/infoprix.htm
Explication :
User-agent: * signifie que l'accès est accordé à tous les
robots.
Disallow: signifie simplement que l'accès est refusé aux robots.
Disallow: /cgi-bin/ : l'accès est refusé aux robots dans le dossier
cgi-bin
Disallow: /temps/ : l'accès est refusé aux robots dans le dossier
temps
Disallow: /personel/ : l'accès est refusé aux robots dans le dossier
personnel
Disallow: /services/infoprix.html : l'accès est refusé aux robots
pour la page infoprix.htm dans le dossier services
En prenant l'exemple du
dossier /temps/, et en imaginant que vous ayez une page nommée aide.htm
dans le dossier /temps/, son url sera donc: http://www.votresite/temps/aide.htm
En mettant la commande " Disallow: /temps/ " aucun robot ne pourra
indexer la page aide.htm qui se trouve dans le dossier /temps/ vu que vous lui
en interdisez l'accès.
Ne jamais laisser de lignes
vierges ou blanches (ENTER) le robot l'interprèterait comme étant
la fin du fichier.
L'étoile (*) quand à elle, est acceptée uniquement dans
le champ User-agent.
Comme dans le langage PHP, le signe " # " est considéré
comme étant une ligne à ne pas prendre en compte et sert à
inclure des commentaires.
Attention à toujours mettre le signe " # " au début
d'une ligne pour faire un commentaire.
Infos :
Nom des principaux robots
Altavista : Scooter
Hot Bot : Slurp
Lycos : T.Rex
Northern Light : Gulliver
|