sâmbătă, 10 ianuarie 2009

Utilizarea fisierului robots.txt

Fiecare domeniu are in radacina sa fisierul robots.txt . El este folosit pentru a permite sau interzice motorului de cautare sa indexeze anumite pagini de pe acel domeniu.

Acest fisier este compus din inregistrari de tipul Field : value. El trebuie sa fie creat obligatoriu in mod UNIX (nu poate fi facut cu un simplu editor in mod text).


Tipurile de inregistrari sunt:

User-agent - numele robotului

Disallow - exclude de la cautare fisiere sau directoare

Fiecare User-agent are cel putin o linie Disallow.


Aceste inregistrari pot lua diverse valori astfel:

User-agent: googlebot - specifica numele robotului

User-agent: * -specifica toti robotii

Disallow: test.html -interzice accesul spiderilor la fisierul test.html

Disallow: /test/ -interzice accesul la directorul test din radacina domeniului

Disallow: /a -interzice accesul in toate paginile sau directoarele care incep cu litera a.

Disallow: / -interzice accesul in toate paginile sau directoarele


Exemplu fisier robots.txt:


User-agent: Googlebot

Disallow: /w

Disallow: /downloads/

Disallow: /comments/

User-agent: *

Disallow: /


In exemplul precedent este interzisa indexarea de catre google a paginilor sau directoarelor care incep cu litera "w" si a celor din directoarele "downloads" si "comments" aflate in radacina domeniului. De asemenea este interzis si cautarea oricarui alt motor de cautare decat Google in paginile site-ului.

Folosirea acestui fisier are si un dezavantaj prin faptul ca el este public oricine avand acces al el.

Niciun comentariu:

Trimiteți un comentariu