Fiecare domeniu are in radacina sa fisierul robots.txt . El este folosit pentru a permite sau interzice motorului de cautare sa indexeze anumite pagini de pe acel domeniu.
Acest fisier este compus din inregistrari de tipul Field : value. El trebuie sa fie creat obligatoriu in mod UNIX (nu poate fi facut cu un simplu editor in mod text).
Tipurile de inregistrari sunt:
User-agent - numele robotului
Disallow - exclude de la cautare fisiere sau directoare
Fiecare User-agent are cel putin o linie Disallow.
Aceste inregistrari pot lua diverse valori astfel:
User-agent: googlebot - specifica numele robotului
User-agent: * -specifica toti robotii
Disallow: test.html -interzice accesul spiderilor la fisierul test.html
Disallow: /test/ -interzice accesul la directorul test din radacina domeniului
Disallow: /a -interzice accesul in toate paginile sau directoarele care incep cu litera a.
Disallow: / -interzice accesul in toate paginile sau directoarele
Exemplu fisier robots.txt:
User-agent: Googlebot
Disallow: /w
Disallow: /downloads/
Disallow: /comments/
User-agent: *
Disallow: /
In exemplul precedent este interzisa indexarea de catre google a paginilor sau directoarelor care incep cu litera "w" si a celor din directoarele "downloads" si "comments" aflate in radacina domeniului. De asemenea este interzis si cautarea oricarui alt motor de cautare decat Google in paginile site-ului.
Folosirea acestui fisier are si un dezavantaj prin faptul ca el este public oricine avand acces al el.


0 comments:
Trimiteţi un comentariu