Dyrektywy robots.txt dla robotów wyszukiwarek

Opis zawartości pliku robots.txt

Ideą pozycjonowania jest ułatwienie robotom skanowania stron w celu umieszczenia ich w indeksie, jednak możliwe jest też zablokowanie dostępu robotów do wybranych stron lub całości witryny poprzez instrukcje w kodzie źródłowym dokumentu. Celowość takiego działania to nie tylko wzbronienie udostępnienia prywatnych zasobów ogółowi, ale także powstrzymanie kierowania ruchu sieciowego na strony, które tego nie wymagają – są to np. automatycznie generowane strony wyników, strony błędu 404 oraz formularze logowania na stronie.

Znacznik <meta> ma praktyczne zastosowanie kiedy zamiarem jest powstrzymanie indeksacji jedynie poszczególnych elementów, ponieważ aby ograniczał dostęp do wszystkich zasobów, musiałby znaleźć się w kodzie każdej z podstron. Atrybuty noindex oraz nofollow odpowiadają za blokadę odpowiednio indeksacji dokumentu oraz przekierowania robota na strony podlinkowane w tymże dokumencie. Atrybuty content pozwalają także m.in. zablokować przechowywanie kopii strony na serwerach Google (noarchive).

<meta name=”googlebot” content=”noindex, nofollow”/>

Dodanie metatagu do nagłówku dokumentu uwzględnione zostanie podczas następnych odwiedzin witryny przez robota, jednak proces usuwania dokumentu z baz danych Google można przyspieszyć dzięki stosownym opcjom w Narzędziach dla webmasterów. Strona taka będzie oczywiście dostępna po wpisaniu pełnego adresu URL w oknie przeglądarki.

Polecenie User-agent w pliku robots.txt umieszczonym w katalogu głównym wskazuje, do jakich klientów odnosi się reguła blokująca dostęp do plików, jednak nie zabrania ona botom indeksowania adresu URL, jeżeli został on umieszczony na innych, dostępnych stronach:.

     User-agent: Googlebot

     Disallow: /blokowany folder lub plik.html

W związku z czym strona opatrzona plikiem robots.txt nadal może pojawiać się w wynikach wyszukiwania. Drugi rekord na poniższym screenie wyników organicznych obrazuje sposób wyświetlania strony, dla której w pliku robots.txt odmówiono dostępu do tekstu nagłówka dokumentu, jednocześnie umożliwiając dostęp do funkcjonującej witryny. Z perspektywy pozycjonowania takie działanie jest nieuzasadnione, gdyż pozbawia internauty podstawowych informacji o zawartości zasobu.

Przykład wyniku z zablokowanym tekstem snippetu w pliku robots.txt

Opis wyniku niedostępny z powodu robots.txt

Niepożądane szperacze internetowe nie będą analizować witryny również jeśli dostęp do strony zostanie zablokowany w pliku .htaccess umieszczonym w głównym katalogu publicznej części serwisu, w module mod_rewrite dla serwera Apache.