Omezení přístupu robotů a webcrawlerů na www stránky

Pokud máte potíže s velkým přístupem robotů na stránky, můžete omezit jejich přístupy v souboru robots.txt v rootu webu.

Mě se osvědčilo toto nastavení:

User-agent: bingbot
Disallow: /

User-agent: Baiduspider
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: YandexBot
Disallow: /

User-agent: rogerbot
Disallow: /

User-agent: Slurp
Disallow: /

User-agent: Mail.RU
Disallow: /

User-agent: *
Disallow: /admin/
Disallow: /con

#nacteni 100 zaznamu za hodinu
Request-rate: 100/1h
#Crawl-delay: 500 #doba meui nactenim dalsi stranky, obdoba request-time

Zajímavé odkazy:
http://napoveda.seznam.cz/cz/fulltext-hledani-v-internetu/komunikace-s-vyhledavacim-robotem/robotstxt/
http://wordpress-sensei.cz/robots-txt-aneb-jak-se-vyporadat-s-temi-zlymi-a-usmernit-ty-hodne/
http://is.muni.cz/th/208149/fi_b/bc.pdf

Pomohl Vám článek a chcete nás odměnit? Pošlete nám platbu přes paypal nebo na BTC peněženku 1bBr5iNS337NVzWjkvvH31bjmDvH4kfGb