Tag Archive for 'crawl-delay'

Stop Yahoo!’s gekke spidergedrag

Yahoo! Slurp raast als een gek over het internet om website te indexeren.
Te gek.
Het lijkt wel dat hun spidergedrag erop gericht is om het hele netwerk stil te leggen in de wereld. Het zo massaal spideren van alle sites in de wereld vreet bandbreedte.
Te veel bandbreedte.
Dat zou komen omdat ze hun spidergedrag laten afhangen van het ip. En als je dan meerdere ip’s hebt op dezelfde server zou het dus kunnen dat je te veel wordt gespiderd.

Ze hebben om dat op te lossen iets bedacht dat je in je robots.txt kan gebruiken.
Dat vind ik larie maar het is beter dan niks. Je hoeft hun waanzinnige spidergedrag dus niet langer te pikken.

Crawl-delay van Yahoo!

Yahoo! heeft dus de Crawl-delay uitgevonden opdat je als website beheerder enigszins controle kan krijgen over je bandbreedte die wordt opgevreten.
Na wat tests lijkt het ook daadwerkelijk te werken.

Volgende dien je op te nemen in je robots.txt file indien je te veel gespiderd wordt door Yahoo! :

User-agent: Slurp
Crawl-delay: x.x

Het eerste gedeelte geeft aan voor welke spider van welke zoekmachine de volgende regel is bestemd.
Crawl-delay is het commando om de Slurp spider te laten begrijpen hoe vaak hij mag langs komen. De waarde achter Crawl-delay is een integer getal met eventueel een aanduiding na de komma.
(Amerikaans, dus een komma is een punt)
In de praktijk is deze komma echter overbodig.
De waarde achter Crawl-delay mag dus een gewoon getal zijn van 1 tot pakweg 100 of meer.

In de praktijk kan je voor een blog gerust een Crawl-delay van 50 neerpoten heb ik ondervonden. Het hangt allemaal een beetje af van hoe groot je site is(aantal pagina’s).

User-agent: Slurp
Crawl-delay: 50

Best is dat je een crawl-delay instelt en na 2 weken evalueert of deze nu naar wens werkt.
Je kan vergelijken met de frequentie van Google spiders, Yahoo! Slurp moet daar zekers niet boven uit komen.

STOP de waanzinnig geworden Yahoo! Slurp spiders!

Yahoo!

Yahoo!