Stop Yahoo!’s gekke spidergedrag

Yahoo! Slurp raast als een gek over het internet om website te indexeren.
Te gek.
Het lijkt wel dat hun spidergedrag erop gericht is om het hele netwerk stil te leggen in de wereld. Het zo massaal spideren van alle sites in de wereld vreet bandbreedte.
Te veel bandbreedte.
Dat zou komen omdat ze hun spidergedrag laten afhangen van het ip. En als je dan meerdere ip’s hebt op dezelfde server zou het dus kunnen dat je te veel wordt gespiderd.

Ze hebben om dat op te lossen iets bedacht dat je in je robots.txt kan gebruiken.
Dat vind ik larie maar het is beter dan niks. Je hoeft hun waanzinnige spidergedrag dus niet langer te pikken.

Crawl-delay van Yahoo!

Yahoo! heeft dus de Crawl-delay uitgevonden opdat je als website beheerder enigszins controle kan krijgen over je bandbreedte die wordt opgevreten.
Na wat tests lijkt het ook daadwerkelijk te werken.

Volgende dien je op te nemen in je robots.txt file indien je te veel gespiderd wordt door Yahoo! :

User-agent: Slurp
Crawl-delay: x.x

Het eerste gedeelte geeft aan voor welke spider van welke zoekmachine de volgende regel is bestemd.
Crawl-delay is het commando om de Slurp spider te laten begrijpen hoe vaak hij mag langs komen. De waarde achter Crawl-delay is een integer getal met eventueel een aanduiding na de komma.
(Amerikaans, dus een komma is een punt)
In de praktijk is deze komma echter overbodig.
De waarde achter Crawl-delay mag dus een gewoon getal zijn van 1 tot pakweg 100 of meer.

In de praktijk kan je voor een blog gerust een Crawl-delay van 50 neerpoten heb ik ondervonden. Het hangt allemaal een beetje af van hoe groot je site is(aantal pagina’s).

User-agent: Slurp
Crawl-delay: 50

Best is dat je een crawl-delay instelt en na 2 weken evalueert of deze nu naar wens werkt.
Je kan vergelijken met de frequentie van Google spiders, Yahoo! Slurp moet daar zekers niet boven uit komen.

STOP de waanzinnig geworden Yahoo! Slurp spiders!

Yahoo!

Yahoo!

 

7 Responses to “Stop Yahoo!’s gekke spidergedrag”


  • Handige tip omwille van het feit dat mijn eigen site eruit ging vanwege méér dan 25% not-viewed bandbreedte verbruik en zo de limiet overschreed.

     
  • Ik weet het, had hetzelfde aan de hand.

    Ongelofelijk als je denkt wat voor belasting dit geeft aan het wereldwijde internet.
    Hebben ze daar dan geen verstand meer zitten? Ik heb er men twijfels over.

     
  • Bedankt voor de tip. Heb hier ook een site die meer bandwith verspilt aan Yahoo dan aan echte bezoekers.

     
  • Mja, ik zou ze gewoon de toegang willen weigeren want veel bezoekers krijg je toch niet van hen.
    Maar hun resultaten worden ook gebruikt voor meta-zoekmachines en daarom wil ik ze gewoon normaler doen spideren.

     
  • Heel erg bedankt. Dit wist ik nog niet en inderdaad Yahoo kan best wat bandbreedte slurpen.

     
  • Bedankt voor de tip, erg nuttig voor webmasters die inderdaad de bovenstaande problemen ondervinden. Ik schrik er wel van dat er mensen zijn die meer bandbreedte aan spiders kwijt zijn dan aan bezoekers. Wat is daar de reden van? Ergens doe je dan toch iets fout…

    Ik weet wel dat het verspreiden van je RSS Feed in Engelse Feed directories een oorzaak is van het vaker langskomen van de spiderbot, misschien heeft iemand hier nog andere ideeen over?

     
  • Yahoo! spidert al langer veel te veel. Vooral in sites met veel pagina’s.

    Maar de laatste tijd wordt het gewoon te gek en vooral te belastend voor het gehele internet netwerk.

     
Comments are currently closed.