Tag Archive for 'robots.txt'

Stop Yahoo!’s gekke spidergedrag

Yahoo! Slurp raast als een gek over het internet om website te indexeren.
Te gek.
Het lijkt wel dat hun spidergedrag erop gericht is om het hele netwerk stil te leggen in de wereld. Het zo massaal spideren van alle sites in de wereld vreet bandbreedte.
Te veel bandbreedte.
Dat zou komen omdat ze hun spidergedrag laten afhangen van het ip. En als je dan meerdere ip’s hebt op dezelfde server zou het dus kunnen dat je te veel wordt gespiderd.

Ze hebben om dat op te lossen iets bedacht dat je in je robots.txt kan gebruiken.
Dat vind ik larie maar het is beter dan niks. Je hoeft hun waanzinnige spidergedrag dus niet langer te pikken.

Crawl-delay van Yahoo!

Yahoo! heeft dus de Crawl-delay uitgevonden opdat je als website beheerder enigszins controle kan krijgen over je bandbreedte die wordt opgevreten.
Na wat tests lijkt het ook daadwerkelijk te werken.

Volgende dien je op te nemen in je robots.txt file indien je te veel gespiderd wordt door Yahoo! :

User-agent: Slurp
Crawl-delay: x.x

Het eerste gedeelte geeft aan voor welke spider van welke zoekmachine de volgende regel is bestemd.
Crawl-delay is het commando om de Slurp spider te laten begrijpen hoe vaak hij mag langs komen. De waarde achter Crawl-delay is een integer getal met eventueel een aanduiding na de komma.
(Amerikaans, dus een komma is een punt)
In de praktijk is deze komma echter overbodig.
De waarde achter Crawl-delay mag dus een gewoon getal zijn van 1 tot pakweg 100 of meer.

In de praktijk kan je voor een blog gerust een Crawl-delay van 50 neerpoten heb ik ondervonden. Het hangt allemaal een beetje af van hoe groot je site is(aantal pagina’s).

User-agent: Slurp
Crawl-delay: 50

Best is dat je een crawl-delay instelt en na 2 weken evalueert of deze nu naar wens werkt.
Je kan vergelijken met de frequentie van Google spiders, Yahoo! Slurp moet daar zekers niet boven uit komen.

STOP de waanzinnig geworden Yahoo! Slurp spiders!

Yahoo!

Yahoo!

 

Google en Copiepresse sluiten vrede

Google en Copiepresse zijn tot een overeenkomst gekomen in verband met de rechtszaak die Copiepresse vorig jaar had aangespannen(en gewonnen) tegen Google

Copiepresse is een organisatie die de belangen behartigd van Franstalige(L’echo, Le Soir, La Libre Belgique, La Meuse, La Derniere heure, …) en Duitstalige(Grenz-Echo) nieuwskranten in Belgie.

Zij hadden Google voor de rechter gedaagd omdat de inhoud van de online kranten door Google werd gebruikt voor de Google Nieuws zoekmachine. Tevens hadden zij er een probleem dat Google een cache nam van hun nieuwsberichten.
Google werd door de rechter veroordeelt en heeft de berichten uit Google Nieuws en Google.be moeten verwijderen. Eveneens dienden zij op de hoofdpagina het vonnis vermelden.
Copiepresse en Google hebben nu een overeenkomst bereikt omtrent het terug opnemen van de sites van de betreffende kranten. De kranten gaan een soortgelijk systeem als de New York Times gebruiken met een “no archive” tag voor de belangrijke nieuwsberichten.
Omtrent Google Nieuws is nog geen compromis gevonden.

Vermoedelijk hadden de bewuste kranten geen idee hoe het internet juist werkt. Zij hadden een robots.txt bestand kunnen gebruiken of met meta-tags kunnen werken bijvoorbeeld. Ook de rechter zal geen zoekmachine specialist zijn want het is de normaalste gang van zaken dat Google en andere zoekmachines websites crawlen. Ieder kan weten hoe men dat in juiste banen kan leiden mits minimale kennis van het internet en zijn werking.
Mijn gok is dat Google dit nu allemaal besproken heeft met Copiepresse opdat de misverstanden konden worden opgeruimd.