Aantal berichten : 1149 Woonplaats : Delft Registration date : 11-06-08
Onderwerp: Re: bot in the house...? do maa 12 2009, 18:49
Spiders of bots komen kijken of ze hun database kunne updaten met gerelateerde informatie voor bv op GOOGLE.
http://nl.wikipedia.org/wiki/Spider
WIKIPEDIA schreef:
Een spider (ook wel webcrawler genoemd) is een computerprogramma dat het wereldwijde web op een methodische en geautomatiseerde manier doorbladert, als een soort robot. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines.
De werkingswijze is eenvoudig: de spider begint met een lijst met URL's en bezoekt deze één voor één, waarbij alle hyperlinks die in de bezochte pagina's voorkomen aan de lijst van te bezoeken URL's worden toegevoegd. Op deze wijze kan een spider vrijwel alle publiekelijk toegankelijke pagina's op het internet langsgaan. Veelal komen spiders met een vaste regelmaat langs om hun index actueel te houden.
Spiders dienen zich tijdens hun rondgang te gedragen omdat ze pagina's nu eenmaal sneller kunnen opvragen en verwerken dan een mens. De meeste spiders nemen de moeite om pagina's van één webserver niet allemaal achter elkaar op te vragen maar deze over een tijdsbestek te spreiden om te voorkomen dat de betreffende webserver overbelast raakt.
Voor eigenaars en beheerders van websites zijn methodes geïntroduceerd om het gedrag van spiders te beïnvloeden. Zo kan in de hoofdmap van de website een tekstbestandje genaamd 'robots.txt' worden gezet met beperkingen voor één of meerdere spiders. Er kan worden aangegeven welke delen van de website door bepaalde spiders niet mogen worden bezocht. Alvorens een website te bezoeken zal een goede spider controleren of dit bestand bestaat en of er voor de betreffende spider beperkingen staan aangegeven. Zie bijvoorbeeld: http://nl.wikipedia.org/robots.txt
Sommige spiders negeren robots.txt. Dit kan nadelige gevolgen hebben voor de website die ze bezoeken. Om dit tegen te gaan kan men op een webserver de IP-adressen van de betreffende spiders blokkeren. Robots die zich goed gedragen houden zich aan de regels die in robots.txt staan.
Het is mogelijk in de header van individuele webpagina's meta-tags op te nemen voor robots. Als deze meta-tag niet aanwezig is, gaat de robot uit van de standaardwaarde: