Webcrawler – BestandInfo

Een webcrawler is een bot die door webpagina’s beweegt en hun inhoud indexeert, zodat gebruikers deze bij volgende zoekopdrachten kunnen vinden. De meest prominente bots worden bemand door grote zoekmachines. Google heeft meerdere webcrawling-bots; andere omvatten de bot van Yahoo en de bot van het Chinese technologiebedrijf Baidu. Een webcrawler reist voornamelijk webpagina’s met behulp van zowel externe als interne links. Webcrawlers worden ook wel spiders genoemd.

Als een webdomeineigenaar wil dat zijn site wordt gevonden in zoekopdrachten, moet hij webcrawlen toestaan. Zoekmachines geven alleen webpagina’s weer die ze hebben ontdekt door middel van crawlen. Terwijl een webcrawler door een pagina beweegt, indexeert of registreert hij alle relevante informatie op de pagina (vaak alle informatie op de pagina), zodat hij die pagina’s kan oproepen wanneer een gebruiker een zoekopdracht in een zoekmachine doet. Niet al het internet is geïndexeerd; onderzoekers weten niet hoeveel. Maar alleen openbare webpagina’s zijn toegankelijk voor webcrawlers; privépagina’s kunnen dat niet. Een website kan ook de robots.txt-extensie aan de HTML toevoegen voor pagina’s die niet door een bot mogen worden gecrawld, of “noindex” -tags in de HTML zelf gebruiken.

Webcrawlers en SEO

Webcrawlers vinden inhoud voor zoekmachines; wat ze op een webpagina verzamelen, is van invloed op de positie van de zoekmachineoptimalisatie van die pagina. Als een pagina veel trefwoorden en relevante links heeft wanneer deze wordt geïndexeerd, wordt deze prominenter weergegeven in een zoekmachine. Het hebben van zoekwoorden op belangrijke plaatsen, zoals koppen en metadata, geeft een webpagina ook een betere SEO-zichtbaarheid. Webcrawlers letten niet alleen op de platte tekst op een webpagina, ze bestuderen ook metagegevens en de manier waarop gebruikers op een pagina reageren, dus het is belangrijk voor een website om nauwkeurige metagegevens te kiezen die nauwkeuriger in een zoekmachine worden weergegeven – en om inhoud te hebben die relevante zoekopdrachten beantwoordt.

Crawler-bots zijn ook gebruikt voor kwaadaardige doeleinden, zoals het verspreiden van valse inhoud of het verzamelen van gebruikersinformatie, en ze zijn ook gebruikt om meningen te peilen en te beïnvloeden.