Helias Marketing

Crawlen & Indexeren

google crawlers

Crawlen en Indexeren [SEO Gids]

Om organische bezoekers te ontvangen vanuit Google zorg je er allereerst voor dat zoekmachines bekend zijn met jouw webpagina´s, zodat deze vertoond kunnen worden als zoekresultaat op basis van een relevante zoekopdracht.

In dit hoofdstuk van onze gratis SEO cursus delen wij stap voor stap hoe de zoekmachines hun content verzamelen en hoe jij ervoor kunt zorgen dat jouw webpagina’s vertoond worden in de zoekmachines.

Hoe werkt Zoekmachine Optimalisatie?

We passen zoekmachineoptimalisatie toe als marketinginstrument om webpagina’s beter vindbaar te maken in de zoekmachines wanneer gebruikers relevante zoekopdrachten uitvoeren.

Wanneer je een E-commerce website bezit en sportschoenen verkoopt, dan proberen we natuurlijk niet beter gevonden te worden in de zoekmachines wanneer de gebruiker een zoekopdracht als “goedkope vakantielanden” uitvoert, maar willen we beter gevonden worden op basis van relevante zoekopdrachten.

Om dit te kunnen realiseren gaan we allereerst kijken hoe de SERP wordt opgebouwd.

Een zoekopdracht bestaat uit woorden of woordgroepen die een gebruiker invoert in de zoekfilter van Google. Deze woorden noemen we binnen SEO “zoekwoorden” of “keywords”

zoekwoorden

Op basis van de gekozen zoekopdracht start Google vervolgens met het rangschikken van de webpagina’s die bekend zijn bij ‘s werelds grootste zoekmachine, zodat de meest relevante en kwalitatieve webpagina’s direct beschikbaar worden gesteld aan de gebruiker.

De webpagina die door Google als eerste organische resultaat wordt vertoond in de SERP, wordt beschouwd als de beste match voor de gekozen zoekopdracht.

Crawlen en Indexeren

Om ervoor te zorgen dat je webpagina’s vertoond kunnen worden in Google als zoekresultaat, moeten deze eerst bekend zijn bij de zoekmachine.

Het vinden, opslaan en verwerken van nieuwe webpagina’s in de grote bibliotheek van Google noemen we crawlen en indexeren.

zoekmachineoptimalisatie

Google maakt gebruik van computerprogramma’s die automatisch handelingen verrichten genaamd “Googlebot” of “Googlespider”.

Deze hulpjes van Google zijn constant op zoek naar nieuwe informatie op het internet zoals nieuwe websites, webpagina’s of gewijzigde content. De Googlebots navigeren tussen de verschillende websites en webpagina’s door gebruik te maken van de aanwezige links.

Een webpagina die geen inkomende links ontvangt kan dan ook nauwelijks gevonden worden door de zoekmachine.

Het proces waarbij Googlebot verschillende websites en webpagina’s doorloopt op zoek naar nieuwe informatie op het internet noemen we crawlen.

crawlen en indexeren

Zodra een nieuwe webpagina is gecrawld door Googlebot, kan deze worden opgeslagen in de grote bibliotheek van Google genaamd Caffeine.

Het proces waarbij nieuwe webpagina’s worden opgenomen in de Caffeine index noemen we indexeren.

Vanaf het moment dat een webpagina door de zoekmachine is geïndexeerd wordt deze meegewogen tijdens het rangschikken na een relevante zoekopdracht en kan de pagina worden vertoond als zoekresultaat in de SERP.

google

Rangschikken van Webpagina's

Google streeft ernaar om gebruikers zo snel mogelijk aan het gewenste antwoord te helpen.
Gebruikers die naar tevredenheid worden geholpen en snel vinden waar ze naar op zoek zijn
zullen namelijk vaker gebruik maken van de zoekmachine.

Om de best mogelijke resultaten te presenteren in de SERP na een uitgevoerde zoekopdracht maakt Google gebruik van geavanceerde algoritmen die de webpagina’s rangschikken op basis van honderden factoren. (ook wel “rankfactoren” genoemd”)

Tijdens het beoordelen van webpagina’s spelen de volgende onderdelen een essentiële rol:

  • SEO Relevantie: De inhoud van de webpagina’s moet relevant zijn aan de gekozen zoekwoorden en aansluiten bij de intentie waarmee een gebruiker een zoekopdracht uitvoert.
  • SEO Autoriteit: De webpagina’s en de website in het algemeen moeten betrouwbare informatie verstrekken en als autoriteit worden erkend, hierbij spelen links een essentiële rol.
  • SEO Content Kwaliteit: Is de content uniek, nuttig, waardevol, vrij van spellingsfouten, goed geformuleerd, geschreven door een expert en beantwoord de inhoud van een webpagina de zoekopdracht volledig? De kwaliteit van de content is een belangrijk onderdeel binnen on-page SEO.
  • User Experience: Google meet en analyseert gebruikerssignalen om het rangschikken van webpagina’s te verbeteren. Aan de hand van de ervaring die gebruikers hebben op een webpagina wordt namelijk vastgesteld of de pagina wel of niet goed aansluit bij de specifieke zoekopdracht en de intentie van de gebruiker. Andere belangrijke user experience factoren zijn onder andere een veilige HTTPs verbinding, een mobiel-vriendelijk webdesign en een snelle pagina laadtijd.
  • Technische SEO: Je website is opgebouwd uit code en deze verschillende code-elementen helpen de zoekmachines onder andere om de inhoud van webpagina’s en de onderlinge relaties beter te begrijpen. Daarnaast helpt technische SEO om je webpagina’s makkelijker vindbaar te maken voor de zoekmachines en hebben technische fouten een enorm negatieve impact op de prestaties in de zoekmachines.

Google Index

Zoekmachines verwerken de nieuwe content die Googlebot heeft gecrawld en slaan deze vervolgens op in de Google-index.

De index van Google is een gigantische database vol opgeslagen webpagina’s met content die de zoekmachine goed genoeg heeft bevonden om te vertonen in de SERP na een relevante zoekopdracht.

Het proces waarbij nieuwe informatie op het web wordt opgeslagen en verwerkt door de zoekmachine noemen we indexeren.

google index

Zoekmachine Crawlen

Google maakt gebruik van robots die we beter kennen als “zoekmachine-crawlers” om het web af te speuren op zoek naar nieuwe inhoud.

Googlebot of Googlespider zoals de robot binnen het zoekmachine optimalisatie speelveld wordt genoemd, navigeert tussen de verschillende webpagina’s en zelfs tussen verschillende websites door de aanwezige links op een pagina te volgen.

Het proces waarbij Googlebot op zoek gaat naar nieuwe informatie op het web door de webpagina’s op te halen en de aanwezige links te volgen noemen we crawlen.

crawlen

De gecrawlde informatie kan variëren van hele nieuwe URL’s tot nieuwe afbeeldingen, gewijzigde content op een pagina of zelfs een PDF-bestand.

Zoekmachine Indexeren

Indexeren is het registreren en opbergen van je pagina’s door Google in hun enorme database genaamd: Caffeine

Indien een webpagina door Google is geïndexeerd kan de pagina worden vertoond in de zoekresultaten al match voor een relevante zoekopdracht

Je kunt je webpagina’s eenvoudig laten indexeren door gebruik te maken van de gratis tool die Google aanbied: Google Search Console

Daarnaast worden je pagina’s op den duur vanzelf gecrawld en geïndexeerd omdat de Google Bots zelfstandig op zoek gaan naar nieuwe pagina’s op het web.

Je webpagina’s kunnen enkel worden geïndexeerd in Google indien aan de richtlijnen wordt voldaan. Redenen waarom een webpagina’s niet zijn geïndexeerd:

  • Je website is recentelijk gestart
  • Je website is moeilijk te vinden voor de Google bots
  • Je website kent te veel technische fouten
  • Je website is beboet door Google
  • Je webpagina bevat de ‘No-index’ code

Foutmeldingen tijdens het crawlen of indexeren worden in Google Search Console vertoond en Google biedt zelf ook diverse artikelen aan om je te helpen met indexeren.

crawlen en indexeren

Robots.txt. bestand

We weten nu dat Google gebruik maakt van hulpjes die dagelijks het web afspeuren op zoek naar nieuwe content. De Google bots navigeren via interne links van de ene pagina op je website naar de andere.

Als er nieuwe informatie is gevonden die aan de richtlijnen van Google voldoet, wordt deze informatie opgeslagen in de bibliotheek van Google en kan de informatie vanaf dat moment als zoekresultaat worden vertoond na een zoekopdracht in Google.

In sommige gevallen is het echter helemaal niet gewenst dat een pagina in de zoekmachine verschijnt. Zo kunnen pagina’s met gevoelige informatie zoals admin pagina’s beter worden afgeschermd.

Daarnaast is het SEO technisch niet handig om pagina’s met duplicate content of thin content te laten indexeren door Google.

Google heeft namelijk een hekel aan deze pagina’s met dubbele content of content met een lage kwaliteit. Iedere pagina moet uniek zijn, en dient waarde toe te voegen aan de gebruiker.

We kunnen onderstaande voorbeelden dan ook beter vermijden in de zoekresultaten:

  • Admin pagina’s
  • Bedankt pagina’s
  • Inlog pagina’s
  • Checkout pagina’s
  • Winkelmand pagina’s

Ook het crawlen van deze pagina’s heeft nadelige gevolgen voor je zoekmachineoptimalisatie, omdat je onnodig de server belast, crawl-budget verspilt, en het ten kosten gaat van het crawlen van belangrijke pagina’s op je website.

Gelukkig is er een manier om met Google te communiceren en aan te geven dat we pagina’s willen uitsluiten van crawlen en indexatie.

In een Robots.txt. bestand geven we aan Google aan welke pagina’s of welke bestanden niet mogen worden opgevraagd door de crawlers van Google om te bezoeken.

Het is echter geen geschikte methode om de webpagina helemaal uit te sluiten in de zoekresultaten.

We gebruiken het Robots.txt. bestand met name om het gedrag van de crawlers te beïnvloeden. We willen namelijk dat zij zo snel mogelijk de meest relevante bestanden en pagina’s van je website crawlen omdat dit een effect heeft op onze rankings in Google.

Om een pagina uit te sluiten van de zoekresultaten kun je een robots meta tag aanbrengen in de HTML code van je webpagina.

robots txt

Crawl-Budget

De gemiddelde website bezit meestal veel meer pagina’s dan je in eerste instantie beseft. Het crawlen van alle webpagina’s kan dus nog behoorlijk wat tijd in beslag nemen, en omdat lang niet alle pagina’s waarde toevoegen aan de SEO van je website, kunnen sommige pagina’s beter niet gecrawld worden.

crawl budget

Als de website tijdens het crawl-proces vertraagt of wanneer er serverfouten optreden, heeft dit een negatieve invloed op je crawlbudget.

Het crawlbudget beschrijft het aantal URLs dat de Googlebot per keer kan en wil crawlen.

Om dit budget zo zorgvuldig mogelijk te besteden en het maximale SEO resultaat te behalen, kunnen we specifieke pagina’s uitsluiten van crawlen in een Robots.txt-bestand, dat zich bevindt in de hoofdmap van je website.

Robots meta tag

Robots meta tags zijn stukjes code die worden toegevoegd aan de broncode van een specifieke pagina om crawlers instructies te geven over de indexatie van een webpagina.

Met de No index-meta tag geven we Google aan dat de desbetreffende pagina niet geïndexeerd mag worden, zodat deze niet kan worden weergeven in de zoekresultaten.

In het hoofdstuk: technische SEO gaan we hier dieper op in.

robots.txt
no index wordpress

Robots meta tag aanbrengen met Rankmath

Indien je de SEO-plugin: Rank Math hebt geïmplementeerd op je website kun je simpel een No Index tag aanbrengen door je pagina te bewerken met Elementor  –> klik op het kopje: ‘Advanced’ –> en vervolgens de No Index tag aanvinken.

No Index tag aanbrengen in de HTML Broncode van je pagina

no index html code

Check de privacy settings van je website

Daarnaast is het belangrijk om de privacy setting van je website te checken om het mogelijk te maken voor de zoekmachines om jouw webpagina’s te indexeren en te vertonen in Google.

Navigeer naar je WordPress instellingen –> algemeen –> Privacy –> Public

privacy settings wordpress

Als je bezig bent met zoekmachine optimalisatie is Google Search Console vanzelfsprekend één van je beste vrienden.

Deze gratis SEO-tool biedt ons de mogelijkheid om:

  • Posities tracken in de zoekresultaten
  • Technische fouten detecteren
  • Statistieken van het aantal vertoningen & organische kliks
  • Indienen Sitemap
  • Overzicht met interne en externe links
  • Indexatie aanvragen
  • Site vitaliteit checken
  • Mobiele gebruikservaring checken
  • Structured data checken
  • Webpagina’s uit Google zoeken verwijderen

Navigeer allereerst naar de website van Google Search Console om je website te registreren:

Om de registratie succesvol toe te passen ontvangen we van Google een link tijdens de registratie waarmee we onze website kunnen verifiëren.

Deze site verificatie link voegen we op de website toe als: DNS record.

dns record toevoegen

Verificatie link toevoegen aan WordPress site

  • Navigeer naar je WordPress instellingen
  • Ga naar ‘Domeinen’
  • Klik vervolgens op ‘DNS Records’
  • Voeg de verificatie link toe als ‘TXT’ bestand
  • Klik op: ‘Add new DNS record’

Testen of je webpagina's geïndexeerd zijn

Je kunt in Google search console per pagina testen of ze door google geïndexeerd zijn en dus kunnen worden weergeven in de zoekresultaten.

Open Google Search Console –> URL-inspectie –> voeg je URL toe in de zoekbalk

search console url inspecteren

Vraag een Indexering aan

Het komt natuurlijk regelmatig voor dat jij de pagina’s op je website bijwerkt en wellicht je pagina aanpast om hoger te scoren in Google. Om zo snel mogelijk te profiteren van de wijzigingen aan de pagina kunnen we aan de rechterkant van de URL inspectie tool ook zelfstandig een indexering aanvragen.

indexering aanvragen

Foutmeldingen Indexatie

In Search Console kunnen we onder het kopje: ‘Dekking‘ de foutmeldingen terugvinden die Google ervan hebben weerhouden om onze pagina succesvol te indexeren.

In het dekkingsrapport vind je tevens de oorzaak van het niet succesvol indexeren, en krijg je toegang tot de juiste informatie om dit te verhelpen:

dekkingsrapport Google Search Console

Geindexeerde pagina´s in google zoeken

Om je webpagina in de zoekresultaten te kunnen laten verschijnen moeten deze pagina’s dus eerst gecrawld en geïndexeerd zijn.

Om te kijken welke pagina´s van onze website door google geïndexeerd zijn kunnen we in google zoeken de zoekopdracht: site:’domeinnaam’ invoeren.

google pagerank

Indienen van een sitemap

Een sitemap is een verzameling van webpagina’s die je kwalitatief genoeg vind om in de zoekresultaten te laten vertonen. Je kunt je sitemap indienen in google Search Console zodat Google tijdens het crawling proces voorkeur geeft aan deze desbetreffende webpagina’s.

Of google deze pagina´s ook daadwerkelijk indexeert is nog maar de vraag.

Zorg dat de pagina´s in je sitemap van hoge kwaliteit zijn en dat er geen pagina´s inzitten die je hebt uitgesloten voor de zoekresultaten.

Met het aanleveren van een sitemap geef je google een handig overzicht van je pagina´s wat het crawl proces kan versnellen. 

In WordPress kun je eenvoudig een sitemap aanmaken door een SEO plugin zoals Yoast SEO of Rank Math te installeren.

rank math seo plugin

Navigeer naar Rank Math Sitemap Settings –> Kopieer de Sitemap URL

rank math seo

Open Search Console –> Sitemaps –> Een nieuwe sitemap toevoegen

sitemap indienen

Samenvatting crawlen en indexeren

Google is als ‘s werelds grootste zoekmachine altijd op zoek naar nieuwe content op het world wide web, en maakt hiervoor gebruik van Google bots ook wel Google spiders genoemd.

Deze programma’s speuren het internet af en gebruiken externe links om van de ene website naar de andere te navigeren, terwijl interne links worden gebruikt om op de website zelf van de ene pagina naar de andere te verplaatsen.

Wanneer er nieuwe content of een nieuwe website wordt gedetecteerd die niet geblokkeerd is door de website eigenaar, zullen de Google bots de nieuwe informatie voordragen aan Google.

Indien deze nieuwe webpagina’s of nieuwe content aan de richtlijnen van Google voldoen, worden ze opgeslagen in de grote bibliotheek van Google.

Vanaf het moment dat een webpagina is geïndexeerd door Google kan de webpagina worden vertoond als organisch zoekresultaat indien er een relevante zoekopdracht voorkomt in Google.