Helias Marketing

robots txt

Robots.txt [SEO Gids]

robots.txt

Simpele technische SEO gids over het Robots.txt bestand

Het gebruiken van een robots.txt bestand is essentieel om succes te behalen in de zoekmachines en is een onderdeel van technische SEO.

Zoekmachines zullen je website namelijk crawlen en indexeren op basis van de instructies in je robots.txt bestand.

Het verkeerd of niet gebruiken van dit bestand, kan ernstige gevolgen hebben voor je posities in de zoekmachines, en daarom delen wij in deze simpele technische SEO gids alles wat jij moet weten over het robots.txt bestand, en hoe je het eenvoudig kunt gebruiken.

SEO checklist 2021 tips

Wat is een robots.txt bestand?

Robots.txt is een tekstbestand met instructies voor crawlers over hoe een website moet worden gecrawld.
Zo kan bijvoorbeeld worden voorkomen dat zoekmachines specifieke delen van een website crawlen.
Het robots.txt-bestand is onderdeel van het robots exclusion protocol (REP) en bevindt zich in de hoofdmap van een website.

technische seo robots

Crawlen & Indexeren

In een robots.txt worden instructies gegeven aan crawlers zoals bijvoorbeeld de Googlebot.

Google zet Googlebots in om websites en webpagina’s te crawlen zodat nieuwe informatie op het web wordt gevonden.

Indien deze nieuwe informatie aan de richtlijnen van Google voldoet, wordt de webpagina door Google opgeslagen in de grote bibliotheek genaamd de Google-index, en kan deze vanaf dat moment als zoekresultaat worden vertoond in Google.

Het opslaan en indelen van webpagina’s in de Google index noemen we: indexeren.

Crawl-proces Googlebot

Tijdens het crawl-proces gebruiken de Googlebots externe links om van de ene website naar de andere te navigeren, en interne links om op een website zelf van de ene naar de andere webpagina te navigeren.

Zoekmachines controleren hierbij het robots.txt-bestand van een website om te zien of er instructies zijn voor het crawlen van de website. Deze instructies noemen we richtlijnen.

Indien het tekstbestand niet aanwezig is of wanneer er geen toepasselijke richtlijnen in vermeldt staan, zullen de zoekmachines de hele website crawlen.

Hoewel de meeste grote zoekmachines deze instructies volgen, is het belangrijk om te onthouden dat het ”richtlijnen” betreft, en dat er dus mogelijk crawlers zijn die de instructies negeren.

Crawl Budget

Omdat de meeste websites stiekem nog best veel pagina’s hebben, die lang niet allemaal even belangrijk zijn voor de SEO van je website, kan het volledig crawlen van alle pagina’s op je website helaas redelijk wat tijd in beslag nemen.

Als de website tijdens het crawlen vertraagt of wanneer er serverfouten optreden tijdens dit proces, vermindert je crawlbudget. Het crawlbudget is simpel gezien het aantal URLs dat de Googlebot per keer kan en wil crawlen.

Om het crawlbudget zo goed mogelijk te besteden wil je natuurlijk het liefst enkel waardevolle pagina’s laten crawlen, en al helemaal omdat pagina’s met bijvoorbeeld een lage kwaliteit, duplicate content pagina’s, en pagina’s met technische fouten, een negatieve invloed hebben op het crawlen en indexeren van je website.

Het verspillen van crawlbudget en het belasten van je server aan dit soort pagina’s gaat ten kosten van het crawlen van waardevolle pagina’s, en heeft een negatieve SEO impact.

Met een robots.txt bestand zorg je ervoor dat enkel waardevolle pagina’s worden gecrawled.

Waarom is robots.txt belangrijk voor SEO?

Met het correct toepassen van een robots.txt bestand kunnen we het gedrag van zoekmachine-crawlers zoals de: Googlebot, op onze website beïnvloeden. 

Zo kunnen we ervoor zorgen dat pagina’s met dubbele inhoud, thin content pages, en pagina’s met versleutelde inhoud, niet worden gecrawld, en de Googlebot het crawl-budget enkel besteed aan belangrijke pagina’s op onze website.

Daarnaast voorkom je overbelasting van de server of serverproblemen door onnodige pagina’s op je website uit te sluiten van crawlen.

Het op de correcte manier inzetten van een robots.txt-bestand zorgt er dus voor dat je website effectief wordt gecrawld, waardoor technische problemen met een negatieve SEO-impact kunnen worden voorkomen, en waardoor belangrijke inhoud van je website sneller en vaker kan worden gecrawld.

Waarvoor gebruik je het robots.txt bestand niet?

Gebruik robots.txt niet om te voorkomen dat pagina’s met gevoelige inhoud (zoals persoonlijke gebruikersinformatie)
in de search engine result pages verschijnen.

Wanneer webpagina’s linken naar de pagina met gevoelige inhoud kan deze namelijk alsnog worden geïndexeerd door de zoekmachines en vervolgens worden vertoond in de SERPs.

Als je webpagina’s niet wilt laten vertonen in de zoekresultaten pagina’s, kun je het beste wachtwoordbeveiliging toepassen, of de meta robots-noindex-tag toepassen.

Belangrijk is om te onthouden dat webpagina’s die uitgesloten zijn van crawlen in de robots.txt-file, nog wel geïndexeerd kunnen worden, en dus eveneens verwarring kunnen veroorzaken bij de zoekmachines in het geval van pagina’s met duplicate content.

Zorg dat je robots.txt instructies dus niet inzet als vervanger van de canonieke tag of om zoekwoord kannibalisme te voorkomen.

 

Meta Robots Tags of Robots.txt

Meta Robots Tags zijn HTML-elementen die instructies geven aan crawlers over het crawlen en indexeren van webpagina’s.

De meta robots tags worden toegevoegd in desectie van een specifieke webpagina, terwijl robots.txt instructies geeft over de gehele website.

Met het robots.txt-bestand kun je dus eenvoudig instructies geven aan crawlers met betrekking tot hele secties of categorieën van een website, maar kun je pagina’s er niet 100% van weerhouden om te worden geïndexeerd en dus weergeven in de SERPs.

Om pagina’s uit te sluiten van vertoning in de zoekresultaten pagina’s gebruiken we een meta robots tag. Het gebruik van een canonieke URL of meta robots-tag zal zoekmachines niet weerhouden om deze pagina’s te crawlen, waardoor alsnog serverbelasting optreedt en crawl-budget wordt verspild.

Zorg ervoor dat de instructies van beide elkaar niet tegenspreken om complicaties en verwarring bij de zoekmachines te voorkomen.

Robots.txt Informatie

Wees voorzichtig met het wijzigen van je robots.txt-bestand. Het verkeerd gebruiken van dit tekstbestand kan namelijk grote delen van je website ontoegankelijk maken voor zoekmachines, en hiermee negatieve SEO-gevolgen hebben.

  • Het robots.txt-bestand moet zich in de hoofdmap van de website bevinden (bijvoorbeeld http://www.example.com/robots.txt).
  • Het robots.txt-bestand is alleen geldig voor het volledige domein waarop het zich bevindt, inclusief het protocol (http of https).
  • Zoekmachines interpreteren de richtlijnen verschillend
  • Links op geblokkeerde pagina’s dragen geen linkwaarde over
  • Je kunt een robots.txt bestand vinden van iedere site
    door: “www.domeinnaam/robots.txt” in te voeren
  • Gebruik enkel kleine letters, vermijd hoofdletters

robots.txt-syntaxis

De syntaxis van het Robots.txt-bestand kan worden gezien als de “taal” waarin wordt gecommuniceerd.

Onderstaand vind je de 5 belangrijkste termen:

User-agent: de specifieke webcrawler (meestal een zoekmachine). Je kunt instructies geven aan alle crawlers of aan specifieke crawlers. 

Disallow: instructie die wordt gebruikt om een ​​user-agent te vertellen een bepaalde URL niet te crawlen.

Allow​​(alleen van toepassing op Googlebot): de opdracht om Googlebot te vertellen dat deze toegang heeft tot een pagina of submap.

Crawl-delay: hoeveel seconden een crawler moet wachten voordat de pagina-inhoud wordt geladen en gecrawld. Houd er rekening mee dat Googlebot deze opdracht niet erkent, maar de crawlsnelheid kan worden ingesteld in Google Search Console.

Sitemap: wordt gebruikt om de locatie te delen van alle XML-sitemap(s) die aan deze URL zijn gekoppeld.

Sommige zoekmachines hebben meerdere user-agents.
Google gebruikt bijvoorbeeld Googlebot voor organisch zoeken en Googlebot-Image voor het zoeken naar afbeeldingen. De meeste user agents van dezelfde zoekmachine volgen dezelfde regels, dus het is niet nodig om richtlijnen op te geven voor elke crawler per zoekmachine.

robots

*: geeft aan dat de richtlijnen bedoeld zijn voor alle zoekmachines.

/: geeft aan dat geen enkele pagina mag worden bezocht

wat is een robots txt

Sitemap toevoegen aan Robots txt bestand

Hoewel het robots.txt-bestand oorspronkelijk bedoeld is om zoekmachines richtlijnen te geven over het toegestane gedrag van crawlers, kan een robots txt eveneens worden ingezet om te verwijzen naar een XML-sitemap.

Dit wordt onder andere ondersteund door Google, Bing,en Yahoo.

Er moet naar de XML-sitemap worden verwezen als een absolute URL.
De URL hoeft niet op dezelfde host te staan ​​als het robots.txt-bestand.

Het verwijzen naar de XML-sitemap in het robots.txt-bestand is een belangrijke SEO tip.

WordPress Robots.txt-bestand

Als je gebruik maakt van een WordPress website dan kun je eenvoudig een robots txt-file aanmaken door de SEO-plugin: RankMath te installeren.

Het robots.txt-bestand wordt vervolgens automatisch gegenereerd door de plugin, en kan eenvoudig worden aangepast.

Wanneer er al een robots.txt-bestand aanwezig was in de hoofdmap van je website, dien je deze eerst te verwijderen.

wordpress robots txt

Wat is crawl delay?

Crawl delay is onderdeel van de syntaxis van het Robots.txt-bestand, en beschrijft de richtlijn waarbij je de crawler instructies geeft om het crawl-proces te vertragen, om de server niet te overbelasten.

Omdat Google deze richtlijn niet steunt zullen zij de instructie negeren tijdens het crawl-proces. Je kunt de crawl-snelheid van Google wel instellen in je Google Search Console account.

crawlbudget

Navigeer vervolgens naar: ‘instellingen voor crawlsnelheid’ en kies voor ‘de maximum crawlsnelheid van Google beperken’ wanneer je de crawlsnelheid wilt aanpassen.

wat is crawl delay

Robots.txt Tester

Gebruik de robots.txt-tester om te checken of alles correct is geïmplementeerd, en of er geen aanwezige waarschuwingen of foutmeldingen zijn.

robots txt tester

Geef een reactie