KeurigOnline
Bestellen
Hosting
Domeinnaam
Ondersteuning
Ontdek

Op deze pagina

· ~26 min lezen

AI-bots op je website: analyse van 5,3 miljoen requests op shared hosting

Analyse van 5,3 miljoen requests toont: AI-bots verbruiken 3,49% van serververkeer. Ontdek welke bots je site bezoeken en maak een keuze: toestaan of blokkeren.

Geschreven door: Maarten Keizer Maarten Keizer
Deel dit artikel

AI-tools zijn overal: ChatGPT voor blogs, Claude voor copy, Gemini voor social media. Maar terwijl marketeers deze tools gebruiken, crawlen diezelfde AI-bedrijven ondertussen hun websites — om hun modellen te trainen met jouw content.

Hoeveel serververkeer gaat daar eigenlijk naar? We analyseerden de access logs van één KeurigOnline shared hostingKeurigOnline zegtShared hostingBij shared hosting deel je serverruimte met andere websites, wat het een betaalbare optie maakt. server op 11 december 2025 — een momentopname van één dag met ruim 5,3 miljoen requests. Dit zijn de resultaten.

Illustratie van AI-bots die een website crawlen - meerdere mechanische handen reiken naar een centrale server

Wat zijn AI-bots?

Voordat we in de data duiken, is het belangrijk om te begrijpen wat AI-bots zijn, waarom ze je website bezoeken, en waarom dit nu pas een groeiend probleem wordt.

Wat is een AI-crawler (web crawler)?

Definitie: Een AI-crawler (ook wel AI web crawler of AI-bot genoemd) is een geautomatiseerd programma dat websites bezoekt om content te verzamelen voor het trainen van Large Language Models (LLMs). In tegenstelling tot zoekmachine-crawlers zoals Googlebot die indexeren om gebruikers naar je site te sturen, harvesten AI-crawlers content puur voor modeltraining — zonder directe voordelen voor de website-eigenaar.

AI-bots identificeren zichzelf (meestal) via hun User-Agent string in HTTPKeurigOnline zegtHTTPHTTP is het protocol waarmee webclients en -servers gestructureerd data uitwisselen via requests en responses.-requests. Hierdoor kunnen we ze herkennen in server logs — maar dit vereist wel actieve monitoring.

Welke bedrijven hebben AI-crawlers?

Vrijwel elk groot AI-bedrijf heeft inmiddels een of meerdere crawlers actief op het web:

Bedrijf Bot(s) Doel Documentatie
OpenAI GPTBot, OAI-SearchBot, ChatGPT-User GPT-training, SearchGPT, Browse-functie OpenAI Bots
Meta meta-externalagent LLaMA-training, AI research Meta Crawler
Anthropic ClaudeBot Claude-model training Anthropic Robots
Google Google-Extended Gemini/Bard training (apart van Search) Google Crawlers
ByteDance Bytespider TikTok AI, Douyin Geen officiële docs
Perplexity PerplexityBot Perplexity AI Search PerplexityBot
Common Crawl CCBot Open dataset voor AI-training CCBot

Waarom is dit nu relevant?

AI-crawlers bestaan al jaren, maar drie factoren maken dit onderwerp nu actueel:

  • Het volume is gegroeid: Sinds de lancering van ChatGPT (november 2022) is de vraag naar trainingsdata enorm gegroeid. Meer AI-bedrijven crawlen meer websites.
  • Hosting resources zijn eindig: Bij shared hosting met limieten, telt elk request. AI-bots verbruiken resources — of dat een probleem is, hangt af van het volume en je hostingplan.
  • Het is onzichtbaar in standaard analytics: Google Analytics, Hotjar, en andere client-side tools registreren AI-bots niet — ze voeren geen JavaScriptKeurigOnline zegtJavaScriptJavaScript is de browser- en server-scriptingtaal voor interactieve, asynchrone webapplicaties. uit. Alleen via server logs kun je dit verkeer zien.

Het verschil: Googlebot vs AI-bots

Een veelgehoord argument: "Maar Googlebot crawlt toch ook?" Dat klopt. Het verschil zit in de waarde-uitwisseling:

Googlebot

  • Doel: Je content tonen in zoekresultaten
  • Jouw voordeel: Gratis verkeer naar je site
  • Transparantie: Google Search Console
  • Controle: robots.txtKeurigOnline zegtrobots.txtrobots.txt is een bestand dat zoekmachines vertelt welke delen van je site ze mogen crawlen. wordt gerespecteerd

→ Directe waarde-uitwisseling: data voor bezoekers

AI-bots

  • Doel: Modellen trainen met je content
  • Jouw voordeel: Indirect — je draagt bij aan betere AI-tools
  • Transparantie: Varieert sterk per bedrijf
  • Controle: Varieert — sommige respecteren robots.txt, andere niet

→ Indirecte waarde-uitwisseling: data voor AI-vooruitgang

De afweging: Googlebot indexeert om bezoekers naar jou te sturen. AI-bots trainen modellen die jij (en anderen) vervolgens kunnen gebruiken. Of dit een eerlijke ruil is, hangt af van je perspectief en hoe je de waarde van AI-tools inschat.

Onderzoeksopzet

Samenvatting van onze bevindingen (momentopname van één dag)

Uit analyse van 5,3 miljoen requests op 11 december 2025 blijkt dat AI-bots 3,49% van alle serververkeer uitmaken. Meta's meta-externalagent is verantwoordelijk voor 87,5% van alle AI-botverkeer (162.550 requests). Van alle AI-botrequests krijgt 85,3% succesvol toegang tot content.

Moet je AI-bots blokkeren? Snelle beslissing:

  • Blokkeer als: je shared hosting met limieten hebt, je content beschermen wilt, of je principieel tegen gratis trainingsdata voor commerciële AI-bedrijven bent.
  • Toestaan als: je bijdragen wilt aan AI-ontwikkeling, zichtbaar wilt blijven in AI-zoekresultaten (ChatGPT Search, Perplexity), of je hostingplan ruim voldoende resources heeft.

→ Geen goed of fout — het hangt af van je situatie en prioriteiten. → Direct naar blokkeeropties

Om de werkelijke impact van AI-bots te meten, hebben we de complete LiteSpeedKeurigOnline zegtLiteSpeedLiteSpeed is een snelle en efficiënte webserver die de prestaties van je website aanzienlijk verbetert. access logs geanalyseerd van één van onze shared hosting servers. Deze server draait CloudLinux met LiteSpeed en host een mix van e-commerce sites, bedrijfssites en blogs.

We analyseerden 5.321.647 requests op 11 december 2025 — een momentopname van één dag met complete data van alle domeinen op deze server.

Bot-identificatie gebeurde via User-Agent string matching: we gebruikten een AWK-script dat exacte string matching toepast op bekende AI-crawler signatures (bijv. "GPTBot", "ClaudeBot", "meta-externalagent") in de User-Agent header. Deze methode is betrouwbaarder dan regex-patterns omdat bot-namen consistent zijn.

Per request analyseerden we:

  • HTTP-statuscodesKeurigOnline zegtHTTP-statuscodesHTTP-statuscodes zijn driecijferige codes die aangeven of een webverzoek succesvol was of niet.
  • Timestamps
  • IP-adressen
  • Response sizes

Belangrijke context: Dit is een momentopname van één dag (11 december 2025) op één shared hosting server. De analyse gebruikt alleen domein logs, die complete data bevatten voor alle domeinen. AI-bedrijven passen hun crawlgedrag regelmatig aan — Meta's hoge volume kan bijvoorbeeld samenhangen met het trainen van een nieuw model, en kan volgende dag al heel anders zijn. Extrapoleer deze cijfers niet naar het hele jaar of andere servers.

Resultaten: verkeer en herkomst

We beginnen met de belangrijkste vraag: hoeveel serververkeer gaat naar AI-crawlers, en van welke bedrijven komen ze?

Verkeersverdeling

Hoeveel van het serververkeer gaat naar AI-crawlers versus echte bezoekers?

Verkeersverdeling op shared hosting server

Op deze shared hosting server gaat maar liefst 3,49% van alle requests naar AI-bots (bron: server logs, 11 december 2025). Dat lijkt misschien weinig, maar bedenk: dit zijn 185.704 requests die serverresources verbruiken zonder dat er een mens je website bezoekt.

AI-bots per bedrijf

Nu we de achtergrond kennen, welke AI-bedrijven zijn daadwerkelijk verantwoordelijk voor dit verkeer op onze server?

AI-botverkeer per bedrijf

Op 11 december 2025 was Meta (Facebook) veruit de meest actieve AI-scraper met 162.550 requests (87,5% van alle AI-botverkeer; bron: server logs). Dit hoge volume kan samenhangen met het trainen van een nieuw LLaMA-model — crawlgedrag fluctueert sterk per dag. Meta's "meta-externalagent" controleert vaak niet eerst robots.txt.

Bot Bedrijf Requests Doel
meta-externalagent Meta 162.550 LLaMA training / Research
PetalBot Huawei 11.176 Petal Search / Huawei AI
OAI-SearchBot OpenAI 7.551 SearchGPT / ChatGPT Search
ChatGPT-User OpenAI 1.493 Realtime web access (Browse)
GPTBot OpenAI 1.250 GPT-model training
Bytespider ByteDance 1.027 TikTok AI / Douyin
ClaudeBot Anthropic 95 Claude-model training

Totaal op 11 december 2025: 185.704 AI-bot requests. Meta's meta-externalagent is veruit de grootste bron van AI-verkeer op deze server met 162.550 requests (87,5% van het totaal).

Resultaten: bot-gedrag

Nu we weten wie de bots zijn, kijken we naar hoe ze zich gedragen: krijgen ze toegang tot content, respecteren ze robots.txt, en hoe agressief zijn ze?

Success rates: hoeveel content krijgen bots?

Een cruciale vraag: slagen deze bots erin om je content te scrapen, of worden ze geblokkeerd? We analyseerden de HTTP response status codes om dit te bepalen.

AI-bot success rate (HTTP status codes)

De cijfers zijn duidelijk:

85,3%
Succesvolle scrapes
5,3%
Not Found (404)
8,2%
Redirects (301/302)
0,95%
Actief geblokkeerd (403)

Op deze server krijgt 85,3% van de AI-bots succesvol toegang tot content (bron: server logs, 158.418 succesvolle requests van 185.704 totaal). Slechts 0,95% wordt actief geblokkeerd. De rest krijgt 404-errors (pagina niet gevonden) of redirects — maar dat zijn geen bewuste blokkades.

Success rate per bot

De success rate verschilt enorm per bot — dit bepaalt hoeveel van je content daadwerkelijk wordt gescraped.

Success rate per bot (%)
Bot Requests Success (200) Blocked (403) Not Found (404) Success Rate
meta-externalagent 162.550 145.537 46 5.712 89,5%
ChatGPT-User 1.493 1.290 0 4 86,4%
Googlebot 21.724 18.478 16 1.294 85,1%
PetalBot 11.176 8.245 47 594 73,8%
GPTBot 1.250 663 457 35 53,0%
OAI-SearchBot 7.551 2.320 25 3.477 30,7%
ClaudeBot 95 18 59 2 18,9%
Bytespider 1.027 24 960 25 2,3%
Amazonbot 178 1 171 2 0,6%

Observatie: Meta's crawler krijgt 89,5% van alle requests succesvol (bron: server logs, 145.537 succesvolle requests van 162.550 totaal) — 145.537 pagina's van deze server op één dag. ClaudeBot daarentegen werd in 62,1% van de gevallen geblokkeerd (bron: server logs, 59 van 95 requests geblokkeerd). Dit verschil komt doordat ClaudeBot robots.txt respecteert, terwijl Meta's crawler dit niet doet.

Content targeting: wat willen bots?

We analyseerden welke type content de AI-bots het meest requesteren op deze server.

Content doelwitten van AI-bots

Targeting per bot

Elke bot heeft een andere strategie. De heatmap hieronder toont welke content-categorieën elke bot target.

Content targeting per bot (heatmap)

Opvallende patronen:

  • Meta: Target vooral product/pagina-URLs (150K) en sitemaps (9K) — systematisch de hele site crawlen
  • Googlebot: Evenwichtig verdeeld met focus op CSSKeurigOnline zegtCSSCSS is de stijltaal waarmee je de visuele opmaak en layout van HTML-pagina’s bepaalt./JS/Images (11,7K) — rendert pagina's volledig
  • OAI-SearchBot: 95% robots.txt checks (7,2K) — extreem beleefd maar toch massaal
  • GPTBot: Focust op homepages (420) en assets (386) — waarschijnlijk voor algemene site-context

Op deze server gaat 62% van alle AI-requests naar productpagina's — productinformatie, prijzen en beschrijvingen zijn waardevolle trainingsdata voor AI-modellen.

Respecteren AI-bots je robots.txt?

Definitie: Het robots.txt bestand is een tekstbestand in de root van een website dat instructies geeft aan web crawlers over welke pagina's ze wel of niet mogen bezoeken. Het volgt de Robots Exclusion Protocol standaard, maar naleving is vrijwillig — crawlers kunnen deze instructies negeren.

De meeste website-eigenaren vertrouwen op robots.txt om AI-crawlers te vertellen wat ze wel en niet mogen indexeren. Maar houden bots zoals GPTBot, ClaudeBot en meta-externalagent zich hieraan?

Robots.txt compliance per bot
Bot Bedrijf Checkt robots.txt eerst? Classificatie
ClaudeBot Anthropic 100% Checkt altijd
OAI-SearchBot OpenAI 70% Wisselend
Googlebot Google 34% Wisselend
Bytespider ByteDance 31% Wisselend
GPTBot OpenAI 0% Checkt niet
ChatGPT-User OpenAI 0% Checkt niet
meta-externalagent Meta 0% Checkt niet

Opvallend: ClaudeBot van Anthropic checkt altijd eerst robots.txt (100% compliance; bron: server logs, 21 van 21 IPs checkten robots.txt). OpenAI's GPTBot en Meta's crawler doen dit niet en beginnen direct met crawlen. Dit is relevant als je overweegt om specifieke bots te blokkeren via robots.txt.

Impact: serverbelasting

Wat betekent al dit AI-botverkeer concreet voor je server? We kijken naar detectie, bandbreedte, en crawl-patronen.

Hoe herken je botverkeer in je logs?

Eén praktische manier om botverkeer te detecteren: kijk naar wanneer je traffic binnenkomt. Menselijk verkeer volgt voorspelbare patronen — pieken overdag, dalen 's nachts. Bots niet.

Uurpatroon: AI-botverkeer (00:00 - 15:00)

In deze ochtend- en middagdata piekt AI-botverkeer tussen 04:00 en 06:00 — precies wanneer menselijk verkeer minimaal is. Dit patroon kun je gebruiken om botverkeer te detecteren:

Zelf checken: Vergelijk je server-side requests (access logs) met je Google Analytics per uur. Een grote kloof tussen die twee, vooral 's nachts, wijst op botverkeer. Voor LiteSpeed: awk -F'[' '{print $2}' access.log | cut -d: -f2 | sort | uniq -c toont requests per uur.

Bandbreedte-impact per bot

De bandbreedte per request verschilt dramatisch tussen crawlers. Dit bepaalt de werkelijke serverbelasting — niet alleen het aantal requests.

Gemiddelde bandbreedte per request (KB)

Opvallend: Meta's crawler verbruikt gemiddeld 190 KB per request (bron: server logs, berekend uit response sizes) — dat is 111x meer dan GPTBot (1,7 KB) en 11x meer dan Googlebot (17 KB). Met 162.550 requests consumeerde Meta's bot in totaal 30+ GB aan bandbreedte op deze server op één dag.

Dit verklaart waarom Meta zo'n disproportionele impact heeft ondanks dat andere bots meer requests doen. ChatGPT-User volgt met 68 KB per request — waarschijnlijk omdat deze bot volledige pagina-renders ophaalt voor realtime browsing.

Aggressiviteit per bot

We hebben een aggressiviteitsscore berekend die crawlgedrag kwantificeert. De formule combineert twee factoren: crawl-intensiteit (requests per IP) en protocol-naleving (robots.txt compliance).

Ascore = R I × (100 − C)
Ascore = Aggressiviteitsscore (hoger = agressiever) R = Totaal aantal requests van de bot I = Aantal unieke IP-adressen C = Compliance rate (% IPs dat robots.txt checkt)

Interpretatie: Een bot met veel requests vanaf weinig IPs (hoge R/I) die ook nog eens robots.txt negeert (lage C) krijgt een hoge score. Een gedistribueerde bot die netjes robots.txt checkt scoort laag.

Aggressiviteitsscore per bot
Bot Requests/IP Robots.txtKeurigOnline zegtrobots.txtrobots.txt is een bestand dat zoekmachines vertelt welke delen van je site ze mogen crawlen. compliance Aggressiviteitsscore Rating
OAI-SearchBot 28,5 70% 25.376 Agressief
meta-externalagent 851 0% 14.395 Agressief
GPTBot 7,5 0% 12.520 Agressief
Googlebot 52 34% 4.672 Matig
Bytespider 1,4 31% 2.593 Matig
ClaudeBot 4,5 100% 952 Beleefd
ChatGPT-User 3,1 0% 411 Beleefd
Amazonbot 2,7 30% 22,5 Beleefd

Inzicht: OAI-SearchBot is de meest agressieve crawler met een score van 25.376 — ondanks 70% robots.txt compliance. Deze bot doet gemiddeld 28 requests per IP-adres, verspreid over 265 IP's. De hoge score komt door het volume én de crawl-frequentie per sessie.

IP-distributie

Hoe bots hun verkeer verdelen over IP-adressen vertelt veel over hun infrastructuur — en hoe makkelijk je ze kunt blokkeren.

Aantal unieke IP-adressen per bot

Geconcentreerd (hoog volume per IP)

  • Meta-agent: 191 IPs → 162.550 requests (851 req/IP)
  • OAI-SearchBot: 265 IPs → 7.551 requests (28 req/IP)
  • GPTBot: 166 IPs → 1.250 requests (7,5 req/IP)

Hoog volume per IP maakt IP-blocking effectief.

Gedistribueerd (veel IPs, laag volume per IP)

  • PetalBot: 898 IPs → 11.176 requests (12 req/IP)
  • Bytespider: 735 IPs → 1.027 requests (1,4 req/IP)
  • ChatGPT-User: 484 IPs → 1.493 requests (3 req/IP)

User-Agent blocking is effectiever bij veel IPs.

Je opties: AI-bots toestaan of blokkeren

Nu je de data kent, kun je een geïnformeerde keuze maken. Beide opties hebben voor- en nadelen.

Optie A: AI-bots toestaan

Waarom toestaan?

  • Bijdragen aan AI-ontwikkeling: Je content helpt AI-modellen verbeteren die jij en anderen dagelijks gebruiken
  • Toekomstige zichtbaarheid: AI-zoekmachines (ChatGPT Search, Perplexity) kunnen je content citeren en linken
  • Geen onderhoud: Geen extra configuratie of updates nodig
  • Pragmatisch: Sommige bots negeren blokkades toch

Mogelijke nadelen

  • Serverresources: Extra CPU, bandbreedte en PHPKeurigOnline zegtPHPPHP is een programmeertaal waarmee dynamische websites en webapplicaties gebouwd worden.-workers voor niet-menselijk verkeer
  • Geen compensatie: Je content traint commerciële modellen zonder vergoeding
  • Geen controle: Je weet niet precies hoe je content wordt gebruikt

Optie B: AI-bots blokkeren

Waarom blokkeren?

  • Serverresources besparen: Minder onnodige requests, vooral relevant bij shared hosting
  • Content beschermen: Je bepaalt zelf wie je content mag gebruiken
  • Principiële keuze: Geen gratis trainingsdata voor commerciële AI-bedrijven

Mogelijke nadelen

  • Verminderde AI-zichtbaarheid: Je content verschijnt mogelijk niet in AI-zoekresultaten
  • Onderhoud: Nieuwe bots vereisen updates aan je configuratie
  • Niet waterdicht: Sommige bots negeren blokkades

Kies je voor blokkeren? Hieronder lees je hoe je dit doet.

1. Configureer robots.txt voor AI-bots

De eerste stap is het expliciet blokkeren van AI-bots in je robots.txt:

# Block AI training bots
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: meta-externalagent
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: PetalBot
Disallow: /

Goed om te weten: Niet alle AI-bots respecteren robots.txt. Ons onderzoek toont dat GPTBot, ChatGPT-User en meta-externalagent robots.txt niet eerst checken[1]. Als je kiest voor blokkeren, is robots.txt alleen daarom niet voldoende — combineer het met server-level blocking.

Tip: Test je robots.txt configuratie met de Google Robots Testing Tool en valideer de syntax via robots.txt Validator. Upload het bestand naar de root van je domein (bijv. https://jouwsite.nl/robots.txt).

2. Server-level blocking (GPTBot, ClaudeBot blokkeren)

Robots.txt werkt niet voor alle bots. Voor LiteSpeed en Apache-servers kun je AI web crawlers blokkeren via .htaccessKeurigOnline zegthtaccessEen .htaccess-bestand gebruik je voor geavanceerde serverinstellingen zoals redirects en beveiliging.:

# Block AI crawlers at server level
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ChatGPT|ClaudeBot|Bytespider|meta-externalagent) [NC]
RewriteRule .* - [F,L]

Voor Nginx gebruik je een if-directive in je server block:

# Block AI crawlers
if ($http_user_agent ~* (GPTBot|ChatGPT|ClaudeBot|Bytespider|meta-externalagent)) {
    return 403;
}

Tip: Monitor je server logs regelmatig op AI-botverkeer. Voor LiteSpeed check je /usr/local/lsws/logs/access.log. Gebruik dit commando: grep -E "GPTBot|ClaudeBot|Bytespider|meta-externalagent" /usr/local/lsws/logs/access.log | wc -l.

3. Rate limiting implementeren

Beperk het aantal requests per IP per tijdseenheid. Voor LiteSpeed-servers met Imunify360 is dit vaak al ingebouwd. LiteSpeed heeft ook ingebouwde anti-DDoS features. Voor ApacheKeurigOnline zegtApacheApache is software die webpagina’s aan bezoekers toont.-servers kun je mod_evasive gebruiken:

# Rate limiting met mod_evasive
<IfModule mod_evasive20.c>
    DOSHashTableSize 3097
    DOSPageCount 5
    DOSSiteCount 50
    DOSPageInterval 1
    DOSSiteInterval 1
    DOSBlockingPeriod 10
</IfModule>

4. Kies hosting met goede monitoring

Definitie: Een Web Application Firewall (WAF) is een beveiligingslaag die HTTP-verkeer filtert en monitort tussen een webapplicatie en het internet. Een WAF beschermt tegen aanvallen zoals XSS, SQL-injectie, en kan ook bots herkennen op basis van gedragspatronen.

Of je nu wilt blokkeren of niet — goede monitoring is belangrijk. Zo weet je wat er op je server gebeurt.

Waar je op kunt letten bij je hostingpartij:

  • Gedetailleerde access logs voor analyse van botverkeer
  • WAF (zoals Imunify360) voor optionele bot-filtering
  • Mogelijkheid tot eigen .htaccess of nginxKeurigOnline zegtNginxNginx is een snelle, lichtgewicht webserver die ook als reverse proxy en load balancer functioneert. configuratie
  • Support die kan helpen bij het interpreteren van logdata

Conclusie

Drie inzichten uit de data

Wat leert deze momentopname van 11 december 2025 ons?

  1. Niet alle AI-bedrijven gedragen zich hetzelfde. ClaudeBot (Anthropic) checkt 100% van de tijd robots.txt eerst. GPTBot en Meta doen dit niet. Als je gaat blokkeren, is het nuttig om te weten welke bots je configuratie respecteren.
  2. Volume ≠ impact. Meta deed de meeste requests én verbruikt de meeste bandbreedte per request (186 KB vs 62 KB voor ChatGPT-User). Kijk naar bytes, niet alleen naar hits.
  3. Blokkeren werkt — maar niet altijd. ClaudeBot werd in 62% van de gevallen geblokkeerd, Meta slechts in 0,03%. De effectiviteit van blokkades hangt af van of de bot ze respecteert.

Samenvatting van de bevindingen

Dit onderzoek toont aan dat AI-bots een merkbaar deel van je serververkeer uitmaken. Op deze server was dit 3,49% op 11 december 2025 — een momentopname van één dag. Dit heeft twee aspecten:

  1. Hosting resources: Meer CPU, bandbreedte en PHP-workers voor niet-menselijk verkeer
  2. Content gebruik: Je content wordt gebruikt om AI-modellen te trainen

Of je AI-bots wilt blokkeren is een persoonlijke afweging. Sommige website-eigenaren zien het als ongewenst gebruik van hun content en serverresources. Anderen beschouwen het als bijdrage aan technologische vooruitgang, of willen zichtbaar blijven in AI-zoekresultaten.

Wat je in ieder geval kunt doen:

  • Analyseer je eigen access logs om te zien hoeveel AI-botverkeer je ontvangt
  • Maak een bewuste keuze: toestaan, gedeeltelijk blokkeren, of volledig blokkeren
  • Als je blokkeert: combineer robots.txt met server-level blocking voor maximale effectiviteit
  • Monitor regelmatig — nieuwe bots verschijnen continu

Bij KeurigOnline monitoren we actief AI-botverkeer op onze servers. Onze support helpt je graag bij het maken van de juiste keuze voor jouw specifieke situatie — of je nu wilt blokkeren of niet.

Veelgestelde vragen over AI-bots en hosting

Hoeveel procent van mijn serververkeer gaat naar AI-bots?

Uit onze analyse van 11 december 2025 blijkt dat ongeveer 3,5% van alle serververzoeken naar AI-bots gaat. Dit percentage kan per server en dag verschillen, afhankelijk van je content en of je blokkades hebt ingesteld.

Welke AI-bot crawlt het meest agressief?

Meta's "meta-externalagent" is veruit de meest agressieve crawler. In ons onderzoek was deze bot verantwoordelijk voor 87,5% van alle AI-botverkeer op één server, met meer dan 162.000 requests op één dag. OpenAI's bots komen op de tweede plaats.

Respecteren AI-bots mijn robots.txt?

Niet alle AI-bots respecteren robots.txt. ClaudeBot van Anthropic is het meest beleefd (100% compliance). OpenAI's GPTBot, ChatGPT-User en Meta's crawler negeren robots.txt volledig en beginnen direct met scrapen zonder eerst toestemming te vragen.

Vervormen AI-bots mijn Google Analytics data?

Waarschijnlijk niet direct. De meeste AI-bots voeren geen JavaScriptKeurigOnline zegtJavaScriptJavaScript is de browser- en server-scriptingtaal voor interactieve, asynchrone webapplicaties. uit, dus ze verschijnen niet in Google Analytics. Wel kunnen ze je server-side statistiekenKeurigOnline zegtStatistiekenStatistieken laten zien hoe bezoekers je website gebruiken. (access logs, bandbreedtegebruik) beïnvloeden. Het verschil tussen server-side en client-side metrics kan wijzen op botverkeer.

Moet ik AI-bots blokkeren?

Dat is een persoonlijke afweging. Blokkeren bespaart serverresources en beschermt je content, maar kan je zichtbaarheid in AI-zoekresultaten verminderen. Toestaan betekent dat je bijdraagt aan AI-ontwikkeling en mogelijk vindbaar blijft in tools zoals ChatGPT Search. Er is geen goed of fout — het hangt af van je prioriteiten.

Hoe kan ik AI-bots blokkeren als ik dat wil?

Je kunt AI-bots blokkeren via robots.txt (niet waterdicht voor alle bots), server-level blocking via .htaccessKeurigOnline zegthtaccessEen .htaccess-bestand gebruik je voor geavanceerde serverinstellingen zoals redirects en beveiliging. of nginx config, en rate limiting. De meest effectieve aanpak is een combinatie van deze methodes. Let op: sommige bots (zoals GPTBot en meta-externalagent) respecteren robots.txt niet.

Kost AI-botverkeer mij extra geld?

AI-botverkeer verbruikt serverresources: CPU-cycles, bandbreedte, en PHPKeurigOnline zegtPHPPHP is een programmeertaal waarmee dynamische websites en webapplicaties gebouwd worden.-workers. Bij shared hosting met vaste prijzen merk je dit niet direct in je factuur, maar wel in performance. Bij VPS of cloud hosting met traffic-based pricing kan extra bandbreedteverbruik wel kosten veroorzaken — de exacte impact hangt af van je hostingtype en botvolume.

Bronnen en methodologie (geraadpleegd: december 2025)

Dit onderzoek is gebaseerd op eigen data-analyse van één van onze KeurigOnline shared hosting servers. De resultaten zijn een momentopname en kunnen niet worden geëxtrapoleerd naar andere servers of tijdsperiodes.

  • Periode: 11 december 2025 — een momentopname van één dag
  • Server: KeurigOnline shared hostingKeurigOnline zegtShared hostingBij shared hosting deel je serverruimte met andere websites, wat het een betaalbare optie maakt. met LiteSpeed op CloudLinuxKeurigOnline zegtCloudLinuxCloudLinux verhoogt de veiligheid, stabiliteit en prestaties van je hostingpakket door elke gebruiker een eigen omgeving te geven. (DirectAdminKeurigOnline zegtDirectAdminDirectAdmin is het betrouwbare en gebruiksvriendelijke controlepaneel waarmee je jouw webhosting eenvoudig beheert.)
  • Totaal geanalyseerd: 5.321.647 HTTP-requests
  • Data bron: Domein logs alleen (complete data voor alle domeinen)
  • Analyse methode: Bash scripts voor log parsing, User-Agent classificatie, en statistische aggregatie
  • Bot identificatie: User-agent string matching met bekende AI-crawler signatures via AWK-script met exacte string matching (geen regex patterns)

AI-bot documentatie

Technische referenties

  • RFC 9309 — Robots Exclusion Protocol standaard (2022)
  • MDN HTTP Status Codes — Referentie voor HTTPKeurigOnline zegtHTTPHTTP is het protocol waarmee webclients en -servers gestructureerd data uitwisselen via requests en responses. response codes
  • LiteSpeed Access LogsLiteSpeedKeurigOnline zegtLiteSpeedLiteSpeed is een snelle en efficiënte webserver die de prestaties van je website aanzienlijk verbetert. server log documentatie
  • Apache Access Logs — Documentatie voor Apache log formaten
  • Nginx Log ModuleNginxKeurigOnline zegtNginxNginx is een snelle, lichtgewicht webserver die ook als reverse proxy en load balancer functioneert. logging configuratie

Server beveiliging

Analytics en tracking