Je winkelwagen is leeg
Producten die je toevoegt, verschijnen hier.
Analyse van 5,3 miljoen requests toont: AI-bots verbruiken 3,49% van serververkeer. Ontdek welke bots je site bezoeken en maak een keuze: toestaan of blokkeren.
AI-tools zijn overal: ChatGPT voor blogs, Claude voor copy, Gemini voor social media. Maar terwijl marketeers deze tools gebruiken, crawlen diezelfde AI-bedrijven ondertussen hun websites — om hun modellen te trainen met jouw content.
Hoeveel serververkeer gaat daar eigenlijk naar? We analyseerden de access logs van één KeurigOnline shared hosting
KeurigOnline zegtShared hostingBij shared hosting deel je serverruimte met andere websites, wat het een betaalbare optie maakt. server op 11 december 2025 — een momentopname van één dag met ruim 5,3 miljoen requests. Dit zijn de resultaten.

Voordat we in de data duiken, is het belangrijk om te begrijpen wat AI-bots zijn, waarom ze je website bezoeken, en waarom dit nu pas een groeiend probleem wordt.
Definitie: Een AI-crawler (ook wel AI web crawler of AI-bot genoemd) is een geautomatiseerd programma dat websites bezoekt om content te verzamelen voor het trainen van Large Language Models (LLMs). In tegenstelling tot zoekmachine-crawlers zoals Googlebot die indexeren om gebruikers naar je site te sturen, harvesten AI-crawlers content puur voor modeltraining — zonder directe voordelen voor de website-eigenaar.
AI-bots identificeren zichzelf (meestal) via hun User-Agent string in HTTP
KeurigOnline zegtHTTPHTTP is het protocol waarmee webclients en -servers gestructureerd data uitwisselen via requests en responses.-requests. Hierdoor kunnen we ze herkennen in server logs — maar dit vereist wel actieve monitoring.
Vrijwel elk groot AI-bedrijf heeft inmiddels een of meerdere crawlers actief op het web:
| Bedrijf | Bot(s) | Doel | Documentatie |
|---|---|---|---|
| OpenAI | GPTBot, OAI-SearchBot, ChatGPT-User |
GPT-training, SearchGPT, Browse-functie | OpenAI Bots |
| Meta | meta-externalagent |
LLaMA-training, AI research | Meta Crawler |
| Anthropic | ClaudeBot |
Claude-model training | Anthropic Robots |
Google-Extended |
Gemini/Bard training (apart van Search) | Google Crawlers | |
| ByteDance | Bytespider |
TikTok AI, Douyin | Geen officiële docs |
| Perplexity | PerplexityBot |
Perplexity AI Search | PerplexityBot |
| Common Crawl | CCBot |
Open dataset voor AI-training | CCBot |
AI-crawlers bestaan al jaren, maar drie factoren maken dit onderwerp nu actueel:
Een veelgehoord argument: "Maar Googlebot crawlt toch ook?" Dat klopt. Het verschil zit in de waarde-uitwisseling:
→ Directe waarde-uitwisseling: data voor bezoekers
→ Indirecte waarde-uitwisseling: data voor AI-vooruitgang
De afweging: Googlebot indexeert om bezoekers naar jou te sturen. AI-bots trainen modellen die jij (en anderen) vervolgens kunnen gebruiken. Of dit een eerlijke ruil is, hangt af van je perspectief en hoe je de waarde van AI-tools inschat.
Samenvatting van onze bevindingen (momentopname van één dag)
Uit analyse van 5,3 miljoen requests op 11 december 2025 blijkt dat AI-bots 3,49% van alle serververkeer uitmaken. Meta's meta-externalagent is verantwoordelijk voor 87,5% van alle AI-botverkeer (162.550 requests). Van alle AI-botrequests krijgt 85,3% succesvol toegang tot content.
Moet je AI-bots blokkeren? Snelle beslissing:
→ Geen goed of fout — het hangt af van je situatie en prioriteiten. → Direct naar blokkeeropties
Om de werkelijke impact van AI-bots te meten, hebben we de complete LiteSpeed
KeurigOnline zegtLiteSpeedLiteSpeed is een snelle en efficiënte webserver die de prestaties van je website aanzienlijk verbetert. access logs geanalyseerd van één van onze shared hosting servers. Deze server draait CloudLinux met LiteSpeed en host een mix van e-commerce sites, bedrijfssites en blogs.
We analyseerden 5.321.647 requests op 11 december 2025 — een momentopname van één dag met complete data van alle domeinen op deze server.
Bot-identificatie gebeurde via User-Agent string matching: we gebruikten een AWK-script dat exacte string matching toepast op bekende AI-crawler signatures (bijv. "GPTBot", "ClaudeBot", "meta-externalagent") in de User-Agent header. Deze methode is betrouwbaarder dan regex-patterns omdat bot-namen consistent zijn.
Per request analyseerden we:
Belangrijke context: Dit is een momentopname van één dag (11 december 2025) op één shared hosting server. De analyse gebruikt alleen domein logs, die complete data bevatten voor alle domeinen. AI-bedrijven passen hun crawlgedrag regelmatig aan — Meta's hoge volume kan bijvoorbeeld samenhangen met het trainen van een nieuw model, en kan volgende dag al heel anders zijn. Extrapoleer deze cijfers niet naar het hele jaar of andere servers.
We beginnen met de belangrijkste vraag: hoeveel serververkeer gaat naar AI-crawlers, en van welke bedrijven komen ze?
Hoeveel van het serververkeer gaat naar AI-crawlers versus echte bezoekers?
Op deze shared hosting server gaat maar liefst 3,49% van alle requests naar AI-bots (bron: server logs, 11 december 2025). Dat lijkt misschien weinig, maar bedenk: dit zijn 185.704 requests die serverresources verbruiken zonder dat er een mens je website bezoekt.
Nu we de achtergrond kennen, welke AI-bedrijven zijn daadwerkelijk verantwoordelijk voor dit verkeer op onze server?
Op 11 december 2025 was Meta (Facebook) veruit de meest actieve AI-scraper met 162.550 requests (87,5% van alle AI-botverkeer; bron: server logs). Dit hoge volume kan samenhangen met het trainen van een nieuw LLaMA-model — crawlgedrag fluctueert sterk per dag. Meta's "meta-externalagent" controleert vaak niet eerst robots.txt.
| Bot | Bedrijf | Requests | Doel |
|---|---|---|---|
| meta-externalagent | Meta | 162.550 | LLaMA training / Research |
| PetalBot | Huawei | 11.176 | Petal Search / Huawei AI |
| OAI-SearchBot | OpenAI | 7.551 | SearchGPT / ChatGPT Search |
| ChatGPT-User | OpenAI | 1.493 | Realtime web access (Browse) |
| GPTBot | OpenAI | 1.250 | GPT-model training |
| Bytespider | ByteDance | 1.027 | TikTok AI / Douyin |
| ClaudeBot | Anthropic | 95 | Claude-model training |
Totaal op 11 december 2025: 185.704 AI-bot requests. Meta's meta-externalagent is veruit de grootste bron van AI-verkeer op deze server met 162.550 requests (87,5% van het totaal).
Nu we weten wie de bots zijn, kijken we naar hoe ze zich gedragen: krijgen ze toegang tot content, respecteren ze robots.txt, en hoe agressief zijn ze?
Een cruciale vraag: slagen deze bots erin om je content te scrapen, of worden ze geblokkeerd? We analyseerden de HTTP response status codes om dit te bepalen.
De cijfers zijn duidelijk:
Op deze server krijgt 85,3% van de AI-bots succesvol toegang tot content (bron: server logs, 158.418 succesvolle requests van 185.704 totaal). Slechts 0,95% wordt actief geblokkeerd. De rest krijgt 404-errors (pagina niet gevonden) of redirects — maar dat zijn geen bewuste blokkades.
De success rate verschilt enorm per bot — dit bepaalt hoeveel van je content daadwerkelijk wordt gescraped.
| Bot | Requests | Success (200) | Blocked (403) | Not Found (404) | Success Rate |
|---|---|---|---|---|---|
| meta-externalagent | 162.550 | 145.537 | 46 | 5.712 | 89,5% |
| ChatGPT-User | 1.493 | 1.290 | 0 | 4 | 86,4% |
| Googlebot | 21.724 | 18.478 | 16 | 1.294 | 85,1% |
| PetalBot | 11.176 | 8.245 | 47 | 594 | 73,8% |
| GPTBot | 1.250 | 663 | 457 | 35 | 53,0% |
| OAI-SearchBot | 7.551 | 2.320 | 25 | 3.477 | 30,7% |
| ClaudeBot | 95 | 18 | 59 | 2 | 18,9% |
| Bytespider | 1.027 | 24 | 960 | 25 | 2,3% |
| Amazonbot | 178 | 1 | 171 | 2 | 0,6% |
Observatie: Meta's crawler krijgt 89,5% van alle requests succesvol (bron: server logs, 145.537 succesvolle requests van 162.550 totaal) — 145.537 pagina's van deze server op één dag. ClaudeBot daarentegen werd in 62,1% van de gevallen geblokkeerd (bron: server logs, 59 van 95 requests geblokkeerd). Dit verschil komt doordat ClaudeBot robots.txt respecteert, terwijl Meta's crawler dit niet doet.
We analyseerden welke type content de AI-bots het meest requesteren op deze server.
Elke bot heeft een andere strategie. De heatmap hieronder toont welke content-categorieën elke bot target.
Opvallende patronen:
Op deze server gaat 62% van alle AI-requests naar productpagina's — productinformatie, prijzen en beschrijvingen zijn waardevolle trainingsdata voor AI-modellen.
Definitie: Het robots.txt bestand is een tekstbestand in de root van een website dat instructies geeft aan web crawlers over welke pagina's ze wel of niet mogen bezoeken. Het volgt de Robots Exclusion Protocol standaard, maar naleving is vrijwillig — crawlers kunnen deze instructies negeren.
De meeste website-eigenaren vertrouwen op robots.txt om AI-crawlers te vertellen wat ze wel en niet mogen indexeren. Maar houden bots zoals GPTBot, ClaudeBot en meta-externalagent zich hieraan?
| Bot | Bedrijf | Checkt robots.txt eerst? | Classificatie |
|---|---|---|---|
ClaudeBot |
Anthropic | 100% | Checkt altijd |
OAI-SearchBot |
OpenAI | 70% | Wisselend |
Googlebot |
34% | Wisselend | |
Bytespider |
ByteDance | 31% | Wisselend |
GPTBot |
OpenAI | 0% | Checkt niet |
ChatGPT-User |
OpenAI | 0% | Checkt niet |
meta-externalagent |
Meta | 0% | Checkt niet |
Opvallend: ClaudeBot van Anthropic checkt altijd eerst robots.txt (100% compliance; bron: server logs, 21 van 21 IPs checkten robots.txt). OpenAI's GPTBot en Meta's crawler doen dit niet en beginnen direct met crawlen. Dit is relevant als je overweegt om specifieke bots te blokkeren via robots.txt.
Wat betekent al dit AI-botverkeer concreet voor je server? We kijken naar detectie, bandbreedte, en crawl-patronen.
Eén praktische manier om botverkeer te detecteren: kijk naar wanneer je traffic binnenkomt. Menselijk verkeer volgt voorspelbare patronen — pieken overdag, dalen 's nachts. Bots niet.
In deze ochtend- en middagdata piekt AI-botverkeer tussen 04:00 en 06:00 — precies wanneer menselijk verkeer minimaal is. Dit patroon kun je gebruiken om botverkeer te detecteren:
Zelf checken: Vergelijk je server-side requests (access logs) met je Google Analytics per uur. Een grote kloof tussen die twee, vooral 's nachts, wijst op botverkeer. Voor LiteSpeed: awk -F'[' '{print $2}' access.log | cut -d: -f2 | sort | uniq -c toont requests per uur.
De bandbreedte per request verschilt dramatisch tussen crawlers. Dit bepaalt de werkelijke serverbelasting — niet alleen het aantal requests.
Opvallend: Meta's crawler verbruikt gemiddeld 190 KB per request (bron: server logs, berekend uit response sizes) — dat is 111x meer dan GPTBot (1,7 KB) en 11x meer dan Googlebot (17 KB). Met 162.550 requests consumeerde Meta's bot in totaal 30+ GB aan bandbreedte op deze server op één dag.
Dit verklaart waarom Meta zo'n disproportionele impact heeft ondanks dat andere bots meer requests doen. ChatGPT-User volgt met 68 KB per request — waarschijnlijk omdat deze bot volledige pagina-renders ophaalt voor realtime browsing.
We hebben een aggressiviteitsscore berekend die crawlgedrag kwantificeert. De formule combineert twee factoren: crawl-intensiteit (requests per IP) en protocol-naleving (robots.txt compliance).
Interpretatie: Een bot met veel requests vanaf weinig IPs (hoge R/I) die ook nog eens robots.txt negeert (lage C) krijgt een hoge score. Een gedistribueerde bot die netjes robots.txt checkt scoort laag.
| Bot | Requests/IP | Robots.txt |
Aggressiviteitsscore | Rating |
|---|---|---|---|---|
| OAI-SearchBot | 28,5 | 70% | 25.376 | Agressief |
| meta-externalagent | 851 | 0% | 14.395 | Agressief |
| GPTBot | 7,5 | 0% | 12.520 | Agressief |
| Googlebot | 52 | 34% | 4.672 | Matig |
| Bytespider | 1,4 | 31% | 2.593 | Matig |
| ClaudeBot | 4,5 | 100% | 952 | Beleefd |
| ChatGPT-User | 3,1 | 0% | 411 | Beleefd |
| Amazonbot | 2,7 | 30% | 22,5 | Beleefd |
Inzicht: OAI-SearchBot is de meest agressieve crawler met een score van 25.376 — ondanks 70% robots.txt compliance. Deze bot doet gemiddeld 28 requests per IP-adres, verspreid over 265 IP's. De hoge score komt door het volume én de crawl-frequentie per sessie.
Hoe bots hun verkeer verdelen over IP-adressen vertelt veel over hun infrastructuur — en hoe makkelijk je ze kunt blokkeren.
Hoog volume per IP maakt IP-blocking effectief.
User-Agent blocking is effectiever bij veel IPs.
Nu je de data kent, kun je een geïnformeerde keuze maken. Beide opties hebben voor- en nadelen.
Kies je voor blokkeren? Hieronder lees je hoe je dit doet.
De eerste stap is het expliciet blokkeren van AI-bots in je robots.txt:
# Block AI training bots
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: meta-externalagent
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: PetalBot
Disallow: /
Goed om te weten: Niet alle AI-bots respecteren robots.txt. Ons onderzoek toont dat GPTBot, ChatGPT-User en meta-externalagent robots.txt niet eerst checken[1]. Als je kiest voor blokkeren, is robots.txt alleen daarom niet voldoende — combineer het met server-level blocking.
Tip: Test je robots.txt configuratie met de Google Robots Testing Tool en valideer de syntax via robots.txt Validator. Upload het bestand naar de root van je domein (bijv. https://jouwsite.nl/robots.txt).
Robots.txt werkt niet voor alle bots. Voor LiteSpeed en Apache-servers kun je AI web crawlers blokkeren via .htaccess:
KeurigOnline zegthtaccessEen .htaccess-bestand gebruik je voor geavanceerde serverinstellingen zoals redirects en beveiliging.
# Block AI crawlers at server level
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ChatGPT|ClaudeBot|Bytespider|meta-externalagent) [NC]
RewriteRule .* - [F,L]
Voor Nginx gebruik je een if-directive in je server block:
# Block AI crawlers
if ($http_user_agent ~* (GPTBot|ChatGPT|ClaudeBot|Bytespider|meta-externalagent)) {
return 403;
}
Tip: Monitor je server logs regelmatig op AI-botverkeer. Voor LiteSpeed check je /usr/local/lsws/logs/access.log. Gebruik dit commando: grep -E "GPTBot|ClaudeBot|Bytespider|meta-externalagent" /usr/local/lsws/logs/access.log | wc -l.
Beperk het aantal requests per IP per tijdseenheid. Voor LiteSpeed-servers met Imunify360 is dit vaak al ingebouwd. LiteSpeed heeft ook ingebouwde anti-DDoS features. Voor Apache
KeurigOnline zegtApacheApache is software die webpagina’s aan bezoekers toont.-servers kun je mod_evasive gebruiken:
# Rate limiting met mod_evasive
<IfModule mod_evasive20.c>
DOSHashTableSize 3097
DOSPageCount 5
DOSSiteCount 50
DOSPageInterval 1
DOSSiteInterval 1
DOSBlockingPeriod 10
</IfModule>
Definitie: Een Web Application Firewall (WAF) is een beveiligingslaag die HTTP-verkeer filtert en monitort tussen een webapplicatie en het internet. Een WAF beschermt tegen aanvallen zoals XSS, SQL-injectie, en kan ook bots herkennen op basis van gedragspatronen.
Of je nu wilt blokkeren of niet — goede monitoring is belangrijk. Zo weet je wat er op je server gebeurt.
Waar je op kunt letten bij je hostingpartij:
Wat leert deze momentopname van 11 december 2025 ons?
Dit onderzoek toont aan dat AI-bots een merkbaar deel van je serververkeer uitmaken. Op deze server was dit 3,49% op 11 december 2025 — een momentopname van één dag. Dit heeft twee aspecten:
Of je AI-bots wilt blokkeren is een persoonlijke afweging. Sommige website-eigenaren zien het als ongewenst gebruik van hun content en serverresources. Anderen beschouwen het als bijdrage aan technologische vooruitgang, of willen zichtbaar blijven in AI-zoekresultaten.
Wat je in ieder geval kunt doen:
Bij KeurigOnline monitoren we actief AI-botverkeer op onze servers. Onze support helpt je graag bij het maken van de juiste keuze voor jouw specifieke situatie — of je nu wilt blokkeren of niet.
Uit onze analyse van 11 december 2025 blijkt dat ongeveer 3,5% van alle serververzoeken naar AI-bots gaat. Dit percentage kan per server en dag verschillen, afhankelijk van je content en of je blokkades hebt ingesteld.
Meta's "meta-externalagent" is veruit de meest agressieve crawler. In ons onderzoek was deze bot verantwoordelijk voor 87,5% van alle AI-botverkeer op één server, met meer dan 162.000 requests op één dag. OpenAI's bots komen op de tweede plaats.
Niet alle AI-bots respecteren robots.txt. ClaudeBot van Anthropic is het meest beleefd (100% compliance). OpenAI's GPTBot, ChatGPT-User en Meta's crawler negeren robots.txt volledig en beginnen direct met scrapen zonder eerst toestemming te vragen.
Waarschijnlijk niet direct. De meeste AI-bots voeren geen JavaScript
KeurigOnline zegtJavaScriptJavaScript is de browser- en server-scriptingtaal voor interactieve, asynchrone webapplicaties. uit, dus ze verschijnen niet in Google Analytics. Wel kunnen ze je server-side statistieken
KeurigOnline zegtStatistiekenStatistieken laten zien hoe bezoekers je website gebruiken. (access logs, bandbreedtegebruik) beïnvloeden. Het verschil tussen server-side en client-side metrics kan wijzen op botverkeer.
Dat is een persoonlijke afweging. Blokkeren bespaart serverresources en beschermt je content, maar kan je zichtbaarheid in AI-zoekresultaten verminderen. Toestaan betekent dat je bijdraagt aan AI-ontwikkeling en mogelijk vindbaar blijft in tools zoals ChatGPT Search. Er is geen goed of fout — het hangt af van je prioriteiten.
Je kunt AI-bots blokkeren via robots.txt (niet waterdicht voor alle bots), server-level blocking via .htaccess
KeurigOnline zegthtaccessEen .htaccess-bestand gebruik je voor geavanceerde serverinstellingen zoals redirects en beveiliging. of nginx config, en rate limiting. De meest effectieve aanpak is een combinatie van deze methodes. Let op: sommige bots (zoals GPTBot en meta-externalagent) respecteren robots.txt niet.
AI-botverkeer verbruikt serverresources: CPU-cycles, bandbreedte, en PHP
KeurigOnline zegtPHPPHP is een programmeertaal waarmee dynamische websites en webapplicaties gebouwd worden.-workers. Bij shared hosting met vaste prijzen merk je dit niet direct in je factuur, maar wel in performance. Bij VPS of cloud hosting met traffic-based pricing kan extra bandbreedteverbruik wel kosten veroorzaken — de exacte impact hangt af van je hostingtype en botvolume.
Dit onderzoek is gebaseerd op eigen data-analyse van één van onze KeurigOnline shared hosting servers. De resultaten zijn een momentopname en kunnen niet worden geëxtrapoleerd naar andere servers of tijdsperiodes.