AI-bots op je website: analyse van 5,3 miljoen requests op shared hosting

AI-tools zijn overal: ChatGPT voor blogs, Claude voor copy, Gemini voor social media. Maar terwijl marketeers deze tools gebruiken, crawlen diezelfde AI-bedrijven ondertussen hun websites — om hun modellen te trainen met jouw content.

Hoeveel serververkeer gaat daar eigenlijk naar? We analyseerden de access logs van één KeurigOnline shared hostingKeurigOnline zegtShared hostingShared hosting is een hostingvorm waarbij meerdere websites dezelfde serverresources delen. server op 11 december 2025 — een momentopname van één dag met ruim 5,3 miljoen requests. Dit zijn de resultaten.

Illustratie van AI-bots die een website crawlen - meerdere mechanische handen reiken naar een centrale server

Wat zijn AI-bots?

Voordat we in de data duiken, is het belangrijk om te begrijpen wat AI-bots zijn, waarom ze je website bezoeken, en waarom dit nu pas een groeiend probleem wordt.

Wat is een AI-crawler (web crawler)?

Definitie: Een AI-crawler (ook wel AI web crawler of AI-bot genoemd) is een geautomatiseerd programma dat websites bezoekt om content te verzamelen voor het trainen van Large Language Models (LLMs). In tegenstelling tot zoekmachine-crawlers zoals Googlebot die indexeren om gebruikers naar je site te sturen, harvesten AI-crawlers content puur voor modeltraining — zonder directe voordelen voor de website-eigenaar.

AI-bots identificeren zichzelf (meestal) via hun User-Agent string in HTTPKeurigOnline zegtHTTPHTTP (HyperText Transfer Protocol) is het protocol dat de communicatie tussen webclients en servers mogelijk maakt.-requests. Hierdoor kunnen we ze herkennen in server logs — maar dit vereist wel actieve monitoring.

Welke bedrijven hebben AI-crawlers?

Vrijwel elk groot AI-bedrijf heeft inmiddels een of meerdere crawlers actief op het web:

Bedrijf	Bot(s)	Doel	Documentatie
OpenAI	`GPTBot`, `OAI-SearchBot`, `ChatGPT-User`	GPT-training, SearchGPT, Browse-functie	OpenAI Bots
Meta	`meta-externalagent`	LLaMA-training, AI research	Meta Crawler
Anthropic	`ClaudeBot`	Claude-model training	Anthropic Robots
Google	`Google-Extended`	Gemini/Bard training (apart van Search)	Google Crawlers
ByteDance	`Bytespider`	TikTok AI, Douyin	Geen officiële docs
Perplexity	`PerplexityBot`	Perplexity AI Search	PerplexityBot
Common Crawl	`CCBot`	Open dataset voor AI-training	CCBot

Waarom is dit nu relevant?

AI-crawlers bestaan al jaren, maar drie factoren maken dit onderwerp nu actueel:

Het volume is gegroeid: Sinds de lancering van ChatGPT (november 2022) is de vraag naar trainingsdata enorm gegroeid. Meer AI-bedrijven crawlen meer websites.
Hosting resources zijn eindig: Bij shared hosting met limieten, telt elk request. AI-bots verbruiken resources — of dat een probleem is, hangt af van het volume en je hostingplan.
Het is onzichtbaar in standaard analytics: Google Analytics, Hotjar, en andere client-side tools registreren AI-bots niet — ze voeren geen JavaScriptKeurigOnline zegtJavaScriptJavaScript is een programmeertaal die wordt gebruikt om interactieve en dynamische websites te maken. uit. Alleen via server logs kun je dit verkeer zien.

Het verschil: Googlebot vs AI-bots

Een veelgehoord argument: "Maar Googlebot crawlt toch ook?" Dat klopt. Het verschil zit in de waarde-uitwisseling:

Googlebot

Doel: Je content tonen in zoekresultaten
Jouw voordeel: Gratis verkeer naar je site
Transparantie: Google Search Console
Controle: robots.txt wordt gerespecteerd

→ Directe waarde-uitwisseling: data voor bezoekers

AI-bots

Doel: Modellen trainen met je content
Jouw voordeel: Indirect — je draagt bij aan betere AI-tools
Transparantie: Varieert sterk per bedrijf
Controle: Varieert — sommige respecteren robots.txt, andere niet

→ Indirecte waarde-uitwisseling: data voor AI-vooruitgang

De afweging: Googlebot indexeert om bezoekers naar jou te sturen. AI-bots trainen modellen die jij (en anderen) vervolgens kunnen gebruiken. Of dit een eerlijke ruil is, hangt af van je perspectief en hoe je de waarde van AI-tools inschat.

Onderzoeksopzet

Samenvatting van onze bevindingen (momentopname van één dag)

Uit analyse van 5,3 miljoen requests op 11 december 2025 blijkt dat AI-bots 3,49% van alle serververkeer uitmaken. Meta's meta-externalagent is verantwoordelijk voor 87,5% van alle AI-botverkeer (162.550 requests). Van alle AI-botrequests krijgt 85,3% succesvol toegang tot content.

Moet je AI-bots blokkeren? Snelle beslissing:

Blokkeer als: je shared hosting met limieten hebt, je content beschermen wilt, of je principieel tegen gratis trainingsdata voor commerciële AI-bedrijven bent.
Toestaan als: je bijdragen wilt aan AI-ontwikkeling, zichtbaar wilt blijven in AI-zoekresultaten (ChatGPT Search, Perplexity), of je hostingplan ruim voldoende resources heeft.

→ Geen goed of fout — het hangt af van je situatie en prioriteiten. → Direct naar blokkeeropties

Om de werkelijke impact van AI-bots te meten, hebben we de complete LiteSpeedKeurigOnline zegtLiteSpeedLiteSpeed is een snelle webserver die tot 6 keer sneller is dan Apache en gebruikmaakt van een efficiënte event-driven architectuur. access logs geanalyseerd van één van onze shared hosting servers. Deze server draait CloudLinux met LiteSpeed en host een mix van e-commerce sites, bedrijfssites en blogs.

We analyseerden 5.321.647 requests op 11 december 2025 — een momentopname van één dag met complete data van alle domeinen op deze server.

Bot-identificatie gebeurde via User-Agent string matching: we gebruikten een AWK-script dat exacte string matching toepast op bekende AI-crawler signatures (bijv. "GPTBot", "ClaudeBot", "meta-externalagent") in de User-Agent header. Deze methode is betrouwbaarder dan regex-patterns omdat bot-namen consistent zijn.

Per request analyseerden we:

HTTP-statuscodesKeurigOnline zegtHTTP-statuscodesHTTP-statuscodes zijn driecijferige codes die aangeven of een webverzoek succesvol was of niet.
Timestamps
IP-adressen
Response sizes

Belangrijke context: Dit is een momentopname van één dag (11 december 2025) op één shared hosting server. De analyse gebruikt alleen domein logs, die complete data bevatten voor alle domeinen. AI-bedrijven passen hun crawlgedrag regelmatig aan — Meta's hoge volume kan bijvoorbeeld samenhangen met het trainen van een nieuw model, en kan volgende dag al heel anders zijn. Extrapoleer deze cijfers niet naar het hele jaar of andere servers.

Resultaten: verkeer en herkomst

We beginnen met de belangrijkste vraag: hoeveel serververkeer gaat naar AI-crawlers, en van welke bedrijven komen ze?

Verkeersverdeling

Hoeveel van het serververkeer gaat naar AI-crawlers versus echte bezoekers?

Verkeersverdeling op shared hosting server

Op deze shared hosting server gaat maar liefst 3,49% van alle requests naar AI-bots (bron: server logs, 11 december 2025). Dat lijkt misschien weinig, maar bedenk: dit zijn 185.704 requests die serverresources verbruiken zonder dat er een mens je website bezoekt.

AI-bots per bedrijf

Nu we de achtergrond kennen, welke AI-bedrijven zijn daadwerkelijk verantwoordelijk voor dit verkeer op onze server?

AI-botverkeer per bedrijf

Op 11 december 2025 was Meta (Facebook) veruit de meest actieve AI-scraper met 162.550 requests (87,5% van alle AI-botverkeer; bron: server logs). Dit hoge volume kan samenhangen met het trainen van een nieuw LLaMA-model — crawlgedrag fluctueert sterk per dag. Meta's "meta-externalagent" controleert vaak niet eerst robots.txtKeurigOnline zegtrobots.txtrobots.txt is een bestand dat zoekmachines vertelt welke delen van je site ze mogen crawlen..

Bot	Bedrijf	Requests	Doel
meta-externalagent	Meta	162.550	LLaMA training / Research
PetalBot	Huawei	11.176	Petal Search / Huawei AI
OAI-SearchBot	OpenAI	7.551	SearchGPT / ChatGPT Search
ChatGPT-User	OpenAI	1.493	Realtime web access (Browse)
GPTBot	OpenAI	1.250	GPT-model training
Bytespider	ByteDance	1.027	TikTok AI / Douyin
ClaudeBot	Anthropic	95	Claude-model training

Totaal op 11 december 2025: 185.704 AI-bot requests. Meta's meta-externalagent is veruit de grootste bron van AI-verkeer op deze server met 162.550 requests (87,5% van het totaal).

Resultaten: bot-gedrag

Nu we weten wie de bots zijn, kijken we naar hoe ze zich gedragen: krijgen ze toegang tot content, respecteren ze robots.txt, en hoe agressief zijn ze?

Success rates: hoeveel content krijgen bots?

Een cruciale vraag: slagen deze bots erin om je content te scrapen, of worden ze geblokkeerd? We analyseerden de HTTP response status codes om dit te bepalen.

AI-bot success rate (HTTP status codes)

De cijfers zijn duidelijk:

85,3%

Succesvolle scrapes

5,3%

Not Found (404)

8,2%

Redirects (301/302)

0,95%

Actief geblokkeerd (403)

Op deze server krijgt 85,3% van de AI-bots succesvol toegang tot content (bron: server logs, 158.418 succesvolle requests van 185.704 totaal). Slechts 0,95% wordt actief geblokkeerd. De rest krijgt 404-errors (pagina niet gevonden) of redirects — maar dat zijn geen bewuste blokkades.

Success rate per bot

De success rate verschilt enorm per bot — dit bepaalt hoeveel van je content daadwerkelijk wordt gescraped.

Success rate per bot (%)

Bot	Requests	Success (200)	Blocked (403)	Not Found (404)	Success Rate
meta-externalagent	162.550	145.537	46	5.712	89,5%
ChatGPT-User	1.493	1.290	0	4	86,4%
Googlebot	21.724	18.478	16	1.294	85,1%
PetalBot	11.176	8.245	47	594	73,8%
GPTBot	1.250	663	457	35	53,0%
OAI-SearchBot	7.551	2.320	25	3.477	30,7%
ClaudeBot	95	18	59	2	18,9%
Bytespider	1.027	24	960	25	2,3%
Amazonbot	178	1	171	2	0,6%

Observatie: Meta's crawler krijgt 89,5% van alle requests succesvol (bron: server logs, 145.537 succesvolle requests van 162.550 totaal) — 145.537 pagina's van deze server op één dag. ClaudeBot daarentegen werd in 62,1% van de gevallen geblokkeerd (bron: server logs, 59 van 95 requests geblokkeerd). Dit verschil komt doordat ClaudeBot robots.txt respecteert, terwijl Meta's crawler dit niet doet.

Content targeting: wat willen bots?

We analyseerden welke type content de AI-bots het meest requesteren op deze server.

Content doelwitten van AI-bots

Targeting per bot

Elke bot heeft een andere strategie. De heatmap hieronder toont welke content-categorieën elke bot target.

Content targeting per bot (heatmap)

Opvallende patronen:

Meta: Target vooral product/pagina-URLs (150K) en sitemaps (9K) — systematisch de hele site crawlen
Googlebot: Evenwichtig verdeeld met focus op CSS/JS/Images (11,7K) — rendert pagina's volledig
OAI-SearchBot: 95% robots.txt checks (7,2K) — extreem beleefd maar toch massaal
GPTBot: Focust op homepages (420) en assets (386) — waarschijnlijk voor algemene site-context

Op deze server gaat 62% van alle AI-requests naar productpagina's — productinformatie, prijzen en beschrijvingen zijn waardevolle trainingsdata voor AI-modellen.

Respecteren AI-bots je robots.txt?

Definitie: Het robots.txt bestand is een tekstbestand in de root van een website dat instructies geeft aan web crawlers over welke pagina's ze wel of niet mogen bezoeken. Het volgt de Robots Exclusion Protocol standaard, maar naleving is vrijwillig — crawlers kunnen deze instructies negeren.

De meeste website-eigenaren vertrouwen op robots.txt om AI-crawlers te vertellen wat ze wel en niet mogen indexeren. Maar houden bots zoals GPTBot, ClaudeBot en meta-externalagent zich hieraan?

Robots.txt compliance per bot

Bot	Bedrijf	Checkt robots.txt eerst?	Classificatie
`ClaudeBot`	Anthropic	100%	Checkt altijd
`OAI-SearchBot`	OpenAI	70%	Wisselend
`Googlebot`	Google	34%	Wisselend
`Bytespider`	ByteDance	31%	Wisselend
`GPTBot`	OpenAI	0%	Checkt niet
`ChatGPT-User`	OpenAI	0%	Checkt niet
`meta-externalagent`	Meta	0%	Checkt niet

Opvallend: ClaudeBot van Anthropic checkt altijd eerst robots.txt (100% compliance; bron: server logs, 21 van 21 IPs checkten robots.txt). OpenAI's GPTBot en Meta's crawler doen dit niet en beginnen direct met crawlen. Dit is relevant als je overweegt om specifieke bots te blokkeren via robots.txt.

Impact: serverbelasting

Wat betekent al dit AI-botverkeer concreet voor je server? We kijken naar detectie, bandbreedte, en crawl-patronen.

Hoe herken je botverkeer in je logs?

Eén praktische manier om botverkeer te detecteren: kijk naar wanneer je traffic binnenkomt. Menselijk verkeer volgt voorspelbare patronen — pieken overdag, dalen 's nachts. Bots niet.

Uurpatroon: AI-botverkeer (00:00 - 15:00)

In deze ochtend- en middagdata piekt AI-botverkeer tussen 04:00 en 06:00 — precies wanneer menselijk verkeer minimaal is. Dit patroon kun je gebruiken om botverkeer te detecteren:

Zelf checken: Vergelijk je server-side requests (access logs) met je Google Analytics per uur. Een grote kloof tussen die twee, vooral 's nachts, wijst op botverkeer. Voor LiteSpeed: awk -F'[' '{print $2}' access.log | cut -d: -f2 | sort | uniq -c toont requests per uur.

Bandbreedte-impact per bot

De bandbreedte per request verschilt dramatisch tussen crawlers. Dit bepaalt de werkelijke serverbelasting — niet alleen het aantal requests.

Gemiddelde bandbreedte per request (KB)

Opvallend: Meta's crawler verbruikt gemiddeld 190 KB per request (bron: server logs, berekend uit response sizes) — dat is 111x meer dan GPTBot (1,7 KB) en 11x meer dan Googlebot (17 KB). Met 162.550 requests consumeerde Meta's bot in totaal 30+ GB aan bandbreedte op deze server op één dag.

Dit verklaart waarom Meta zo'n disproportionele impact heeft ondanks dat andere bots meer requests doen. ChatGPT-User volgt met 68 KB per request — waarschijnlijk omdat deze bot volledige pagina-renders ophaalt voor realtime browsing.

Aggressiviteit per bot

We hebben een aggressiviteitsscore berekend die crawlgedrag kwantificeert. De formule combineert twee factoren: crawl-intensiteit (requests per IP) en protocol-naleving (robots.txt compliance).

A_score = R I × (100 − C)

A_score = Aggressiviteitsscore (hoger = agressiever) R = Totaal aantal requests van de bot I = Aantal unieke IP-adressen C = Compliance rate (% IPs dat robots.txt checkt)

Interpretatie: Een bot met veel requests vanaf weinig IPs (hoge R/I) die ook nog eens robots.txt negeert (lage C) krijgt een hoge score. Een gedistribueerde bot die netjes robots.txt checkt scoort laag.

Aggressiviteitsscore per bot

Bot	Requests/IP	Robots.txt compliance	Aggressiviteitsscore	Rating
OAI-SearchBot	28,5	70%	25.376	Agressief
meta-externalagent	851	0%	14.395	Agressief
GPTBot	7,5	0%	12.520	Agressief
Googlebot	52	34%	4.672	Matig
Bytespider	1,4	31%	2.593	Matig
ClaudeBot	4,5	100%	952	Beleefd
ChatGPT-User	3,1	0%	411	Beleefd
Amazonbot	2,7	30%	22,5	Beleefd

Inzicht: OAI-SearchBot is de meest agressieve crawler met een score van 25.376 — ondanks 70% robots.txt compliance. Deze bot doet gemiddeld 28 requests per IP-adres, verspreid over 265 IP's. De hoge score komt door het volume én de crawl-frequentie per sessie.

IP-distributie

Hoe bots hun verkeer verdelen over IP-adressen vertelt veel over hun infrastructuur — en hoe makkelijk je ze kunt blokkeren.

Aantal unieke IP-adressen per bot

Geconcentreerd (hoog volume per IP)

Meta-agent: 191 IPs → 162.550 requests (851 req/IP)
OAI-SearchBot: 265 IPs → 7.551 requests (28 req/IP)
GPTBot: 166 IPs → 1.250 requests (7,5 req/IP)

Hoog volume per IP maakt IP-blocking effectief.

Gedistribueerd (veel IPs, laag volume per IP)

PetalBot: 898 IPs → 11.176 requests (12 req/IP)
Bytespider: 735 IPs → 1.027 requests (1,4 req/IP)
ChatGPT-User: 484 IPs → 1.493 requests (3 req/IP)

User-Agent blocking is effectiever bij veel IPs.

Je opties: AI-bots toestaan of blokkeren

Nu je de data kent, kun je een geïnformeerde keuze maken. Beide opties hebben voor- en nadelen.

Optie A: AI-bots toestaan

Waarom toestaan?

Bijdragen aan AI-ontwikkeling: Je content helpt AI-modellen verbeteren die jij en anderen dagelijks gebruiken
Toekomstige zichtbaarheid: AI-zoekmachines (ChatGPT Search, Perplexity) kunnen je content citeren en linken
Geen onderhoud: Geen extra configuratie of updates nodig
Pragmatisch: Sommige bots negeren blokkades toch

Mogelijke nadelen

Serverresources: Extra CPU, bandbreedte en PHPKeurigOnline zegtPHPPHP (Hypertext Preprocessor) is een populaire open-source scripttaal die speciaal is ontworpen voor webontwikkeling en server-side programmering.-workers voor niet-menselijk verkeer
Geen compensatie: Je content traint commerciële modellen zonder vergoeding
Geen controle: Je weet niet precies hoe je content wordt gebruikt

Optie B: AI-bots blokkeren

Waarom blokkeren?

Serverresources besparen: Minder onnodige requests, vooral relevant bij shared hosting
Content beschermen: Je bepaalt zelf wie je content mag gebruiken
Principiële keuze: Geen gratis trainingsdata voor commerciële AI-bedrijven

Mogelijke nadelen

Verminderde AI-zichtbaarheid: Je content verschijnt mogelijk niet in AI-zoekresultaten
Onderhoud: Nieuwe bots vereisen updates aan je configuratie
Niet waterdicht: Sommige bots negeren blokkades

Kies je voor blokkeren? Hieronder lees je hoe je dit doet.

1. Configureer robots.txt voor AI-bots

De eerste stap is het expliciet blokkeren van AI-bots in je robots.txt:

# Block AI training bots
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: meta-externalagent
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: PetalBot
Disallow: /

Goed om te weten: Niet alle AI-bots respecteren robots.txt. Ons onderzoek toont dat GPTBot, ChatGPT-User en meta-externalagent robots.txt niet eerst checken^[1]. Als je kiest voor blokkeren, is robots.txt alleen daarom niet voldoende — combineer het met server-level blocking.

Tip: Test je robots.txt configuratie met de Google Robots Testing Tool en valideer de syntax via robots.txt Validator. Upload het bestand naar de root van je domein (bijv. https://jouwsite.nl/robots.txt).

2. Server-level blocking (GPTBot, ClaudeBot blokkeren)

Robots.txt werkt niet voor alle bots. Voor LiteSpeed en Apache-servers kun je AI web crawlers blokkeren via .htaccess:

# Block AI crawlers at server level
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ChatGPT|ClaudeBot|Bytespider|meta-externalagent) [NC]
RewriteRule .* - [F,L]

Voor Nginx gebruik je een if-directive in je server block:

# Block AI crawlers
if ($http_user_agent ~* (GPTBot|ChatGPT|ClaudeBot|Bytespider|meta-externalagent)) {
    return 403;
}

Tip: Monitor je server logs regelmatig op AI-botverkeer. Voor LiteSpeed check je /usr/local/lsws/logs/access.log. Gebruik dit commando: grep -E "GPTBot|ClaudeBot|Bytespider|meta-externalagent" /usr/local/lsws/logs/access.log | wc -l.

3. Rate limiting implementeren

Beperk het aantal requests per IP per tijdseenheid. Voor LiteSpeed-servers met Imunify360 is dit vaak al ingebouwd. LiteSpeed heeft ook ingebouwde anti-DDoS features. Voor ApacheKeurigOnline zegtApacheApache HTTP Server is een open source webserver ontwikkeld door de Apache Software Foundation.-servers kun je mod_evasive gebruiken:

# Rate limiting met mod_evasive
<IfModule mod_evasive20.c>
    DOSHashTableSize 3097
    DOSPageCount 5
    DOSSiteCount 50
    DOSPageInterval 1
    DOSSiteInterval 1
    DOSBlockingPeriod 10
</IfModule>

4. Kies hosting met goede monitoring

Definitie: Een Web Application Firewall (WAF) is een beveiligingslaag die HTTP-verkeer filtert en monitort tussen een webapplicatie en het internet. Een WAF beschermt tegen aanvallen zoals XSS, SQL-injectie, en kan ook bots herkennen op basis van gedragspatronen.

Of je nu wilt blokkeren of niet — goede monitoring is belangrijk. Zo weet je wat er op je server gebeurt.

Waar je op kunt letten bij je hostingpartij:

Gedetailleerde access logs voor analyse van botverkeer
WAF (zoals Imunify360) voor optionele bot-filtering
Mogelijkheid tot eigen .htaccessKeurigOnline zegthtaccessEen .htaccess bestand is een configuratiebestand voor Apache webservers waarmee je per directory instellingen kunt wijzigen zonder toegang tot de hoofdconfiguratie. of nginxKeurigOnline zegtNginxNginx is een open-source webserver, reverse proxy en load balancer die veel gebruikt wordt voor hoogperformante websites. configuratie
Support die kan helpen bij het interpreteren van logdata

Conclusie

Drie inzichten uit de data

Wat leert deze momentopname van 11 december 2025 ons?

Niet alle AI-bedrijven gedragen zich hetzelfde. ClaudeBot (Anthropic) checkt 100% van de tijd robots.txtKeurigOnline zegtrobots.txtrobots.txt is een bestand dat zoekmachines vertelt welke delen van je site ze mogen crawlen. eerst. GPTBot en Meta doen dit niet. Als je gaat blokkeren, is het nuttig om te weten welke bots je configuratie respecteren.
Volume ≠ impact. Meta deed de meeste requests én verbruikt de meeste bandbreedte per request (186 KB vs 62 KB voor ChatGPT-User). Kijk naar bytes, niet alleen naar hits.
Blokkeren werkt — maar niet altijd. ClaudeBot werd in 62% van de gevallen geblokkeerd, Meta slechts in 0,03%. De effectiviteit van blokkades hangt af van of de bot ze respecteert.

Samenvatting van de bevindingen

Dit onderzoek toont aan dat AI-bots een merkbaar deel van je serververkeer uitmaken. Op deze server was dit 3,49% op 11 december 2025 — een momentopname van één dag. Dit heeft twee aspecten:

Hosting resources: Meer CPU, bandbreedte en PHP-workers voor niet-menselijk verkeer
Content gebruik: Je content wordt gebruikt om AI-modellen te trainen

Of je AI-bots wilt blokkeren is een persoonlijke afweging. Sommige website-eigenaren zien het als ongewenst gebruik van hun content en serverresources. Anderen beschouwen het als bijdrage aan technologische vooruitgang, of willen zichtbaar blijven in AI-zoekresultaten.

Wat je in ieder geval kunt doen:

Analyseer je eigen access logs om te zien hoeveel AI-botverkeer je ontvangt
Maak een bewuste keuze: toestaan, gedeeltelijk blokkeren, of volledig blokkeren
Als je blokkeert: combineer robots.txt met server-level blocking voor maximale effectiviteit
Monitor regelmatig — nieuwe bots verschijnen continu

Bij KeurigOnline monitoren we actief AI-botverkeer op onze servers. Onze support helpt je graag bij het maken van de juiste keuze voor jouw specifieke situatie — of je nu wilt blokkeren of niet.

Veelgestelde vragen over AI-bots en hosting

Hoeveel procent van mijn serververkeer gaat naar AI-bots?

Uit onze analyse van 11 december 2025 blijkt dat ongeveer 3,5% van alle serververzoeken naar AI-bots gaat. Dit percentage kan per server en dag verschillen, afhankelijk van je content en of je blokkades hebt ingesteld.

Welke AI-bot crawlt het meest agressief?

Meta's "meta-externalagent" is veruit de meest agressieve crawler. In ons onderzoek was deze bot verantwoordelijk voor 87,5% van alle AI-botverkeer op één server, met meer dan 162.000 requests op één dag. OpenAI's bots komen op de tweede plaats.

Respecteren AI-bots mijn robots.txt?

Niet alle AI-bots respecteren robots.txt. ClaudeBot van Anthropic is het meest beleefd (100% compliance). OpenAI's GPTBot, ChatGPT-User en Meta's crawler negeren robots.txt volledig en beginnen direct met scrapen zonder eerst toestemming te vragen.

Vervormen AI-bots mijn Google Analytics data?

Waarschijnlijk niet direct. De meeste AI-bots voeren geen JavaScriptKeurigOnline zegtJavaScriptJavaScript is een programmeertaal die wordt gebruikt om interactieve en dynamische websites te maken. uit, dus ze verschijnen niet in Google Analytics. Wel kunnen ze je server-side statistiekenKeurigOnline zegtStatistiekenStatistieken laten zien hoe bezoekers je website gebruiken. (access logs, bandbreedtegebruik) beïnvloeden. Het verschil tussen server-side en client-side metrics kan wijzen op botverkeer.

Moet ik AI-bots blokkeren?

Dat is een persoonlijke afweging. Blokkeren bespaart serverresources en beschermt je content, maar kan je zichtbaarheid in AI-zoekresultaten verminderen. Toestaan betekent dat je bijdraagt aan AI-ontwikkeling en mogelijk vindbaar blijft in tools zoals ChatGPT Search. Er is geen goed of fout — het hangt af van je prioriteiten.

Hoe kan ik AI-bots blokkeren als ik dat wil?

Je kunt AI-bots blokkeren via robots.txt (niet waterdicht voor alle bots), server-level blocking via .htaccessKeurigOnline zegthtaccessEen .htaccess bestand is een configuratiebestand voor Apache webservers waarmee je per directory instellingen kunt wijzigen zonder toegang tot de hoofdconfiguratie. of nginx config, en rate limiting. De meest effectieve aanpak is een combinatie van deze methodes. Let op: sommige bots (zoals GPTBot en meta-externalagent) respecteren robots.txt niet.

Kost AI-botverkeer mij extra geld?

AI-botverkeer verbruikt serverresources: CPU-cycles, bandbreedte, en PHPKeurigOnline zegtPHPPHP (Hypertext Preprocessor) is een populaire open-source scripttaal die speciaal is ontworpen voor webontwikkeling en server-side programmering.-workers. Bij shared hosting met vaste prijzen merk je dit niet direct in je factuur, maar wel in performance. Bij VPS of cloud hosting met traffic-based pricing kan extra bandbreedteverbruik wel kosten veroorzaken — de exacte impact hangt af van je hostingtype en botvolume.

Bronnen en methodologie (geraadpleegd: december 2025)

Dit onderzoek is gebaseerd op eigen data-analyse van één van onze KeurigOnline shared hosting servers. De resultaten zijn een momentopname en kunnen niet worden geëxtrapoleerd naar andere servers of tijdsperiodes.

Periode: 11 december 2025 — een momentopname van één dag
Server: KeurigOnline shared hostingKeurigOnline zegtShared hostingShared hosting is een hostingvorm waarbij meerdere websites dezelfde serverresources delen. met LiteSpeed op CloudLinuxKeurigOnline zegtCloudLinuxCloudLinux is een gespecialiseerd Linux-besturingssysteem voor webhostingproviders dat elke gebruiker isoleert in een eigen container. (DirectAdminKeurigOnline zegtDirectAdminDirectAdmin is een webhosting control panel ontwikkeld door JBMC Software als kostenefficiënt en gebruiksvriendelijk alternatief voor cPanel.)
Totaal geanalyseerd: 5.321.647 HTTP-requests
Data bron: Domein logs alleen (complete data voor alle domeinen)
Analyse methode: Bash scripts voor log parsing, User-Agent classificatie, en statistische aggregatie
Bot identificatie: User-agent string matching met bekende AI-crawler signatures via AWK-script met exacte string matching (geen regex patterns)

AI-bot documentatie

OpenAI Bots Documentation — Officiële documentatie voor GPTBot, OAI-SearchBot en ChatGPT-User
Anthropic ClaudeBot — Instructies voor het blokkeren van ClaudeBot via robots.txtKeurigOnline zegtrobots.txtrobots.txt is een bestand dat zoekmachines vertelt welke delen van je site ze mogen crawlen.
Google Crawlers Overview — Officiële lijst van alle Google crawlers en hun functies
Meta Crawler Documentation — Informatie over Facebook's webcrawler
Bing Crawlers — Microsoft's officiële crawler documentatie

Technische referenties

RFC 9309 — Robots Exclusion Protocol standaard (2022)
MDN HTTP Status Codes — Referentie voor HTTPKeurigOnline zegtHTTPHTTP (HyperText Transfer Protocol) is het protocol dat de communicatie tussen webclients en servers mogelijk maakt. response codes
LiteSpeed Access Logs — LiteSpeedKeurigOnline zegtLiteSpeedLiteSpeed is een snelle webserver die tot 6 keer sneller is dan Apache en gebruikmaakt van een efficiënte event-driven architectuur. server log documentatie
Apache Access Logs — Documentatie voor Apache log formaten
Nginx Log Module — NginxKeurigOnline zegtNginxNginx is een open-source webserver, reverse proxy en load balancer die veel gebruikt wordt voor hoogperformante websites. logging configuratie

Server beveiliging

Imunify360 Documentation — WAF en server security voor hosting
CloudLinux Documentation — OS-level hosting beveiliging
Apache mod_rewrite — URL rewriting en blocking
mod_evasive — ApacheKeurigOnline zegtApacheApache HTTP Server is een open source webserver ontwikkeld door de Apache Software Foundation. rate limiting module
OWASP Web Security Testing Guide — Best practices voor webbeveiliging

Analytics en tracking

Google Analytics Bot Filtering — Ingebouwde bot-filtering in GA
IAB/ABC International Spiders & Bots List — Industrie-standaard bot lijst

Je winkelwagen is leeg

Je winkelwagen is leeg

Op deze pagina

Wat zijn AI-bots?

Wat is een AI-crawler (web crawler)?

Welke bedrijven hebben AI-crawlers?

Waarom is dit nu relevant?

Het verschil: Googlebot vs AI-bots

Googlebot

AI-bots

Onderzoeksopzet

Resultaten: verkeer en herkomst

Verkeersverdeling

AI-bots per bedrijf

Resultaten: bot-gedrag

Success rates: hoeveel content krijgen bots?

Success rate per bot

Content targeting: wat willen bots?

Targeting per bot

Respecteren AI-bots je robots.txt?

Impact: serverbelasting

Hoe herken je botverkeer in je logs?

Bandbreedte-impact per bot

Aggressiviteit per bot

IP-distributie

Geconcentreerd (hoog volume per IP)

Gedistribueerd (veel IPs, laag volume per IP)

Je opties: AI-bots toestaan of blokkeren

Optie A: AI-bots toestaan

Waarom toestaan?

Mogelijke nadelen

Optie B: AI-bots blokkeren

Waarom blokkeren?

Mogelijke nadelen

1. Configureer robots.txt voor AI-bots

2. Server-level blocking (GPTBot, ClaudeBot blokkeren)

3. Rate limiting implementeren

4. Kies hosting met goede monitoring

Conclusie

Drie inzichten uit de data

Samenvatting van de bevindingen

Veelgestelde vragen over AI-bots en hosting

Hoeveel procent van mijn serververkeer gaat naar AI-bots?

Welke AI-bot crawlt het meest agressief?

Respecteren AI-bots mijn robots.txt?

Vervormen AI-bots mijn Google Analytics data?

Moet ik AI-bots blokkeren?

Hoe kan ik AI-bots blokkeren als ik dat wil?

Kost AI-botverkeer mij extra geld?

Bronnen en methodologie (geraadpleegd: december 2025)

AI-bot documentatie

Technische referenties

Server beveiliging

Analytics en tracking

PHP 8.4 beschikbaar op alle CloudLinux-pakketten

LiteSpeed vs Apache WordPress: Snelheid & Core Web Vitals vergelijking

Localhost: wat is het en hoe werkt het?