L’annuaire des bots IA actifs en avril 2026 recense les crawlers et agents qui visitent regulierement les sites web pour des usages d’entrainement, de retrieval temps reel, d’archivage public ou d’agentic browsing. Les douze bots listes sont les plus frequents observes sur les sites partenaires du magazine.
Tableau de reference
| Bot | Operateur | Fonction | Respecte robots.txt | Frequence typique |
|---|---|---|---|---|
| GPTBot | OpenAI | Entrainement modeles GPT | Oui | Frequent |
| OAI-SearchBot | OpenAI | Retrieval ChatGPT Search | Oui | Tres frequent |
| ChatGPT-User | OpenAI | Visite a la demande pour user ChatGPT | Oui | Occasionnel |
| ClaudeBot | Anthropic | Entrainement et retrieval Claude | Oui | Frequent |
| Claude-User | Anthropic | Visite agentique pour user Claude | Oui | Occasionnel |
| Claude-SearchBot | Anthropic | Retrieval moteur Claude (depuis 2025) | Oui | Frequent |
| PerplexityBot | Perplexity | Indexation moteur Perplexity | Generalement oui (controverse 2024-2025) | Tres frequent |
| Perplexity-User | Perplexity | Visite agentique pour user Perplexity | Variable | Occasionnel |
| CCBot | Common Crawl | Archive publique mensuelle | Oui | Mensuel |
| Google-Extended | Opt-in pour Bard/Gemini training | Oui | Frequent | |
| Bytespider | ByteDance/TikTok | Entrainement modeles TikTok | Variable | Variable |
| Amazonbot | Amazon | Entrainement Alexa/Q | Oui | Occasionnel |
Notes par bot
GPTBot : crawler dedie a l’entrainement OpenAI, identifiable via “GPTBot/1.1”. Plages d’IP publiees dans la documentation officielle. Bloquer GPTBot via “User-agent: GPTBot / Disallow: /” reduit les visites a zero en quelques jours.
OAI-SearchBot : retrieval temps reel pour ChatGPT Search. Visites courtes mais frequentes, ciblage precis sur pages liees a des requetes recentes. Pages mises a jour aujourd’hui revisitees sous 24-48h. A NE PAS bloquer si vous visez la presence ChatGPT Search.
PerplexityBot : reactivite tres elevee, visite typiquement sous quelques heures pour les pages nouvellement publiees. Fait l’objet de polemiques 2024-2025 sur le respect de robots.txt sur certains sites. Surveiller specifiquement.
ClaudeBot et variants : Anthropic distingue trois user agents (ClaudeBot pour usage general, Claude-User pour interactions agentiques, Claude-SearchBot pour retrieval moteur depuis 2025). Volume generalement inferieur a GPTBot pour les sites francophones, plus actif sur les sites tech.
CCBot : crawler de Common Crawl, fondation a but non lucratif. Dumps mensuels reutilises par GPT, LLaMA, Falcon. Etre present dans Common Crawl signifie etre disponible pour l’entrainement de la plupart des modeles open source.
Reutilisation
Ce dataset est publie sous licence Creative Commons Attribution 4.0 (CC BY 4.0). Reutilisation libre avec mention “Source : Academie GEO, Annuaire des bots IA 2026, geo-academy.fr/datasets/bots-ia-2026”.