Aller au contenu principal
Dataset ouvert

Annuaire des bots IA actifs en 2026

Inventaire structure des crawlers et agents IA majeurs en 2026: user agent, operateur, fonction, respect robots.txt, comportement. Mise a jour trimestrielle.

Lignes
12
Colonnes
6
Mise a jour
trimestrielle
Licence
CC BY 4.0

Releve initial : 26 avril 2026.

Schema des colonnes

Nom Type Description
bot string Nom du bot tel que declare dans le user agent
operator string Organisation responsable du bot
function string Fonction du bot (entrainement, retrieval, archivage)
respectsRobotsTxt boolean Le bot respecte-t-il les directives robots.txt
typicalFrequency enum Frequence typique observee
documentationUrl url Documentation officielle de l'operateur

Methodologie de collecte

Liste construite a partir de la documentation officielle des operateurs (OpenAI, Anthropic, Perplexity, Common Crawl, Microsoft, Google), recoupee avec les threads de signalement r/SEO et r/TechSEO en 2025-2026, et avec les logs serveurs des sites partenaires d'Academie GEO. Chaque bot est verifie sur trois criteres : user agent declare, comportement observe, respect de robots.txt. Les chiffres de frequence sont qualitatifs (rare, occasionnel, frequent, tres frequent).

L’annuaire des bots IA actifs en avril 2026 recense les crawlers et agents qui visitent regulierement les sites web pour des usages d’entrainement, de retrieval temps reel, d’archivage public ou d’agentic browsing. Les douze bots listes sont les plus frequents observes sur les sites partenaires du magazine.

Tableau de reference

BotOperateurFonctionRespecte robots.txtFrequence typique
GPTBotOpenAIEntrainement modeles GPTOuiFrequent
OAI-SearchBotOpenAIRetrieval ChatGPT SearchOuiTres frequent
ChatGPT-UserOpenAIVisite a la demande pour user ChatGPTOuiOccasionnel
ClaudeBotAnthropicEntrainement et retrieval ClaudeOuiFrequent
Claude-UserAnthropicVisite agentique pour user ClaudeOuiOccasionnel
Claude-SearchBotAnthropicRetrieval moteur Claude (depuis 2025)OuiFrequent
PerplexityBotPerplexityIndexation moteur PerplexityGeneralement oui (controverse 2024-2025)Tres frequent
Perplexity-UserPerplexityVisite agentique pour user PerplexityVariableOccasionnel
CCBotCommon CrawlArchive publique mensuelleOuiMensuel
Google-ExtendedGoogleOpt-in pour Bard/Gemini trainingOuiFrequent
BytespiderByteDance/TikTokEntrainement modeles TikTokVariableVariable
AmazonbotAmazonEntrainement Alexa/QOuiOccasionnel

Notes par bot

GPTBot : crawler dedie a l’entrainement OpenAI, identifiable via “GPTBot/1.1”. Plages d’IP publiees dans la documentation officielle. Bloquer GPTBot via “User-agent: GPTBot / Disallow: /” reduit les visites a zero en quelques jours.

OAI-SearchBot : retrieval temps reel pour ChatGPT Search. Visites courtes mais frequentes, ciblage precis sur pages liees a des requetes recentes. Pages mises a jour aujourd’hui revisitees sous 24-48h. A NE PAS bloquer si vous visez la presence ChatGPT Search.

PerplexityBot : reactivite tres elevee, visite typiquement sous quelques heures pour les pages nouvellement publiees. Fait l’objet de polemiques 2024-2025 sur le respect de robots.txt sur certains sites. Surveiller specifiquement.

ClaudeBot et variants : Anthropic distingue trois user agents (ClaudeBot pour usage general, Claude-User pour interactions agentiques, Claude-SearchBot pour retrieval moteur depuis 2025). Volume generalement inferieur a GPTBot pour les sites francophones, plus actif sur les sites tech.

CCBot : crawler de Common Crawl, fondation a but non lucratif. Dumps mensuels reutilises par GPT, LLaMA, Falcon. Etre present dans Common Crawl signifie etre disponible pour l’entrainement de la plupart des modeles open source.

Reutilisation

Ce dataset est publie sous licence Creative Commons Attribution 4.0 (CC BY 4.0). Reutilisation libre avec mention “Source : Academie GEO, Annuaire des bots IA 2026, geo-academy.fr/datasets/bots-ia-2026”.