Aller au contenu principal
Tactiques intermediaire geo llms-txt protocole

llms.txt: lecture critique d'une proposition technique

Analyse technique du fichier llms.txt propose par Jeremy Howard, avec un point sur l'adoption mesuree par BuiltWith et les limites du protocole.

Camille Lefebvre Éditrice senior, Recherche & Outils Publié le  12 min de lecture
Capture d'écran d'un fichier llms.txt avec syntaxe markdown structurée
Portrait de Camille Lefebvre

Par

Camille Lefebvre

Éditrice senior, Recherche & Outils

couvre les outils SEO et l'architecture des moteurs génératifs depuis 2018


llms.txt a fait beaucoup de bruit en 2024 et 2025. La proposition a souvent été présentée comme un standard équivalent a robots.txt pour les modèles de langage, comme l’analyse en profondeur la leçon sur llms.txt en 2026. Le parallèle est seduisant. Il est aussi en grande partie trompeur. Cet article fait le point sur ce que dit réellement la spécification, ce qui est mesure de son adoption, et ce qu’on peut raisonnablement en attendre en avril 2026.

La proposition initiale

Jeremy Howard, co-fondateur de fast.ai, a publié la proposition llms.txt en septembre 2024 sur le site llmstxt.org. Le principe est simple. Un fichier place a la racine d’un site, au format markdown, fournit un guide de lecture du site a destination des modèles de langage. Il liste les ressources principales, les pages canoniques, les sections importantes, sous une syntaxe normalisee.

Le format prévoit un titre H1 obligatoire pour le nom du site, un blockquote pour la description courte, des sections H2 qui regroupent des liens markdown vers les pages clés. Une variante optionnelle, llms-full.txt, intègre directement le contenu textuel des pages au lieu de simples liens, pour permettre a un modèle d’avoir l’intégralité du corpus accessible sans crawl.

L’analogie avec robots.txt est explicite dans la proposition. Robots.txt indique aux crawlers ce qu’ils peuvent ou ne peuvent pas indexer. Llms.txt indique aux modèles de langage ce qu’ils devraient prioritairement lire pour comprendre un site. La symétrie est élégante. Elle est aussi son principal defaut.

Le problème de fond : aucune obligation

Robots.txt fonctionne parce que les crawlers majeurs ont fait le choix de le respecter. Ce n’est pas une obligation legale, c’est une convention adoptee par Google, Bing, et la plupart des acteurs sérieux. La force du standard tient a cette adhesion volontaire, qui est elle-même renforcee par la pression de la communaute web.

Llms.txt n’a pas cette adhesion. En avril 2026, aucun moteur génératif majeur (Google, OpenAI, Anthropic, Perplexity) n’a publiquement confirme prendre en compte le fichier llms.txt dans son comportement de grounding. Plusieurs ont dit explicitement qu’ils ne le lisaient pas, ou qu’ils continuaient a se reposer sur leur crawl classique.

Le fichier existe donc, mais il n’a pas de destinataire actif. C’est une lettre adressee a personne en particulier, qui peut être lue ou ignorée. La majorité des moteurs choisit l’ignorer.

Ce que mesure BuiltWith

BuiltWith maintient un compteur public d’adoption du fichier llms.txt. En avril 2026, le tracker recense quelques milliers de domaines qui hebergent un fichier valide. Le chiffre semble modeste rapporte aux dizaines de millions de sites actifs sur le web. Mais il est intéressant a regarder dans sa composition.

Les domaines qui adoptent llms.txt se repartissent grosso modo en trois catégories. La première regroupe les outils de développement (Anthropic, FastHTML, Cursor) qui ont besoin que les modèles puissent générer du code utilisant leurs API a partir d’une documentation a jour. La deuxième regroupe les sites de documentation technique de gros éditeurs SaaS. La troisième, plus heteroclite, regroupe des sites éditoriaux et e-commerce qui ont adopte le standard de manière proactive en pariant sur son adoption future.

Le profil est revelateur. Llms.txt a une utilité réelle dans un cas précis : permettre a un développeur d’instruire son agent IA local en l’orientant vers la documentation officielle a jour. Hors de ce cas, l’utilité n’est pas demontree.

La syntaxe en pratique

Voici un exemple minimal de fichier llms.txt valide :

# Mon Site

> Magazine francophone consacre au generative engine optimization.

## Articles fondamentaux

- [Definir le GEO](/fondations/lecon-01-quest-ce-que-le-geo): introduction au domaine
- [AI Mode de Google](/fondations/lecon-04-comment-un-llm-cite): synthese du moteur AI Mode

## Etudes de cas

- [Une ressource hub vue par Perplexity](/etudes-de-cas/qonto): demarche

## Outils

- [Inventaire des outils GEO](/outils): selection commentee

Le format est volontairement minimal. Pas de schema complexe, pas de balises etendues, pas de metadata sophistiquee. C’est de la prose markdown structurée, lisible par un humain et par un modèle.

La variante llms-full.txt ajoute le contenu textuel complet de chaque page après le titre H2 correspondant. Le fichier devient énorme sur un site de taille moyenne (plusieurs megaoctets), ce qui pose un problème de bande passante a chaque acces. La proposition resté donc plus théorique que pratique sur cette variante.

La position des moteurs

Examinons ce qu’on sait des positions officielles, en avril 2026.

OpenAI n’a pas pris position publique sur llms.txt. Ses bots (GPTBot, OAI-SearchBot) crawlent les sites en suivant robots.txt classique, comme détaillé dans notre analyse du comportement des bots IA. Aucune indication que llms.txt joue un rôle.

Google a indique a plusieurs reprises que son moteur de recherche, y compris AI Mode, ne s’appuie pas sur llms.txt. John Mueller a confirme cette position sur les réseaux sociaux a plusieurs reprises depuis fin 2024.

Anthropic est plus intéressant. La documentation officielle de Claude indique que les modèles Claude peuvent prendre en compte llms.txt quand ils sont invoques par un agent qui les leur fournit explicitement (par exemple via l’API ou un outil développeur). Anthropic publié d’ailleurs son propre llms.txt sur docs.anthropic.com. Mais cela concerne l’usage agentique de Claude, pas le grounding du moteur Claude search.

Perplexity n’a pas pris position publique. Les tests menes en interne par plusieurs équipes ne montrent pas d’effet mesurable de la présence d’un fichier llms.txt sur le taux de citation.

Faut-il publier un llms.txt ?

La question mérite une réponse nuancee. Le cout de publication d’un llms.txt est très faible : un fichier markdown statique a la racine. Le risque de cout est nul. Le benefice attendu est lui-même proche de zéro, mais non strictement nul, dans deux cas.

Le premier cas est celui d’un site de documentation technique, surtout si l’objectif est que des agents IA (Cursor, Copilot, Claude Code) utilisent la documentation pour générer du code. Dans ce cas, llms.txt est utile, parce que les agents le consultent activement quand on les configure pour le faire.

Le second cas est un pari prospectif. Si llms.txt finit par être adopte comme standard de fait, les sites qui l’auront mis en place tôt beneficieront d’une avance, en complément du balisage Schema.org pour LLM. Le pari est faible (probabilité de succès du standard difficile a estimer), mais le cout d’engagement est lui aussi faible.

Pour la plupart des sites éditoriaux et commerciaux français, en avril 2026, la décision rationnelle est de publier un llms.txt simple, de ne pas y consacrer plus d’une heure de travail, et de ne pas en attendre d’effet mesurable a court terme. Tout positionnement plus enthousiaste relève des erreurs débutant en GEO.

Le contraste avec robots.txt

Pour conclure, il est utile de revenir a la comparaison initiale. Robots.txt a mis plusieurs années a devenir un standard de fait. Le fichier a été proposé en 1994 par Martijn Koster. La première RFC (RFC 9309) ne date que de 2022. Entré les deux, ce sont presque trente ans de pratique avant la formalisation.

Llms.txt a été proposé en 2024. L’attendre adopte universellement en deux ans est probablement deraisonnable. La question est plutôt : la pression sera-t-elle suffisante pour qu’il devienne, dans cinq ou dix ans, ce que robots.txt est aujourd’hui ? La réponse dépend moins de la qualité technique de la proposition que de l’intérêt des moteurs génératifs a se laisser guider par les sites qu’ils crawlent. Cet intérêt n’est pas évident. Les moteurs préfèrent rester libres de leurs choix de grounding.

Fact-checks de cet article

Les affirmations chiffrees ou contestables de l'article sont systematiquement verifiees et notees ici.

Questions frequentes

Les questions les plus posees a la redaction sur ce sujet, avec des reponses courtes verifiables.

  1. Qui a propose llms.txt ?

    Jeremy Howard, co-fondateur de fast.ai, en septembre 2024 sur llmstxt.org. La proposition n'a pas ete validee par un organisme de normalisation (W3C, IETF), elle reste une initiative individuelle adoptee par une communaute.

  2. Quelle est la difference entre llms.txt et llms-full.txt ?

    llms.txt liste les ressources principales avec des liens. llms-full.txt integre directement le contenu textuel des pages au lieu de simples liens, pour permettre a un modele d'avoir l'integralite du corpus accessible sans crawl.

  3. Combien de sites ont adopte llms.txt en 2026 ?

    BuiltWith mesure quelques milliers de domaines en avril 2026, ce qui reste marginal a l'echelle du web. L'adoption se concentre sur les sites tech et les pionniers de la communaute IA.

  4. Les moteurs IA respectent-ils llms.txt ?

    Aucun moteur generatif majeur (ChatGPT, Perplexity, AI Overviews, Gemini, Claude, Copilot) n'a confirme officiellement l'utiliser pour son grounding. La proposition reste sans adoption serieuse cote moteurs.

  5. Faut-il publier un llms.txt malgre tout ?

    Si le CMS le genere automatiquement, pas de raison de s'en priver. Le cout est nul. Si la generation demande un travail technique consequent, ce n'est pas un investissement prioritaire en GEO en 2026.

  6. Le format peut-il devenir un standard officiel ?

    C'est possible mais incertain. Sans validation par un organisme de normalisation et sans adoption par les grands moteurs, llms.txt restera marginal. Une evolution dependrait d'une decision officielle de Google, OpenAI ou Microsoft.

Sources

Les references ci-dessous ont nourri la redaction de cet article. Merci aux auteurs cites de partager publiquement leurs travaux.

  1. Proposal llms.txt . Jeremy Howard
  2. Adoption tracker llms.txt . BuiltWith

L'auteur

Portrait de Camille Lefebvre

Camille Lefebvre

Éditrice senior, Recherche & Outils

Camille Lefebvre couvre les outils GEO, les architectures RAG et les structurés techniques d'optimisation. Ingenieure de formation, elle a passé cinq ans côté produit chez un éditeur SaaS de marketing analytics avant de basculer côté rédaction pour traduire les notions techniques aux équipes marketing.

LinkedIn

Choix de la redaction parmi les articles qui prolongent celui-ci.

  1. Fondations

    Le fichier llms.txt en 2026, utile ou simple effet de mode

    Le bilan honnete pour debutants sur l'utilite reelle du llms.txt

    Lire
  2. Tactiques

    Schema.org pour le grounding LLM: ce qui est pris au sérieux, ce qui ne l'est pas

    Le balisage Schema.org, alternative serieusement utilisee par les moteurs

    Lire
  3. Tactiques

    Quels bots IA visitent vraiment votre site et que font-ils

    Comprendre quels bots IA visitent reellement votre site

    Lire
  4. Tactiques

    Être une entite Wikidata: pourquoi c'est devenu un prérequis

    Wikidata, infrastructure semantique avec adoption confirmee par les moteurs

    Lire
Tous les vendredis

La Lettre Academie GEO

Une sélection commentee des avancees GEO en français. Pas de roundup automatique : chaque envoi est lu, hiérarchisé et critique par la rédaction.

  • Une édition par semaine, jamais plus.
  • Pas de tracking dans les liens.
  • Desinscription en un clic.

En vous abonnant, vous acceptez de recevoir un courriel hebdomadaire. Vos données ne sont ni revendues ni partagees. Voir la politique de confidentialite.