Quelles sont les cinq etapes du pipeline RAG ?

Parsing de la requete (decomposer l'intention), retrieval (chercher des candidats), ranking (les ordonner), selection (en garder 3 a 10), generation (produire la reponse en citant). Chaque etape a ses leviers.

Quelle est la difference entre retrieval lexical et semantique ?

Le retrieval lexical (BM25) cherche les correspondances de mots. Le retrieval semantique (embeddings) cherche les proximites de sens. Les pipelines modernes combinent les deux pour eviter de manquer des sources pertinentes.

Combien de sources sont retenues dans la selection finale ?

Generalement entre 3 et 10 sources, selon les moteurs et la complexite de la requete. Perplexity et ChatGPT Search affichent souvent 5 a 8 sources. AI Overviews en cite generalement 3 a 5 visibles.

Sur quels criteres une source est-elle selectionnee ?

Pertinence (correspondance a l'intention), qualite (E-E-A-T, signaux d'autorite), freshness (date de publication), structure (chunks bien decoupes), unicite (apporter une information non redondante avec les autres sources retenues).

Quelle etape est la plus manipulable cote editeur ?

Le retrieval et la selection. Le parsing depend du moteur, le ranking integre des signaux globaux, la generation est le moins controlable. Optimiser le retrieval (qualite, structure, balisage) et faciliter la selection (chunks autonomes, autorite) donne les meilleurs resultats.

Le pipeline RAG est-il identique sur tous les moteurs ?

Non. Chaque moteur (Perplexity, ChatGPT Search, AI Overviews) a sa propre implementation. Les principes generaux du papier de Lewis et al restent valides, mais les ponderations et les details varient et evoluent dans le temps.

Comment un moteur génératif choisit ce qu'il cité

Par

Theo Roux

Éditeur pédagogie & cas

forme et publie sur le SEO francophone depuis 2016

Quand un moteur génératif renvoie une réponse avec trois sources, le cheminement qui a conduit a ces trois choix est plus complexe qu’il n’y paraît. Il faut imaginer un pipeline en cinq étapes. Comprendre chaque étape, c’est savoir ou agir pour augmenter ses chances d’être cité. Cette leçon détaillé la mecanique en termes simples, sans formules, et indique sur quoi un éditeur peut peser.

Les cinq étapes d’un pipeline de citation

Pour répondre a une question, un moteur génératif passé par cinq étapes. La reformulation de la requête, la récupération des candidats, le classement, la mise en contexte du modèle et enfin la génération du texte avec ses citations. Chaque étape a ses règles propres et son lot de leviers.

La première étape transforme votre question en une requête machine. Si vous demandez quelle est la différence entré TF et CF, le moteur reformule en interne, généralement en plusieurs requêtes plus courtes et plus précises selon une logique de query fan-out. Cette étape est invisible pour l’utilisateur mais décisive. Si la reformulation est mauvaise, la recherche partira dans une mauvaise direction. Pour un éditeur, le levier consiste a couvrir les variantes lexicales du sujet sur la page, sans bourrage. Si la page contient les termes Trust Flow, Citation Flow, Majestic et autorité de domaine, la chance d’être attrapee par une reformulation est plus élevée.

La deuxième étape récupère les candidats. Un moteur va chercher dans son index les documents qui correspondent a la requête reformulee. Deux logiques cohabitent. La récupération lexicale, qui repose sur des correspondances de mots, et la récupération semantique, qui repose sur des embeddings et leur optimisation, c’est-a-dire des représentations vectorielles du sens. Les moteurs génératifs combinent les deux. Pour un éditeur, le levier consiste a être indexe et a être clairement structure. Une page lourde, mal balisee ou bloquee aux crawlers ne fait pas partie du jeu.

Le classement des candidats

La troisième étape classe les candidats récupérés. La couche de recherche en garde plusieurs dizaines, parfois une centaine, et le moteur doit décider lesquels donner au modèle. Les criteres de classement sont multiples et combines. La pertinence par rapport a la requête reformulee, l’autorité du domaine, la fraicheur du contenu, la qualité percue, la coherence avec d’autres sources et, dans le cas de Google, le signal d’expérience utilisateur via Core Web Vitals et historique de comportement.

La page parfaite n’existe pas. Une page bien classee est une page qui équilibre cinq ou six signaux, jamais une qui en maximise un seul.

Pour un éditeur, ce qui paie sur cette étape est ce qui paie aussi sur le SEO classique. Une autorité de marque construite dans le temps, une couverture coherente d’un sujet, une mise a jour des contenus quand les faits changent. Mais un signal supplémentaire entré en jeu. La densite factuelle. Une page qui contient des chiffres, des dates, des définitions et des citations bien sourcees plait davantage aux moteurs génératifs, comme le démontre l’étude sur la densité de citation Princeton, parce qu’elle facilité le travail du modèle dans l’étape suivante.

La mise en contexte du modèle

La quatrième étape donné au modèle de langage les sources retenues, sous forme de fragments, selon les principes du structured chunking. Le modèle ne lit pas l’intégralité des pages, il reçoit des extraits, généralement quelques centaines a quelques milliers de tokens par source. Le choix des extraits est crucial. Si le moteur extrait une phrase peu informative, elle ne servira pas a grand-chose dans la réponse, même si la page entiere est excellente.

Pour un éditeur, le levier consiste a écrire des paragraphes auto-suffisants. Une définition complète dans un seul paragraphe, une statistique avec sa source dans la même phrase, une recommandation accompagnee de ses conditions sans renvoi au paragraphe d’avant. Cette logique va a contre-courant d’une partie du copywriting moderne qui aime les transitions et les références implicites. En GEO, on écrit pour être extrait, pas seulement pour être lu.

La génération et la citation

La cinquième étape génère la réponse. Le modèle compose un texte en s’appuyant sur les fragments de contexte, ajoute du lissage stylistique et insère les citations. Les citations ne sont pas distribuees au hasard. Le modèle tend a citer la source la plus précise sur chaque élément factuel, et la source la plus autoritaire sur les éléments de cadrage. Une page généraliste avec des chiffres flous gagnera moins de citations qu’une page spécialisée avec une statistique attribuee.

Le papier de Princeton de 2023 a testé neuf stratégies de rédaction sur cette étape. Trois ont montré des gains nets de visibilité. L’ajout de citations explicites a des sources tierces dans le texte, l’ajout de statistiques chiffrees et l’utilisation d’un vocabulaire technique précis. Ce sont les leviers redactionnels du GEO les mieux documentes a ce jour, formalisés dans le protocole de réécriture en 7 passes.

Tableau recapitulatif des étapes et leviers

Étape	Ce que fait le moteur	Levier éditeur
Reformulation	Transforme la question en requêtes machines	Couvrir les variantes lexicales du sujet
Récupération	Récupère les candidats par lexique et semantique	Être indexable, bien balise, structure
Classement	Trie les candidats selon plusieurs signaux	Autorité, fraicheur, densite factuelle
Mise en contexte	Extrait des fragments des sources retenues	Écrire des paragraphes auto-suffisants
Génération	Compose la réponse avec citations	Citations explicites, statistiques, lexique précis

Ce tableau ne dit pas que tous les moteurs fonctionnent exactement ainsi. Mais le squelette est partage par la majorité des produits du marché en 2026, y compris ChatGPT Search, Perplexity et Google AI Overviews, comme détaillé dans la cartographie des moteurs génératifs 2026.

La récupération lexicale et la récupération semantique

Un mot sur les deux logiques de récupération, parce qu’elles ont des conséquences pratiques. La récupération lexicale est rapide et explicable. Si le mot apparaît dans le document et dans la requête, le document est candidat. C’est ce que fait depuis longtemps un moteur classique avec des techniques comme BM25. La récupération semantique est plus subtile. Elle transforme la requête et les documents en vecteurs et compare leur proximite. Un document peut être récupère même s’il ne contient pas le mot exact de la requête, parce que son sens est proche.

Pour un éditeur, la conséquence est qu’il devient inutile de bourrer une page de mots-clés exacts. La récupération semantique attrape la page si le sujet est traite, même avec un autre vocabulaire. Mais inversement, une page floue qui parle d’un sujet sans le nommer clairement risque de ne plus être attrapee, ni en lexical ni en semantique. La règle est de nommer le sujet sans répétition mecanique, en utilisant les termes que les utilisateurs utilisent réellement.

Avant de passer a la suite

La prochaine fois qu’un moteur génératif vous répond avec trois sources, prenez deux minutes pour deviner ou se sont jouees les choses. Était-ce une question de pertinence ou d’autorité ? Les pages citées sont-elles structurées ou massives ? Y a-t-il des chiffres dans la réponse, et si oui, sont-ils attribues a une source ? Cette habitude d’observation vaut plus que beaucoup de cours.

Questions frequentes

Les questions les plus posees a la redaction sur ce sujet, avec des reponses courtes verifiables.

Quelles sont les cinq etapes du pipeline RAG ?

Parsing de la requete (decomposer l'intention), retrieval (chercher des candidats), ranking (les ordonner), selection (en garder 3 a 10), generation (produire la reponse en citant). Chaque etape a ses leviers.
Quelle est la difference entre retrieval lexical et semantique ?

Le retrieval lexical (BM25) cherche les correspondances de mots. Le retrieval semantique (embeddings) cherche les proximites de sens. Les pipelines modernes combinent les deux pour eviter de manquer des sources pertinentes.
Combien de sources sont retenues dans la selection finale ?

Generalement entre 3 et 10 sources, selon les moteurs et la complexite de la requete. Perplexity et ChatGPT Search affichent souvent 5 a 8 sources. AI Overviews en cite generalement 3 a 5 visibles.
Sur quels criteres une source est-elle selectionnee ?

Pertinence (correspondance a l'intention), qualite (E-E-A-T, signaux d'autorite), freshness (date de publication), structure (chunks bien decoupes), unicite (apporter une information non redondante avec les autres sources retenues).
Quelle etape est la plus manipulable cote editeur ?

Le retrieval et la selection. Le parsing depend du moteur, le ranking integre des signaux globaux, la generation est le moins controlable. Optimiser le retrieval (qualite, structure, balisage) et faciliter la selection (chunks autonomes, autorite) donne les meilleurs resultats.
Le pipeline RAG est-il identique sur tous les moteurs ?

Non. Chaque moteur (Perplexity, ChatGPT Search, AI Overviews) a sa propre implementation. Les principes generaux du papier de Lewis et al restent valides, mais les ponderations et les details varient et evoluent dans le temps.

Comment un moteur génératif choisit ce qu'il cité

Les cinq étapes d’un pipeline de citation

Le classement des candidats

La mise en contexte du modèle

La génération et la citation

Tableau recapitulatif des étapes et leviers

La récupération lexicale et la récupération semantique

Avant de passer a la suite

Questions frequentes

Sources

L'auteur

Theo Roux

La Lettre Academie GEO

Les cinq étapes d’un pipeline de citation

Le classement des candidats

La mise en contexte du modèle

La génération et la citation

Tableau recapitulatif des étapes et leviers

La récupération lexicale et la récupération semantique

Avant de passer a la suite

Questions frequentes

Sources

L'auteur

Theo Roux

Pour continuer

La Lettre Academie GEO