L'anaphore : de « I have a dream » aux induction heads, la figure que le Transformer sait imiter mécaniquement
Quatrième article de la série sur les figures rhétoriques à l'ère de l'IA. Après la correctio, le mécanisme de la négation dans les LLM et le tricolon, l'anaphore — la figure de la répétition initiale qui structure autant « I have a dream » que les sorties générées par les grands modèles.
Washington, 28 août 1963. Martin Luther King prend la parole devant le Lincoln Memorial. Deux cent cinquante mille personnes sont venues. Il lit le discours qu'il a préparé. Mahalia Jackson, à deux mètres de lui, crie : « Tell them about the dream, Martin! » King quitte ses notes. Il improvise.
Huit fois en onze minutes, il prononce la même formule : « I have a dream ». J'ai un rêve. Huit entrées identiques, suivies à chaque fois d'une image différente — ses enfants jugés par le contenu de leur caractère, les collines rouges de Géorgie, la petite fille noire et le petit garçon blanc qui se tiennent par la main.
Dans le même discours, deux autres anaphores se superposent à la première : « Now is the time » quatre fois, « Let freedom ring » dix fois. Le discours entier est un échafaudage de répétitions initiales — quinze au total, sans compter les variations mineures.
Ce 28 août 1963 n'est pas une prouesse oratoire isolée. C'est l'application d'une figure que Cicéron enseignait deux mille ans auparavant, que le mécanisme d'attention d'un Transformer reproduit aujourd'hui de façon quasi littérale, et que l'IA moderne utilise massivement sans toujours la maîtriser. L'anaphore.
La figure, telle que les Grecs l'avaient nommée
Le mot vient du grec ἐπαναφορά (epanaphora) — littéralement « re-porter », ramener, reprendre. Aristote en parle dans la Rhétorique (III, 9) comme d'un moyen du parallélisme rythmique. La Rhetorica ad Herennium — longtemps attribuée à Cicéron, aujourd'hui considérée anonyme — en donne la définition canonique au livre IV, 13, 19 : « cum continenter ab uno atque eodem verbo in rebus similibus et diversis principia sumuntur ». Quand plusieurs segments successifs commencent par le même mot.
Quintilien, dans l'Institution Oratoire (IX, 3, 30-31), distingue rigoureusement l'anaphore de trois figures voisines qu'on confond souvent avec elle.
L'épiphore — épistrophe dans sa variante grecque, les deux termes coexistent — fait exactement l'inverse de l'anaphore : elle répète le même mot ou la même structure en fin de segments successifs. Exemple classique : « Qui l'a décidé ? Ils l'ont décidé. Qui l'a voté ? Ils l'ont voté. Qui en porte la responsabilité ? Ils en portent la responsabilité. » Le refrain tombe à la clôture, pas à l'ouverture. La symploque combine les deux — anaphore en début, épiphore en fin — pour obtenir un écho double, très présent dans les litanies religieuses et les refrains de chansons populaires. L'anadiplose, enfin, reprend en début d'une nouvelle proposition le mot qui terminait la précédente, créant une chaîne d'échos (« La force mène à la peur, la peur mène à la colère, la colère mène à la haine… » — structure utilisée par Yoda dans La Menace fantôme).
L'anaphore seule reste la plus présente dans l'histoire oratoire, parce qu'elle est la plus simple à exécuter et la plus accessible à l'oreille. Elle consiste à dire la même chose au même endroit, encore et encore, en ne changeant que ce qui vient après.
Heinrich Lausberg, dans son Handbook of Literary Rhetoric (Brill, 1998, §§ 629-630), recense des centaines d'exemples sur deux mille cinq cents ans. La figure est stable. La figure est universelle. La figure est, à juste titre, sur-représentée dans les discours qui ont marqué l'histoire.
Une distinction à poser d'emblée : rhétorique vs référentielle
Avant d'aller plus loin, un piège terminologique mérite d'être nommé. En linguistique contemporaine, le mot « anaphore » désigne deux choses différentes.
L'anaphore rhétorique — celle de cet article, celle de MLK, celle de Cicéron — est une répétition volontaire en début de segments successifs. C'est une figure stylistique.
L'anaphore référentielle — celle qu'étudient Halliday et Hasan dans Cohesion in English (Longman, 1976) — est un mécanisme grammatical de reprise par pronom (« Jean est arrivé. Il était en retard »). C'est une figure de cohésion.
Les deux usent du mot. Les deux concernent la répétition. Elles n'obéissent ni aux mêmes règles ni aux mêmes fonctions. La suite de cet article porte exclusivement sur la première.
Le fondement cognitif : pourquoi le cerveau aime qu'on répète
La répétition initiale n'est pas un simple ornement phonique. Elle remplit une fonction cognitive précise, documentée par la psycholinguistique.
Amit Almor, dans Noun-phrase anaphora and focus: The informational load hypothesis (Psychological Review, 1999, vol. 106, n° 4), formalise le principe. Chaque fois qu'un lecteur ou un auditeur rencontre un élément nouveau dans une phrase, il doit allouer de la mémoire de travail pour en construire le sens. Cette allocation est coûteuse. Elle occupe des ressources qui ne sont plus disponibles pour comprendre le reste.
Quand la structure initiale d'une phrase est déjà connue — parce qu'elle a été posée une première fois puis répétée à l'identique —, le coût d'allocation chute drastiquement. Le lecteur sait déjà où il va attendre l'information variable. Il peut mobiliser ses ressources cognitives sur ce qui change — le contenu de l'image, l'angle, la nuance — plutôt que sur la reconstruction du cadre syntaxique.
Morton Ann Gernsbacher, dans Language Comprehension as Structure Building (Erlbaum, 1990), nomme ce mécanisme la structure building. Le premier élément d'une série anaphorique construit la structure ; les éléments suivants la réutilisent. Le cerveau humain, économe de ses ressources, adore cette architecture.
Conséquence directe : une anaphore bien composée ne fatigue pas le lecteur. Elle le soulage. Elle lui laisse la bande passante cognitive nécessaire pour ressentir le crescendo que les images successives construisent.
Les grandes anaphores de l'histoire
Les discours qui ont marqué l'histoire exploitent presque tous la figure.
Cicéron, In Catilinam I, 1, au Sénat romain en 63 avant J.-C. : « Quousque tandem abutere, Catilina, patientia nostra? Quamdiu etiam furor iste tuus nos eludet? Quem ad finem sese effrenata iactabit audacia? » — jusqu'à quand encore, jusqu'à combien de temps, jusqu'à quel terme. Trois interrogations rhétoriques qui martèlent la même pression.
Abraham Lincoln, Gettysburg Address, 19 novembre 1863 : « government of the people, by the people, for the people » — qui est tricolon autant qu'anaphore, puisque la préposition varie sur un noyau répété « the people ».
Winston Churchill, Chambre des Communes, 4 juin 1940 (Hansard vol. 361, cc787-798). L'Angleterre vient d'évacuer Dunkerque. Il prononce la phrase qui va devenir iconique :
« We shall fight on the beaches, we shall fight on the landing grounds, we shall fight in the fields and in the streets, we shall fight in the hills ; we shall never surrender. »
Six « we shall fight » dans une seule période syntaxique. Puis la clôture — « we shall never surrender » — qui brise la répétition pour asséner la résolution. La rupture finale du pattern est ce qui donne sa force au crescendo.
Martin Luther King, Lincoln Memorial, 28 août 1963. La phrase « I have a dream » apparaît huit fois, entrelacée avec « Now is the time » (quatre fois) et « Let freedom ring » (dix fois). Analyse rhétorique complète dans Keith Miller, Voice of Deliverance (1992).
François Hollande, débat d'entre-deux-tours de la présidentielle française, 2 mai 2012, face à Nicolas Sarkozy. Au milieu d'un échange jusque-là conventionnel, Hollande lance la tirade qui va structurer le reste de sa campagne : « Moi président de la République, je ne serai pas… Moi président de la République, je ne traiterai pas… Moi président de la République, je ferai en sorte que… ». Quinze occurrences de « Moi président de la République » en l'espace de trois minutes. Sur le plan contenu, chaque proposition pose un engagement comportemental. Sur le plan rhétorique, chaque répétition enferme progressivement Sarkozy dans la position de l'opposé — celui qui, implicitement, a fait ce que Hollande dit ne pas vouloir faire. L'anaphore devient arme dialectique. Le lendemain, toute la presse titrera sur cette séquence, qui entrera dans les manuels de communication politique comme un cas d'école.
Barack Obama, New Hampshire concession speech, 8 janvier 2008. « Yes we can » ferme chaque paragraphe du deuxième tiers du discours. Il ne s'agit pas d'anaphore au sens strict — la répétition se trouve en fin de segments, pas en début — mais de la figure sœur, l'épiphore. Les deux structures produisent un effet proche, par des moyens miroir.
Aucun de ces discours ne serait entré dans l'Histoire avec une prose plate. L'anaphore est ce qui transforme une série d'arguments en ligne mélodique, une ligne mélodique en émotion, une émotion en mémoire durable.
Le mécanisme côté LLM : les induction heads
Voici le fait qui noue cette série d'articles. Quand un Transformer — l'architecture derrière tous les grands modèles de langage — traite du texte, il dispose d'un circuit d'attention spécifique, particulièrement sensible aux patterns répétitifs, appelé induction head.
Nelson Elhage et ses collègues d'Anthropic l'identifient en 2021 dans A Mathematical Framework for Transformer Circuits. Catherine Olsson et al. le formalisent en 2022 dans In-context Learning and Induction Heads (arXiv:2209.11895). Le principe est précis.
Un induction head est un circuit à deux têtes d'attention qui apprend à détecter, puis à compléter, des patterns de la forme [A][B] ... [A] → [B]. Autrement dit : quand le modèle a déjà vu le token A suivi du token B dans le contexte, et qu'il rencontre à nouveau A, il prédit B avec une probabilité accrue.
Appliqué à l'anaphore, le mécanisme est quasi littéral. Une fois que le modèle a vu « I have a dream that my four little children... », il a appris localement que l'entrée « I have a dream » peut être suivie par une description de vision. À la prochaine occurrence de « I have a dream », l'induction head pousse activement la distribution de probabilité vers une continuation structurée — une seconde description de vision — plutôt qu'une sortie arbitraire.
Clark, Khandelwal, Levy et Manning, dans What Does BERT Look At? (arXiv:1906.04341, BlackboxNLP 2019), avaient déjà identifié des têtes de coréférence dédiées. Vig et Belinkov, dans Analyzing the Structure of Attention in a Transformer Language Model (arXiv:1906.04284, 2019), cartographient les heads spécialisés dans les patterns parallèles. Olsson et ses collègues synthétisent ces observations en une architecture : l'induction head est un composant fondamental du in-context learning, la capacité des grands modèles à apprendre des patterns à la volée sans modifier leurs poids.
L'anaphore est, du point de vue d'un Transformer, la structure la plus facile à reproduire. Il en a un circuit dédié. Il a tout intérêt à l'utiliser.
La saturation caractéristique de l'IA
Les LLM modernes exploitent l'induction head en sortie. Ils produisent spontanément des structures anaphoriques, souvent sans que l'utilisateur en fasse la demande. Les formulations récurrentes « Vous avez besoin de... Vous voulez... Vous cherchez à... » en fin de messages ChatGPT sont une illustration directe. Les listes à puces commençant toutes par le même verbe « Analyser... Structurer... Livrer... » également.
Liang et al. (2024, Monitoring AI-Modified Content at Scale, arXiv:2403.07183) documentent la sur-représentation des patterns anaphoriques parmi les marqueurs stylométriques stables de l'écriture IA. Juzek et Ward (2024, Why Does ChatGPT 'Delve' So Much?, arXiv:2412.11385) appliquent une méthodologie similaire aux tics lexicaux. Les deux études convergent : la répétition structurée est un signe de fabrique que les détecteurs automatiques utilisent pour identifier le texte généré.
Pourquoi ? Deux hypothèses se superposent.
La première est architecturale. L'induction head, optimisé par l'entraînement, favorise naturellement les patterns parallèles. Le modèle ne décide pas d'empiler trois anaphores — il le fait parce que son circuit d'attention le pousse à suivre la pente de moindre perplexité.
La seconde est pédagogique. Les annotateurs humains qui ont évalué les sorties d'alignement RLHF tendent à préférer les réponses structurées, listables, symétriques. Cette préférence, propagée par le reinforcement learning from human feedback, ancre l'anaphore dans les comportements récompensés du modèle. À ce jour, aucune étude publiée ne le démontre formellement, mais la convergence avec les observations stylométriques est frappante.
Anaphore plate ou anaphore en crescendo
Toutes les anaphores ne se valent pas. Jeanne Fahnestock, dans Rhetorical Figures in Science (Oxford University Press, 1999, chapitre 4), pose la distinction capitale entre la répétition qui crescendo et la répétition qui monotone.
Une anaphore en crescendo utilise la structure fixe pour libérer des ressources cognitives qui nourrissent une progression sémantique. Les images qui suivent « I have a dream » ne se contentent pas de remplir un slot — elles montent en puissance, en généralité, en émotion. Les deux enfants qui se tiennent la main succèdent aux collines rouges, qui succédaient à l'injustice contemporaine. La forme ne change pas ; le fond monte.
Une anaphore monotone, à l'inverse, répète la structure sans progression. Les variables qui suivent sont du même niveau, dans le même registre, sans élévation. Le lecteur comprend vite qu'il ne se passe rien — et perd son intérêt.
L'IA produit majoritairement des anaphores monotones. Pas parce que l'architecture la force à cela, mais parce que la progression sémantique exige une intention auctoriale qu'un modèle statistique de prédiction ne porte pas naturellement. Il reproduit la forme. Il ne construit pas le crescendo.
C'est précisément là, dans l'écart entre la répétition formelle et la progression sémantique, que se loge la différence entre une rédaction humaine maîtrisée et une sortie IA brute. L'anaphore est une invitation à monter. Ne pas monter, c'est transformer l'invitation en insistance pénible.
Implications pratiques
Pour l'écriture professionnelle, trois règles se dégagent.
Utiliser l'anaphore seulement quand une progression sémantique accompagne la répétition formelle. Si les éléments qui suivent se valent tous en intensité, en niveau, en registre, la figure n'apporte rien. Elle se transforme en un tambour répétitif qui fatigue.
Doser la longueur. Trois occurrences suffisent en général. Cinq maximum pour un texte court. Au-delà, seule une performance orale soutenue par le rythme et l'intonation peut tenir la charge — c'est pourquoi MLK en empile huit, mais il le fait à la voix, devant deux cent cinquante mille personnes. L'écrit ne pardonne pas la même densité.
Casser l'anaphore avant la fin pour créer la résolution. Le « we shall never surrender » de Churchill qui rompt la cadence des six « we shall fight » est la signature d'une anaphore magistrale. L'auditeur attend la répétition ; la rupture finale emporte l'adhésion. L'IA, privée de cette intention, répète jusqu'au bout. Ajouter manuellement la rupture après coup est souvent ce qui transforme une anaphore générée en figure maîtrisée.
Ce que l'anaphore nous apprend
L'anaphore est l'une des rares figures rhétoriques pour lesquelles on peut dessiner une correspondance mécanique quasi littérale entre le circuit d'attention d'un Transformer et la pratique oratoire d'un humain. Les deux exploitent la même mécanique : une structure initiale fixe libère des ressources cognitives pour traiter la variation qui suit.
Cicéron l'avait observé. Martin Luther King l'avait intégré au point d'en faire l'improvisation centrale de son discours le plus connu. Les ingénieurs d'Anthropic l'ont découvert en cartographiant les circuits internes de leurs modèles — et ont donné au mécanisme un nom technique qui aurait fait sourire Quintilien : induction head, tête d'induction. Le vocabulaire change. Le principe est le même.
Ce que cela nous dit, à nous qui écrivons à l'ère des LLM, est simple. Reconnaître la figure, la nommer, comprendre ce qu'elle fait au cerveau et au modèle, permet de l'utiliser avec précision. Une anaphore juste vaut mille adjectifs. Une anaphore plate trahit une production automatique sans relecture.
L'enjeu n'est pas de bannir la figure. L'enjeu est de lui donner la progression qu'elle réclame.
Le prochain article de la série explorera le chiasme — la figure qui inverse l'ordre des termes pour obtenir un effet de symétrie renversée. Une structure que l'IA produit beaucoup moins naturellement que l'anaphore — et qui mérite, pour cette raison précise, qu'on s'y arrête.
Sources principales
- Aristote, Rhétorique, III, 9 (1410a).
- Rhetorica ad Herennium (anonyme, Ier s. av. J.-C.), IV, 13, 19.
- Quintilien, Institution Oratoire, IX, 3, 30-31.
- Lausberg, H. (1998). Handbook of Literary Rhetoric. Brill. §§ 629-630.
- Lanham, R. (1991). A Handlist of Rhetorical Terms. 2e éd.
- Halliday, M. A. K. & Hasan, R. (1976). Cohesion in English. Longman. (Anaphore référentielle, à ne pas confondre.)
- Almor, A. (1999). Noun-phrase anaphora and focus: The informational load hypothesis. Psychological Review, 106(4), 748-765.
- Gernsbacher, M. A. (1990). Language Comprehension as Structure Building. Erlbaum.
- Givón, T. (1983). Topic Continuity in Discourse. Benjamins.
- Jakobson, R. (1960). Linguistics and Poetics, in Style in Language (Sebeok, éd.).
- Fahnestock, J. (1999). Rhetorical Figures in Science. Oxford University Press, chap. 4.
- Miller, K. (1992). Voice of Deliverance: The Language of Martin Luther King, Jr., and Its Sources. Free Press.
- Houck, D. & Dixon, D. (2006). Rhetoric, Religion and the Civil Rights Movement. Baylor University Press.
- Clark, K., Khandelwal, U., Levy, O. & Manning, C. (2019). What Does BERT Look At? An Analysis of BERT's Attention. BlackboxNLP. arXiv:1906.04341.
- Vig, J. & Belinkov, Y. (2019). Analyzing the Structure of Attention in a Transformer Language Model. arXiv:1906.04284.
- Elhage, N. et al. (2021). A Mathematical Framework for Transformer Circuits. Anthropic. transformer-circuits.pub/2021/framework/.
- Olsson, C. et al. (2022). In-context Learning and Induction Heads. arXiv:2209.11895.
- Liang, W. et al. (2024). Monitoring AI-Modified Content at Scale. Stanford. arXiv:2403.07183.
- Juzek, T. & Ward, Z. (2024). Why Does ChatGPT 'Delve' So Much?. arXiv:2412.11385.
- Discours historiques : Churchill (Hansard vol. 361, 4 juin 1940) ; Lincoln (Gettysburg Address, 19 novembre 1863) ; MLK (28 août 1963, archives.gov) ; Obama (New Hampshire, 8 janvier 2008) ; Cicéron, In Catilinam I.