La anáfora: de «I have a dream» a las induction heads, la figura que el Transformer sabe imitar mecánicamente
Cuarto artículo de la serie sobre las figuras retóricas en la era de la IA. Tras la correctio, el mecanismo de la negación en los LLM y el tricolon, la anáfora — la figura de la repetición inicial que estructura tanto «I have a dream» como las salidas generadas por los grandes modelos.
Washington, 28 de agosto de 1963. Martin Luther King toma la palabra ante el Lincoln Memorial. Doscientas cincuenta mil personas han acudido. Lee el discurso que ha preparado. Mahalia Jackson, a dos metros de él, grita: «Tell them about the dream, Martin!» King abandona sus notas. Improvisa.
Ocho veces en once minutos pronuncia la misma fórmula: «I have a dream». Tengo un sueño. Ocho entradas idénticas, seguidas cada vez de una imagen diferente — sus hijos juzgados por el contenido de su carácter, las colinas rojas de Georgia, la niña negra y el niño blanco que se dan la mano.
En el mismo discurso, otras dos anáforas se superponen a la primera: «Now is the time» cuatro veces, «Let freedom ring» diez veces. El discurso entero es un andamiaje de repeticiones iniciales — quince en total, sin contar las variaciones menores.
Ese 28 de agosto de 1963 no es una proeza oratoria aislada. Es la aplicación de una figura que Cicerón enseñaba dos mil años antes, que el mecanismo de atención de un Transformer reproduce hoy de forma casi literal, y que la IA moderna utiliza masivamente sin dominarla siempre. La anáfora.
La figura, tal como la habían nombrado los griegos
La palabra viene del griego ἐπαναφορά (epanaphora) — literalmente «re-portar», traer de vuelta, retomar. Aristóteles habla de ella en la Retórica (III, 9) como de un recurso del paralelismo rítmico. La Rhetorica ad Herennium — durante mucho tiempo atribuida a Cicerón, hoy considerada anónima — da su definición canónica en el libro IV, 13, 19: «cum continenter ab uno atque eodem verbo in rebus similibus et diversis principia sumuntur». Cuando varios segmentos sucesivos comienzan por la misma palabra.
Quintiliano, en la Institución Oratoria (IX, 3, 30-31), distingue rigurosamente la anáfora de tres figuras vecinas con las que a menudo se la confunde.
La epífora — epístrofe en su variante griega, los dos términos coexisten — hace exactamente lo contrario de la anáfora: repite la misma palabra o la misma estructura al final de segmentos sucesivos. Ejemplo clásico: «¿Quién lo decidió? Ellos lo decidieron. ¿Quién lo votó? Ellos lo votaron. ¿Quién carga con la responsabilidad? Ellos cargan con la responsabilidad.» El estribillo cae en el cierre, no en la apertura. La símploque combina ambas — anáfora al principio, epífora al final — para obtener un eco doble, muy presente en las letanías religiosas y en los estribillos de canciones populares. La anadiplosis, en fin, retoma al principio de una nueva proposición la palabra que terminaba la anterior, creando una cadena de ecos («La fuerza lleva al miedo, el miedo lleva a la ira, la ira lleva al odio…» — estructura utilizada por Yoda en La Amenaza Fantasma).
La anáfora sola sigue siendo la más presente en la historia oratoria, porque es la más sencilla de ejecutar y la más accesible al oído. Consiste en decir lo mismo en el mismo lugar, una y otra vez, cambiando únicamente lo que viene después.
Heinrich Lausberg, en su Handbook of Literary Rhetoric (Brill, 1998, §§ 629-630), recopila centenares de ejemplos a lo largo de dos mil quinientos años. La figura es estable. La figura es universal. La figura está, con razón, sobrerrepresentada en los discursos que han marcado la historia.
Una distinción que conviene fijar de entrada: retórica vs. referencial
Antes de seguir adelante, merece la pena nombrar una trampa terminológica. En lingüística contemporánea, la palabra «anáfora» designa dos cosas diferentes.
La anáfora retórica — la de este artículo, la de MLK, la de Cicerón — es una repetición voluntaria al principio de segmentos sucesivos. Es una figura estilística.
La anáfora referencial — la que estudian Halliday y Hasan en Cohesion in English (Longman, 1976) — es un mecanismo gramatical de retoma por pronombre («Juan ha llegado. Estaba retrasado»). Es una figura de cohesión.
Las dos usan la palabra. Las dos conciernen a la repetición. No obedecen ni a las mismas reglas ni a las mismas funciones. El resto de este artículo trata exclusivamente de la primera.
El fundamento cognitivo: por qué al cerebro le gusta que se repita
La repetición inicial no es un simple ornamento fónico. Cumple una función cognitiva precisa, documentada por la psicolingüística.
Amit Almor, en Noun-phrase anaphora and focus: The informational load hypothesis (Psychological Review, 1999, vol. 106, n.º 4), formaliza el principio. Cada vez que un lector o un oyente encuentra un elemento nuevo en una frase, debe asignar memoria de trabajo para construir su sentido. Esa asignación es costosa. Ocupa recursos que ya no quedan disponibles para comprender el resto.
Cuando la estructura inicial de una frase ya es conocida — porque ha sido planteada una primera vez y luego repetida idéntica —, el coste de asignación cae drásticamente. El lector ya sabe dónde va a esperar la información variable. Puede movilizar sus recursos cognitivos en lo que cambia — el contenido de la imagen, el ángulo, el matiz — en lugar de en la reconstrucción del marco sintáctico.
Morton Ann Gernsbacher, en Language Comprehension as Structure Building (Erlbaum, 1990), llama a este mecanismo la structure building. El primer elemento de una serie anafórica construye la estructura; los elementos siguientes la reutilizan. El cerebro humano, ahorrador de sus recursos, adora esta arquitectura.
Consecuencia directa: una anáfora bien compuesta no fatiga al lector. Lo alivia. Le deja el ancho de banda cognitivo necesario para sentir el crescendo que las imágenes sucesivas construyen.
Las grandes anáforas de la historia
Los discursos que han marcado la historia explotan casi todos la figura.
Cicerón, In Catilinam I, 1, ante el Senado romano en el 63 antes de Cristo: «Quousque tandem abutere, Catilina, patientia nostra? Quamdiu etiam furor iste tuus nos eludet? Quem ad finem sese effrenata iactabit audacia?» — hasta cuándo todavía, hasta cuánto tiempo, hasta qué término. Tres interrogaciones retóricas que martillean la misma presión.
Abraham Lincoln, Gettysburg Address, 19 de noviembre de 1863: «government of the people, by the people, for the people» — que es tanto tricolon como anáfora, puesto que la preposición varía sobre un núcleo repetido «the people».
Winston Churchill, Cámara de los Comunes, 4 de junio de 1940 (Hansard vol. 361, cc787-798). Inglaterra acaba de evacuar Dunkerque. Pronuncia la frase que se volverá icónica:
«We shall fight on the beaches, we shall fight on the landing grounds, we shall fight in the fields and in the streets, we shall fight in the hills ; we shall never surrender.»
Seis «we shall fight» en un solo período sintáctico. Después el cierre — «we shall never surrender» — que rompe la repetición para asestar la resolución. La ruptura final del patrón es lo que da su fuerza al crescendo.
Martin Luther King, Lincoln Memorial, 28 de agosto de 1963. La frase «I have a dream» aparece ocho veces, entrelazada con «Now is the time» (cuatro veces) y «Let freedom ring» (diez veces). Análisis retórico completo en Keith Miller, Voice of Deliverance (1992).
François Hollande, debate de la segunda vuelta de las presidenciales francesas, 2 de mayo de 2012, frente a Nicolas Sarkozy. En medio de un intercambio hasta entonces convencional, Hollande lanza la parrafada que estructurará el resto de su campaña: «Yo presidente de la República, no seré… Yo presidente de la República, no trataré… Yo presidente de la República, haré de modo que…». Quince ocurrencias de «Yo presidente de la República» en el espacio de tres minutos. En el plano del contenido, cada proposición plantea un compromiso de comportamiento. En el plano retórico, cada repetición encierra progresivamente a Sarkozy en la posición del opuesto — el que, implícitamente, sí hizo lo que Hollande dice no querer hacer. La anáfora se convierte en arma dialéctica. Al día siguiente, toda la prensa titulará sobre esa secuencia, que entrará en los manuales de comunicación política como un caso de escuela.
Barack Obama, New Hampshire concession speech, 8 de enero de 2008. «Yes we can» cierra cada párrafo del segundo tercio del discurso. No se trata de anáfora en sentido estricto — la repetición se encuentra al final de los segmentos, no al principio — sino de la figura hermana, la epífora. Las dos estructuras producen un efecto cercano, por medios espejo.
Ninguno de estos discursos habría entrado en la Historia con una prosa plana. La anáfora es lo que transforma una serie de argumentos en línea melódica, una línea melódica en emoción, una emoción en memoria duradera.
El mecanismo del lado de los LLM: las induction heads
He aquí el hecho que anuda esta serie de artículos. Cuando un Transformer — la arquitectura detrás de todos los grandes modelos de lenguaje — procesa texto, dispone de un circuito de atención específico, particularmente sensible a los patrones repetitivos, llamado induction head.
Nelson Elhage y sus colegas de Anthropic lo identifican en 2021 en A Mathematical Framework for Transformer Circuits. Catherine Olsson et al. lo formalizan en 2022 en In-context Learning and Induction Heads (arXiv:2209.11895). El principio es preciso.
Una induction head es un circuito de dos cabezas de atención que aprende a detectar, y luego a completar, patrones de la forma [A][B] … [A] → [B]. Dicho de otro modo: cuando el modelo ya ha visto el token A seguido del token B en el contexto, y vuelve a encontrar A, predice B con una probabilidad aumentada.
Aplicado a la anáfora, el mecanismo es casi literal. Una vez que el modelo ha visto «I have a dream that my four little children…», ha aprendido localmente que la entrada «I have a dream» puede ir seguida de una descripción de visión. En la siguiente ocurrencia de «I have a dream», la induction head empuja activamente la distribución de probabilidad hacia una continuación estructurada — una segunda descripción de visión — en lugar de una salida arbitraria.
Clark, Khandelwal, Levy y Manning, en What Does BERT Look At? (arXiv:1906.04341, BlackboxNLP 2019), ya habían identificado cabezas de correferencia dedicadas. Vig y Belinkov, en Analyzing the Structure of Attention in a Transformer Language Model (arXiv:1906.04284, 2019), cartografían las heads especializadas en los patrones paralelos. Olsson y sus colegas sintetizan estas observaciones en una arquitectura: la induction head es un componente fundamental del in-context learning, la capacidad de los grandes modelos de aprender patrones sobre la marcha sin modificar sus pesos.
La anáfora es, desde el punto de vista de un Transformer, la estructura más fácil de reproducir. Tiene un circuito dedicado a ella. Tiene todo el interés en utilizarla.
La saturación característica de la IA
Los LLM modernos explotan la induction head en la salida. Producen espontáneamente estructuras anafóricas, a menudo sin que el usuario lo pida. Las formulaciones recurrentes «Necesitas… Quieres… Buscas…» al final de los mensajes de ChatGPT son una ilustración directa. Las listas con viñetas que comienzan todas por el mismo verbo «Analizar… Estructurar… Entregar…» también.
Liang et al. (2024, Monitoring AI-Modified Content at Scale, arXiv:2403.07183) documentan la sobrerrepresentación de los patrones anafóricos entre los marcadores estilométricos estables de la escritura de IA. Juzek y Ward (2024, Why Does ChatGPT 'Delve' So Much?, arXiv:2412.11385) aplican una metodología similar a los tics léxicos. Los dos estudios convergen: la repetición estructurada es una marca de fábrica que los detectores automáticos utilizan para identificar el texto generado.
¿Por qué? Dos hipótesis se superponen.
La primera es arquitectónica. La induction head, optimizada por el entrenamiento, favorece naturalmente los patrones paralelos. El modelo no decide apilar tres anáforas — lo hace porque su circuito de atención lo empuja a seguir la pendiente de menor perplejidad.
La segunda es pedagógica. Los anotadores humanos que evaluaron las salidas de alineamiento RLHF tienden a preferir las respuestas estructuradas, enumerables, simétricas. Esta preferencia, propagada por el reinforcement learning from human feedback, ancla la anáfora en los comportamientos recompensados del modelo. A día de hoy, ningún estudio publicado lo demuestra formalmente, pero la convergencia con las observaciones estilométricas es llamativa.
Anáfora plana o anáfora en crescendo
No todas las anáforas valen lo mismo. Jeanne Fahnestock, en Rhetorical Figures in Science (Oxford University Press, 1999, capítulo 4), plantea la distinción capital entre la repetición que hace crescendo y la repetición que se vuelve monótona.
Una anáfora en crescendo utiliza la estructura fija para liberar recursos cognitivos que alimentan una progresión semántica. Las imágenes que siguen a «I have a dream» no se conforman con rellenar un slot — suben en potencia, en generalidad, en emoción. Los dos niños que se dan la mano suceden a las colinas rojas, que sucedían a la injusticia contemporánea. La forma no cambia; el fondo sube.
Una anáfora monótona, al contrario, repite la estructura sin progresión. Las variables que siguen son del mismo nivel, en el mismo registro, sin elevación. El lector comprende rápido que no pasa nada — y pierde el interés.
La IA produce mayoritariamente anáforas monótonas. No porque la arquitectura la fuerce a ello, sino porque la progresión semántica exige una intención autorial que un modelo estadístico de predicción no porta naturalmente. Reproduce la forma. No construye el crescendo.
Es precisamente ahí, en la distancia entre la repetición formal y la progresión semántica, donde se aloja la diferencia entre una redacción humana dominada y una salida de IA en bruto. La anáfora es una invitación a subir. No subir es transformar la invitación en una insistencia penosa.
Implicaciones prácticas
Para la escritura profesional se desprenden tres reglas.
Utilizar la anáfora solo cuando una progresión semántica acompaña a la repetición formal. Si los elementos que siguen valen todos lo mismo en intensidad, en nivel, en registro, la figura no aporta nada. Se transforma en un tambor repetitivo que fatiga.
Dosificar la longitud. Tres ocurrencias bastan por lo general. Cinco como máximo para un texto corto. Más allá, solo una interpretación oral sostenida por el ritmo y la entonación puede aguantar la carga — por eso MLK apila ocho, pero lo hace con la voz, ante doscientas cincuenta mil personas. Lo escrito no perdona la misma densidad.
Romper la anáfora antes del final para crear la resolución. El «we shall never surrender» de Churchill que rompe la cadencia de los seis «we shall fight» es la firma de una anáfora magistral. El oyente espera la repetición; la ruptura final arrastra la adhesión. La IA, privada de esa intención, repite hasta el final. Añadir manualmente la ruptura a posteriori es a menudo lo que transforma una anáfora generada en figura dominada.
Lo que la anáfora nos enseña
La anáfora es una de las pocas figuras retóricas para las que se puede dibujar una correspondencia mecánica casi literal entre el circuito de atención de un Transformer y la práctica oratoria de un humano. Las dos explotan la misma mecánica: una estructura inicial fija libera recursos cognitivos para tratar la variación que sigue.
Cicerón lo había observado. Martin Luther King lo había integrado hasta el punto de hacer de ello la improvisación central de su discurso más conocido. Los ingenieros de Anthropic lo descubrieron cartografiando los circuitos internos de sus modelos — y dieron al mecanismo un nombre técnico que habría hecho sonreír a Quintiliano: induction head, cabeza de inducción. El vocabulario cambia. El principio es el mismo.
Lo que esto nos dice, a quienes escribimos en la era de los LLM, es sencillo. Reconocer la figura, nombrarla, comprender lo que hace al cerebro y al modelo, permite utilizarla con precisión. Una anáfora justa vale más que mil adjetivos. Una anáfora plana delata una producción automática sin relectura.
Lo que está en juego no es desterrar la figura. Lo que está en juego es darle la progresión que reclama.
El próximo artículo de la serie explorará el quiasmo — la figura que invierte el orden de los términos para obtener un efecto de simetría volcada. Una estructura que la IA produce mucho menos naturalmente que la anáfora — y que merece, por esa razón precisa, que nos detengamos en ella.
Fuentes principales
- Aristóteles, Retórica, III, 9 (1410a).
- Rhetorica ad Herennium (anónima, s. I a. C.), IV, 13, 19.
- Quintiliano, Institución Oratoria, IX, 3, 30-31.
- Lausberg, H. (1998). Handbook of Literary Rhetoric. Brill. §§ 629-630.
- Lanham, R. (1991). A Handlist of Rhetorical Terms. 2.ª ed.
- Halliday, M. A. K. & Hasan, R. (1976). Cohesion in English. Longman. (Anáfora referencial, no confundir.)
- Almor, A. (1999). Noun-phrase anaphora and focus: The informational load hypothesis. Psychological Review, 106(4), 748-765.
- Gernsbacher, M. A. (1990). Language Comprehension as Structure Building. Erlbaum.
- Givón, T. (1983). Topic Continuity in Discourse. Benjamins.
- Jakobson, R. (1960). Linguistics and Poetics, in Style in Language (Sebeok, ed.).
- Fahnestock, J. (1999). Rhetorical Figures in Science. Oxford University Press, cap. 4.
- Miller, K. (1992). Voice of Deliverance: The Language of Martin Luther King, Jr., and Its Sources. Free Press.
- Houck, D. & Dixon, D. (2006). Rhetoric, Religion and the Civil Rights Movement. Baylor University Press.
- Clark, K., Khandelwal, U., Levy, O. & Manning, C. (2019). What Does BERT Look At? An Analysis of BERT's Attention. BlackboxNLP. arXiv:1906.04341.
- Vig, J. & Belinkov, Y. (2019). Analyzing the Structure of Attention in a Transformer Language Model. arXiv:1906.04284.
- Elhage, N. et al. (2021). A Mathematical Framework for Transformer Circuits. Anthropic. transformer-circuits.pub/2021/framework/.
- Olsson, C. et al. (2022). In-context Learning and Induction Heads. arXiv:2209.11895.
- Liang, W. et al. (2024). Monitoring AI-Modified Content at Scale. Stanford. arXiv:2403.07183.
- Juzek, T. & Ward, Z. (2024). Why Does ChatGPT 'Delve' So Much?. arXiv:2412.11385.
- Discursos históricos: Churchill (Hansard vol. 361, 4 de junio de 1940); Lincoln (Gettysburg Address, 19 de noviembre de 1863); MLK (28 de agosto de 1963, archives.gov); Obama (New Hampshire, 8 de enero de 2008); Cicerón, In Catilinam I.