Die Anapher: von „I have a dream" zu den Induction Heads, die Figur, die der Transformer mechanisch nachzuahmen versteht

Vierter Artikel der Reihe über rhetorische Figuren im Zeitalter der KI. Nach der Correctio, dem Mechanismus der Negation in LLM und dem Trikolon nun die Anapher — die Figur der anfänglichen Wiederholung, die ebenso „I have a dream" strukturiert wie die von großen Modellen generierten Ausgaben.

Washington, 28. August 1963. Martin Luther King ergreift das Wort vor dem Lincoln Memorial. Zweihundertfünfzigtausend Menschen sind gekommen. Er liest die Rede vor, die er vorbereitet hat. Mahalia Jackson, zwei Meter von ihm entfernt, ruft: „Tell them about the dream, Martin!" King lässt seine Notizen liegen. Er improvisiert.

Achtmal in elf Minuten spricht er dieselbe Formel aus: „I have a dream". Ich habe einen Traum. Acht identische Auftakte, gefolgt jedes Mal von einem anderen Bild — seine Kinder, beurteilt nach dem Gehalt ihres Charakters, die roten Hügel Georgias, das kleine schwarze Mädchen und der kleine weiße Junge, die einander an der Hand halten.

In derselben Rede überlagern zwei weitere Anaphern die erste: „Now is the time" viermal, „Let freedom ring" zehnmal. Die ganze Rede ist ein Gerüst aus anfänglichen Wiederholungen — fünfzehn insgesamt, kleinere Varianten nicht mitgezählt.

Dieser 28. August 1963 ist keine isolierte rednerische Glanzleistung. Es ist die Anwendung einer Figur, die Cicero zweitausend Jahre zuvor lehrte, die der Attention-Mechanismus eines Transformers heute beinahe wörtlich reproduziert und die die moderne KI massenhaft verwendet, ohne sie immer zu beherrschen. Die Anapher.

Die Figur, wie die Griechen sie benannt hatten

Das Wort stammt aus dem Griechischen ἐπαναφορά (epanaphora) — wörtlich „zurücktragen", zurückbringen, wiederaufnehmen. Aristoteles spricht in der Rhetorik (III, 9) von ihr als einem Mittel des rhythmischen Parallelismus. Die Rhetorica ad Herennium — lange Cicero zugeschrieben, heute als anonym geltend — gibt im vierten Buch (IV, 13, 19) die kanonische Definition: „cum continenter ab uno atque eodem verbo in rebus similibus et diversis principia sumuntur". Wenn mehrere aufeinanderfolgende Segmente mit demselben Wort beginnen.

Quintilian unterscheidet in der Institutio oratoria (IX, 3, 30-31) die Anapher streng von drei verwandten Figuren, mit denen man sie oft verwechselt.

Die Epiphora — Epistrophe in ihrer griechischen Variante, beide Begriffe bestehen nebeneinander — tut genau das Gegenteil der Anapher: Sie wiederholt dasselbe Wort oder dieselbe Struktur am Ende aufeinanderfolgender Segmente. Klassisches Beispiel: „Wer hat es beschlossen? Sie haben es beschlossen. Wer hat es abgestimmt? Sie haben es abgestimmt. Wer trägt die Verantwortung dafür? Sie tragen die Verantwortung dafür." Der Refrain fällt am Schluss, nicht am Anfang. Die Symploke verbindet beide — Anapher am Anfang, Epiphora am Ende — und erzielt so ein doppeltes Echo, sehr präsent in religiösen Litaneien und in den Refrains volkstümlicher Lieder. Die Anadiplose schließlich nimmt am Anfang eines neuen Satzes das Wort wieder auf, das den vorherigen beendete, und schafft eine Kette von Echos („Stärke führt zu Furcht, Furcht führt zu Wut, Wut führt zu Hass…" — eine Struktur, die Yoda in Die dunkle Bedrohung verwendet).

Die Anapher allein bleibt die präsenteste in der Rednergeschichte, weil sie am einfachsten auszuführen und für das Ohr am zugänglichsten ist. Sie besteht darin, dasselbe an derselben Stelle zu sagen, immer wieder, und nur das zu ändern, was danach folgt.

Heinrich Lausberg erfasst in seinem Handbook of Literary Rhetoric (Brill, 1998, §§ 629-630) Hunderte von Beispielen über zweitausendfünfhundert Jahre hinweg. Die Figur ist stabil. Die Figur ist universell. Die Figur ist, zu Recht, in den Reden, die Geschichte geschrieben haben, überrepräsentiert.

Eine vorab zu treffende Unterscheidung: rhetorisch vs. referenziell

Bevor wir weitergehen, verdient eine terminologische Falle, benannt zu werden. In der zeitgenössischen Linguistik bezeichnet das Wort „Anapher" zwei verschiedene Dinge.

Die rhetorische Anapher — jene dieses Artikels, jene von MLK, jene von Cicero — ist eine gewollte Wiederholung am Anfang aufeinanderfolgender Segmente. Sie ist eine Stilfigur.

Die referenzielle Anapher — jene, die Halliday und Hasan in Cohesion in English (Longman, 1976) untersuchen — ist ein grammatischer Mechanismus der Wiederaufnahme durch ein Pronomen („Jean ist angekommen. Er war zu spät"). Sie ist eine Figur der Kohäsion.

Beide bedienen sich des Wortes. Beide betreffen die Wiederholung. Sie gehorchen weder denselben Regeln noch denselben Funktionen. Der weitere Verlauf dieses Artikels behandelt ausschließlich die erste.

Das kognitive Fundament: warum das Gehirn die Wiederholung mag

Die anfängliche Wiederholung ist kein bloßes lautliches Ornament. Sie erfüllt eine präzise kognitive Funktion, dokumentiert durch die Psycholinguistik.

Amit Almor formalisiert in Noun-phrase anaphora and focus: The informational load hypothesis (Psychological Review, 1999, Bd. 106, Nr. 4) das Prinzip. Jedes Mal, wenn ein Leser oder Zuhörer auf ein neues Element in einem Satz trifft, muss er Arbeitsgedächtnis aufwenden, um dessen Sinn zu konstruieren. Diese Zuteilung ist kostspielig. Sie belegt Ressourcen, die nicht mehr verfügbar sind, um den Rest zu verstehen.

Wenn die anfängliche Struktur eines Satzes bereits bekannt ist — weil sie ein erstes Mal gesetzt und dann identisch wiederholt wurde —, sinken die Zuteilungskosten drastisch. Der Leser weiß bereits, wo er die variable Information erwarten wird. Er kann seine kognitiven Ressourcen auf das richten, was sich verändert — den Inhalt des Bildes, den Blickwinkel, die Nuance —, statt auf den Wiederaufbau des syntaktischen Rahmens.

Morton Ann Gernsbacher nennt diesen Mechanismus in Language Comprehension as Structure Building (Erlbaum, 1990) das structure building. Das erste Element einer anaphorischen Reihe baut die Struktur auf; die folgenden Elemente verwenden sie wieder. Das menschliche Gehirn, sparsam mit seinen Ressourcen, liebt diese Architektur.

Direkte Folge: Eine gut komponierte Anapher ermüdet den Leser nicht. Sie entlastet ihn. Sie lässt ihm die nötige kognitive Bandbreite, um das Crescendo zu spüren, das die aufeinanderfolgenden Bilder aufbauen.

Die großen Anaphern der Geschichte

Die Reden, die Geschichte geschrieben haben, nutzen fast alle diese Figur.

Cicero, In Catilinam I, 1, vor dem römischen Senat im Jahr 63 v. Chr.: „Quousque tandem abutere, Catilina, patientia nostra? Quamdiu etiam furor iste tuus nos eludet? Quem ad finem sese effrenata iactabit audacia?" — bis wann noch, wie lange noch, bis zu welchem Ende. Drei rhetorische Fragen, die denselben Druck hämmern.

Abraham Lincoln, Gettysburg Address, 19. November 1863: „government of the people, by the people, for the people" — ebenso Trikolon wie Anapher, da die Präposition über einem wiederholten Kern „the people" variiert.

Winston Churchill, House of Commons, 4. Juni 1940 (Hansard Bd. 361, cc787-798). England hat soeben Dünkirchen evakuiert. Er spricht den Satz aus, der ikonisch werden wird:

„We shall fight on the beaches, we shall fight on the landing grounds, we shall fight in the fields and in the streets, we shall fight in the hills ; we shall never surrender."

Sechs „we shall fight" in einer einzigen syntaktischen Periode. Dann der Schluss — „we shall never surrender" —, der die Wiederholung durchbricht, um die Entschlossenheit einzuhämmern. Der finale Bruch des Musters ist es, der dem Crescendo seine Kraft verleiht.

Martin Luther King, Lincoln Memorial, 28. August 1963. Der Satz „I have a dream" erscheint achtmal, verflochten mit „Now is the time" (viermal) und „Let freedom ring" (zehnmal). Vollständige rhetorische Analyse bei Keith Miller, Voice of Deliverance (1992).

François Hollande, Stichwahl-Debatte der französischen Präsidentschaftswahl, 2. Mai 2012, gegen Nicolas Sarkozy. Inmitten eines bis dahin konventionellen Schlagabtauschs lanciert Hollande die Tirade, die den Rest seines Wahlkampfs strukturieren wird: „Moi président de la République, je ne serai pas… Moi président de la République, je ne traiterai pas… Moi président de la République, je ferai en sorte que…". Fünfzehn Vorkommen von „Moi président de la République" binnen drei Minuten. Inhaltlich setzt jeder Satz eine Verhaltensverpflichtung. Rhetorisch sperrt jede Wiederholung Sarkozy zunehmend in die Position des Gegenteils ein — desjenigen, der implizit getan hat, was Hollande zu meiden vorgibt. Die Anapher wird zur dialektischen Waffe. Am nächsten Tag wird die gesamte Presse mit dieser Sequenz aufmachen, die als Lehrstück in die Handbücher der politischen Kommunikation eingehen wird.

Barack Obama, New Hampshire concession speech, 8. Januar 2008. „Yes we can" schließt jeden Absatz des zweiten Drittels der Rede. Es handelt sich nicht um eine Anapher im strengen Sinne — die Wiederholung steht am Ende der Segmente, nicht am Anfang —, sondern um die Schwesterfigur, die Epiphora. Beide Strukturen erzeugen einen verwandten Effekt, mit spiegelbildlichen Mitteln.

Keine dieser Reden wäre mit flacher Prosa in die Geschichte eingegangen. Die Anapher ist es, die eine Reihe von Argumenten in eine melodische Linie verwandelt, eine melodische Linie in Emotion, eine Emotion in dauerhafte Erinnerung.

Der Mechanismus auf LLM-Seite: die Induction Heads

Hier ist das Faktum, das diese Artikelreihe verknüpft. Wenn ein Transformer — die Architektur hinter allen großen Sprachmodellen — Text verarbeitet, verfügt er über einen spezifischen Attention-Schaltkreis, der besonders empfindlich für wiederholende Muster ist und Induction Head genannt wird.

Nelson Elhage und seine Kollegen bei Anthropic identifizieren ihn 2021 in A Mathematical Framework for Transformer Circuits. Catherine Olsson et al. formalisieren ihn 2022 in In-context Learning and Induction Heads (arXiv:2209.11895). Das Prinzip ist präzise.

Ein Induction Head ist ein Schaltkreis aus zwei Attention-Heads, der lernt, Muster der Form [A][B] ... [A] → [B] zu erkennen und dann zu vervollständigen. Anders gesagt: Wenn das Modell den Token A gefolgt vom Token B bereits im Kontext gesehen hat und erneut auf A trifft, sagt es B mit erhöhter Wahrscheinlichkeit voraus.

Auf die Anapher angewandt ist der Mechanismus beinahe wörtlich. Sobald das Modell „I have a dream that my four little children…" gesehen hat, hat es lokal gelernt, dass der Auftakt „I have a dream" von einer Beschreibung einer Vision gefolgt werden kann. Beim nächsten Vorkommen von „I have a dream" drückt der Induction Head die Wahrscheinlichkeitsverteilung aktiv in Richtung einer strukturierten Fortsetzung — einer zweiten Visionsbeschreibung — statt einer beliebigen Ausgabe.

Clark, Khandelwal, Levy und Manning hatten in What Does BERT Look At? (arXiv:1906.04341, BlackboxNLP 2019) bereits eigens für Koreferenz bestimmte Heads identifiziert. Vig und Belinkov kartieren in Analyzing the Structure of Attention in a Transformer Language Model (arXiv:1906.04284, 2019) die auf parallele Muster spezialisierten Heads. Olsson und seine Kollegen fassen diese Beobachtungen in eine Architektur: Der Induction Head ist ein fundamentaler Bestandteil des in-context learning, der Fähigkeit großer Modelle, Muster im laufenden Betrieb zu lernen, ohne ihre Gewichte zu verändern.

Die Anapher ist, aus Sicht eines Transformers, die am leichtesten zu reproduzierende Struktur. Er besitzt einen eigens dafür bestimmten Schaltkreis. Es liegt durchaus in seinem Interesse, ihn zu nutzen.

Die für die KI charakteristische Sättigung

Die modernen LLM nutzen den Induction Head bei der Ausgabe. Sie produzieren spontan anaphorische Strukturen, oft ohne dass der Nutzer danach verlangt. Die wiederkehrenden Formulierungen „Sie brauchen… Sie wollen… Sie versuchen…" am Ende von ChatGPT-Nachrichten sind eine direkte Veranschaulichung. Ebenso die Aufzählungslisten, die alle mit demselben Verb beginnen: „Analysieren… Strukturieren… Liefern…".

Liang et al. (2024, Monitoring AI-Modified Content at Scale, arXiv:2403.07183) dokumentieren die Überrepräsentation anaphorischer Muster unter den stabilen stilometrischen Markern KI-generierten Schreibens. Juzek und Ward (2024, Why Does ChatGPT 'Delve' So Much?, arXiv:2412.11385) wenden eine ähnliche Methodik auf lexikalische Tics an. Beide Studien konvergieren: Die strukturierte Wiederholung ist ein Fabrikzeichen, das automatische Detektoren nutzen, um generierten Text zu erkennen.

Warum? Zwei Hypothesen überlagern sich.

Die erste ist architektonischer Natur. Der durch das Training optimierte Induction Head begünstigt naturgemäß parallele Muster. Das Modell entscheidet nicht, drei Anaphern zu stapeln — es tut es, weil sein Attention-Schaltkreis es dazu drängt, dem Gefälle der geringsten Perplexität zu folgen.

Die zweite ist pädagogischer Natur. Die menschlichen Annotatoren, die die Ausgaben des RLHF-Alignments bewertet haben, neigen dazu, strukturierte, auflistbare, symmetrische Antworten zu bevorzugen. Diese Präferenz, verbreitet durch das reinforcement learning from human feedback, verankert die Anapher in den belohnten Verhaltensweisen des Modells. Bis heute belegt dies keine veröffentlichte Studie formal, doch die Übereinstimmung mit den stilometrischen Beobachtungen ist frappierend.

Flache Anapher oder Anapher im Crescendo

Nicht alle Anaphern sind gleich viel wert. Jeanne Fahnestock stellt in Rhetorical Figures in Science (Oxford University Press, 1999, Kapitel 4) die entscheidende Unterscheidung zwischen der Wiederholung, die ein Crescendo bildet, und der Wiederholung, die monoton wird.

Eine Anapher im Crescendo nutzt die feste Struktur, um kognitive Ressourcen freizusetzen, die eine semantische Progression nähren. Die Bilder, die „I have a dream" folgen, begnügen sich nicht damit, einen Slot zu füllen — sie steigern sich in Kraft, in Allgemeinheit, in Emotion. Die beiden Kinder, die einander an der Hand halten, folgen auf die roten Hügel, die ihrerseits auf die gegenwärtige Ungerechtigkeit folgten. Die Form ändert sich nicht; der Gehalt steigt.

Eine monotone Anapher hingegen wiederholt die Struktur ohne Progression. Die folgenden Variablen liegen auf derselben Ebene, im selben Register, ohne Steigerung. Der Leser begreift schnell, dass nichts geschieht — und verliert sein Interesse.

Die KI produziert mehrheitlich monotone Anaphern. Nicht weil die Architektur sie dazu zwingt, sondern weil die semantische Progression eine auktoriale Intention verlangt, die ein statistisches Vorhersagemodell nicht naturgemäß trägt. Es reproduziert die Form. Es baut das Crescendo nicht auf.

Genau dort, im Abstand zwischen der formalen Wiederholung und der semantischen Progression, liegt der Unterschied zwischen einer beherrschten menschlichen Redaktion und einer rohen KI-Ausgabe. Die Anapher ist eine Einladung zum Aufsteigen. Nicht aufzusteigen heißt, die Einladung in lästige Penetranz zu verwandeln.

Praktische Implikationen

Für das professionelle Schreiben lassen sich drei Regeln ableiten.

Die Anapher nur verwenden, wenn eine semantische Progression die formale Wiederholung begleitet. Wenn die folgenden Elemente alle gleichwertig sind in Intensität, in Ebene, in Register, bringt die Figur nichts. Sie verwandelt sich in eine repetitive Trommel, die ermüdet.

Die Länge dosieren. Drei Vorkommen genügen in der Regel. Fünf maximal für einen kurzen Text. Darüber hinaus kann allein eine vom Rhythmus und der Intonation getragene mündliche Performance die Last halten — deshalb stapelt MLK acht davon, doch er tut es mit der Stimme, vor zweihundertfünfzigtausend Menschen. Das Geschriebene verzeiht dieselbe Dichte nicht.

Die Anapher vor dem Ende brechen, um die Auflösung zu schaffen. Churchills „we shall never surrender", das die Kadenz der sechs „we shall fight" durchbricht, ist die Signatur einer meisterhaften Anapher. Der Zuhörer erwartet die Wiederholung; der finale Bruch erringt die Zustimmung. Die KI, dieser Intention beraubt, wiederholt bis zum Ende. Den Bruch nachträglich von Hand hinzuzufügen ist oft das, was eine generierte Anapher in eine beherrschte Figur verwandelt.

Was die Anapher uns lehrt

Die Anapher ist eine der seltenen rhetorischen Figuren, für die man eine beinahe wörtliche mechanische Entsprechung zwischen dem Attention-Schaltkreis eines Transformers und der rednerischen Praxis eines Menschen zeichnen kann. Beide nutzen dieselbe Mechanik: Eine feste anfängliche Struktur setzt kognitive Ressourcen frei, um die folgende Variation zu verarbeiten.

Cicero hatte es beobachtet. Martin Luther King hatte es so weit verinnerlicht, dass er es zur zentralen Improvisation seiner bekanntesten Rede machte. Die Ingenieure von Anthropic haben es bei der Kartierung der inneren Schaltkreise ihrer Modelle entdeckt — und dem Mechanismus einen technischen Namen gegeben, der Quintilian zum Schmunzeln gebracht hätte: induction head, Induktionskopf. Das Vokabular ändert sich. Das Prinzip ist dasselbe.

Was uns das sagt, uns, die wir im Zeitalter der LLM schreiben, ist einfach. Die Figur zu erkennen, sie zu benennen, zu verstehen, was sie dem Gehirn und dem Modell antut, erlaubt es, sie mit Präzision einzusetzen. Eine treffende Anapher ist tausend Adjektive wert. Eine flache Anapher verrät eine automatische Produktion ohne Korrekturlesen.

Der Einsatz besteht nicht darin, die Figur zu verbannen. Der Einsatz besteht darin, ihr die Progression zu geben, die sie verlangt.

Der nächste Artikel der Reihe wird den Chiasmus erkunden — die Figur, die die Reihenfolge der Begriffe umkehrt, um einen Effekt verkehrter Symmetrie zu erzielen. Eine Struktur, die die KI weit weniger naturgemäß produziert als die Anapher — und die, genau aus diesem Grund, verdient, dass man bei ihr verweilt.

Hauptquellen

Aristoteles, Rhetorik, III, 9 (1410a).
Rhetorica ad Herennium (anonym, 1. Jh. v. Chr.), IV, 13, 19.
Quintilian, Institutio oratoria, IX, 3, 30-31.
Lausberg, H. (1998). Handbook of Literary Rhetoric. Brill. §§ 629-630.
Lanham, R. (1991). A Handlist of Rhetorical Terms. 2. Aufl.
Halliday, M. A. K. & Hasan, R. (1976). Cohesion in English. Longman. (Referenzielle Anapher, nicht zu verwechseln.)
Almor, A. (1999). Noun-phrase anaphora and focus: The informational load hypothesis. Psychological Review, 106(4), 748-765.
Gernsbacher, M. A. (1990). Language Comprehension as Structure Building. Erlbaum.
Givón, T. (1983). Topic Continuity in Discourse. Benjamins.
Jakobson, R. (1960). Linguistics and Poetics, in Style in Language (Sebeok, Hrsg.).
Fahnestock, J. (1999). Rhetorical Figures in Science. Oxford University Press, Kap. 4.
Miller, K. (1992). Voice of Deliverance: The Language of Martin Luther King, Jr., and Its Sources. Free Press.
Houck, D. & Dixon, D. (2006). Rhetoric, Religion and the Civil Rights Movement. Baylor University Press.
Clark, K., Khandelwal, U., Levy, O. & Manning, C. (2019). What Does BERT Look At? An Analysis of BERT's Attention. BlackboxNLP. arXiv:1906.04341.
Vig, J. & Belinkov, Y. (2019). Analyzing the Structure of Attention in a Transformer Language Model. arXiv:1906.04284.
Elhage, N. et al. (2021). A Mathematical Framework for Transformer Circuits. Anthropic. transformer-circuits.pub/2021/framework/.
Olsson, C. et al. (2022). In-context Learning and Induction Heads. arXiv:2209.11895.
Liang, W. et al. (2024). Monitoring AI-Modified Content at Scale. Stanford. arXiv:2403.07183.
Juzek, T. & Ward, Z. (2024). Why Does ChatGPT 'Delve' So Much?. arXiv:2412.11385.
Historische Reden: Churchill (Hansard Bd. 361, 4. Juni 1940); Lincoln (Gettysburg Address, 19. November 1863); MLK (28. August 1963, archives.gov); Obama (New Hampshire, 8. Januar 2008); Cicero, In Catilinam I.

Die Anapher: von „I have a dream\

Die Anapher: von „I have a dream" zu den Induction Heads, die Figur, die der Transformer mechanisch nachzuahmen versteht

Die Figur, wie die Griechen sie benannt hatten

Eine vorab zu treffende Unterscheidung: rhetorisch vs. referenziell

Das kognitive Fundament: warum das Gehirn die Wiederholung mag

Die großen Anaphern der Geschichte

Der Mechanismus auf LLM-Seite: die Induction Heads

Die für die KI charakteristische Sättigung

Flache Anapher oder Anapher im Crescendo

Praktische Implikationen

Was die Anapher uns lehrt

Hauptquellen

Bereit, Ihre Ausschreibungsantworten zu transformieren?

Empfohlene Artikel

Ihre Angebotsreviews bringen nichts — und die KI wird es beweisen

Was der Assistent sichtbar macht — vier Stufen der Gegenseitigkeit

Die Angebotsvorbereitung ist eine Führungsaufgabe — und Sie führen sie ohne Lagekarte