Die epistemische Markierung: die menschliche Signatur, die LLM nicht reproduzieren

Erster Artikel eines neuen Blocks über die menschlichen kognitiven Signaturen, die LLM nicht reproduzieren. Der vorhergehende Block, über die rhetorischen Figuren, schloss mit der Aposiopese — dem Zurückhalten des Engagements durch die Form. Hier steigen wir unter die Rhetorik: das Zurückhalten des Engagements durch probabilistische Kalibrierung. Im Hintergrund das, was die Litotes bereits benannt hatte: die „aktive Zurückhaltung" gegen den Wuchertrieb des RLHF, und das Inventar der kognitiven Verzerrungen Mensch/KI auf dem Feld der Überheblichkeit.

Im Oktober 1962 berät das Exekutivkomitee des amerikanischen Nationalen Sicherheitsrats dreizehn Tage lang über die sowjetischen Raketen auf Kuba. Auf dem Tisch: Aufklärungsfotos, divergierende Einschätzungen, operative Hypothesen. Über vierzig Jahre hinweg werden die freigegebenen Protokolle einen Zug zeigen, der allen Beiträgen der leitenden Analysten gemein ist: keine Aussage verlässt den Raum ohne ihren Gewissheitsmarker. „Wir wissen, dass…", „wir schätzen mit 70 % Wahrscheinlichkeit, dass…", „wir können nicht ausschließen, dass…", „nichts deutet darauf hin, dass…". Der Informationsgehalt der Sätze ist untrennbar von ihrer epistemischen Last.

Manche würden dies für eine bürokratische Marotte halten. Es ist im Gegenteil die Bedingung der Möglichkeit jeder rationalen Entscheidung unter unvollständiger Information. Und es ist genau die Kompetenz, die die Architektur der großen Sprachmodelle nicht reproduziert.

Tetlock und die unbequeme Offenbarung der CIA

2015 veröffentlicht Philip Tetlock Superforecasting: The Art and Science of Prediction, das zwanzig Jahre Forschung im Rahmen des Good Judgment Project zusammenfasst. Das Projekt, finanziert von der IARPA — dem Forschungszweig des Office of the Director of National Intelligence —, lässt zu geopolitischen Fragen zwei Gruppen gegeneinander antreten: professionelle CIA-Analysten und Amateure, die allein anhand ihres Ergebnisses in Kalibrierungsfragen ausgewählt wurden.

Das Ergebnis bleibt eines der unbequemsten der jüngeren Geschichte des amerikanischen Nachrichtendienstes: Die besten Amateure schlagen die CIA-Analysten um rund 30 %, gemessen am Brier-Score. Tetlock identifiziert den gemeinsamen Zug dieser Superforecaster: Sie sind weder intelligenter noch besser informiert, sie haben keinen Zugang zu Verschlusssachen. Sie teilen eine Meta-Kompetenz — die probabilistische Kalibrierung: die Fähigkeit, „ich bin zu 65 % zuversichtlich" zu sagen statt „ich bin nahezu sicher", und ihre 65 % langfristig in 65 % der überprüften Fälle eintreten zu sehen.

Diese Meta-Kompetenz baut sich durch Praxis auf, durch systematisches Feedback und durch die Disziplin der expliziten Markierung. Die Superprognostiker arbeiten weniger wie Orakel als wie Buchhalter ihrer eigenen Ungewissheit.

Wittgenstein, Russell und die Unterscheidung Marker / Operator

Die philosophische Tradition hatte das Problem ein Jahrhundert früher gestellt. Wittgenstein formuliert im letzten Satz des Tractatus (1921) den meistzitierten Aphorismus der analytischen Philosophie: „Wovon man nicht sprechen kann, darüber muss man schweigen." Der Satz wird fast immer als Aufruf zum Schweigen über das Mystische missverstanden. Seine Tragweite ist präziser: eine Behauptung, die aus der Zone heraustritt, in der die Epistemologie haltbar ist, ist keine Behauptung mehr — sie ist ein anderer Sprechakt, den man als solchen behandeln muss.

Bertrand Russell treibt in An Inquiry into Meaning and Truth (1940) die Analyse voran und prägt den Begriff des epistemischen Operators. Für ihn trägt jede Behauptung implizit ein Präfix — „Ich weiß, dass p", „Ich glaube, dass p", „Es ist wahrscheinlich, dass p", „Ich nehme an, dass p". Die Verwechslung dieser Operatoren untereinander beschädigt unwiderruflich die Qualität und die Rationalität des Diskurses.

Diese zentrale Unterscheidung wird fast immer mit dem bloßen Vorhandensein von Markern verwechselt.

Ein epistemischer Marker ist eine Oberflächenerscheinung — ein Wort, ein Adverb, eine Modulation: „vielleicht", „es scheint, dass", „plausiblerweise", „aller Wahrscheinlichkeit nach". Es ist stilistisches Material: Er signalisiert dem Leser eine Absicht zur Vorsicht, ohne die Natur der Behauptung zu verändern, die er begleitet.

Ein epistemischer Operator greift in den Inhalt ein. Er transformiert den Wahrheitswert der Aussage, der er vorangestellt wird, und in einem vertraglichen Kontext ihre rechtliche Tragweite. „Wir garantieren die DSGVO-Konformität" zu sagen und „wir schätzen ein, mit den DSGVO-Anforderungen konform zu sein" ist nicht das Ergebnis einer stilistischen Variation. Es sind zwei Behauptungen unterschiedlicher rechtlicher Natur: Die erste verpflichtet die Signatur, die zweite positioniert sich. Ein Auftragnehmer, der auf die erste verpflichtet ist, setzt sich einer Erfüllungsklage aus, falls eine Nichtkonformität festgestellt wird; ein Auftragnehmer, der auf die zweite verpflichtet ist, hat einen überprüfbaren Positionierungsakt vollzogen, keine verriegelte vertragliche Verpflichtung.

Eine Ausschreibungsantwort ist ein als natürliche Sprache getarntes System epistemischer Operatoren. Die scheinbare Flüssigkeit der professionellen Sprache verdeckt eine Schichtung von Präfixen — explizit oder implizit —, die Satz für Satz bestimmen, was der Auftragnehmer in der Ausführung zu halten verpflichtet ist. Ein erfahrener Auftraggeber liest nicht die Prosa; er liest die Operatoren.

Die formale Metrik: der Brier-Score

Die epistemische Markierung hat ein formales Maß. Glenn Brier, amerikanischer Meteorologe, schlägt es 1950 in einem Aufsatz im Monthly Weather Review vor. Der Brier-Score misst die Abweichung zwischen den angekündigten Wahrscheinlichkeiten und den beobachteten Häufigkeiten. Ein Prognostiker, der an hundert Tagen „80 % Regenwahrscheinlichkeit" ankündigt, ist kalibriert, wenn an achtundsiebzig bis zweiundachtzig von ihnen Regen fällt; er driftet ab, wenn es an fünfzig oder an fünfundneunzig regnet. Die individuelle Treffsicherheit jeder einzelnen Prognose zählt weniger als die Übereinstimmung, über die Gesamtheit hinweg, zwischen angekündigter Zuversicht und beobachteter Häufigkeit.

Die Metrik wurde seither von der gesamten Literatur zur Kalibrierung übernommen: Wahlumfragen (Nate Silver, FiveThirtyEight), medizinische Bewertung, makroökonomische Prognose und nun die Bewertung der großen Sprachmodelle. Sie setzt ein objektives Kriterium auf das, was subjektiv erscheint: Ein Diskurs ist epistemisch ehrlich, wenn die Eintrittshäufigkeit der mit 70 % markierten Aussagen um 70 % liegt und die der mit 95 % markierten Aussagen um 95 %. Die Überheblichkeit lässt sich messen; sie lässt sich korrigieren; sie lässt sich nicht lange verbergen.

Vier Operatorebenen im Bid Management

Eine Ausschreibungsantwort ist ein Akt vertraglicher Verpflichtung unter unvollständiger Information. Bei achtzig Kriterien hat der Bid Manager nur bei der Hälfte Gewissheit. Bei der anderen Hälfte ist der jedem Satz vorangestellte epistemische Operator ebenso ein Rechtsakt wie eine rhetorische Geste.

Vier Operatorebenen strukturieren eine professionelle technische Antwort.

Ebene 1 — die verankerte Tatsachenbehauptung. „Unser Team hat seit 2019 dreiundvierzig vergleichbare Projekte geliefert." Überprüfbar, datiert, beziffert. Die einzige Ebene, auf der ein Auftraggeber die Behauptung als gegeben hinnehmen kann. Eine ernsthafte Ausschreibungsantwort enthält etwa zwanzig davon, nicht mehr.

Ebene 2 — die kalibrierte Schätzung. „Wir schätzen die Umsetzungsdauer auf zwölf Wochen, auf Grundlage konsolidierter Erfahrungswerte bei vergleichbaren Konfigurationen." Die Schätzung trägt ihre Quelle. Der Leser weiß, worauf sie beruht. Die Fehlermarge ist implizit, aber nicht geleugnet.

Ebene 3 — die hypothetische Modalisierung. „Vorbehaltlich der Verfügbarkeit der Fachansprechpartner in der Konzeptionsphase könnte der Rollout in acht Wochen abgeschlossen sein." Die Verpflichtung ist bedingt, die Bedingung ist benannt. Das Register der Punkte, an denen man Stellung bezieht, ohne zu garantieren.

Ebene 4 — das Eingeständnis operativer Unkenntnis. „Die Kompatibilität mit den unter Punkt 4.7.3 des CCTP genannten spezifischen Konfigurationen wird in der Konzeptionsphase eine ergänzende Prüfung erfordern." Man weiß es nicht. Man sagt es. Man benennt die Modalität der Klärung. Dieses Eingeständnis wirkt paradoxerweise als starkes Signal von Seniorität, denn nur wer ein Thema beherrscht, kann die Zone genau identifizieren, die er noch nicht beherrscht.

Eine technische Antwort, die diese vier Ebenen auf eine einzige einebnet — sei es überall „wir garantieren" oder überall „wir wären in der Lage zu" —, verliert für den erfahrenen Leser jeden Informationswert. Das Operatorensystem bricht zusammen, und mit ihm die rechtliche Lesbarkeit des Dossiers.

Warum LLM strukturell überheblich sind

Drei zusammenwirkende Mechanismen erklären, warum diese Disziplin in einer KI-generierten Antwort nicht überlebt.

Die Trainingsverteilung ebnet die Operatoren ein. Während des Pre-Trainings lernt das Modell die gemeinsame Verteilung der Token in einem riesigen Korpus. Nun sind aber direkte Tatsachensätze darin massiv häufiger als epistemisch markierte Sätze: „Die Hauptstadt Frankreichs ist Paris" überwiegt um mehrere Größenordnungen gegenüber „Es ist zu 99,9 % wahrscheinlich, dass die Hauptstadt Frankreichs Paris ist". Das Modell lernt, die dominante Form zu produzieren. Verlangt man von ihm eine ungewisse Behauptung, produziert es die gewisse Form — das ist die wahrscheinlichste Vervollständigung.

Das RLHF verstärkt die Verzerrung. Ouyang et al. (NeurIPS 2022) haben die Referenzarchitektur des Reinforcement Learning from Human Feedback festgelegt. Die menschlichen Annotatoren — massenhaft rekrutiert, nach Aufgaben bezahlt, kaum Experten des bewerteten Fachgebiets — bevorzugen klare, vollständige, bestimmte Antworten. Eine modalisierte Antwort („ich bin nicht sicher, aber ich denke, dass…") wird massiv als „ausweichend" oder „wenig hilfreich" abgewertet. Der Trainingsgradient drängt das Modell also dazu, die scheinbare Zuversicht selbst dann zu erhöhen, wenn das tatsächliche Wissen abnimmt. Das ist, Punkt für Punkt, das Gegenteil dessen, was ein Superprognostiker lernt.

Das Fehlen eines exponierten internen Kalibrierungssignals. Kadavath et al. (Anthropic 2022) haben in „Language Models (Mostly) Know What They Know" eine Studie veröffentlicht, die lange als beruhigend gelesen wurde: LLM können intern die Fragen, bei denen sie die richtige Antwort haben, von denen unterscheiden, bei denen sie sie erfinden. Die dem korrekten Token zugewiesene Wahrscheinlichkeit ist im ersten Fall höher. Doch diese Unterscheidung bleibt intern und nicht exponiert. Das Modell gibt die Wahrscheinlichkeit nicht aus. Es gibt den Satz aus, mit derselben Autoritätsintonation, ob die Wahrscheinlichkeit, dass der Satz zutrifft, nun bei 95 % oder bei 30 % liegt. Lin, Hilton und Evans (NeurIPS 2022) haben in „Teaching Models to Express Their Uncertainty in Words" versucht, dem abzuhelfen, indem sie ein Modell darauf trainierten, explizit verbale Zuversichtsschätzungen zu produzieren. Das Ergebnis ist nuanciert: Die Verbesserung ist messbar, die Kalibrierung bleibt weit unter der eines geschulten menschlichen Analysten.

Konsequenz im Bid Management. Ein LLM, das eine technische Antwort verfassen soll, produziert standardmäßig einen Text durchgängig auf Operatorebene 1 — „wir garantieren", „unsere Lösung erfüllt vollständig", „unser Ansatz ermöglicht es". Wo der Mensch je nach Wissensgrad unterschiedliche Operatoren voranstellt, stellt die KI einen einzigen Operator entsprechend dem statistischen Modus des Korpus voran. Ein erfahrener Auftraggeber erkennt die Signatur sofort: Die permanente Überheblichkeit ist einer der deutlichsten KI-Marker, knapp vor der Sättigung mit Trikola und der Schichtung von Correctios.

Die Kalibrierung als Seniorität-Marker

In der Beratung ist die epistemische Kalibrierung einer der am schwersten zu imitierenden Seniorität-Marker. Ein junger Berater, mit einem schwierigen Dossier konfrontiert, schreibt:

„Diese Transformation birgt erhebliche Risiken, die besondere Aufmerksamkeit erfordern."

Der Ton ist gleichförmig, das Verb flach, der implizite epistemische Operator ist die Feststellung („es ist der Fall, dass"). Keine Quelle, keine Kalibrierung, keine Eingrenzung. Der Satz zeugt vom Fehlen jeder Meta-Kognition.

Ein Senior Partner schreibt zum selben Dossier:

„Auf Grundlage von fünf zwischen 2019 und 2024 durchgeführten vergleichbaren Mandaten schätzen wir, dass diese Transformation in den ersten sechs Monaten ein hohes operatives Risiko trägt; zwei Variablen werden über den Erfolg entscheiden — die Qualität der fachlichen Steuerung und der Grad der Aufbereitung der Bestandsdaten."

Der zweite Satz enthält vier explizite Operatoren — die Quelle (fünf Mandate, datierter Zeitraum), die Schätzung (wir schätzen, nicht wir wissen), die zeitliche Eingrenzung (erste sechs Monate, nicht langfristig), die Identifikation der strukturierenden Unbekannten (zwei benannte Variablen). Der erfahrene Leser zieht daraus mehr brauchbare Information als aus dem ersten, weil jedes Wort an einer beobachtbaren Realität kalibriert ist.

Diese Disziplin gehört weniger zum Bereich der Option als zur Substanz selbst der Seniorberatung — genau das, was die LLM auf diesem Stand ihrer Architektur nicht reproduzieren, durch die Konstruktion des Trainingsgradienten mehr noch als durch Datenmangel.

Drei operative Praktiken im KI-gestützten Bid Management

Die Zonen mit obligatorischem Operator vor der Generierung identifizieren. Eine technische Antwort hat typischerweise sechs bis zehn Passagen, an denen der vorangestellte Operator eine kritische rechtliche Last trägt: Terminzusagen, Kostenzusagen, Kundenreferenzen, Zertifizierungen, technische Kompatibilitäten, Kapazität des Teams, regulatorische Konformität. Diese Passagen müssen von Hand verfasst oder gegengelesen werden. Das LLM kann das Skelett des Kapitels produzieren, niemals den finalen Operator genau dieser Sätze.

Die Überheblichkeit Passage für Passage prüfen. Bei jedem von der KI produzierten Absatz die Frage stellen: „Wie hoch ist die tatsächliche Wahrscheinlichkeit, dass dieser Satz zutrifft, wenn er vom Auftraggeber wörtlich gelesen wird?". Wahrscheinlichkeit unter 90 % → der Operator muss nach unten angepasst werden. Unter 60 % → der Satz muss umgeschrieben oder gestrichen werden. Diese Prüfung dauert drei bis fünf Minuten pro kritischer Passage. Sie ist nicht verhandelbar.

Die Instanziierung für die Präsentation vorbereiten. Jeder im Dossier gesetzte Operator der Ebene 2 oder 3 muss darauf vorbereitet sein, instanziiert zu werden, falls der Auftraggeber ihn in die Klärung treibt. „Wir schätzen zwölf Wochen" muss an eine Liste von fünf vergleichbaren Projekten mit ihren tatsächlichen Laufzeiten geknüpft sein. „Vorbehaltlich der Verfügbarkeit der Fachansprechpartner" muss sich übersetzen lassen in „zwei wöchentliche Interviews von je einer Stunde über die ersten sechs Wochen". Die nicht instanziierbare Modalisierung ist eine sich selbst gestellte Falle, getarnt als Figur der Vorsicht.

Was dem menschlichen Autor bleibt

Die epistemische Markierung ist eines der letzten Felder, auf denen die menschliche Signatur strukturell zuverlässiger bleibt als die maschinelle Produktion. Die Modellgröße ändert daran nichts. Die Transformer-Architektur ebenso wenig. Der entscheidende Faktor liegt in der Berufung des Trainingsgradienten: Das RLHF wurde dafür konzipiert, hilfreiche, klare, vollständige Antworten zu produzieren. Die probabilistische Kalibrierung, die gerade verlangt, das Engagement zurückzuhalten, wenn das Wissen abnimmt, läuft dieser Berufung frontal zuwider.

Für einen Bid Manager, einen Berater, einen Verhandler bildet die epistemische Markierung die Bedingung der Möglichkeit der vertraglichen Verpflichtung. Eine Ausschreibungsantwort gehört eher zum Rechtsakt als zur Demonstration konversationeller Fähigkeit. Solange die Modelle für die Flüssigkeit mehr als für die Kalibrierung optimiert werden, ist es Sache des Menschen, den finalen Operator zu setzen.

Die Maschine kann die erklärenden Absätze verfassen.

Den epistemischen Operator, der die vertragliche Autorität signiert, muss man noch immer selbst setzen.

Hauptquellen: Tetlock & Gardner, Superforecasting: The Art and Science of Prediction, Crown, 2015. Brier, „Verification of Forecasts Expressed in Terms of Probability", Monthly Weather Review, 1950. Kadavath et al., „Language Models (Mostly) Know What They Know", arXiv 2207.05221, Anthropic 2022. Lin, Hilton & Evans, „Teaching Models to Express Their Uncertainty in Words", NeurIPS 2022. Ouyang et al., „Training language models to follow instructions with human feedback", NeurIPS 2022. Wittgenstein, Tractatus Logico-Philosophicus, 1921. Russell, An Inquiry into Meaning and Truth, A. & U., 1940.

Die epistemische Markierung: die menschliche Signatur, die LLM nicht reproduzieren

Die epistemische Markierung: die menschliche Signatur, die LLM nicht reproduzieren

Tetlock und die unbequeme Offenbarung der CIA

Wittgenstein, Russell und die Unterscheidung Marker / Operator

Die formale Metrik: der Brier-Score

Vier Operatorebenen im Bid Management

Warum LLM strukturell überheblich sind

Die Kalibrierung als Seniorität-Marker

Drei operative Praktiken im KI-gestützten Bid Management

Was dem menschlichen Autor bleibt

Bereit, Ihre Ausschreibungsantworten zu transformieren?

Empfohlene Artikel

Ihre Angebotsreviews bringen nichts — und die KI wird es beweisen

Was der Assistent sichtbar macht — vier Stufen der Gegenseitigkeit

Die Angebotsvorbereitung ist eine Führungsaufgabe — und Sie führen sie ohne Lagekarte