Die Copilot-Illusion: Warum Verbraucher-KI auf zehn Zeilen trägt und auf hundert Seiten zusammenbricht

Dritter Artikel des Blocks „Kognition / Doktrin". Wenn das Framing der rentabelste menschliche Akt einer Ausschreibungsantwort ist, dann verhindert die ökonomische Drosselung der Verbraucherwerkzeuge eben genau dessen Ausführung. Dieser Artikel macht die Mechanik sichtbar. Er verlängert auch die im April 2026 gestellte Diagnose über die Adoptionsblockaden — die Organisation stellt sich KI als Chatbot vor und gelangt zu einem Produkt, das eben einer ist.

Eine in den Großkonzernen 2025-2026 erlebte Szene. Ein Vertriebsleiter führt im Teammeeting die jüngste Demo von Microsoft Copilot vor. Ein dreißigminütiges Teams-Meeting ist gerade zu Ende gegangen. Drei Klicks, ein Prompt: „Fasse dieses Meeting mit den zu ergreifenden Maßnahmen zusammen." Fünfzehn Sekunden später erscheint ein sauberes Protokoll, strukturiert, mit den Namen der Teilnehmer und den eingegangenen Verpflichtungen. Der Raum ist überzeugt. „Dieses Werkzeug wird unsere Arbeitsweise verändern."

Einige Wochen später wird dasselbe Werkzeug auf einen Gegenstand anderer Natur losgelassen. Eine vierstündige Sitzung des Vorstands, zwanzig Teilnehmer, in der sich — ohne dass ein einziges frontales Wort es ausgesprochen hätte — die Bahn der Veräußerung einer Tochtergesellschaft entschieden hat. Das Copilot-Protokoll wird geliefert. Es ist sauber, strukturiert, mit den Namen der Teilnehmer und den eingegangenen Verpflichtungen.

Es hat das Wesentliche verfehlt.

Die Spannung zwischen dem Finanzvorstand und dem Operations-Vorstand, die seit achtzehn Monaten sämtliche Wendungen in den Veräußerungsfragen geprägt hat, taucht nirgends auf. Die Justiziarin hat beim Zeitplan nachgegeben, als Ausgleich für einen drei Wochen zuvor errungenen Sieg beim Leistungsumfang — ein im Protokoll unsichtbares Zugeständnis. Der scheinbar belanglose Satz des Vorsitzenden — „wir werden dieses Dossier anders denken müssen" — der für die Eingeweihten das Begräbnis der seit sechs Monaten vom Strategievorstand verteidigten Strategie besiegelt, wird als Ermutigung zur Kreativität wiedergegeben.

Das erstellte Protokoll setzt das Unternehmen juristisch aus. Es ist falsch durch Auslassung, und die Unterschrift eines Vorsitzenden, der es validiert, im Glauben, die Realität seiner eigenen Sitzung zu validieren, ist ein Akt, den wenige Juristen empfehlen würden.

Das ist die Kluft zwischen einer KI, die für die E-Mail dimensioniert ist, und einer KI, die für das Dossier dimensioniert ist.

Die ökonomische Drosselung der Verbraucherwerkzeuge

Microsoft Copilot, ChatGPT, Gemini und das Gros der Verbraucher-Chatbots beruhen in Wirklichkeit auf Long-Context-Modellen. Die zugrunde liegenden Versionen — GPT, Claude, Gemini — verfügen über Fenster von mindestens 128 000 Tokens, mitunter einer Million. Das ist bereits sehr ordentlich.

Doch der Endnutzer hat keinen Zugang zu dieser Kapazität. Die Anbieter drosseln absichtlich die Modelle in ihren Verbraucheroberflächen. Die Maschine kann technisch 200 000 Tokens am Eingang und 64 000 am Ausgang verarbeiten; das Produkt Copilot liefert nur Stoff für rund 30 000 Tokens am Eingang und 4 000 am Ausgang. Diese Kluft ist rein ökonomisch.

Die Arithmetik ist einfach. Eine Copilot-Lizenz zu 30 Dollar pro Nutzer und Monat deckt nicht die Inferenzkosten einer intensiven Nutzung auf langem Kontext. Würde Microsoft Copilot das Roh-Verbatim einer vierstündigen Sitzung verschlingen und ein fünfzigseitiges Protokoll erstellen lassen, überstiegen die Inferenzkosten den monatlichen Lizenzertrag bei Weitem. Die Drosselung schützt die Marge des Produkts.

Diese Logik verdient es, ausgesprochen zu werden, weil sie massiv ignoriert wird. Die breite Öffentlichkeit hat heute das Gefühl, generative KI sei kostenlos oder fast. Diese scheinbare Kostenlosigkeit ist zum Teil real — die Inferenzkosten sind in zwei Jahren stark gefallen — und zum Teil vom Risikokapital subventioniert, das jährlich Dutzende Milliarden verbrennt, um die Adoption vor die Rentabilität zu treiben. Sobald der Nutzer die Nutzung intensiviert — langer Kontext, erweitertes Schließen, Multimodalität, Agentik — tauchen die realen Kosten wieder auf. Die Anbieter haben dann zwei Optionen: zum gerechten Niveau abrechnen oder das Produkt drosseln, damit die Nutzung das Pauschalpaket nicht überschreitet. Für die breite Öffentlichkeit ist es fast immer die zweite. Ergebnis: Die verfügbaren Werkzeuge enttäuschen kognitiv in der Mehrzahl der Fälle, in denen man Tiefe bräuchte, weil man sich geweigert hat, deren Preis zu tragen.

Die Drosselung nimmt in der Praxis die Gestalt einer zweistufigen Architektur an: das RAG, oder Retrieval-Augmented Generation. Der von Lewis et al. (NeurIPS 2020) formalisierte Begriff bezeichnet einen Aufbau, bei dem man nicht das vollständige Dokument an das Modell schickt. Stellt der Nutzer eine Frage, extrahiert zunächst eine Suchmaschine einige relevante Fragmente, und das Sprachmodell erzeugt seine Antwort nur auf Basis dieser Fragmente. Das RAG teilt die Inferenzkosten durch zwanzig oder durch hundert. Für eine Frage, deren Antwort in einen einzigen Absatz passt — „wie lautet das Fälligkeitsdatum des Vertrags?", „wer ist für Los 3 verantwortlich?" — funktioniert es gut. Die Antwort ist korrekt, schnell, kostengünstig.

Das RAG beruht jedoch auf einer verborgenen Annahme: dass die Antwort auf jede nützliche Frage in einer begrenzten Anzahl zusammenhängender Fragmente zu finden ist. Die Annahme trägt für punktuelle Faktenfragen. Sie bricht zusammen, sobald eine Frage eine querschnittliche Verknüpfung verlangt.

Drei strukturelle Schwachstellen

Der Verlust der Beziehungen zwischen Dokumenten. Eine komplexe Ausschreibungsantwort aggregiert typischerweise ein CCTP, ein RC, ein BPU, ein DQE, ein DPGF, ein AE, ein Vergabereglement, zwei oder drei Lose, zwölf technische Anlagen und das auf öffentlichem Wege beschaffte technische Memorandum des Vorgängerwettbewerbers. Eine typische strategische Frage des Bid Managers — „an welchen Punkten begünstigt die Gewichtungsformel der Bewertung strukturell den scheidenden Auftragnehmer?" — hat keine Antwort in einem einzigen Fragment. Die Antwort kommt aus der Verschränkung zwischen der Formel des RC, den Mengen des DQE, den im CCTP geforderten Referenzen und den Werten des vorherigen Auftrags. Das RAG, das Absätze über die semantische Ähnlichkeit mit der Frage wiederfindet, hat keinerlei Mittel, diese Verschränkung zu vollziehen. Es wählt einige Absätze aus, die das Wort „Gewichtung" enthalten, und geht an der Analyse vorbei.

Der Verlust der Metakognition. Ein Modell, das fünf von einer Suchmaschine wiedergefundene Fragmente sieht, kann nicht wissen, was es nicht sieht. Es ignoriert, dass anderswo im Korpus ein Absatz existiert, der die vor ihm liegenden widerspricht oder relativiert. Es antwortet mit Zuversicht auf der partiellen Basis, über die es verfügt. Sein autoritärer Tonfall, vom RLHF ererbt, verschleiert die Unvollständigkeit. Bei einer geschlossenen Frage ist das folgenlos. Bei einer offenen Frage, die eine Gesamtschau verlangt, ist es verheerend: Die Antwort ist zugleich flüssig und unzureichend.

Der Verlust der Dynamiken des langen Textes. Eine vierstündige Sitzung ist keine länger gemachte halbstündige Sitzung. Sie hat eigene Phasen — Exposition, Debatte, stillschweigende Verhandlung, scheinbarer Konsens, Umschwung, politischer Abschluss —, die sich erst bei der Lektüre des Ganzen offenbaren. Wenn ein Teilnehmer auf einen zwei Stunden zuvor angesprochenen Punkt zurückkommt, verleiht das diesem Punkt eine Intensität, die nur mit der vollständigen Sequenz lesbar ist. Ein RAG, das auf Anfrage „die eingegangenen Verpflichtungen" wiederfindet, präsentiert eine flache Liste. Es entkleidet die Sitzung ihrer Politik — in dem Sinne, dass eine Vorstandssitzung im Grunde ein politischer Akt ist, bevor sie ein beratender ist.

Was im Kleinen trägt, was im Großen bricht

Die Illusion entspringt einem Verallgemeinerungsfehler. Die Leistung der Verbraucherwerkzeuge bei kleinen Aufgaben ist real: eine zweiabsätzige E-Mail verfassen, eine fünfseitige Notiz zusammenfassen, ein dreihundert Wörter umfassendes Briefing umformulieren, zu einer geschlossenen Frage brainstormen. Bei diesen Gegenständen ist das Kontextfenster bei Weitem ausreichend, das RAG ist nutzlos (das Dokument passt in einen einzigen Durchgang), und das Modell kann seine gesamte Inferenzkapazität der Qualität der Produktion zuteilen.

Die Falle besteht darin, dass diese täglich erlebte Leistung eine implizite Überzeugung begründet: „dieses Werkzeug beherrscht die geschriebene Sprache, also wird es meine ernsten Themen beherrschen." Das ist der Irrtum. Das Werkzeug beherrscht die geschriebene Sprache nur bei Gegenständen von der Größe seines Fensters. Sobald der Gegenstand diese Größe übersteigt, kippt die Architektur in den RAG-Modus. Und das Werkzeug verliert die Fähigkeit zur Exploration, zur Verknüpfung, zur Metakognition, die es nie wirklich hatte, die es aber bei den kleinen Formaten korrekt simulierte.

Drei berufliche Zonen konzentrieren dieses Umkippen.

Die Ausschreibungsantwort. Ein vollständiges Dossier wiegt zwischen dreihundert und tausendfünfhundert Seiten. Die strategische Frage ist selten faktisch. Sie gleicht „welchen Rahmen übernimmt dieser Kunde, ohne es zu wissen, und wo liegen meine Differenzierungshebel?". Das RAG weiß darauf nicht zu antworten. Kein Fragment enthält sie; die Antwort entspringt der Verschränkung.

Die Protokolle langer und sensibler Sitzungen. Vorstand, Geschäftsleitungsgremien, langwierige Geschäftsverhandlungen, mehrstündige mündliche Präsentationen. Alle, die es versucht haben, kennen die Schwelle: jenseits von dreißig Minuten Transkription weiß Copilot kein detailliertes Protokoll mehr zu erstellen. Eine schnelle Synthese bleibt möglich. Ein feines Protokoll, das die Verpflichtungen nachzeichnet und es jedem erlaubt, den nächsten Termin vorzubereiten, ist es nicht mehr.

Die technische Ursache ist präzise, und sie ist wenig bekannt: die dominierende Beschränkung hängt am Ausgabefenster, mehr noch als am Eingabefenster. Selbst wenn Copilot das vierstündige Verbatim verschlänge, könnte es nur ein Protokoll von einigen tausend Tokens schreiben — wenige Seiten höchstens. Es ist gezwungen zu komprimieren, und bei dieser Rate verschwindet das Operative. Das Ergebnis ist konstruktionsbedingt kurz. Es eignet sich für die Führungskraft, die das Thema überfliegt und auf einen Blick verstehen will. Es genügt nicht dem, der in die Tiefe gehen muss, noch dem, der auf Grundlage dieses Protokolls entscheiden muss.

Hinzu kommt der bereits benannte Punkt: Die Substanz einer langen Sitzung liegt nicht in den ausgesprochenen Sätzen, sie liegt in den Verkettungen, den Umschwüngen, den Schweigen. Ein RAG sieht nicht, was nicht verbalisiert ist. Und ein kurzes Ausgabefenster könnte nicht wiedergeben, was ein RAG durch Zufall erfasst hätte.

Die dokumentenübergreifende Analyse. Portfolio-Audit, Wettbewerbsanalyse über dreißig öffentliche Dokumente, Akquisitions-Due-Diligence, Risikobewertung auf einem vertraglichen Korpus. Der Mehrwert entsteht aus dem Cross-Reading. Ein RAG, das fünf Fragmente pro Anfrage wiederfindet, hält bei der scheinbaren Zusammenfassung inne, ohne die eigentliche Analyse zu erreichen.

Die andere Architektur: langer Kontext und Exploration

Die alternative Architektur existiert, und sie ist zugänglich — sofern man die realen Kosten der Long-Context-Inferenz akzeptiert, statt die Marge in der Drosselung zu suchen. Anthropic hat 2023 den Weg geebnet mit einem Fenster von hunderttausend Tokens auf Claude 2, erweitert auf zweihunderttausend 2024 auf Claude 3, dann auf eine Million Tokens auf den Opus-Versionen der 4er-Reihe. Diese Erweiterung ist vor allem architektonisch, über den bloßen quantitativen Gewinn hinaus: Mit einer Million Tokens gehen ein vollständiges Ausschreibungsdossier, ein vierstündiges Sitzungs-Verbatim, ein Portfolio aus dreißig Wettbewerbsdokumenten in einem einzigen Durchgang durch. Kein RAG. Keine vorgeschaltete Auswahl. Kein wiedergefundenes Fragment. Das Modell sieht das Ganze gleichzeitig und kann die Verknüpfungen vollziehen, die die kurze Architektur nicht erlaubt.

Der Unterschied ist messbar. Der Benchmark „Needle in a Haystack" schlägt einen einfachen Test vor: Man fügt eine präzise Information in einen langen Korpus ein und bittet das Modell, sie wiederzufinden. Die Modelle mit verankertem langem Kontext (Claude Opus, Gemini Pro, GPT) erreichen Abrufquoten über 95 % auf Kontexten von mehreren hunderttausend Tokens. Die RAG-Architekturen hängen beim selben Test vollständig von der Qualität des Retrievals ab — hat die Nadel nicht das richtige Vokabular, wird sie nicht wiedergefunden.

Die Arbeit von Liu et al. (NAACL 2024), „Lost in the Middle: How Language Models Use Long Contexts", hat eine Nuance dokumentiert: Selbst bei technisch auf langen Kontext ausgelegten Modellen nimmt die Aufmerksamkeit auf den mittleren Abschnitten des Dokuments ab. Die Leistung bleibt strukturell einem RAG überlegen, doch die Kalibrierung des langen Kontexts ist nicht gleichmäßig. Ein zusätzlicher Grund, langen Kontext und Protokolle expliziter Exploration zu kombinieren. Genau das tun die agentischen Architekturen, die im professionellen Bid Management zunehmend eingesetzt werden: Der Agent identifiziert vorab die Zonen des Korpus, die eine verstärkte Lektüre verdienen, statt die Aufmerksamkeit sich über das Ganze verdünnen zu lassen.

Der praktische Test zur Unterscheidung

Ein einfacher Test erlaubt es, ein für die reale Arbeit dimensioniertes Werkzeug von einem für die Demo dimensionierten zu unterscheiden: dem Werkzeug eine Frage stellen, deren Antwort in keinem isoliert betrachteten Dokument steht, sondern aus der Verknüpfung von mindestens drei Dokumenten hervorgeht.

Bei einer Ausschreibungsantwort: „angesichts des im RC vorgegebenen Zeitplans, der im CCTP geforderten Mindestpersonalstärken und der in Anlage 4 verlangten Referenzen — welche Kandidaten waren vor Veröffentlichung strukturell zulässig?". Kein Dokument enthält die Antwort. Sie entspringt der Verschränkung.

Bei einem Vorstandsprotokoll: „welche in dieser Sitzung geäußerten Positionen widersprechen denen, die dieselben Teilnehmer in den beiden vorherigen Sitzungen verteidigt haben?". Die Antwort verlangt, drei mehrstündige Korpora gleichzeitig zu halten.

Bei einem Wettbewerbsaudit: „welche der dreißig analysierten öffentlichen Dokumente — welche Wettbewerber weisen eine geschäftliche Bahn auf, die eine noch nicht angekündigte strategische Neupositionierung signalisiert?". Die Antwort wohnt in den Abweichungen zwischen den Dokumenten, außerhalb jedes einzelnen Dokuments.

Erzeugt das Werkzeug eine flüssige Antwort, die einem Audit nicht standhalten würde, weil kein Dokument sie begründet, dann ist es ein RAG-Werkzeug im Begriff zu halluzinieren. Sagt das Werkzeug ehrlich „ich habe diese Information nicht gesehen", obwohl sie im vollständigen Korpus steht, dann ist es ein Werkzeug, dessen Fenster zu klein ist. Erzeugt das Werkzeug eine Antwort, die auf der expliziten Verknüpfung von drei identifizierten Dokumenten beruht, dann ist es ein für die reale Arbeit dimensioniertes Werkzeug.

Operative Konsequenz

Die Lektion ist für eine Führungskraft, einen Bid Manager, einen Justiziar, einen Strategieverantwortlichen präzise: Man muss das gute Werkzeug vom guten Einsatz trennen.

Microsoft Copilot, ChatGPT, Gemini, Claude.ai in seiner Chat-Oberfläche sind exzellente Werkzeuge für die Aufgaben, deren Gegenstand in das kurze Fenster passt, das ihr Anbieter zu bedienen gewählt hat: E-Mail, interne Notiz, schnelle Synthese, Brainstorming, erste Fassung eines kurzen Dokuments. Bei diesen Aufgaben ist ihre Leistung real, ihre Produktivität messbar, ihr Einsatz legitim.

Bei den Aufgaben, deren Gegenstand das Fenster übersteigt — vollständige Ausschreibung, lange sensible Sitzung, dokumentenübergreifende Analyse, Due Diligence, komplexes Präsentationsmemorandum — kippen diese Werkzeuge in den RAG-Modus. Sie verlieren die Fähigkeit zur Exploration und zur Metakognition, die gerade ihren Einsatz dort rechtfertigen würde. Bei diesen Aufgaben ist die Leistungsillusion gefährlicher als das Fehlen eines Werkzeugs, weil sie Lieferprodukte erzeugt, die flüssig, strukturiert, autoritär und strukturell unzureichend sind.

Der Kategorienfehler ist nicht harmlos. Er setzt juristisch aus. Er lässt Wochen verschwenden, um KI-generierte Dossiers neu aufzunehmen. Und tiefer noch fragilisiert er das Vertrauen in die auf das reale Metier angewandte KI: Man lässt die Misserfolge des kurzen Fensters einen Ruf bezahlen, den die Long-Context-Architekturen sich gerade verdienen.

Das gute Werkzeug für die gute Aufgabe. Und, im Bid Management wie in der strategischen Steuerung, dimensioniert sich das gute Werkzeug für die echten Dossiers in Millionen von Tokens, eher als in Chats von einigen Dutzend Seiten.

Um diese Diagnose und ihre Konsequenzen weiter zu vertiefen — die realen Inferenzkosten (was ein mit einem Premium-Modell und einer ernsthaften menschlichen Schleife bearbeitetes Dossier wirklich kostet, und warum das aktuelle Fenster paradoxerweise das günstigste ist, das wir noch lange sehen werden), dann die von DeepSeek V4 aufgeworfene Souveränitätsfrage (für die großen Organisationen, die ein Modell der SOTA-Klasse auf eigener Infrastruktur betreiben können).

Hauptquellen: Lewis et al., „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks", NeurIPS 2020. Liu et al., „Lost in the Middle: How Language Models Use Long Contexts", NAACL 2024. Karpukhin et al., „Dense Passage Retrieval for Open-Domain Question Answering", EMNLP 2020. Anthropic, „Introducing 100K Context Windows" (Mai 2023), „Claude 3 family" (März 2024), „Claude Opus 4 with 1M context" (2025). Bai et al., „LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding", arXiv 2308.14508, 2023. Greg Kamradt, „Needle in a Haystack: pressure testing LLMs", 2023.

Die Copilot-Illusion: Warum Verbraucher-KI auf zehn Zeilen trägt und auf hundert Seiten zusammenbricht

Die Copilot-Illusion: Warum Verbraucher-KI auf zehn Zeilen trägt und auf hundert Seiten zusammenbricht

Die ökonomische Drosselung der Verbraucherwerkzeuge

Drei strukturelle Schwachstellen

Was im Kleinen trägt, was im Großen bricht

Die andere Architektur: langer Kontext und Exploration

Der praktische Test zur Unterscheidung

Operative Konsequenz

Bereit, Ihre Ausschreibungsantworten zu transformieren?

Empfohlene Artikel

Ihre Angebotsreviews bringen nichts — und die KI wird es beweisen

Was der Assistent sichtbar macht — vier Stufen der Gegenseitigkeit

Die Angebotsvorbereitung ist eine Führungsaufgabe — und Sie führen sie ohne Lagekarte