Kostenlose KI gibt es nicht: die Ökonomie der Inferenz und das Zeitfenster der Gelegenheit
Eine Budgetbesprechung in einer französischen Vertriebsleitung, Anfang 2026. Der Finanzdirektor stellt die einfache Frage: „Was kostet uns KI in der Angebotsvorbereitung?“. Der IT-Verantwortliche rechnet: „30 € pro Nutzer und Monat; bei einer durchschnittlichen Angebotsvorbereitung mobilisiert das Team acht Personen über drei Monate — macht 720 € pro Dossier. Bei einem großen Dossier, das fünfzehn Personen über sechs Monate bindet, kommen wir auf 2 700 €.“ Der Finanzdirektor notiert die Zahlen. Der Vertriebsleiter nickt. Der Betrag wirkt vernünftig, beinahe tugendhaft: man hat den Eindruck einer echten Investition, kalibriert auf die Größe des Dossiers und die Dauer des Zyklus.
Die Rechnung ist falsch, und sie ist es auf interessante Weise. Der Betrag bleibt vernünftig; er wiegt schlicht, gemessen an den Gesamtkosten einer ernsthaften Angebotsvorbereitung, einen unsichtbaren Bruchteil — für einen funktionalen Nutzen, der weitgehend suboptimal ist. Das Werkzeug für 30 € bearbeitet keine ernsthaften Dossiers; der vorige Artikel hat die Mechanik der ökonomischen Drosselung nachgezeichnet, die es auf langen Korpora ohnmächtig macht. Das Werkzeug, das sie wirklich bearbeitet, hat einen anderen Tarif, und dieser Tarif wurde drei Jahre lang vom Risikokapital verdeckt, das das Ökosystem der generativen KI überflutet. Wenn der Finanzdirektor fragt „was kostet KI“, lautet die ehrliche Antwort: „das hängt davon ab, ob Sie die Illusion oder die Arbeit wollen.“
Dieser Artikel macht die realen Kosten einer KI-Nutzung sichtbar, die für die tatsächliche Arbeit dimensioniert ist, stellt sie neben die sichtbaren Kosten der Endkundentarife und verteidigt eine kontraintuitive These: das aktuelle Zeitfenster ist das günstigste, das wir auf lange Sicht sehen werden.
Die rohen Kosten ernsthafter Inferenz
Die Tarife von Anthropic für Claude Opus 4.7, erschienen im April 2026, sind öffentlich: 5 Dollar pro Million Tokens am Eingang, 25 Dollar pro Million Tokens am Ausgang. Das ist der Tarif eines Modells der SOTA-Klasse — State Of The Art, also die Klasse der Modelle, die in Echtzeit die Grenze dessen definieren, was die Maschine im Schlussfolgern, in der Analyse langer Korpora, in der Kohärenz über lange Inferenzketten beherrscht. Die SOTA-Klasse vereint heute eine Handvoll Modelle: Claude Opus 4.7 bei Anthropic, GPT-5.5 und GPT-5.5 Pro bei OpenAI, Gemini Pro bei Google und einen engen Kreis von Herausforderern. Das ist das Werkzeug ernsthafter intellektueller Arbeit, klar zu unterscheiden von dem der Chatbots für den Massenmarkt.
OpenAI hat just am 23. April 2026 GPT-5.5 herausgebracht und seinen API-Tarif gegenüber GPT-5 verdoppelt — der Eingang steigt von 2,50 auf 5 Dollar pro Million Tokens, der Ausgang von 15 auf 30 Dollar. Google hält Gemini Pro knapp darunter, doch die Steigung ist dieselbe. Kein Modell der SOTA-Klasse sinkt nennenswert, und zum ersten Mal seit 2023 hat sich die Steigung gedreht: die Tarife steigen.
Eine vollständige Ausschreibung wiegt, beim Einlesen, zwischen 200 000 und 400 000 Tokens — CCTP, RC, BPU, DQE, DPGF, AE, Vergabeordnung, Lose, technische Anlagen und die technische Denkschrift des vorigen Wettbewerbers, auf öffentlichem Weg erlangt. Diese rohe Aufnahme entspricht ein bis zwei Dollar am Eingang. Doch ein Dossier zu lesen, ist weit davon entfernt, darauf zu antworten.
Eine echte Antwort verlangt vielfache Operationen: lesen, analysieren, die Anforderungen kartieren, die Zonen strategischer Divergenz identifizieren, die Gewichtungsformel simulieren, die Wettbewerbsreferenzen abgleichen, eine erste Denkschrift schreiben, sie herausfordern, sie neu schreiben. Jede Operation verbraucht Tokens beim Lesen des vorherigen Kontexts und beim Erzeugen neuen Textes. Ein Agent, der diese Schritte sauber orchestriert, macht nicht einen einzigen Durchgang über das DCE: er macht zehn bis dreißig, von denen jeder bei jeder Runde den gesamten vorherigen Kontext oder einen Teil davon erneut liest. Eine erste automatische Generierung einer technischen Denkschrift von fünfzig Seiten, ohne menschliches Eingreifen, verbraucht typischerweise zwischen zwanzig und sechzig Dollar an Tokens auf Opus 4.7.
Das sind die Mindestkosten. Die realen Kosten liegen anderswo.
Warum ein Dossier 400 Dollar kostet, nicht 50
Die erste Generierung ist selten das finale Dossier. In einer echten Produktionskette greift der Bid Manager mehrfach über einen Zyklus von acht bis zwölf Wochen ein.
Er dialogisiert mit der KI, um die Strategie nach dem ersten Durchlauf neu auszurichten. Er führt schrittweise Informationen ein, die anfangs nicht verfügbar waren — das interne Preisraster, die Personalabwägung über das verfügbare Team, die Geschichte der Beziehung zu diesem Kunden. Bei jedem Schritt wächst der Kontext des Agenten an, mitunter bis zur Million Tokens, und jede Gesprächsrunde spielt diesen Kontext zum Eingangstarif erneut ab.
Das DCE entwickelt sich: der Auftraggeber veröffentlicht eine Aktualisierung, fügt eine Anlage hinzu, schneidet den Leistungsumfang neu zu. Der Agent muss einen Teil der Arbeit erneut machen. Die veröffentlichten Fragen und Antworten ziehen eine neue Revision nach sich. Der Mensch-KI-Challenge — „dieser Abschnitt trägt nicht, schlage eine Alternative vor, die das Risiko beim Zeitplan auf sich nimmt, aber den Leistungsumfang absichert“ — löst fünf bis zehn Verfeinerungsrunden aus. Die aufeinanderfolgenden Durchsichten durch den Vertriebsdirektor, den Justiziar, den Executive Sponsor erzwingen ebenso viele lokale Umschreibungen. Die Last-Minute-Änderungen, in den vierundzwanzig Stunden vor Abgabe, gehören zu den teuersten, weil sie auf dem gesamten reifen Kontext operieren.
Bei einem ernsthaften Dossier, geführt mit einer ernsthaften menschlichen Schleife, liegt der Gesamtverbrauch an Tokens typischerweise zwischen 150 und 400 Dollar. Ein komplexes Dossier — Varianten, Optionen, Multi-Los, mit mündlicher Simulation vorbereitete Präsentation, Agent, der den Kontext über die letzten Wochen jenseits der Million Tokens hält — kann 600 Dollar pro Dossier überschreiten, ja sich bei sehr großen Multi-Los-Ausschreibungen mit Präsentation den 1 000 Dollar nähern.
Diese Spanne kennzeichnet das wirklich durchgearbeitete Dossier eher als einen Optimierungsmangel. Ein Dossier, das dreißig Dollar an Tokens verbraucht, ist ein Dossier, das niemand in der Tiefe herausgefordert hat.
Warum kein Long-Context-Modell günstig ist
Der Einwand kommt stets: „und Open Source?“. Llama, DeepSeek, Mistral Large veröffentlichen leistungsfähige Modelle unter offener Lizenz. Das Versprechen einer Inferenz zu marginalen Nullkosten bleibt im Narrativ verankert.
Es hält der professionellen Nutzung nicht stand. Drei Gründe.
Die Inferenz eines Modells der Klasse Llama 405B oder DeepSeek-V3 auf einer Million Tokens im Kontext erfordert mehrere GPU H100 oder B200, allokiert für die Dauer der Verarbeitung. Die Stundenkosten eines Clusters, der diese Last trägt, intern von einer IT-Abteilung betrieben, übersteigen rasch den API-Tarif eines proprietären SOTA-Modells — ohne den Vorteil der Qualität.
Das Hosting durch Dritte (Together AI, Fireworks, Groq, Anyscale) macht das Deployment zugänglicher, doch der weiterverrechnete Tarif konvergiert mechanisch gegen die Inferenzkosten der proprietären Betreiber. Die in den Vergleichen veröffentlichten Abstände halten bei vergleichbarer Leistung und effektivem Long-Context nicht stand.
Die Attention bleibt, in den meisten Architekturen, von quadratischer Komplexität in der Länge des Kontexts. Das Fenster zu verdoppeln vervierfacht die Inferenzkosten. Die jüngsten Optimierungen — Flash Attention, Ring Attention, Sliding Window — senken die Konstanten, ändern aber nicht die asymptotische Klasse bei Kontexten von mehreren Hunderttausend Tokens. Die Physik des Speichers verschwindet nicht durch die Migration zu Open Source.
Nüchterner Schluss: es gibt 2026 keine ökonomische Abkürzung zum leistungsfähigen 1M-Context. Wenn ein Anbieter einen Tarif anbietet, der dem Markt trotzt, ist das effektive Fenster kürzer, der Abruf der mittleren Tokens bricht ein (vgl. Lost in the Middle, Liu et al. NAACL 2024), oder die Qualität der Generierung fällt zurück. Was gratis erscheint, ist es strukturell nie.
Das Paradox Claude Max
Anthropic bietet zwei Stufen eines individuellen Nutzungsabonnements: Claude Max 5x für 100 Dollar pro Monat und Claude Max 20x für 200 Dollar pro Monat, die jeweils das Fünf- und Zwanzigfache der Kapazität des Standard-Pro-Abos eröffnen. Der erste Reflex eines Endkunden angesichts des Tarifs von 200 Dollar ist: „das ist sehr teuer für ein persönliches Werkzeug“. Der erste Reflex eines Nutzers, der die Erfahrung des API-Tarifs gemacht hat, ist: „das ist das am stärksten subventionierte Angebot des Marktes“.
Beide Reflexe sind wahr. Sie richten sich nicht an dieselbe Person.
Bei einer moderaten Nutzung — einige Gespräche pro Woche, gelegentliche Dossiers, beiläufiges Programmieren — ist das Abo für 200 Dollar verschwenderisch. ChatGPT Plus für 23 Dollar oder Claude.ai Standard für 20 Dollar genügen. Bei einer tiefgreifenden Nutzung — ein Bid Manager, der zwei vollständige Dossiers pro Woche orchestriert, ein erfahrener Berater, der Audits von sechzig Dokumenten bearbeitet, ein Entwickler, der den Agenten in langer Schleife auf Code hält — entspricht der bei den Power Usern, die auf Max gewechselt sind, beobachtete Verbrauch, zum äquivalenten API-Tarif, mehreren Tausend Dollar an Tokens pro Monat.
Das Abo subventioniert die tiefgreifende Nutzung. Es ist nur teuer für den, der es wenig nutzt. Es ist eines der sehr seltenen Produkte, bei denen das Gegenteil der spontanen Wahrnehmung gilt — und bei dem die Empfehlungen unter Gleichgesinnten radikal auseinandergehen, je nach Nutzungstiefe des Empfehlenden.
Dieses Paradox hat dennoch eine Kehrseite — ein zweischneidiges Preis-Leistungs-Verhältnis, das sich im März-April 2026 gezeigt hat. Anthropic hat diskret die Sitzungslimits seiner Max-Nutzer während der Stoßzeiten verschärft: die Fünf-Stunden-Sitzungen waren auf Max 5x in neunzig Minuten aufgebraucht, manche Prompts trieben eine Max-20x-Anzeige in einem einzigen Durchgang von 21 % auf 100 %. Offizielle Bestätigung von Anthropic im Anschluss — etwa 7 % der Nutzer stießen nun an Grenzen, an die sie zuvor nicht stießen. Der öffentlich genannte Grund blieb vage; der strukturelle Grund hingegen ist klar: die Nachfrage übersteigt die verfügbare GPU-Kapazität, und der Anbieter steuert dagegen, ohne es offen zu sagen, indem er die intensivsten Nutzungen drosselt, um die Qualität des Dienstes im großen Maßstab zu wahren. Das Abo bleibt subventioniert, aber die Subvention wird bedingt.
Dasselbe Phänomen, noch sichtbarer, trat bei Claude Mythos auf, dem Frontier-Modell, das Anthropic am 7. April 2026 ankündigte — ein Modell in der Größenordnung von zehn Billionen Parametern, trainiert auf den Blackwell-Generationen von Nvidia. Die Verbreitung blieb auf rund fünfzig ausgewählte Partner beschränkt (Programm Project Glasswing), mit einem API-Tarif von 25 Dollar am Eingang und 125 Dollar am Ausgang pro Million Tokens — das Fünffache des Tarifs von Opus 4.7. Die öffentliche Rechtfertigung stellt die Sicherheit in den Vordergrund; die in der Fachpresse zitierten internen Kommunikationen sagen etwas anderes. Anthropic räumt offen ein, dass Mythos „very expensive for us to serve, and will be very expensive for our customers to use“ sei, und arbeitet daran, es vor jeder breiteren Verbreitung effizienter zu machen. Die beschränkte Verbreitung ist, zu einem erheblichen Teil, eine durch die Inferenzkosten und die verfügbare industrielle Kapazität erzwungene Verbreitung eher als eine bloße Vorsichtsmaßnahme.
Diese beiden Signale konvergieren. Sie zeigen, dass sich das SOTA 2026 der Grenze dessen genähert hat, was das industrielle Ökosystem zum laufenden Tarif liefern kann. Das Abo für 200 Dollar, der API-Tarif von Opus 4.7, der verdoppelte Tarif von GPT-5.5 — alle spiegeln diese Spannung wider. Weit vom Endpunkt entfernt markieren sie eine Etappe nach oben.
Das Dilemma des IT-Leiters
Ein einkaufender IT-Leiter steht 2026 vor einem Raster mit drei Optionen.
Option A — strikte Beschränkung. Man rollt Microsoft Copilot, ChatGPT Enterprise oder Gemini for Workspace zu 20-30 € pro Nutzer aus. Die Governance ist einfach, der Betrag ist bekannt, die Integration ins Informationssystem ist erleichtert. Der vorige Artikel hat dokumentiert, was zusammenbricht: bei der vollständigen Ausschreibung, beim Protokoll einer langen Besprechung, bei der querschnittlichen Dokumentenanalyse kippen diese Werkzeuge in eine gedrosselte RAG-Architektur und produzieren flüssige, aber strukturell unzureichende Lieferobjekte. Die Rückmeldung aus dem Feld, im großen Maßstab, ist einheitlich „sehr, sehr enttäuschend“ bei den Dossiers mit Einsatz. Die verborgene Marge — verlorene Zeit beim Nacharbeiten unzureichender KI-Ausgaben, verlorene Dossiers mangels Tiefe, juristische Exposition durch Protokolle, die durch Auslassung falsch sind — wird durch die Einfachheit des sichtbaren Betrags verdeckt.
Option B — Premium mit Selbstrationierung. Man rollt einen API-Zugang zu Anthropic, OpenAI oder Google aus, doch die Governance schreibt Zwischenmodelle „für die Marge“ vor: Sonnet, Gemini Flash, Grok, GPT-4.1 mini. Der Stückkostentarif fällt um das Fünf- oder Zehnfache. Die Schlussfolgerungsfähigkeit fällt ebenfalls, aber weniger sichtbar. Das Ergebnis bei einem ernsthaften Ausschreibungsdossier ist ein kompetentes, aber mittelmäßiges Schlussfolgern, das die strategischen Wendepunkte verfehlt, die nur ein Premium-Modell identifiziert. Diese Option ist in Wirklichkeit gefährlicher als Option A. Mit Copilot ist der Nutzer misstrauisch — das Werkzeug ist öffentlich, die Grenze ist bekannt, man liest vor dem Unterschreiben nach. Mit einer ausgerollten Premium-API und einem Zwischenmodell im Hintergrund hat der Nutzer das Gefühl, auf eine ausgefeilte Infrastruktur zugegriffen zu haben, sein Vertrauen in die Ausgabe steigt, seine kritische Wachsamkeit sinkt. Er unterschreibt Analysen, die solide wirken, weil sie flüssig sind, die aber genau die Zonen verfehlen, in denen eine echte Schlussfolgerungsfähigkeit den Unterschied gemacht hätte. Die finale Enttäuschung wiegt schwerer, weil sie von unterwegs validierten Fehlern begleitet wird.
Dieselbe Logik gilt für die andere, diskretere Form der Selbstrationierung: der massive Einsatz von RAG auf dem gesamten Korpus. Man indexiert die Dokumente, man injiziert die wiedergefundenen Fragmente bei jeder Frage, man spart sich einen langen Premium-Kontext. Die Ausgabe wirkt informiert, belegt, strukturiert. Doch RAG spielt auf der semantischen Nähe zwischen der Frage und Fragmenten — es spielt weder auf der Logik, noch auf dem Urteil, noch auf der querschnittlichen Verknüpfung. Bei einer Ausschreibung hat die typische strategische Frage — „welche Kohärenzen verlangt dieses Dossier in der Verschränkung von Gewichtungsformel, geforderten Referenzen und Zeitplan?“ — keine Antwort in irgendeinem isolierten Fragment. RAG liefert nach Schlüsselwörtern relevante Absätze zurück, das Modell komponiert auf dieser Grundlage eine kohärente Antwort, und der Nutzer erhält ein Lieferobjekt, das durchdacht scheint, das aber das Dossier nicht in seiner Gesamtheit gesehen hat. Es ist dieselbe Illusion wie bei Option A, verkleidet hinter einer teureren Infrastruktur.
Option C — die einzige, die sich lohnt. Ein Premium-Modell (Opus, GPT-5.5 voll, Gemini Pro voll) für die Akte mit hohem Einsatz — strategische Analyse des DCE, Neuzuschnitt des Dossiers, Produktion der kritischen Abschnitte, Simulation der Präsentation. Optimierte Support-Modelle (Sonnet, Gemini Flash, Grok) für die Akte mit mittlerem Einsatz — Extraktion der Anforderungen, erstes Kapitelgerüst, Rechtschreibprüfung. Eine rigorose architektonische Steuerung — die entscheidet, welche Akte auf welches Modell geht, und die den Verbrauch misst. Eine rigorose kognitive Steuerung — eine vorgelagerte menschliche Rahmung, von Hand gesetzte epistemische Operatoren, eine kritische Durchsicht der Ausgaben. Und ein anspruchsvolles Change Management auf Seiten der Nutzer.
Diese Option impliziert einen Werkzeugsprung, den heute nur wenige Organisationen vollzogen haben: vom Chatbot zu einem echten agentischen Modus übergehen. Ein Agent, der direkt auf den Dokumenten interagiert — der sie öffnet, sie liest, sie vergleicht, Schreib- und Erkundungsbefehle ausführt, seine eigenen Schritte strukturiert, die Spur seiner Schlussfolgerungen bewahrt. Anstatt des Assistenten, dem man Auszüge in ein Chatfenster kopiert, ein System, das autonom auf dem Korpus operiert, unter menschlicher Kontrolle. Die Technologie ist reif, der Übergang ist 2026 technisch leicht — doch zu wenige Vertriebsleitungen und IT-Abteilungen sind auf diesem Werkzeug positioniert. Genau diese Lücke macht den Wettbewerbshebel der nächsten zwei Jahre aus.
Die sichtbaren Kosten von Option C sind höher als die von Option A. Die Gesamtbetriebskosten sind deutlich niedriger. Selbst ein Dossier, das in seinen Produktionswochen 1 000 Dollar an API verbraucht, bleibt ein Bruchteil der Gesamtkosten: das ist das Äquivalent von ein bis zwei Tagen Leistung eines erfahrenen Beraters, bei einer Angebotsvorbereitung, deren Gesamtbudget — Zeit des Bid Managers, technische Expertise, vertrieblicher Support, Präsentation — sich in einem ernsthaften IT-Dienstleister in Zehntausenden, ja Hunderttausenden Euro bemisst. Die wahre Frage betrifft nicht die absoluten Kosten der Premium-KI, sondern die Fähigkeit der Inferenz-Mehrkosten, mehrere Personentage zurückzukaufen und die Qualität des Lieferobjekts zu verbessern. Bei einer Ausschreibung mit hohem Einsatz ist die Antwort mechanisch ja.
Es ist dennoch eine Rechnung, die französische Finanzleitungen schwer aufmachen können, weil sie eine sichtbare monatliche Ausgabe einer diffusen Wertschöpfung gegenüberstellt — Konversionsrate, Margen auf gewonnenen Dossiers, Zyklusgeschwindigkeit.
Change Management ist die Hälfte der Investition
Opus ungeschulten Nutzern zu geben heißt, einem Anfänger einen Konzertflügel zu geben. Die Kosten des Instruments wirken absurd angesichts des erzeugten Klangs. Die Antwort besteht darin, den Pianisten auszubilden, eher als das Instrument herunterzustufen.
Die zu vermittelnde kognitive Disziplin ist präzise.
Die Absicht klar ausdrücken. Ein Nutzer, der „mach mir eine technische Denkschrift“ eingibt, verschwendet die Kapazität des Modells. Die explizite Rahmung — „der Kunde ist eine Verwaltung, der Leistungsumfang ist auf Los 2 begrenzt, die Differenzierungsstrategie ist die der Absicherung des Zeitplans, der erwartete Ton ist beruhigend beim operativen Risiko und offensiv beim Qualitätsversprechen“ — verschiebt die Vervollständigungsverteilung des Modells in die nützliche Zone. Es ist die rentabelste menschliche Operation der Kette. Eine Stunde, aufgewendet, um den Rahmen neu zu formulieren, ist, im Hebeleffekt, zehn Stunden iterativen Promptens auf einem Standardrahmen wert.
Den exakten Kontext liefern, nicht mehr und nicht weniger. Ein Nutzer, der das gesamte DCE ohne Hierarchie in das Fenster wirft, ertränkt das Modell. Ein Nutzer, der nur das CCTP liefert, verfehlt die relevanten internen Referenzen. Die richtige Dosierung ist eine Disziplin, die man lernt. Sie lässt sich messen: wenn die Ausgabe nicht trägt, war der gelieferte Kontext entweder zu arm oder zu flach.
Die Interaktionen durch strukturierte Zyklen minimieren. Ein Dialog mit zwanzig schlecht strukturierten Runden kostet mehr und produziert weniger als ein Dialog mit fünf Runden und klaren Kontrollpunkten. Die effiziente Methode wechselt zwischen langer Generierung, gezielter menschlicher Durchsicht, kalibrierter Korrekturanweisung, eingerahmter Neugenerierung. Sie wird vermittelt, ohne sich von selbst zu erschließen.
Die kritischen Operatoren von Hand setzen. Die Passagen mit vertraglicher oder strategischer Tragweite — Fristzusagen, Preisformel, Reversibilitätsklauseln, qualifizierende Referenzen — werden von Hand verfasst oder durchgesehen. Tarife und Zusagen werden niemals dem Modell überlassen.
In den ersten Monaten werden manche Nutzer das anfängliche Budget um 200 bis 300 zusätzliche Dollar pro Monat und Person sprengen, mitunter mehr. Das ist die Lernkurve, und sie ist normal. Der Return on Investment misst sich an der Konversionsrate von Ausschreibungen und am Kompetenzaufbau des Mitarbeiters, der seine Interaktionen schrittweise optimieren wird — den Rahmen treffender ausdrücken, den Kontext dichter liefern, den Dialog kürzer strukturieren —, bevor die KI-Inferenz aufhört, günstig zu sein. Die Leitung, die die Überkonsumtion während der Lernphase sanktioniert, tötet die Transformation, für deren Anstoß sie bezahlt hat.
TenderGraph TITAN: das agentische System, das die Inferenz für Sie optimiert
Eine Organisation, die das Problem ehrlich stellt, gelangt rasch zur selben Schlussfolgerung: ihre Mitarbeiter mit der Agentik „zurechtkommen“ zu lassen, ohne System, ohne Methode, ohne Rahmen, heißt, eines der beiden schlimmsten Szenarien zu garantieren. Entweder scheitert die Einführung, weil die Nutzungskomplexität entmutigt — der Nutzer greift nach drei gescheiterten Versuchen wieder zu Word und seiner alten Methode. Oder die Einführung gelingt schlecht — der Nutzer verbraucht massiv Premium-Tokens für mittelmäßige Ergebnisse, weil ihm weder die Rahmung, noch die Inferenzsequenz, noch die kognitive Disziplin zur Verfügung steht, die eine performante Nutzung verlangt. In beiden Fällen zahlt die Organisation, ohne zu ernten.
Genau diese Lücke adressiert TenderGraph mit TITAN. TITAN ist ein kognitives agentisches System, konzipiert für die Produktion von Angebotsvorbereitungen: es operiert direkt auf den Dokumenten des DCE, führt die Inferenzkette in der richtigen Reihenfolge aus, stellt die richtigen Fragen zu den richtigen Zeitpunkten, wendet die richtigen Analyselogiken an — Gewichtungsformel, Abgleich BPU/DQE, Lesart des impliziten Rahmens des CCTP, Identifikation der Zonen strategischer Divergenz. Der Nutzen ist zweifach. Auf der Zeitseite automatisiert der Agent die mechanischen Schritte, die der Bid Manager nicht von Hand wiederholen sollte. Auf der Seite der Inferenzkosten optimiert der Agent den Token-Verbrauch drastisch — vorstrukturierte Inferenzkette, keine menschliche Reibung, die redundante Gesprächsrunden erzeugt, besser vorgelagerte Rahmung, was die Neugenerierungen nachgelagert reduziert. Bei einem ernsthaften Dossier verbraucht ein gut konzipiertes kognitives agentisches System typischerweise zwischen 30 % und 60 % weniger als eine nicht mit Werkzeug ausgestattete menschliche Schleife, für ein äquivalentes oder besseres Lieferobjekt.
TenderGraph bietet ebenfalls eigene Schulungen an, um Bid Manager, Vertriebsdirektoren und Executive Sponsoren dabei zu unterstützen, das Qualitäts-Kosten-Verhältnis ihrer KI-Interaktion zu optimieren — Methode der Rahmung, Ökonomie des Kontexts, Struktur des Dialogs, Haltung der kritischen Durchsicht. Das ist die andere Hälfte der Transformation: ein agentisches Werkzeug ohne geschulte Nutzer bringt Minderleistung; geschulte Nutzer ohne agentisches Werkzeug überkonsumieren. Beide zusammen richten die Arithmetik wieder auf.
Warum jetzt das günstigste Zeitfenster ist
Drei Linien des Aufwärtsdrucks konvergieren auf die nächsten zwölf bis vierundzwanzig Monate.
Die Subvention des Risikokapitals hat ihren Zenit erreicht. Die Finanzierungsrunden allein des ersten Quartals 2026 — OpenAI 122 Milliarden Dollar, Anthropic 30 Milliarden, xAI 20 Milliarden — sind historisch. Kumuliert übersteigt OpenAI die 110 Milliarden Dollar an eingesetztem Kapital (Stargate inbegriffen), Anthropic erreicht seit 2021 fast 64 Milliarden, xAI 42 Milliarden seit 2023. Diese Runden waren gerade deshalb notwendig, weil die veröffentlichten Bilanzen einen Umsatzaufschwung zeigen, der schneller ist als der Rückgang der Stückkosten: die Differenz zwischen Erlös und Inferenzkosten wurde durch das Kapital gedeckt. Die Fonds akzeptieren im April 2026 noch Bewertungen vom mehreren Dutzendfachen des Umsatzes, doch die finanzielle Disziplin kehrt zurück — und die Preisentwicklung spiegelt es bereits wider. OpenAI hat seinen API-Tarif beim Übergang von GPT-5 zu GPT-5.5 am 23. April 2026 verdoppelt. Die Subvention des Tokens ist kein dauerhaftes Versprechen mehr.
Die leistungsfähigeren Modelle sind teurer — und die Steigung ist nun dokumentiert. Der Übergang GPT-5 → GPT-5.5 bei OpenAI illustriert die Mechanik: Eingangstarif mal zwei, Ausgangstarif mal zwei, Lancierung einer Variante GPT-5.5 Pro zu 30 Dollar am Eingang und 180 Dollar am Ausgang pro Million Tokens. Anthropic ist anders vorgegangen — die Nomenklatur „Opus 4.5 / 4.6 / 4.7“ hält einen stabilen Katalogpreis von 5 / 25, aber der neue Tokenizer von Opus 4.7 inflationiert den effektiven Verbrauch um bis zu 35 % auf denselben Texten, was einer stillen Erhöhung gleichkommt. Google hält Gemini Pro knapp darunter, aber der Gradient ist derselbe. Das SOTA steigt; der effektive Tarif des SOTA steigt; der Tarif der Einstiegsmodelle sinkt, aber diese Modelle bearbeiten keine ernsthaften Dossiers. Die Abstände zwischen den Klassen werden sich vergrößern, weit davon entfernt, sich zu verringern.
Die industrielle Kapazität ist auf vier Dimensionen zugleich beschränkt — und keine löst sich kurzfristig mit Geld.
Die Chip-Produktion. TSMC ist der einzige Foundry, der in der Lage ist, im großen Maßstab die Blackwell-Generationen von Nvidia, AMD MI400 und die proprietären Chips von Google (TPU v7), Amazon (Trainium 3) und Meta zu produzieren. Die Belichtungskapazität in 3 nm und 2 nm ist für 2026 ausgelastet und für 2027 weitgehend reserviert. Kein Akteur, nicht einmal Microsoft oder Google, kann die Belichtungskadenz beschleunigen: die Fabriken laufen bereits unter Volllast, und der Bau einer neuen TSMC-Fab in Phoenix oder Kumamoto braucht vier bis sechs Jahre. Die Warteschlange, um H200 oder Blackwell zu kaufen, bemisst sich in Monaten, und die Hyperscaler verbrauchen den Großteil der Allokationen.
Die Kosten und die Verfügbarkeit der Energie. Die Inferenz im großen Maßstab ist 2025-2026 zu einem der am stärksten wachsenden Posten des Stromverbrauchs in den Industrieländern geworden. Die Betreiber von Rechenzentren zahlen ihren Strom mittlerweile zu Tarifen, die sich in zwei Jahren in Nord-Virginia, in Irland, in Singapur verdoppelt haben. Die Energierechnung wird zu einem signifikanten Bruchteil der Inferenzkosten — und sie steigt mit jeder Welle der Inbetriebnahme hochdichter GPU-Cluster.
Die physische Bauzeit. Alles Geld der Welt produziert kein Rechenzentrum auf der Stelle. Das Grundstück erwerben, die Genehmigungen erhalten, den Netzanschluss mit dem Netzbetreiber verhandeln, das Gebäude bauen, die Hochspannung installieren, die Racks kühlen, die Sicherheit validieren — jeder Schritt braucht zwölf bis sechsunddreißig Monate, ohne die verwaltungsrechtlichen Einsprüche zu zählen. Die heute im Bau befindlichen Rechenzentren wurden 2023-2024 angestoßen; jene, die die Nachfrage von 2027-2028 decken werden, müssen jetzt angestoßen werden. Keine finanzielle Abkürzung tilgt diese physische Frist.
Der Anschluss an das Stromnetz. Die Rechenzentren der KI-Klasse erfordern Hochspannungsanschlüsse von mehreren Hundert Megawatt. Die Netzbetreiber in den USA, in Irland, in der Île-de-France, in Deutschland melden Warteschlangen, die den Projekten achtzehn bis sechsunddreißig Monate hinzufügen, mitunter mehr. Das Stromnetz wurde nicht für diese Nachfrage dimensioniert, und seine Ertüchtigung folgt ihren eigenen industriellen und politischen Fristen. Microsoft, Google und Amazon sichern sich Atomverträge über zehn Jahre gerade deshalb, weil die gesteuerte Stromverfügbarkeit zum limitierenden Faktor wird — nicht die Rechenleistung, das Elektron.
Die Summe ist unanfechtbar: das Angebot ist bereits an seiner Obergrenze für mehrere Monate, ja mehrere Jahre, aufgrund der bereits unterzeichneten Verträge und der bereits eingegangenen industriellen Ketten. Währenddessen explodiert die Nachfrage — die Unternehmensadoption, die abhebt, die Agentik, die das Volumen der pro aktivem Nutzer verbrauchten Tokens vervielfacht, die langen Kontexte, die die Kosten pro Anfrage vervielfachen, die leistungsfähigeren Modelle, die mehr Rechenleistung verlangen. Die Auswirkung auf den Inferenzpreis ist mechanisch: wenn die Nachfrage mehrfach schneller wächst als das Angebot, und das Angebot kurzfristig nicht beschleunigen kann, können die Tarife nur steigen.
Konsequenz: die Kosten der tiefgreifenden KI-Nutzung werden steigen, bevor sie wieder sinken. Die Modelle werden weiterhin intelligenter werden, aber zu einem höheren Tarif. Die Methodologien — die Arten zu prompten, den Dialog zu strukturieren, den Rahmen zu setzen, die Operatoren zu kalibrieren — sind hingegen dauerhafte Aktiva. Eine Organisation, die 2026 in die kognitive Disziplin ihrer Bid Manager investiert, wird 2027 und 2028 die Früchte auf leistungsfähigeren Modellen ernten. Eine Organisation, die wartet, bis „es weniger kostet“, wird lange warten und auf einem Markt ankommen, auf dem ihre Wettbewerber zwei Jahre methodischen Vorsprung haben werden.
Das ökonomische Standardargument — „warten, bis die Technologie reift“ — beruht, bei der generativen KI, auf einer umgekehrten Lesart der Kurven. Die Werkzeuge sind bereits reif; es ist der Tarif, der es nicht mehr ist.
Operative Konsequenz
Für einen Vertriebsdirektor, einen IT-Leiter, einen Executive Sponsor hält das Entscheidungsraster in drei Zeilen.
Die niedrigsten sichtbaren Kosten — Copilot, ChatGPT Plus — sind die höchsten realen Kosten, weil sie strukturell unzureichende Dossiers finanzieren und das Vertrauen in das Werkzeug untergraben. Es ist die Option, die den Satz „wir haben KI ausprobiert, es überzeugt nicht“ hervorbringt, obwohl man nur ein gedrosseltes Produkt an Fällen außerhalb seines Felds ausprobiert hat.
Die mittleren sichtbaren Kosten — selbstrationiertes Premium auf Sonnet, Grok, Gemini Flash — sind die Option der scheinbaren Raffinesse ohne die Leistung. Sie enttäuscht gleichermaßen, nur teurer.
Die höchsten sichtbaren Kosten — Opus auf den kritischen Akten, Support-Modelle auf dem Rest, architektonische Steuerung und ernsthaftes Change Management — sind die einzige, die sich lohnt. Sie verlangt zu akzeptieren, dass ein gründlich bearbeitetes Ausschreibungsdossier zwischen 150 und 400 Dollar an Tokens verbraucht, und dass ein Nutzer in der Lernphase das Budget um 200 bis 300 Dollar pro Monat überschreiten wird. Sie verlangt auch, den Return im richtigen Maßstab zu messen: Konversionsrate, Margen auf gewonnenen Dossiers, Zyklusgeschwindigkeit, Qualität der Präsentation.
Keine Wunderlösung
Alle Signale konvergieren zur selben Schlussfolgerung. Es gibt keine Abkürzung. Um wirklich von der generativen KI in der Angebotsvorbereitung zu profitieren, müssen zwei Bedingungen gleichzeitig gelten: bereit sein, die Inferenz zu ihrem gerechten Preis zu bezahlen, und die Transformation jetzt anstoßen, indem man die Nutzer schult, sie besser einzusetzen. Keine der beiden genügt allein. Und die zweite impliziert in Wirklichkeit die erste: man lernt nicht, einen Formel-1 auf einem Kleinwagen zu fahren, und sei er der allerneueste. Ein auf Copilot geschultes Team wird weiterhin Copilot denken — kurzes Fenster, semantisches RAG, flüssige und strukturell unzureichende Lieferobjekte —, was immer man ihm darüber hinaus beibringt.
Bereit sein zu bezahlen nimmt in der Praxis zwei Formen an. Das Ideal ist ein Unternehmensabonnement bei einem SOTA-Anbieter, unter den optimalsten Bedingungen — Zugang zum Premium-Modell ohne verborgene Rationierung, langer Kontext verfügbar, volle Agentik — und man schaut so wenig wie möglich auf den Preis. Diese Option wird heute ernsthaften Unternehmen angeboten und bleibt zugänglich — gerade weil das Fenster subventioniert ist. Die Alternative, für Organisationen, die die granulare Kontrolle behalten wollen, ist, das über API transitierende Volumen zum vollen Tarif zu bezahlen, indem man die Ausgabe auf sich nimmt, um sich die technische Vorherrschaft über die Wettbewerber zu sichern, die noch zögern.
Für die sehr großen Unternehmen beginnt ein dritter strategischer Hebel aufzutauchen: eigene Rechenzentren, eigene Chips besitzen und ihren Verbrauch, ihre Modelle und ihre Daten beherrschen. Es ist der Weg, den Microsoft, Google, Amazon im großen Maßstab für ihre eigenen Nutzungen einschlagen, und der den industriellen und finanziellen Großkonzernen schrittweise zugänglich wird, in dem Maße, wie Open-Source-Modelle wie DeepSeek V4 eine dem proprietären SOTA vergleichbare Qualität erreichen — zum Preis einer erheblichen Investition in Infrastruktur und interne Kompetenzen. Diese strategische Positionierung ist Gegenstand des folgenden Artikels, der untersucht, was Open Source wirklich ändert, was es nicht ändert, und das daraus folgende Drei-Ebenen-Raster für die IT-Leitungen.
Welcher Hebel auch gewählt wird, die Botschaft hält in einer Zeile: die Maschine kann das Dossier bearbeiten. Es ist Sache des Menschen, zu entscheiden, welche Kosten er zu sehen akzeptiert und welche er weiterhin verborgen zu zahlen vorzieht — in verlorenen Margen, in verlorenen Dossiers, in flüssigen Antworten, die nichts begründen, und in zwei Jahren angehäuften Rückstands gegenüber den Wettbewerbern, die die Transformation angestoßen haben werden, während das Fenster noch subventioniert war.
Hauptquellen: Anthropic, „Claude Opus 4.7 pricing and API documentation“, platform.claude.com und anthropic.com, April 2026. OpenAI, „GPT-5.5 pricing and release notes“, openai.com und platform.openai.com, 23. April 2026. Anthropic, „Max plan“, claude.com/pricing/max, 2026. Anthropic, „Claude Mythos Preview / Project Glasswing“, red.anthropic.com, 7. April 2026. PCWorld, „Anthropic confirms it's been adjusting Claude usage limits“, März 2026. The Register, „Anthropic admits Claude Code quotas running out too fast“, 31. März 2026. InfoWorld, „Anthropic throttles Claude subscriptions to meet capacity“, 2026. MacRumors, „Claude Code Users Report Rapid Rate Limit Drain“, 26. März 2026. GitHub-Issue anthropics/claude-code #41788, März 2026. Xaltius Academy, „The 10-Trillion Parameter Problem: Why Anthropic Locked Away Claude Mythos“, 2026. Google, „Gemini API pricing“, ai.google.dev, 2026. Crunchbase, „Foundational AI Startup Funding Q1 2026“, news.crunchbase.com, April 2026. PitchBook / SiliconANGLE, „US venture funding surges to record $267B as OpenAI, Anthropic and xAI dominate AI deals“, April 2026. Liu et al., „Lost in the Middle: How Language Models Use Long Contexts“, NAACL 2024. Hoffmann et al., „Training Compute-Optimal Large Language Models“ (Chinchilla scaling laws), NeurIPS 2022. Dao et al., „FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness“, NeurIPS 2022. Liu et al., „Ring Attention with Blockwise Transformers for Near-Infinite Context“, arXiv 2310.01889, 2023. Stanford HAI, „AI Index Report 2025“, Kap. 4 (Economy). Finout, „Claude Opus 4.7 Pricing — The Real Cost Story Behind the Unchanged Price Tag“ (Tokenizer-Analyse Opus 4.7), April 2026.