Echte Agentik: Was ein Agent tut, wenn man ihn operieren lässt
Vierter Artikel des Blocks Kognition / Doktrin. Wenn die wahren Kosten der Inferenz einen tiefgreifenden Einsatz von KI bei kritischen Akten nunmehr tragbar machen, und wenn die Drosselung der Consumer-Werkzeuge eben diesen Einsatz für Copilot oder ChatGPT in der Chat-Oberfläche untersagt, dann lautet die Frage: über welches technische Objekt gelangt man konkret vom Prompt zur autonomen Operation an einem Dossier? Die Antwort heißt Agent — vorausgesetzt, man weiß welcher.
In einem großen französischen IT-Dienstleister lädt im März 2026 ein Bereichsleiter seine Teams zu einer Produktdemonstration ein. Der Anbieter ist gekommen, um „den ersten KI-Agenten, der eigenständig auf eine Ausschreibung antworten kann" vorzustellen. Die Demo überzeugt. Der Nutzer lädt ein Lastenheft hoch, klickt auf einen Knopf, und drei Minuten später erscheint eine fünfzigseitige technische Antwort, gespickt mit Referenzen und kalibriert auf die Kriterien der Vergabebedingungen. Der Saal applaudiert; der Bereichsleiter vereinbart einen Termin für ein PoC.
Drei Monate später ist das PoC abgebrochen. Das Werkzeug, das in der Demo magisch wirkte, erwies sich als unfähig, einem echten DCE standzuhalten. Beim ersten realen Dossier erzeugte es eine technische Antwort, die Referenzen anderer Kunden vermischte, eine der Ausschlusskriterien verfehlte und für die Gewichtungsformel eine fehlerhafte Analyse lieferte, auf die ein erfahrener Bid Manager keine zehn Sekunden lang hereingefallen wäre. Das interne Fazit fällt in der Nachbesprechung: „Das war kein Agent. Das war ein verkleideter Workflow."
Das Fazit ist zutreffend, und es wird von so ziemlich jeder Direktion geteilt, die in den Jahren 2025-2026 ernsthaft ein als „KI-Agent" etikettiertes Produkt getestet hat. Das Wort umfasst zu dieser Stunde technische Objekte von tiefgreifend auseinandergehender Natur, von denen nur eines die Arithmetik der Arbeit tatsächlich verändert. Dieser Artikel löst die Verwirrung auf, zeichnet den Forschungsweg nach, der das dritte Objekt tragfähig gemacht hat, und schlägt das konkrete Raster vor, das Direktionen anwenden sollten, bevor sie das Wort „Agent" unter ein Lastenheft setzen.
Auflösen, was das Wort umfasst
Am untersten Ende des Spektrums der verkleidete Chatbot. Unter der Haube eine Prompt-Schnittstelle zu einem Sprachmodell, ergänzt um einige im System-Prompt versteckte Anweisungen und ein Branding, das von Agent spricht. Der Nutzer tippt eine Anfrage, das Modell antwortet, der Zyklus endet. Keine Werkzeugwahl. Kein Zustandsgedächtnis zwischen den Runden. Keine Fähigkeit, auf ein externes System einzuwirken. Microsoft Copilot, ChatGPT in der Standardoberfläche, Claude.ai im Chat-Modus gehören zu dieser Klasse — ungeachtet der Raffinesse des Modells, das sie in sich tragen.
Eine Stufe höher der gesteuerte Workflow. Ein Produkt, das eine Abfolge vordefinierter Schritte orchestriert, wobei jeder einzelne gegebenenfalls für die Texterzeugung an ein Sprachmodell delegiert wird, dessen Abfolge selbst jedoch bei der Konzeption festgeschrieben ist. Der Anbieter hat einen Graphen geschrieben: Lastenheft lesen → Anforderungen extrahieren → Entwurf erzeugen → finale Antwort produzieren. Bei jedem Schritt kann ein LLM-Aufruf eingreifen. Aber das LLM entscheidet niemals, ob ein Schritt zu tun ist, in welcher Reihenfolge, oder ob einer hinzuzufügen ist. Die Logik ist exogen, deklariert, überprüfbar. Zapier, n8n, Make und nahezu sämtliche 2025 als „Agent" etikettierten Werkzeuge gehören zu dieser Klasse.
Ganz oben im Spektrum der echte Agent — ein System, in dem das Sprachmodell die zu unternehmenden Handlungen selbst wählt, ausgehend von einer geäußerten Absicht und einer Umgebung, die es beobachtet. Es verfügt über ein Repertoire an Werkzeugen — eine Datei lesen, eine Datei schreiben, eine API aufrufen, Code ausführen, eine Datenbank abfragen, eine Suche starten, an einen anderen Agenten delegieren. Bei jeder Schleifendrehung beobachtet es den Weltzustand, wählt die nächste Handlung, führt sie aus, beobachtet das Ergebnis, aktualisiert seinen mentalen Zustand. Die Abfolge entsteht in dem Maße, wie es operiert, ohne dass ein Anbieter sie im Voraus geschrieben hätte.
Was diese Objekte trennt, lässt sich in einem minimalen Raster zusammenfassen.
| Kriterium | Chatbot | Workflow | Echter Agent |
|---|---|---|---|
| Handlungswahl | Keine | Vom Anbieter festgeschrieben | Vom Modell entschieden |
| Zustandsgedächtnis | Keines zwischen Runden | Von Schritt zu Schritt weitergereichte Variablen | Persistente, aktualisierte Repräsentation |
| Revisionsschleife | Keine | Linear oder mit deterministischer Verzweigung | Möglichkeit, zurückzugehen, neu anzusetzen, einen Eingriff anzufordern |
Das entscheidende Kriterium ist das erste. Ein echter Agent kann an ein und demselben Dossier eines Tages beschließen, nach dem Lesen dreier Seiten ein Berechnungswerkzeug aufzurufen, und an einem anderen Tag, das gesamte DCE vor jeder Berechnung erneut zu lesen, weil ihn der Kontext des zweiten Auftrags zu dem Urteil gebracht hat, dass die Herausforderungen anderswo lagen. Diese Sequenzautonomie definiert die Klasse — und verbietet es per Konstruktion, sie durch ein Lastenheft an Testfällen zu garantieren.
Der Weg, der das Objekt möglich gemacht hat
Die Geburtsurkunde des Konzepts ist präzise. Yao et al. veröffentlichen im November 2022 „ReAct: Synergizing Reasoning and Acting in Language Models" auf der NeurIPS. Das vorgeschlagene Muster ist einfach zu benennen und mächtig in der Ausführung: in der Argumentationskette des Modells explizit abwechseln zwischen Thought-Schritten, in denen das Modell ausdrückt, was es zu tun gedenkt, Action-Schritten, in denen es ein Werkzeug aus einer vordefinierten Liste wählt und den Aufruf formuliert, und Observation-Schritten, in denen es das Ergebnis des Werkzeugs erhält und in seine Kette einfügt. Der Zyklus setzt sich fort bis zu einem Finish-Schritt, mit dem das Modell die Aufgabe als vollendet erklärt. Zum ersten Mal hört das LLM auf, sich darauf zu beschränken, einen Text zu produzieren — es führt eine Mission.
Die unmittelbare Grenze von ReAct zeigt sich, sobald ein Agent mehrere Versuche aneinanderreiht: Er weiß nicht, dass er sich geirrt hat, und reproduziert bei jedem neuen Anlauf denselben Fehler. Shinn et al. korrigieren dies in „Reflexion: Language Agents with Verbal Reinforcement Learning" (NeurIPS 2023), indem sie eine Selbstkritik-Schleife hinzufügen. Am Ende jedes Versuchs verfasst der Agent einen Bericht darüber, was funktioniert hat und was gescheitert ist, bewahrt diesen Bericht im Langzeitgedächtnis auf und nutzt ihn, um den nächsten Versuch zu informieren. Die Leistung steigt stark auf den Reasoning-Benchmarks — HotpotQA, HumanEval für Code, ALFWorld für interaktive Umgebungen.
Wang et al. veröffentlichen im März 2023 „Voyager: An Open-Ended Embodied Agent with Large Language Models", das die Logik in Minecraft vorantreibt. Voyager baut über Tage autonomer Erkundung schrittweise eine Bibliothek wiederverwendbarer Kompetenzen auf — „wie man eine Steinspitzhacke herstellt", „wie man Eisen findet" —, die er ansammelt und kombiniert, um Ziele wachsender Komplexität zu lösen. Die Demonstration ist verstörend: Ein Agent kann durch Erkundung sein eigenes Expertise-Repertoire aufbauen, ohne dass eine einzige Kompetenz von Hand programmiert wurde.
Die nächste industrielle Etappe ist weniger ruhmreich. AutoGPT, im März 2023 lanciert und massenhaft adoptiert, veranschaulicht die Grenzen der ersten Generation von Consumer-Agenten. Das System dreht sich im Kreis, verliert seinen Zustand, halluziniert seine Werkzeuge, verbraucht die API-Budgets, ohne zu konvergieren. Die 2023-2024 dokumentierten Erfahrungsberichte — „95 % der nicht trivialen Versuche scheitern", „die Kontextdrift macht den Agenten jenseits von fünfzig Aktionen unbrauchbar" — machen die Branche achtzehn Monate lang vorsichtig gegenüber dem Wort Agent.
Die industrielle Wende kam 2025-2026 aus einem Bündel konvergierender technischer Reifungen — die zuvor niemals koexistiert hatten. Das auf eine Million Tokens erweiterte Kontextfenster erlaubt dem Agenten nunmehr, den Zustand einer langen Mission zu halten, ohne abzudriften — dort, wo die Begrenzung auf 32 oder 128 k Tokens ihn in der fünfzigsten Runde abreißen ließ. Der native Tool Use, von Anthropic in „Building effective agents" (2024) und von OpenAI in der Spezifikation „function calling" formalisiert, erreicht eine Zuverlässigkeit über 99 % auf den öffentlichen Benchmarks — τ-bench, AgentBench, ToolBench —, während ein Agent von 2023 seine Erfolgsaussichten nach zehn aufeinanderfolgenden Aufrufen auf 50 % sinken sah. Die Reife der sogenannten Computer-Use-Architekturen — eine von Anthropic im Oktober 2025 veröffentlichte, 2026 verfeinerte Fähigkeit — öffnet dem Agenten die Arbeit in nicht instrumentierten Werkzeugen: den Cursor bewegen, klicken, den Bildschirm lesen, auf der Tastatur tippen. Und die Inferenzkosten, unter Opus 4.7 auf eine Spanne von 150 bis 400 Dollar für ein vollständiges Ausschreibungsdossier gebracht, werden vereinbar mit einem Budget, dessen Gesamtsumme sich in Zehntausenden von Euro bemisst — eine Spanne, die im Artikel über die wahren Kosten der Inferenz im Detail dargelegt wird.
In ebendiesem Zeitraum formalisierte sich die architektonische Doktrin, die gefehlt hatte. Das Muster Supervisor-Worker, durch das ein Supervisor-Agent spezialisierte Sub-Agenten orchestriert. Das Muster Planner-Executor, durch das ein Planungsagent die Mission zerlegt, bevor ein Ausführungsagent sie durchführt. Die Kombination ReAct + Reflexion + Memory Hierarchy, die zum impliziten Standard der ernsthaften agentischen Produkte geworden ist, die 2026 ausgeliefert werden. Die Literatur — Wang et al. „A Survey on Large Language Model based Autonomous Agents" (2024), Xi et al. „The Rise and Potential of Large Language Model Based Agents" (2023), die White Paper von Anthropic „How we built our multi-agent research system" (2025) — liefert heute einen operativen Rahmen, der vor zwei Jahren nicht existierte.
Die Agenten von 2026 sind keineswegs verbesserte AutoGPT; sie gehören einer anderen Generation technischer Objekte an. Die meisten Organisationen, die sie heute bewerten, gehen von einer mentalen Repräsentation aus, die von den Produkten von 2023 ererbt ist — was sie unterschätzen lässt, was ein echter Agent inzwischen zu leisten vermag, während sie zugleich überschätzen, was ein verkleideter Workflow an seiner Stelle zu leisten vorgibt.
Das konkrete Raster, das Käufer anwenden sollten
Der Kategorienfehler — einen verkleideten Workflow für einen kognitiven Einsatz zu kaufen, oder einen echten Agenten für einen industriellen Einsatz — ist 2026 zum kostspieligsten Fehler der in KI investierenden Direktionen geworden. Das Entscheidungsraster fasst sich dennoch in wenigen Worten.
Für die punktuelle konversationelle Assistenz — eine E-Mail verfassen, eine Notiz zusammenfassen, eine erste Fassung eines kurzen Briefings, ein Brainstorming zu einer geschlossenen Frage — genügt der verkleidete Chatbot. Copilot, ChatGPT, Claude.ai im Chat-Modus decken den Einsatz legitim ab, und die Inferenz-Mehrkosten einer Agentik bleiben bei diesen Objekten ungerechtfertigt.
Für die repetitive Sequenz mit stabilen Regeln — Onboarding eines neuen Nutzers in mehreren Systemen, Stapelverarbeitung homogener Dokumente, automatische Erzeugung von Dienstanweisungen, Export von einem CRM in ein Reporting-Werkzeug — ist der gesteuerte Workflow das geeignete Instrument. Die Sequenz ist bekannt, die Ausnahmen sind selten, Vorhersagbarkeit hat Vorrang vor Anpassungsfähigkeit. Diese Objekte einem echten Agenten anzuvertrauen, kostet mehr für ein gleichwertiges, ja weniger zuverlässiges Ergebnis, weil der Agent die Freiheit behält, eine Anweisung falsch auszulegen, die ein Workflow ohne Gewissensbisse ausführen würde.
Für die komplexe Mission mit nicht vorhersagbarer Sequenz — strategische Analyse eines Dossiers, übergreifendes Audit, Wettbewerbsanalyse, Aufbereitung einer Entscheidung bei unvollständiger Information, Durchführung einer Ausschreibungsantwort — verändert der echte Agent die Arithmetik. Die Abfolge der Handlungen kann nicht im Voraus geschrieben werden; sie hängt ab von dem, was der Agent beim Lesen der ersten Dokumente entdecken wird, von den strategischen Wendungen, die er beim Verknüpfen der Quellen erkennt, von den Divergenzpunkten, die erst nach der fünfzehnten Runde zutage treten. Bei diesen Missionen produziert der verkleidete Workflow ein flüssiges, mittelmäßiges Lieferergebnis; der echte Agent produziert ein Lieferergebnis, das der Arbeit eines kompetenten, von einem Senior beaufsichtigten Juniors gleicht. Der Unterschied bemisst sich in Erfolgsquoten, in Margen bei gewonnenen Dossiers, in zurückgewonnenen Personenstunden.
Was ein echter Agent an einem Ausschreibungsdossier tut
Der Bid Manager äußert eine anfängliche Absicht — „untersuche dieses DCE, identifiziere die passende Antwortstrategie und produziere ein erstes Gerüst einer technischen Antwort im Einklang mit meinem Track Record". Von da an operiert der Agent.
Er öffnet die Dokumente, liest sie, identifiziert einige als strukturierend und andere als nebensächlich. Er verknüpft die Gewichtungsformel mit den Mengen des DQE, erkennt die Zonen hoher Preissensibilität. Er kehrt zum Lastenheft zurück, um eine Anforderung zu überprüfen, deren anfängliche Extraktion ihm mehrdeutig erschien. Er ruft ein Werkzeug zur Tarifsimulation auf und stellt fest, dass die Formel den scheidenden Auftragnehmer strukturell begünstigt — er weist darauf als strategischen Punkt hin. Er konsultiert den internen Track Record und identifiziert einige übertragbare Referenzen. Er verfasst einen Kapitelentwurf, liest ihn erneut, entdeckt einen inneren Widerspruch, schreibt ihn um. Dann hält er inne, formuliert eine ausdrückliche Frage an den Menschen — „die Strategie scheint einen Abgleich zwischen Marge und Erfolgsquote zu erfordern; was hat Priorität?" — und wartet auf die Antwort, bevor er fortfährt.
Keine dieser Handlungen wurde geskriptet. Es ist der Agent, der bei jeder Runde entscheidet, was zu tun angebracht ist — ein Werkzeug aufrufen, eine Passage erneut lesen, anhalten, fragen. Die anfängliche Lektüre des Lastenhefts bleibt zwanzig Aktionen später zugänglich, weil der mentale Zustand persistent ist. Der widersprüchliche Entwurf wird korrigiert, weil eine Selbstkritik-Schleife ausgelöst wurde. Die Frage an den Menschen entsteht, weil der Agent die Grenze dessen, was er zu leisten vermag, identifiziert hat, statt eine selbstsichere Antwort auf einem Terrain zu fabrizieren, auf dem menschliches Urteil gefordert ist.
Diese letzte Fähigkeit — die Zone benennen zu können, in der man innehält — bildet für sich allein eines der zuverlässigsten Kennzeichen einer ernsthaften Agentik. Die epistemologische Markierung spielt dabei eine zentrale Rolle. Ein verkleideter Workflow läuft per Konstruktion bis zum Ende durch, weil keine Verzweigung kodiert wurde, um mit dem Zweifel umzugehen. Der Unterschied hört auf, kosmetisch zu sein, sobald er die Organisation gegen die flüssigen und strukturell unzureichenden Lieferergebnisse schützt, die die Copilot-Illusion bereits auf einem anderen Terrain dokumentiert hatte.
Was die Direktionen aufhören und beginnen sollten
Aufhören, Agent zu nennen, was keiner ist. Das Vokabular wurde 2024-2025 von den Anbietern und der Fachpresse verwässert. Eine intern formulierte Entscheidungsanfrage in der Form „sollen wir diesen Agenten kaufen?" bezieht sich in neun von zehn Fällen auf einen verkleideten Workflow. Das minimale Raster — Handlungswahl, Zustandsgedächtnis, Selbstkorrektur-Schleife — sollte in jedem Lastenheft figurieren, das von Agent spricht. Wenn der Anbieter sein Produkt nicht nach diesen Kriterien qualifizieren kann oder will, ist der Zweifel entschieden.
Echte Agentik bei den kritischen kognitiven Akten einsetzen. Antwort auf komplexe Ausschreibung, übergreifendes Audit, Due Diligence, Aufbereitung einer Entscheidung bei unvollständiger Information. Der Weg 2026-2028 ist nunmehr lesbar: Die Organisationen, die echte Agentik eingesetzt haben werden, werden in zwei Jahren einen methodischen Vorsprung vor jenen haben, die fortgefahren sein werden, Chatbot-Demo und operatives System zu verwechseln. Die Inferenzkosten sind das Eintrittsticket — sie bleiben vereinbar mit den Budgets der kritischen Akte, wie der vorige Artikel im Detail dokumentiert hat. Das kognitive Ticket — menschliche Rahmung im Vorfeld, von Hand gesetzte epistemische Operatoren, Change Management der Bid Manager und Berater — bildet die reale Hälfte der Investition.
Echte Agentik ersetzt nicht die Maschine durch den Menschen. Sie befreit die bisher dem gewidmeten Personentage — extrahieren, auflisten, verknüpfen, prüfen, formatieren, einen ersten Wurf verfassen —, was der Mensch nicht tun sollte, um sie hin zu dem umzuverteilen, was er allein zu leisten vermag: die strategische Rahmung, den Abgleich, die Signatur des finalen Operators. Eine andere Arbeitsteilung, eher als eine Substitution.
Die Maschine kann die Mission nunmehr durchführen.
Den Sinn der Mission muss man noch immer selbst setzen.
Hauptquellen: Yao et al., „ReAct: Synergizing Reasoning and Acting in Language Models", NeurIPS 2022. Shinn et al., „Reflexion: Language Agents with Verbal Reinforcement Learning", NeurIPS 2023. Wang et al., „Voyager: An Open-Ended Embodied Agent with Large Language Models", arXiv 2305.16291, 2023. Wang et al., „A Survey on Large Language Model based Autonomous Agents", Frontiers of Computer Science, 2024. Xi et al., „The Rise and Potential of Large Language Model Based Agents: A Survey", arXiv 2309.07864, 2023. Anthropic, „Building effective agents", anthropic.com, Dezember 2024. Anthropic, „How we built our multi-agent research system", anthropic.com, 2025. Anthropic, „Computer use", Oktober 2025 und Aktualisierungen 2026. OpenAI, „Function calling and the Assistants API", platform.openai.com. Park et al., „Generative Agents: Interactive Simulacra of Human Behavior", UIST 2023. Yao et al., „Tree of Thoughts: Deliberate Problem Solving with Large Language Models", NeurIPS 2023. Liu et al., „AgentBench: Evaluating LLMs as Agents", ICLR 2024. τ-bench (Sierra AI), 2024.