Reasoning-Modelle 2026: Was sie wirklich leisten, wann man sie einsetzt, wann es Verschwendung ist
Siebter Artikel des Blocks Kognition / Doktrin. Nachdem feststeht, dass sich die Qualität einer KI-Ausgabe im Denkmuster entscheidet, das der Mensch vorgibt, stellt sich eine ergänzende Frage: Was ändert es, dass die Modelle von 2026 selbst intern denken können, bevor sie ihre Antwort produzieren?
Das Jahr 2026 ist in der kurzen Geschichte der generativen KI jenes, in dem das „Reasoning" zu einer eigenständigen Produktkategorie geworden ist und nicht mehr bloß eine marginale Verbesserung darstellt. Die IT- und KI-Leitungen, die den Einsatz von Reasoning-Modellen in ihren Produktionsketten noch nicht entschieden haben, zahlen — ohne es zu wissen — entweder massive Mehrkosten für Aufgaben, die das nicht rechtfertigen, oder Minderleistung bei den seltenen Aufgaben, bei denen diese Modelle tatsächlich den Unterschied machen.
Das Thema verdient einen eigenen, didaktischen Artikel, weil es heute sowohl von den Skeptikern („das ist Marketing, das ist nur mehr Rechenleistung") als auch von den Enthusiasten („wir aktivieren Reasoning überall, der Qualität wegen") schlecht verstanden wird. Beide Haltungen sind teuer.
Drei kurze Etappen zur Verortung von 2026
2024 — das Jahr des reinen Skalierens. Die vorherrschende Doktrin lautete: ein größeres Modell ist ein besseres Modell. Der Wettbewerb entschied sich über die Größe des Modells, die Größe des Trainingsdatensatzes, die Größe des Kontextfensters. Die Qualität eines KI-Liefergegenstands hing im Wesentlichen vom gewählten Modell ab.
2025 — das Jahr der externen Denkketten. Angesichts der Grenzen des Skalierens haben die Forscher das Chain-of-Thought-Prompting populär gemacht — das Modell auffordern, laut zu denken, Schritt für Schritt, bevor es seine Schlussfolgerung formuliert. Eine einfache Technik, ein messbarer Gewinn bei mehrstufigen Problemen, integriert in alle professionellen Prompt-Engineering-Schulungen.
2026 — das Jahr des trainierten internen Reasonings. Die führenden Labore haben eine qualitative Schwelle überschritten: Modelle nicht mehr nur zum Antworten zu trainieren, sondern dazu, vor dem Antworten intern zu deliberieren. OpenAI hat mit der o-Serie den Weg geebnet (o1 Ende 2024, o3 Mitte 2025), Anthropic ist mit der Option Extended Thinking auf Opus 4.7 gefolgt, DeepSeek hat mit R1 nachgewiesen, dass die Leistung im Open Source zu reduzierten Kosten reproduzierbar ist, Google hat die interne Deliberation in Gemini 2.0 Thinking integriert. Diese Modelle sind keine klassischen LLMs mit einem verbesserten Prompt. Es sind technisch andersartige Objekte.
Was ein Reasoning-Modell technisch ist
Die nützlichste Unterscheidung lässt sich in einem Satz festhalten.
Ein klassisches Modell erzeugt seine Antwort direkt, Token für Token, ohne deliberative Pause — es beginnt zu schreiben, sobald man ihm die Frage stellt.
Ein Reasoning-Modell durchläuft eine interne Deliberationsphase, bevor es die sichtbare Ausgabe produziert — es beginnt damit, still zu denken, manchmal über mehrere Dutzend Sekunden hinweg, und schreibt die Antwort erst danach.
Diese Deliberationsphase hat drei technische Eigenschaften, die für jeden wichtig sind, der diese Modelle in der Produktion intelligent steuern will:
Sie verbraucht Thinking-Tokens. Das sind vom Modell erzeugte Tokens, die in der Antwort an den Nutzer nicht angezeigt werden, aber separat abgerechnet werden (oft zum selben Tarif wie die sichtbaren Tokens). Bei einer komplexen Frage kann ein Reasoning-Modell 5.000 bis 50.000 Thinking-Tokens zusätzlich zu den sichtbaren Tokens verbrauchen. Das schlägt auf die Rechnung durch.
Sie ist budgetierbar, auf bestimmten Plattformen. Anthropic Opus 4.7 stellt einen Parameter budget_tokens bereit, der die interne Denkzeit deckelt (von 1.024 bis 64.000 Tokens). Je höher das Budget, desto tiefer die Deliberation. OpenAI bietet einen Parameter reasoning.effort mit drei Stufen (low / medium / high). DeepSeek R1 deckelt nicht explizit, legt aber die vollständige Spur offen.
Sie ist durch Reinforcement Learning trainiert, nicht nur durch Imitation. Das ist die tiefgreifendste Unterscheidung zum Chain-of-Thought-Prompting. Beim klassischen CoT fordert man das Modell auf, Schritt für Schritt zu denken, aber das Modell hat dieses Verhalten durch Imitation menschlicher Texte gelernt. Bei einem Reasoning-Modell durchläuft das Training eine zweite Phase, in der das Modell belohnt wird, wenn seine Deliberation bei überprüfbaren Problemen (Mathematik, Code, Logik) zur richtigen Antwort führt. Es lernt, mehrere Wege zu erkunden, seine eigenen Schritte zu überprüfen, zurückzugehen, wenn ein Zweig scheitert, seine Unsicherheit zu kalibrieren. Diese interne Disziplin ist von anderer Natur als ein lautes Denken.
Die Metapher, die diesen Punkt erhellt: Chain-of-Thought-Prompting ist laut denken wie ein Anfänger, der zerlegt, um sich nicht zu verlieren. Das Reasoning-Modell ist still denken wie ein Experte, der mehrere Wege abwägt, bevor er antwortet. Das Zweite ist tiefer — und teurer.
Die 2026 verfügbaren Familien und ihre praktischen Unterschiede
Vier Familien koexistieren im Mai 2026, mit unterschiedlichen operativen Eigenschaften.
OpenAI o-Serie (o1, o3). Die Pioniere des Massenmarkts. Langes internes Denken, fähig zu mehreren Minuten bei harten Problemen. Die Reasoning-Spur wird nicht vollständig offengelegt — nur eine synthetische Zusammenfassung. Hohe Kosten (×3 bis ×10 der Kosten eines klassischen GPT auf den internen Tokens). Exzellent bei kompetitiver Mathematik und algorithmischem Code. Latenz, die bei den härtesten Problemen 60 bis 120 Sekunden erreichen kann.
Anthropic Opus 4.7 Extended Thinking. Über die Claude-API aktivierbare Option. Konfigurierbares Denkbudget bis 64.000 Tokens, was dem Steuernden des Systems einen präzisen Hebel gibt, um Tiefe / Kosten / Latenz abzuwägen. Die Spur wird vollständig offengelegt (nützlich für Audit und Debugging). Gute Vielseitigkeit bei strukturiertem Reasoning, Kohärenzanalyse, Mehrkriterienabwägung. Signifikante, aber über das Budget beherrschbare Kosten.
DeepSeek R1 und Open-Source-Familie. Der Bruch von 2025 hat gezeigt, dass ein gut konzipiertes RL-Training es erlaubt, Leistungen vergleichbar mit o1 zu erreichen, bei drastisch reduzierten Inferenzkosten (je nach Benchmark in der Größenordnung von 10- bis 30-mal günstiger). Vollständig offengelegte Spur. Kleinere destillierte Modelle verfügbar (R1-distill-32B, R1-distill-7B) für kostensensible oder Edge-Deployments. Schnelle Adoption bei den souveränen europäischen Akteuren.
Google Gemini 2.0 Thinking. Aufkommende native Integration in die Gemini-Suite, mit dem Versprechen eines multimodalen Reasonings (Text + Bild + Audio + Video). Zum Zeitpunkt des Schreibens noch in der Konsolidierung. Im Auge zu behalten für die Anwendungsfälle, in denen sich das Reasoning auf nicht-textuelle Eingaben beziehen muss.
Der Markt bewegt sich schnell. Die Referenz-Benchmarks (AIME, GPQA, ARC-AGI, SWE-Bench) werden alle drei bis sechs Monate geschlagen. Doch die obigen strukturellen Eigenschaften — internes Denken, Budget, Transparenz der Spur, Kosten — bleiben die relevanten Achsen, um einen Einsatz in der Produktion abzuwägen.
Wozu es wirklich dient, wozu nicht, wo es kontraproduktiv ist
Das ist wahrscheinlich der nützlichste Abschnitt dieses Artikels für die operativ verantwortlichen KI-Leitungen 2026.
Fälle, in denen ein Reasoning-Modell wirklich etwas bringt. Probleme mit mehreren voneinander abhängigen Schritten, bei denen ein Fehler weiter oben alles weiter unten verunreinigt. Wettbewerbsmathematik, logisches Debugging, Planung unter Nebenbedingungen, Beweisprüfung, Analyse interner Widersprüche, Mehrkriterienabwägung mit Abhängigkeiten. Das Gemeinsame: Die Qualität der Ausgabe hängt nicht-linear von der Qualität des Wegs ab, der dorthin führt. Bei diesen Aufgaben ist es weitgehend rentabel, das Zehnfache zu zahlen, um die richtige Antwort zu erhalten statt einer plausiblen und falschen.
Fälle, in denen es nutzlos ist. Die Erzeugung flüssiger Inhalte, die Umformulierung, die Übersetzung, die lokale Faktenauskunft, das konversationelle Gespräch. Bei diesen Aufgaben antwortet das klassische Modell sehr gut. Ein Reasoning-Modell zu aktivieren heißt, fünf- bis zehnmal mehr zu zahlen für einen unmerklichen — ja sogar nichtigen — Qualitätsgewinn. Das interne Reasoning des Modells springt an, verbraucht seine Thinking-Tokens, hat aber nichts zu deliberieren, weil die Aufgabe keine mehrstufige Struktur zu erkunden bietet.
Fälle, in denen es kontraproduktiv ist. Die offenen kreativen Aufgaben — Markentexte, Erzählung, stilistische Exploration, bewusst entfesseltes Brainstorming. Bei diesen Aufgaben tendiert die interne Deliberation des Modells dazu, zum Mittelwert zu konvergieren, die überraschenden Optionen zugunsten der „vertretbaren" zu eliminieren, das Risiko unter der Strenge zu zerquetschen. Das ist ein empirisch dokumentierter Effekt, den mehrere Teams 2025-2026 festgestellt haben: Ein Reasoning-Modell produziert vertretbarere, aber oft flachere Texte als ein klassisches Modell bei den Aufgaben, bei denen die Stimme mehr zählt als die logische Strenge.
Die praktische Regel: Wenn die Aufgabe keine überprüfbare logische Struktur hat, weiß das Reasoning-Modell nicht, was es deliberieren soll — es wird zu einem vernünftigen Mittelwert konvergieren, was fast immer unter dem Potenzial eines korrekt gesteuerten klassischen Modells liegt.
Anwendung auf die Dokumentenproduktion
Die Dokumentenproduktion — technisches Memo, Rahmennotiz, Angebotskapitel, Analyseabsatz — bildet 2026 die überwältigende Mehrheit des KI-Volumens in einer Dienstleistungsorganisation. Und genau dort ist der Überverbrauch von Reasoning-Modellen am häufigsten und am wenigsten gerechtfertigt.
Die Mehrheit der Dokumentenproduktion hat keine überprüfbare mehrstufige logische Struktur. Sie artikuliert ein massives Wissen (das das Modell bereits besitzt) gemäß einer Stimme, einem Format und einer argumentativen Absicht (die der Mensch über einen Denkvertrag vorgeben muss, wie im vorigen Artikel erläutert). Auf diesem Terrain macht es ein korrekt vertraglich gebundenes klassisches Modell besser als ein in seiner Autonomie belassenes Reasoning-Modell — für fünf- bis zehnmal weniger Geld.
Die Fälle, in denen das Reasoning in der Dokumentenproduktion wirklich etwas bringt, sind präzise und in der Minderheit:
- Initiale Strukturierung eines langen und komplexen Dokuments — wenn über den Plan zu entscheiden ist, etwa dreißig Informationsblöcke zu hierarchisieren sind, die Abhängigkeiten zwischen den Abschnitten zu identifizieren, die latenten Wiederholungen zu neutralisieren sind. Das Reasoning-Modell findet Strukturierungen, die das klassische Modell verpasst.
- Überprüfung der übergreifenden Kohärenz eines Liefergegenstands mit mehreren Kapiteln — wenn zu erkennen ist, dass eine Aussage aus Kapitel 2 subtil einem Versprechen aus Kapitel 7 widerspricht. Das Reasoning-Modell brilliert in dieser kreuzweisen Erkennung.
- Erkennung interner Widersprüche oder argumentativer Inkohärenzen — die ein klassisches Modell tendenziell durchgehen lässt, weil es lokal in jedem Absatz bleibt.
- Argumentative Hierarchisierung eines Dossiers — wenn zu entscheiden ist, welche Thesen die Hauptargumentation tragen und welche untergeordnet sind.
Der häufige Fehler 2026 — beobachtet in mehreren großen Organisationen, die Reasoning standardmäßig in ihre KI-Ketten verdrahtet haben — besteht darin, das interne Reasoning auf der gesamten Produktion zu aktivieren. Die Rechnung explodiert, die Qualität steigt nicht signifikant, und die Teams reden sich ein, sie hätten „die Premium-Wahl" getroffen.
Anwendung auf das Solutionning
Das Solutionning ist die Tätigkeit, bei der das Reasoning-Modell im Bid Management den maximalen Wert beiträgt, und wahrscheinlich allgemeiner in jeder technischen Beratungstätigkeit unter Nebenbedingungen.
Warum diese Wertkonzentration an einem einzigen Ort. Das Solutionning besteht darin, eine technische Antwort auf ein Bündel heterogener Nebenbedingungen zu artikulieren: technische Anforderungen des DCE, explizite und implizite Budgetzwänge, Zeitzwänge (Meilensteine, Abhängigkeiten, Lieferfenster), vertragliche Zwänge (Pönalen, geistiges Eigentum, Bemühungs- vs. Erfolgspflichten), Personalzwänge (verfügbare Kompetenzen, Mobilisierung, zulässige Unterauftragsvergabe). Und diese Nebenbedingungen sind nicht unabhängig — sie wechselwirken. Eine technische Architekturentscheidung verändert die Kalkulation. Die Kalkulation verschiebt die Aufteilung in Lose. Die Aufteilung in Lose zeichnet den Zeitplan neu. Der Zeitplan macht diese oder jene Kompetenz unverfügbar. Ein Fehler weiter oben — etwa eine falsche Annahme über die Modularität eines Loses — verunreinigt alles weiter unten über Wochen an Arbeit.
Das ist exakt die Problemklasse, für die die Reasoning-Modelle trainiert wurden. Mehrstufig. Wechselseitige Abhängigkeiten. Überprüfung möglich (durch Abgleich mit dem DCE). Mehrkriterienabwägung mit harten Nebenbedingungen.
Konkret, was ein gut gesteuertes Reasoning-Modell in der Solutionning-Phase erlaubt:
- Mehrere Lösungsarchitekturen erkunden, bevor man sich für eine entscheidet, indem man jede gegen die Nebenbedingungen des DCE testet
- Die Widersprüche erkennen zwischen einem im Architekturkapitel formulierten technischen Versprechen und einem Zeitzwang aus dem Durchführungskapitel
- Eine in der Verteidigung vertretbare Mehrkriterien-Abwägungsmatrix erstellen, mit expliziter Gewichtung und Spur des Gewichtungs-Reasonings
- Die bekannten Fallstricke einer Architektur identifizieren, bevor sie vom Bewerter aufgegriffen werden — einschließlich jener, die das menschliche Team nicht spontan gesehen hat
Die Mehrkosten eines Reasoning-Modells in der Solutionning-Phase — in der Größenordnung von einigen Euro bis einigen Dutzend Euro pro Dossier — stehen in keinem Verhältnis zu den Kosten eines Solutionning-Fehlers, der Zehntausende Euro an Angebotsüberarbeitung darstellen kann, oder den Verlust des Auftrags selbst.
Die Verzahnung mit dem menschlichen Denkmuster
Ein Punkt der kognitiven Architektur, den es zu klären gilt, um eine verbreitete Verwechslung zu vermeiden.
Ein Reasoning-Modell ist kein Ersatz für das vom Menschen vorgegebene Denkmuster. Es ist ein Verstärker dieses Musters, vorausgesetzt, das Muster ist explizit formuliert.
Wenn der Mensch ein abduktives Muster vorgibt (Artikel 16), erkundet die interne Deliberation des Reasoning-Modells die Hypothesen systematischer, hält den Baum der Alternativen länger offen, überprüft die Implikationen jedes Zweigs. Das abduktive Muster macht das interne Denken anspruchsvoller, und das Reasoning-Modell führt es tiefer aus, als ein klassisches Modell es täte.
Wenn der Mensch ein Steelmanning vorgibt, baut die interne Deliberation das Gegenargument solider auf, bevor sie es widerlegt, identifiziert die Punkte, an denen das gegnerische Argument wirklich stark ist, und produziert eine kalibrierte Widerlegung statt einer Karikatur.
Aber ohne vorgegebenes Muster produziert die interne Deliberation eines Reasoning-Modells eine durchschnittliche Deliberation. Das Modell erkundet die Winkel, die der Mittelwert seines Korpus für diese Art von Frage nahelegt, überprüft die Schritte, die der Mittelwert seines Korpus für wichtig hält, schließt so, wie es der Mittelwert seines Korpus täte. Das ist eine kostspielige Deliberation — man zahlt die Thinking-Tokens — aber eine mediane.
Daraus ergibt sich eine Nutzungshierarchie, die man verinnerlichen muss, um die KI 2026 intelligent zu steuern:
Explizites menschliches Denkmuster > trainiertes Reasoning-Modell > klassisches Modell.
Das menschliche Muster zu überspringen und sich nur auf das Reasoning-Modell zu verlassen, heißt, den hohen Preis für einen ausgefeilten Mittelwert zu zahlen. Beide zu kombinieren heißt, eine disziplinierte interne Deliberation zu erhalten, deren Tiefe dem gewünschten Muster dient — und die Ausgaben produziert, die ein klassisches Modell allein bei keinem Prompt erreichen könnte.
Der Fall TenderGraph TITAN — wo das Reasoning in den elf Phasen mobilisiert wird
Die konkrete Illustration dieser Doktrin, in der Pipeline zur Produktion einer Ausschreibungsantwort, die von TenderGraph TITAN orchestriert wird, liegt in einer expliziten und kodierten Dosierung.
Das Reasoning ist nicht standardmäßig auf den elf Phasen aktiviert. Es wird gezielt mobilisiert, und nur, auf vier von ihnen.
Phase Strategie — wo die kommerzielle Haltung abzuwägen ist (zu betonende Differenzierungsachsen, globale Tonalität, Positionierung gegenüber antizipierten Wettbewerbern). Mehrkriterien, wechselseitige Abhängigkeiten, nachgelagerte Konsequenzen auf das gesamte Dossier. Reasoning gerechtfertigt.
Phase Solutionning — wo die technische Architektur der Antwort zu konzipieren ist, mehrere Optionen gegen die Nebenbedingungen des DCE zu testen sind, eine Abwägungsmatrix zu erstellen ist. Kerngebiet der Reasoning-Modelle.
Phase Revue — wo die internen Widersprüche des vollständigen Dossiers zu erkennen sind, die argumentativen Brüche zwischen Kapiteln, die inkohärenten Versprechen zwischen Anlagen und Korpus. Dokumentübergreifende Querprüfung, genau die Art von Analyse, bei der sich die interne Deliberation auszahlt.
Phase Verteidigung — wo die Szenarien von Fangfragen des Bewerters zu antizipieren sind, mehrere Verlaufskurven der Debatte zu simulieren sind, die kalibrierten Antworten auf jedem Zweig vorzubereiten sind. Szenario-Reasoning, diszipliniert angewandt.
Die sieben anderen Phasen — Exploration, Kartierung, Produktion der Kapitel, Briefs, CV-Book, Diagnose-Sammlung, Materialisierung der Revision — funktionieren im klassischen Modus, mit einem expliziten menschlichen Denkvertrag. Das massive Wissen des Modells genügt. Das Reasoning auf diesen Phasen zu aktivieren würde die Stückkosten eines Dossiers aufblähen, ohne einen rechtfertigbaren Qualitätsgewinn.
Diese explizite Dosierung — die Entscheidung welche Phase Reasoning aktiviert, welche nicht — gehört zu den methodischen Aktiva von TITAN. Es ist genau die Art von Abwägung, die eine Organisation, die Reasoning standardmäßig auf ihrer KI-Kette aktivieren würde, teuer bezahlen würde, ohne es zu bemerken, über Zehntausende Aufgaben pro Jahr.
Operative Konsequenz
Für eine IT-/KI-Leitung, die den Einsatz von Reasoning-Modellen in ihrer Organisation 2026 überwacht, ergeben sich aus der Diagnose drei konkrete Handlungen.
Lernen, die Aufgaben zu erkennen, bei denen das Reasoning-Modell rentabel ist. Sie sind wenige — wahrscheinlich zwischen 10 und 20 % des KI-Volumens in der Dokumentenproduktion einer durchschnittlichen Organisation. Aber sie sind kritisch, und ihr ROI-Gewinn übersteigt ihre Mehrkosten bei Weitem.
Den Reflex „Reasoning standardmäßig, der Qualität wegen" ablehnen. Das ist der teuerste strategische Fehler, der bei den Organisationen beobachtet wurde, die die Option 2025 ohne fachliche Rahmung verdrahtet haben. Mehrkosten von 3 bis 5× auf der gesamten KI-Rechnung, ohne messbaren Qualitätsgewinn bei der Mehrheit der Aufgaben.
Die Wahl in einen methodischen Rahmen einschreiben. Bei jeder signifikanten Aufgabe zwei Fragen stellen: Welches Denkmuster (Artikel 16) erwartet man vom Agenten? Und ist die Tiefe der internen Deliberation eines Reasoning-Modells für dieses Muster nötig, oder genügt ein klassisches Modell mit explizitem Denkvertrag? Die ehrliche Antwort lautet „ein klassisches Modell genügt" in der großen Mehrheit der Fälle. Dort, wo sie „ein Reasoning-Modell ist nötig" lautet, ist die Investition weitgehend gerechtfertigt.
Den aktuellen Verbrauch auditieren. Die Leitungen, die den Einsatz von Reasoning-Modellen in ihren Teams nie kartiert haben, entdecken fast immer einen Überverbrauch um den Faktor 3 bis 5 gegenüber dem, was gerechtfertigt wäre. Dieselbe Kartierung offenbart umgekehrt oft auch blinde Flecken — Tätigkeiten von sehr hohem Wert (typischerweise das Solutionning und die Revue komplexer Dossiers), bei denen das Reasoning nicht aktiviert ist, obwohl es systematisch sein sollte.
Das trainierte interne Reasoning ist 2026 das, was der Dieselmotor zu Beginn des 20. Jahrhunderts für die Industrie war: eine neue Werkzeugkategorie, kräftiger, aber gefräßiger, die die Anwendungen transformiert, in denen sie relevant ist, und jene ruiniert, die sie überstrapazieren. Die Steuerung dieses Werkzeugs ist keine Frage technologischer Überzeugung. Es ist eine Frage methodischer Disziplin.
Und diese Disziplin findet sich, wie der Rest der echten KI-Kompetenz von 2026, weder in einer Prompt-Engineering-Schulung noch in einer API-Option noch in einer Anbieterwahl. Sie findet sich in der menschlichen Klarheit darüber, was die Aufgabe verlangt, und in der Strenge, entsprechend abzuwägen — Phase für Phase, Mission für Mission, Dossier für Dossier.
Hauptquellen — Grundlagen des Chain-of-Thought: Wei et al., „Chain-of-Thought Prompting Elicits Reasoning in Large Language Models", NeurIPS 2022. Kojima et al., „Large Language Models are Zero-Shot Reasoners", NeurIPS 2022. Yao et al., „Tree of Thoughts: Deliberate Problem Solving with Large Language Models", NeurIPS 2023. — Reasoning-Modelle 2024-2026: OpenAI, „Learning to Reason with LLMs" (System Card o1), 2024. OpenAI, „o3 announcement", 2024. Anthropic, „Claude Opus 4.7 extended thinking", technische Dokumentation 2025. DeepSeek-AI, „DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning", arXiv 2501.12948, 2025. Google DeepMind, „Gemini 2.0 thinking documentation", 2025. — Mechanik des Reinforcement Learning: Christiano et al., „Deep Reinforcement Learning from Human Preferences", NeurIPS 2017. Lightman et al., „Let's Verify Step by Step" (Process Reward Models), arXiv 2305.20050, OpenAI 2023. Uesato et al., „Solving math word problems with process- and outcome-based feedback", DeepMind 2022. Silver et al., „Reward is enough", Artificial Intelligence Journal, 2021. — Evaluation und Benchmarks: Hendrycks et al., „Measuring Mathematical Problem Solving With the MATH Dataset", NeurIPS 2021. Cobbe et al., „Training Verifiers to Solve Math Word Problems" (GSM8K), arXiv 2110.14168, 2021. Chollet, „On the Measure of Intelligence" (ARC), arXiv 1911.01547, 2019, aktualisiert 2024 (ARC-AGI). Rein et al., „GPQA: A Graduate-Level Google-Proof Q&A Benchmark", arXiv 2311.12022, 2023. — Ökonomie der Reasoning-Inferenz: öffentliche Analysen von Artificial Analysis, EpochAI und Kosten-/Leistungs-Benchmarks 2024-2026.