La véritable agentique : ce que fait un agent quand on le laisse opérer
Quatrième article du bloc cognition / doctrine. Si le coût réel de l'inférence rend désormais soutenable un usage profond de l'IA sur les actes critiques, et si le bridage des outils grand public interdit ce même usage à Copilot ou ChatGPT en interface chat, la question devient : par quel objet technique passe-t-on, concrètement, du prompt à l'opération autonome sur un dossier ? La réponse s'appelle agent — à condition de savoir lequel.
Dans une grande ESN française, en mars 2026, un directeur de business unit invite ses équipes à une démonstration produit. L'éditeur est venu présenter « le premier agent IA capable de répondre seul à un appel d'offres ». La démo est convaincante. L'utilisateur dépose un CCTP, clique sur un bouton, et trois minutes plus tard apparaît un mémoire technique de cinquante pages, ponctué de références et calibré sur les critères du règlement de la consultation. La salle applaudit ; le directeur prend rendez-vous pour une POC.
Trois mois plus tard, la POC est abandonnée. L'outil qui paraissait magique en démo s'est révélé incapable de tenir face à un vrai DCE. Sur le premier dossier réel, il a généré un mémoire qui mélangeait des références d'autres clients, raté l'une des exigences éliminatoires, et restitué pour la formule de pondération une analyse fausse à laquelle un bid manager senior ne se serait pas laissé prendre dix secondes. La conclusion interne tombe en réunion de débrief : « ce n'était pas un agent. C'était un workflow déguisé. »
La conclusion est exacte, et elle est partagée par à peu près toutes les directions qui ont sérieusement testé un produit estampillé « agent IA » en 2025-2026. Le mot recouvre, à cette heure, des objets techniques de natures profondément divergentes, dont un seul change réellement l'arithmétique du travail. Cet article démêle la confusion, retrace la trajectoire de recherche qui a rendu le troisième objet viable, et propose la grille concrète que les directions devraient employer avant de signer le mot « agent » sur un cahier des charges.
Démêler ce que recouvre le mot
Au plus bas du spectre, le chatbot habillé. Sous le capot, une interface de prompt vers un modèle de langage, augmentée de quelques instructions cachées dans le system prompt et d'un branding qui parle d'agent. L'utilisateur tape une demande, le modèle répond, le cycle s'arrête. Aucun choix d'outil. Aucune mémoire d'état entre les tours. Aucune capacité d'agir sur un système externe. Microsoft Copilot, ChatGPT en interface standard, Claude.ai en mode chat appartiennent à cette classe — quelle que soit la sophistication du modèle qu'ils embarquent.
Un cran au-dessus, le workflow piloté. Un produit qui orchestre une séquence d'étapes prédéfinies, chacune éventuellement déléguée à un modèle de langage pour la production de texte, mais dont la séquence elle-même est figée à la conception. L'éditeur a écrit un graphe : lire le CCTP → extraire les exigences → générer un brouillon → produire la réponse finale. À chaque étape, un appel LLM peut intervenir. Mais le LLM ne décide jamais s'il faut faire l'étape, dans quel ordre, ou s'il faut en ajouter une. La logique est exogène, déclarée, vérifiable. Zapier, n8n, Make, et la quasi-totalité des outils estampillés « agent » en 2025 appartiennent à cette classe.
Tout en haut du spectre, le véritable agent — un système où le modèle de langage choisit lui-même les actions à entreprendre, à partir d'une intention exprimée et d'un environnement qu'il observe. Il dispose d'un répertoire d'outils — lire un fichier, écrire un fichier, appeler une API, exécuter du code, requêter une base, lancer une recherche, déléguer à un autre agent. À chaque tour de boucle, il observe l'état du monde, choisit l'action suivante, l'exécute, observe le résultat, met à jour son état mental. La séquence émerge à mesure qu'il opère, sans qu'aucun éditeur ne l'ait écrite à l'avance.
Ce qui sépare ces objets se laisse résumer dans une grille minimale.
| Critère | Chatbot | Workflow | Véritable agent |
|---|---|---|---|
| Choix des actions | Aucun | Figé par l'éditeur | Décidé par le modèle |
| Mémoire d'état | Aucune entre tours | Variables passées d'étape en étape | Représentation persistante mise à jour |
| Boucle de révision | Aucune | Linéaire ou à branchement déterministe | Possibilité de revenir en arrière, recommencer, demander une intervention |
Le critère décisif est le premier. Un véritable agent peut, sur un même dossier, choisir un jour d'appeler un outil de calcul après avoir lu trois pages, et un autre jour de relire l'ensemble du DCE avant tout calcul, parce que le contexte de la deuxième mission lui a fait juger que les enjeux étaient ailleurs. Cette autonomie de séquence définit la classe — et interdit, par construction, de la garantir par un cahier de tests cases.
La trajectoire qui a rendu l'objet possible
L'acte de naissance du concept est précis. Yao et al., en novembre 2022, publient « ReAct: Synergizing Reasoning and Acting in Language Models » à NeurIPS. Le pattern proposé est simple à énoncer et puissant à l'exécution : alterner explicitement, dans la chaîne de raisonnement du modèle, des étapes Thought où le modèle exprime ce qu'il pense devoir faire, Action où il choisit un outil dans une liste prédéfinie et formule l'appel, et Observation où il reçoit le résultat de l'outil et l'incorpore à sa chaîne. Le cycle se poursuit jusqu'à une étape Finish par laquelle le modèle déclare la tâche accomplie. Pour la première fois, le LLM cesse de se borner à produire un texte — il conduit une mission.
La limite immédiate de ReAct se manifeste dès qu'un agent enchaîne plusieurs tentatives : il ne sait pas qu'il s'est trompé, et reproduit la même erreur à chaque relance. Shinn et al., dans « Reflexion: Language Agents with Verbal Reinforcement Learning » (NeurIPS 2023), corrigent en ajoutant une boucle d'auto-critique. À la fin de chaque tentative, l'agent rédige un compte rendu de ce qui a fonctionné et de ce qui a échoué, conserve ce compte rendu en mémoire long terme, l'utilise pour informer la tentative suivante. La performance progresse fortement sur les benchmarks de raisonnement — HotpotQA, HumanEval pour le code, ALFWorld pour les environnements interactifs.
Wang et al. publient en mars 2023 « Voyager: An Open-Ended Embodied Agent with Large Language Models », qui pousse la logique dans Minecraft. Voyager construit progressivement, sur des jours d'exploration autonome, une bibliothèque de compétences réutilisables — « comment fabriquer une pioche en pierre », « comment trouver du fer » — qu'il accumule et combine pour résoudre des objectifs croissants en complexité. La démonstration est troublante : un agent peut bâtir son propre répertoire d'expertise par exploration, sans qu'aucune compétence n'ait été codée à la main.
L'étape industrielle suivante est moins glorieuse. AutoGPT, lancé en mars 2023 et adopté massivement, illustre les limites de la première génération d'agents grand public. Le système boucle, perd son état, hallucine ses outils, dépense les budgets API sans converger. Les retours d'expérience documentés en 2023-2024 — « 95 % des tentatives non triviales échouent », « la dérive de contexte rend l'agent inutilisable au-delà de cinquante actions » — rendent l'industrie prudente sur le mot agent pendant dix-huit mois.
L'inflexion industrielle est venue en 2025-2026 d'un faisceau de maturations techniques convergentes — qui n'avaient jamais coexisté avant. La fenêtre de contexte étendue à un million de tokens permet désormais à l'agent de tenir l'état d'une mission longue sans dériver, là où le plafonnement à 32 ou 128 k tokens le faisait décrocher au cinquantième tour. Le tool use natif, formalisé par Anthropic dans « Building effective agents » (2024) et par OpenAI dans la spécification « function calling », atteint une fiabilité supérieure à 99 % sur les benchmarks publics — τ-bench, AgentBench, ToolBench — alors qu'un agent de 2023 voyait ses chances de succès tomber à 50 % après dix appels consécutifs. La maturité des architectures dites computer use — capacité publiée par Anthropic en octobre 2025, affinée en 2026 — ouvre l'agent au travail dans des outils non instrumentés : déplacer le curseur, cliquer, lire l'écran, taper au clavier. Et le coût d'inférence, ramené sous Opus 4.7 à une fourchette de 150 à 400 dollars pour un dossier d'AO complet, devient compatible avec un budget dont le total se compte en dizaines de milliers d'euros — fourchette détaillée dans l'article sur le coût réel de l'inférence.
À cette même période s'est formalisée la doctrine architecturale qui manquait. Le pattern Supervisor-Worker, par lequel un agent superviseur orchestre des sous-agents spécialisés. Le pattern Planner-Executor, par lequel un agent de planification décompose la mission avant qu'un agent d'exécution la conduise. La combinaison ReAct + Reflexion + memory hierarchy, devenue le standard implicite des produits agentiques sérieux livrés en 2026. La littérature — Wang et al. « A Survey on Large Language Model based Autonomous Agents » (2024), Xi et al. « The Rise and Potential of Large Language Model Based Agents » (2023), les white papers d'Anthropic « How we built our multi-agent research system » (2025) — donne aujourd'hui un cadre opérationnel qui n'existait pas il y a deux ans.
Les agents de 2026 ne sont en aucun cas des AutoGPT améliorés ; ils relèvent d'une autre génération d'objets techniques. La plupart des organisations qui les évaluent aujourd'hui partent d'une représentation mentale héritée des produits de 2023 — ce qui leur fait sous-estimer ce qu'un véritable agent sait faire désormais, tout en surestimant ce qu'un workflow déguisé prétend faire à sa place.
La grille concrète que devraient employer les acheteurs
L'erreur de catégorie — acheter un workflow déguisé pour un usage cognitif, ou un véritable agent pour un usage industriel — est devenue, en 2026, l'erreur la plus coûteuse des directions qui investissent en IA. La grille de décision tient pourtant en peu de mots.
Pour l'assistance conversationnelle ponctuelle — rédaction d'un mail, synthèse d'une note, première version d'un brief court, brainstorming sur une question fermée — le chatbot habillé suffit. Copilot, ChatGPT, Claude.ai en mode chat couvrent l'usage légitimement, et le surcoût d'inférence d'une agentique sur ces objets reste injustifié.
Pour la séquence répétitive à règles stables — onboarding d'un nouvel utilisateur dans plusieurs systèmes, traitement par lots de documents homogènes, génération automatique de notes de service, export d'un CRM vers un outil de reporting — le workflow piloté est l'outil approprié. La séquence est connue, les exceptions sont rares, la prédictibilité prime sur l'adaptabilité. Confier ces objets à un véritable agent coûte plus cher pour un résultat équivalent, voire moins fiable, parce que l'agent garde la liberté de mal interpréter une instruction qu'un workflow exécuterait sans état d'âme.
Pour la mission complexe à séquence non prédictible — analyse stratégique d'un dossier, audit transversal, revue concurrentielle, instruction d'une décision sous information incomplète, conduite d'une réponse à appel d'offres — le véritable agent change l'arithmétique. La séquence des actions ne peut pas être écrite à l'avance ; elle dépend de ce que l'agent va découvrir en lisant les premiers documents, des inflexions stratégiques qu'il identifiera en croisant les sources, des points de divergence qui n'apparaîtront qu'après le quinzième tour. Sur ces missions, le workflow déguisé produit un livrable médian fluide ; le véritable agent produit un livrable qui ressemble au travail d'un junior compétent supervisé par un senior. La différence se mesure en taux de transformation, en marges sur dossiers gagnés, en heures-homme rachetées.
Sur un dossier d'AO, ce que fait un véritable agent
Le bid manager exprime une intention initiale — « étudie ce DCE, identifie la stratégie de réponse adaptée, et produis un premier squelette de mémoire technique en cohérence avec mon track record ». À partir de là, l'agent opère.
Il ouvre les documents, les lit, identifie certains comme structurants et d'autres comme accessoires. Il croise la formule de pondération avec les volumes du DQE, repère les zones de forte sensibilité au prix. Il revient sur le CCTP pour vérifier une exigence dont l'extraction initiale lui paraissait ambiguë. Il invoque un outil de simulation tarifaire et constate que la formule favorise structurellement le titulaire sortant — il le signale comme un point stratégique. Il consulte le track record interne et identifie quelques références transférables. Il rédige un brouillon de chapitre, le relit, détecte une contradiction interne, le réécrit. Puis il s'arrête, formule une question explicite à l'humain — « la stratégie semble exiger un arbitrage entre marge et taux de transformation ; quelle est la priorité ? » — et attend la réponse avant de continuer.
Aucune de ces actions n'a été scriptée. C'est l'agent qui décide, à chaque tour, ce qu'il convient de faire — invoquer un outil, relire un passage, s'arrêter, demander. La lecture initiale du CCTP demeure accessible vingt actions plus tard, parce que l'état mental est persistant. Le brouillon contradictoire est corrigé parce qu'une boucle d'auto-critique a été déclenchée. La question à l'humain émerge parce que l'agent a identifié la frontière de ce qu'il sait faire, davantage qu'il n'a fabriqué une réponse confiante sur un terrain où le jugement humain est requis.
Cette dernière capacité — savoir nommer la zone où l'on s'arrête — constitue à elle seule l'une des marques les plus fiables d'une agentique sérieuse. Le marquage épistémologique y joue un rôle central. Un workflow déguisé continue jusqu'au bout par construction, parce qu'aucune branche n'a été codée pour gérer le doute. La différence cesse d'être cosmétique dès qu'elle protège l'organisation contre les livrables fluides et structurellement insuffisants que l'illusion Copilot avait déjà documentés sur un autre terrain.
Ce que les directions devraient arrêter et commencer
Cesser d'appeler agent ce qui n'en est pas. Le vocabulaire a été galvaudé en 2024-2025 par les éditeurs et par la presse spécialisée. Une demande d'arbitrage interne formulée comme « faut-il acheter cet agent ? » porte, neuf fois sur dix, sur un workflow déguisé. La grille minimale — choix d'action, mémoire d'état, boucle d'auto-correction — devrait figurer dans tout cahier des charges qui parle d'agent. Si le fournisseur ne sait pas, ou ne veut pas, qualifier son produit sur ces critères, le doute est tranché.
Engager la véritable agentique sur les actes cognitifs critiques. Réponse à appel d'offres complexe, audit transversal, due diligence, instruction d'une décision sous information incomplète. La trajectoire 2026-2028 est désormais lisible : les organisations qui auront engagé la véritable agentique auront, dans deux ans, une avance méthodologique sur celles qui auront persisté à confondre démo de chatbot et système opérationnel. Le coût d'inférence est le ticket d'entrée — il reste compatible avec les budgets des actes critiques, comme l'article précédent l'a documenté en détail. Le ticket cognitif — cadrage humain en amont, opérateurs épistémiques posés à la main, change management des bid managers et des consultants — constitue la moitié réelle de l'investissement.
La véritable agentique ne substitue pas la machine à l'humain. Elle libère les jours-homme jusque-là consacrés à ce que l'humain ne devrait pas faire — extraire, lister, croiser, vérifier, formater, rédiger un premier jet — pour les redéployer vers ce qu'il est seul à savoir faire : le cadrage stratégique, l'arbitrage, la signature de l'opérateur final. Une division du travail différente, davantage qu'une substitution.
La machine peut désormais conduire la mission.
Le sens de la mission, il faut encore le poser soi-même.
Sources principales : Yao et al., « ReAct: Synergizing Reasoning and Acting in Language Models », NeurIPS 2022. Shinn et al., « Reflexion: Language Agents with Verbal Reinforcement Learning », NeurIPS 2023. Wang et al., « Voyager: An Open-Ended Embodied Agent with Large Language Models », arXiv 2305.16291, 2023. Wang et al., « A Survey on Large Language Model based Autonomous Agents », Frontiers of Computer Science, 2024. Xi et al., « The Rise and Potential of Large Language Model Based Agents: A Survey », arXiv 2309.07864, 2023. Anthropic, « Building effective agents », anthropic.com, décembre 2024. Anthropic, « How we built our multi-agent research system », anthropic.com, 2025. Anthropic, « Computer use », octobre 2025 et mises à jour 2026. OpenAI, « Function calling and the Assistants API », platform.openai.com. Park et al., « Generative Agents: Interactive Simulacra of Human Behavior », UIST 2023. Yao et al., « Tree of Thoughts: Deliberate Problem Solving with Large Language Models », NeurIPS 2023. Liu et al., « AgentBench: Evaluating LLMs as Agents », ICLR 2024. τ-bench (Sierra AI), 2024.