La verdadera agéntica: lo que hace un agente cuando se le deja operar
Cuarto artículo del bloque cognición / doctrina. Si el coste real de la inferencia hace ahora sostenible un uso profundo de la IA en los actos críticos, y si la limitación de las herramientas de consumo masivo prohíbe ese mismo uso a Copilot o ChatGPT en interfaz de chat, la pregunta se convierte en: ¿por qué objeto técnico se pasa, concretamente, del prompt a la operación autónoma sobre un expediente? La respuesta se llama agente — a condición de saber cuál.
En una gran ESN francesa, en marzo de 2026, un director de unidad de negocio invita a sus equipos a una demostración de producto. El editor ha venido a presentar «el primer agente IA capaz de responder solo a una licitación». La demo es convincente. El usuario deposita un CCTP, hace clic en un botón, y tres minutos después aparece una memoria técnica de cincuenta páginas, salpicada de referencias y calibrada según los criterios del reglamento de la consulta. La sala aplaude; el director concierta una cita para una POC.
Tres meses después, la POC es abandonada. La herramienta que parecía mágica en la demo se reveló incapaz de aguantar frente a un verdadero DCE. En el primer expediente real, generó una memoria que mezclaba referencias de otros clientes, falló uno de los requisitos eliminatorios, y restituyó para la fórmula de ponderación un análisis falso en el que un bid manager senior no habría caído ni diez segundos. La conclusión interna cae en la reunión de balance: «no era un agente. Era un workflow disfrazado.»
La conclusión es exacta, y la comparten aproximadamente todas las direcciones que han probado en serio un producto etiquetado como «agente IA» en 2025-2026. La palabra engloba, a estas alturas, objetos técnicos de naturalezas profundamente divergentes, de los cuales uno solo cambia realmente la aritmética del trabajo. Este artículo desenreda la confusión, reconstruye la trayectoria de investigación que hizo viable el tercer objeto, y propone la grilla concreta que las direcciones deberían emplear antes de firmar la palabra «agente» en un pliego de condiciones.
Desenredar lo que engloba la palabra
En lo más bajo del espectro, el chatbot disfrazado. Bajo el capó, una interfaz de prompt hacia un modelo de lenguaje, ampliada con algunas instrucciones ocultas en el system prompt y un branding que habla de agente. El usuario teclea una petición, el modelo responde, el ciclo se detiene. Ninguna elección de herramienta. Ninguna memoria de estado entre turnos. Ninguna capacidad de actuar sobre un sistema externo. Microsoft Copilot, ChatGPT en interfaz estándar, Claude.ai en modo chat pertenecen a esta clase — sea cual sea la sofisticación del modelo que incorporan.
Un peldaño por encima, el workflow pilotado. Un producto que orquesta una secuencia de etapas predefinidas, cada una eventualmente delegada a un modelo de lenguaje para la producción de texto, pero cuya secuencia en sí está fijada en el diseño. El editor ha escrito un grafo: leer el CCTP → extraer los requisitos → generar un borrador → producir la respuesta final. En cada etapa, puede intervenir una llamada al LLM. Pero el LLM nunca decide si hay que hacer la etapa, en qué orden, o si hay que añadir una. La lógica es exógena, declarada, verificable. Zapier, n8n, Make, y la casi totalidad de las herramientas etiquetadas como «agente» en 2025 pertenecen a esta clase.
En lo más alto del espectro, el verdadero agente — un sistema donde el modelo de lenguaje elige por sí mismo las acciones a emprender, a partir de una intención expresada y de un entorno que observa. Dispone de un repertorio de herramientas — leer un archivo, escribir un archivo, llamar a una API, ejecutar código, consultar una base de datos, lanzar una búsqueda, delegar a otro agente. En cada vuelta del bucle, observa el estado del mundo, elige la acción siguiente, la ejecuta, observa el resultado, actualiza su estado mental. La secuencia emerge a medida que opera, sin que ningún editor la haya escrito de antemano.
Lo que separa estos objetos se deja resumir en una grilla mínima.
| Criterio | Chatbot | Workflow | Verdadero agente |
|---|---|---|---|
| Elección de las acciones | Ninguna | Fijada por el editor | Decidida por el modelo |
| Memoria de estado | Ninguna entre turnos | Variables pasadas de etapa en etapa | Representación persistente actualizada |
| Bucle de revisión | Ninguno | Lineal o de ramificación determinista | Posibilidad de retroceder, recomenzar, pedir una intervención |
El criterio decisivo es el primero. Un verdadero agente puede, sobre un mismo expediente, elegir un día llamar a una herramienta de cálculo tras haber leído tres páginas, y otro día releer la totalidad del DCE antes de cualquier cálculo, porque el contexto de la segunda misión le ha hecho juzgar que lo que estaba en juego estaba en otra parte. Esta autonomía de secuencia define la clase — y prohíbe, por construcción, garantizarla mediante un cuaderno de casos de prueba.
La trayectoria que hizo posible el objeto
El acta de nacimiento del concepto es precisa. Yao et al., en noviembre de 2022, publican «ReAct: Synergizing Reasoning and Acting in Language Models» en NeurIPS. El patrón propuesto es simple de enunciar y potente en la ejecución: alternar explícitamente, en la cadena de razonamiento del modelo, etapas Thought donde el modelo expresa lo que piensa que debe hacer, Action donde elige una herramienta de una lista predefinida y formula la llamada, y Observation donde recibe el resultado de la herramienta y lo incorpora a su cadena. El ciclo se prosigue hasta una etapa Finish mediante la cual el modelo declara cumplida la tarea. Por primera vez, el LLM deja de limitarse a producir un texto — conduce una misión.
El límite inmediato de ReAct se manifiesta en cuanto un agente encadena varios intentos: no sabe que se ha equivocado, y reproduce el mismo error en cada relanzamiento. Shinn et al., en «Reflexion: Language Agents with Verbal Reinforcement Learning» (NeurIPS 2023), lo corrigen añadiendo un bucle de autocrítica. Al final de cada intento, el agente redacta un informe de lo que ha funcionado y de lo que ha fallado, conserva ese informe en memoria a largo plazo, lo utiliza para informar el intento siguiente. El rendimiento progresa con fuerza en los benchmarks de razonamiento — HotpotQA, HumanEval para el código, ALFWorld para los entornos interactivos.
Wang et al. publican en marzo de 2023 «Voyager: An Open-Ended Embodied Agent with Large Language Models», que lleva la lógica a Minecraft. Voyager construye progresivamente, a lo largo de días de exploración autónoma, una biblioteca de competencias reutilizables — «cómo fabricar un pico de piedra», «cómo encontrar hierro» — que acumula y combina para resolver objetivos crecientes en complejidad. La demostración es inquietante: un agente puede edificar su propio repertorio de experiencia por exploración, sin que ninguna competencia haya sido codificada a mano.
La etapa industrial siguiente es menos gloriosa. AutoGPT, lanzado en marzo de 2023 y adoptado masivamente, ilustra los límites de la primera generación de agentes de consumo masivo. El sistema entra en bucle, pierde su estado, alucina sus herramientas, gasta los presupuestos de API sin converger. Los retornos de experiencia documentados en 2023-2024 — «el 95 % de los intentos no triviales fracasan», «la deriva de contexto vuelve al agente inutilizable más allá de cincuenta acciones» — vuelven a la industria prudente sobre la palabra agente durante dieciocho meses.
La inflexión industrial llegó en 2025-2026 de un haz de maduraciones técnicas convergentes — que nunca antes habían coexistido. La ventana de contexto extendida a un millón de tokens permite ahora al agente mantener el estado de una misión larga sin derivar, allí donde el tope de 32 o 128 k tokens lo hacía descolgarse en la quincuagésima vuelta. El tool use nativo, formalizado por Anthropic en «Building effective agents» (2024) y por OpenAI en la especificación «function calling», alcanza una fiabilidad superior al 99 % en los benchmarks públicos — τ-bench, AgentBench, ToolBench — mientras que un agente de 2023 veía caer sus posibilidades de éxito al 50 % tras diez llamadas consecutivas. La madurez de las arquitecturas llamadas computer use — capacidad publicada por Anthropic en octubre de 2025, afinada en 2026 — abre el agente al trabajo en herramientas no instrumentadas: desplazar el cursor, hacer clic, leer la pantalla, teclear. Y el coste de inferencia, reducido bajo Opus 4.7 a una horquilla de 150 a 400 dólares para un expediente de licitación completo, se vuelve compatible con un presupuesto cuyo total se cuenta en decenas de miles de euros — horquilla detallada en el artículo sobre el coste real de la inferencia.
En ese mismo periodo se formalizó la doctrina arquitectural que faltaba. El patrón Supervisor-Worker, mediante el cual un agente supervisor orquesta subagentes especializados. El patrón Planner-Executor, mediante el cual un agente de planificación descompone la misión antes de que un agente de ejecución la conduzca. La combinación ReAct + Reflexion + memory hierarchy, convertida en el estándar implícito de los productos agénticos serios entregados en 2026. La literatura — Wang et al. «A Survey on Large Language Model based Autonomous Agents» (2024), Xi et al. «The Rise and Potential of Large Language Model Based Agents» (2023), los white papers de Anthropic «How we built our multi-agent research system» (2025) — da hoy un marco operacional que no existía hace dos años.
Los agentes de 2026 no son en absoluto AutoGPT mejorados; pertenecen a otra generación de objetos técnicos. La mayoría de las organizaciones que los evalúan hoy parten de una representación mental heredada de los productos de 2023 — lo que les hace subestimar lo que un verdadero agente sabe hacer ahora, al tiempo que sobreestiman lo que un workflow disfrazado pretende hacer en su lugar.
La grilla concreta que deberían emplear los compradores
El error de categoría — comprar un workflow disfrazado para un uso cognitivo, o un verdadero agente para un uso industrial — se ha convertido, en 2026, en el error más costoso de las direcciones que invierten en IA. La grilla de decisión cabe, sin embargo, en pocas palabras.
Para la asistencia conversacional puntual — redacción de un correo, síntesis de una nota, primera versión de un brief corto, brainstorming sobre una pregunta cerrada — el chatbot disfrazado basta. Copilot, ChatGPT, Claude.ai en modo chat cubren el uso legítimamente, y el sobrecoste de inferencia de una agéntica sobre estos objetos sigue siendo injustificado.
Para la secuencia repetitiva con reglas estables — onboarding de un nuevo usuario en varios sistemas, tratamiento por lotes de documentos homogéneos, generación automática de notas de servicio, exportación de un CRM hacia una herramienta de reporting — el workflow pilotado es la herramienta apropiada. La secuencia es conocida, las excepciones son raras, la predictibilidad prima sobre la adaptabilidad. Confiar estos objetos a un verdadero agente cuesta más caro para un resultado equivalente, e incluso menos fiable, porque el agente conserva la libertad de malinterpretar una instrucción que un workflow ejecutaría sin estados de ánimo.
Para la misión compleja de secuencia no predecible — análisis estratégico de un expediente, auditoría transversal, revisión competitiva, instrucción de una decisión bajo información incompleta, conducción de una respuesta a una licitación — el verdadero agente cambia la aritmética. La secuencia de las acciones no puede escribirse de antemano; depende de lo que el agente vaya a descubrir leyendo los primeros documentos, de las inflexiones estratégicas que identificará al cruzar las fuentes, de los puntos de divergencia que solo aparecerán tras la decimoquinta vuelta. En estas misiones, el workflow disfrazado produce un entregable mediano y fluido; el verdadero agente produce un entregable que se parece al trabajo de un junior competente supervisado por un senior. La diferencia se mide en tasa de transformación, en márgenes sobre expedientes ganados, en horas-hombre recuperadas.
Sobre un expediente de licitación, lo que hace un verdadero agente
El bid manager expresa una intención inicial — «estudia este DCE, identifica la estrategia de respuesta adaptada, y produce un primer esqueleto de memoria técnica en coherencia con mi track record». A partir de ahí, el agente opera.
Abre los documentos, los lee, identifica algunos como estructurantes y otros como accesorios. Cruza la fórmula de ponderación con los volúmenes del DQE, detecta las zonas de fuerte sensibilidad al precio. Vuelve sobre el CCTP para verificar un requisito cuya extracción inicial le parecía ambigua. Invoca una herramienta de simulación tarifaria y constata que la fórmula favorece estructuralmente al adjudicatario saliente — lo señala como un punto estratégico. Consulta el track record interno e identifica algunas referencias transferibles. Redacta un borrador de capítulo, lo relee, detecta una contradicción interna, lo reescribe. Luego se detiene, formula una pregunta explícita al humano — «la estrategia parece exigir un arbitraje entre margen y tasa de transformación; ¿cuál es la prioridad?» — y espera la respuesta antes de continuar.
Ninguna de estas acciones ha sido guionizada. Es el agente quien decide, en cada vuelta, lo que conviene hacer — invocar una herramienta, releer un pasaje, detenerse, preguntar. La lectura inicial del CCTP sigue siendo accesible veinte acciones más tarde, porque el estado mental es persistente. El borrador contradictorio queda corregido porque se ha activado un bucle de autocrítica. La pregunta al humano emerge porque el agente ha identificado la frontera de lo que sabe hacer, más que fabricar una respuesta confiada sobre un terreno donde se requiere el juicio humano.
Esta última capacidad — saber nombrar la zona donde uno se detiene — constituye por sí sola una de las marcas más fiables de una agéntica seria. El marcado epistemológico desempeña en ello un papel central. Un workflow disfrazado continúa hasta el final por construcción, porque no se ha codificado ninguna rama para gestionar la duda. La diferencia deja de ser cosmética en cuanto protege a la organización contra los entregables fluidos y estructuralmente insuficientes que la ilusión Copilot ya había documentado en otro terreno.
Lo que las direcciones deberían dejar de hacer y empezar a hacer
Dejar de llamar agente a lo que no lo es. El vocabulario ha sido prostituido en 2024-2025 por los editores y por la prensa especializada. Una petición de arbitraje interno formulada como «¿hay que comprar este agente?» versa, nueve de cada diez veces, sobre un workflow disfrazado. La grilla mínima — elección de acción, memoria de estado, bucle de autocorrección — debería figurar en todo pliego de condiciones que hable de agente. Si el proveedor no sabe, o no quiere, calificar su producto sobre estos criterios, la duda queda zanjada.
Comprometer la verdadera agéntica en los actos cognitivos críticos. Respuesta a una licitación compleja, auditoría transversal, due diligence, instrucción de una decisión bajo información incompleta. La trayectoria 2026-2028 es ya legible: las organizaciones que hayan comprometido la verdadera agéntica tendrán, dentro de dos años, una ventaja metodológica sobre las que hayan persistido en confundir demo de chatbot y sistema operacional. El coste de inferencia es el ticket de entrada — sigue siendo compatible con los presupuestos de los actos críticos, como el artículo anterior lo ha documentado en detalle. El ticket cognitivo — encuadre humano aguas arriba, operadores epistémicos colocados a mano, gestión del cambio de los bid managers y de los consultores — constituye la mitad real de la inversión.
La verdadera agéntica no sustituye la máquina al humano. Libera los días-hombre hasta ahora dedicados a lo que el humano no debería hacer — extraer, listar, cruzar, verificar, formatear, redactar un primer borrador — para redesplegarlos hacia lo que solo él sabe hacer: el encuadre estratégico, el arbitraje, la firma del operador final. Una división del trabajo diferente, más que una sustitución.
La máquina puede ahora conducir la misión.
El sentido de la misión, todavía hay que ponerlo uno mismo.
Fuentes principales: Yao et al., «ReAct: Synergizing Reasoning and Acting in Language Models», NeurIPS 2022. Shinn et al., «Reflexion: Language Agents with Verbal Reinforcement Learning», NeurIPS 2023. Wang et al., «Voyager: An Open-Ended Embodied Agent with Large Language Models», arXiv 2305.16291, 2023. Wang et al., «A Survey on Large Language Model based Autonomous Agents», Frontiers of Computer Science, 2024. Xi et al., «The Rise and Potential of Large Language Model Based Agents: A Survey», arXiv 2309.07864, 2023. Anthropic, «Building effective agents», anthropic.com, diciembre 2024. Anthropic, «How we built our multi-agent research system», anthropic.com, 2025. Anthropic, «Computer use», octubre 2025 y actualizaciones 2026. OpenAI, «Function calling and the Assistants API», platform.openai.com. Park et al., «Generative Agents: Interactive Simulacra of Human Behavior», UIST 2023. Yao et al., «Tree of Thoughts: Deliberate Problem Solving with Large Language Models», NeurIPS 2023. Liu et al., «AgentBench: Evaluating LLMs as Agents», ICLR 2024. τ-bench (Sierra AI), 2024.