La ilusión Copilot: por qué las IA de consumo aguantan en diez líneas y se desmoronan en cien páginas

Tercer artículo del bloque «cognición / doctrina». Si el encuadre es el acto humano más rentable de una respuesta a una licitación, la limitación económica de las herramientas de consumo impide precisamente su ejecución. Este artículo hace visible el mecanismo. Prolonga también el diagnóstico planteado en abril de 2026 sobre los bloqueos de adopción: la organización se representa la IA como un chatbot y llega a un producto que lo es.

Una escena vivida en las grandes cuentas en 2025-2026. Un director comercial muestra, en una reunión de equipo, la última demo de Microsoft Copilot. Una reunión de Teams de treinta minutos acaba de terminar. Tres clics, un prompt: «Resume esta reunión con las acciones a emprender.» Quince segundos después aparece un acta limpia, estructurada, con los nombres de los intervinientes y los compromisos adquiridos. La sala queda convencida. «Esta herramienta va a cambiar nuestra forma de trabajar.»

Unas semanas más tarde, la misma herramienta se lanza sobre un objeto de otra naturaleza. Una reunión de cuatro horas del COMEX, veinte participantes, donde se ha jugado —sin que ninguna palabra frontal lo dijera— la trayectoria de la venta de una filial. El acta de Copilot se entrega. Es limpia, estructurada, con los nombres de los intervinientes y los compromisos adquiridos.

Falta lo esencial.

La tensión entre el director financiero y el director de operaciones, que ha estructurado todas las inflexiones sobre los temas de venta desde hace dieciocho meses, no aparece por ninguna parte. La directora jurídica cedió en el calendario, como compensación por una victoria obtenida tres semanas antes sobre el perímetro: concesión invisible en el acta. La frase aparentemente anodina del presidente —«vamos a tener que pensar este expediente de otra manera»—, que para los iniciados firma el entierro de la estrategia defendida durante seis meses por el director de estrategia, queda restituida como un estímulo a la creatividad.

El acta producida expone jurídicamente a la empresa. Es falsa por omisión, y la firma de un presidente que la valida creyendo validar la realidad de su propia reunión es un acto que pocos juristas recomendarían.

Es la distancia entre una IA dimensionada para el correo y una IA dimensionada para el expediente.

La limitación económica de las herramientas de consumo

Microsoft Copilot, ChatGPT, Gemini y la mayoría de los chatbots de consumo se apoyan en realidad sobre modelos de contexto largo. Las versiones subyacentes —GPT, Claude, Gemini— disponen de ventanas de 128 000 tokens como mínimo, a veces 1 millón. Es ya muy correcto.

Pero el usuario final no tiene acceso a esa capacidad. Los editores limitan deliberadamente los modelos en sus interfaces de consumo. El motor puede técnicamente tratar 200 000 tokens de entrada y 64 000 de salida; el producto Copilot solo entrega con qué tratar unos 30 000 tokens de entrada y 4 000 de salida. Esta diferencia es puramente económica.

La aritmética es simple. Una licencia Copilot a 30 dólares por usuario y mes no cubre el coste de inferencia de un uso intensivo sobre contexto largo. Si Microsoft dejara que Copilot ingiriera la transcripción literal de una reunión de cuatro horas y produjera un acta de cincuenta páginas, el coste de inferencia superaría con creces el ingreso mensual de la licencia. La limitación protege el margen del producto.

Esta lógica merece explicitarse, porque se ignora masivamente. El gran público tiene hoy la sensación de que la IA generativa es gratuita o casi. Esa aparente gratuidad es en parte real —los costes de inferencia han caído con fuerza en dos años— y en parte subvencionada por el capital riesgo, que quema decenas de miles de millones al año para empujar la adopción antes que la rentabilidad. En cuanto el usuario intensifica el uso —contexto largo, razonamiento extendido, multimodalidad, agéntico—, los costes reales reaparecen. Los editores tienen entonces dos opciones: facturar al nivel justo, o limitar el producto para que el uso no rebase la tarifa plana. Para el gran público, es casi siempre la segunda. Resultado: las herramientas disponibles resultan cognitivamente decepcionantes en la mayoría de los casos donde haría falta profundidad, porque se ha renunciado a asumir su precio.

La limitación adopta, en la práctica, la forma de una arquitectura en dos tiempos: el RAG, o Retrieval-Augmented Generation. El término, formalizado por Lewis et al. (NeurIPS 2020), designa un montaje en el que no se envía el documento completo al modelo. Cuando el usuario plantea una pregunta, un motor de búsqueda extrae primero algunos fragmentos pertinentes, y el modelo de lenguaje solo genera su respuesta a partir de esos fragmentos. El RAG divide el coste de inferencia por veinte o por cien. Para una pregunta cuya respuesta cabe en un solo párrafo —«¿cuál es la fecha de vencimiento del contrato?», «¿quién es responsable del lote 3?»—, funciona bien. La respuesta es correcta, rápida, poco costosa.

El RAG se basa, sin embargo, en una hipótesis oculta: que la respuesta a toda pregunta útil se encuentra en un número reducido de fragmentos contiguos. La hipótesis se sostiene para las preguntas factuales puntuales. Se desmorona en cuanto una pregunta exige una puesta en relación transversal.

Tres fallas estructurales

La pérdida de las relaciones entre documentos. Una respuesta a una licitación compleja agrega típicamente un CCTP, un RC, un BPU, un DQE, un DPGF, un AE, un reglamento de la consulta, dos o tres lotes, doce anexos técnicos y la memoria técnica del competidor anterior obtenida por vía pública. Una pregunta estratégica típica del bid manager —«¿cuáles son los puntos en los que la fórmula de ponderación del juicio favorece estructuralmente al adjudicatario saliente?»— no tiene respuesta en un solo fragmento. La respuesta surge del cruce entre la fórmula del RC, los volúmenes del DQE, las referencias exigidas en el CCTP y los valores del contrato anterior. El RAG, que recupera párrafos por similitud semántica con la pregunta, no tiene ningún medio de operar ese cruce. Selecciona algunos párrafos que contienen la palabra «ponderación», y pasa por alto el análisis.

La pérdida de la metacognición. Un modelo que ve cinco fragmentos recuperados por un motor de búsqueda no puede saber lo que no ve. Ignora que existe, en otro lugar del corpus, un párrafo que contradice o matiza los que tiene ante los ojos. Responde con seguridad sobre la base parcial de que dispone. Su tono de autoridad, heredado del RLHF, enmascara la incompletitud. Sobre una pregunta cerrada, es inocuo. Sobre una pregunta abierta que exige una visión de conjunto, es desastroso: la respuesta es a la vez fluida e insuficiente.

La pérdida de las dinámicas del texto largo. Una reunión de cuatro horas no es una reunión de media hora hecha más larga. Tiene fases distintas —exposición, debate, negociación tácita, consenso aparente, vuelco, cierre político— que solo se revelan al leer el conjunto. El regreso de un participante a un punto evocado dos horas antes confiere a ese punto una intensidad que solo es legible con la secuencia completa. Un RAG que recupera, a demanda, «los compromisos adquiridos» presenta una lista plana. Despoja a la reunión de su política, en el sentido de que una reunión del COMEX es, fundamentalmente, un acto político antes que un acto deliberativo.

Lo que funciona en pequeño, lo que se rompe en grande

La ilusión nace de un error de generalización. El rendimiento de las herramientas de consumo en las tareas pequeñas es real: redactar un correo de dos párrafos, resumir una nota de cinco páginas, reformular un brief de trescientas palabras, generar ideas sobre una pregunta cerrada. Sobre esos objetos, la ventana de contexto es ampliamente suficiente, el RAG es inútil (el documento cabe en una sola pasada), y el modelo puede asignar toda su capacidad de inferencia a la calidad de la producción.

La trampa es que ese rendimiento, vivido a diario, funda una convicción implícita: «esta herramienta domina el lenguaje escrito, así que dominará mis temas serios.» Ahí está el error. La herramienta solo domina el lenguaje escrito sobre objetos del tamaño de su ventana. En cuanto el objeto rebasa ese tamaño, la arquitectura conmuta a modo RAG. Y la herramienta pierde la capacidad de exploración, de puesta en relación, de metacognición que nunca tuvo realmente, pero que simulaba correctamente en los formatos pequeños.

Tres zonas profesionales concentran ese vuelco.

La respuesta a una licitación. Un expediente completo pesa entre trescientas y mil quinientas páginas. La pregunta estratégica rara vez es factual. Se parece a «¿cuál es el marco que este cliente adopta sin saberlo, y dónde están mis palancas de diferenciación?». El RAG no sabe responderla. Ningún fragmento la contiene; la respuesta emerge del cruce.

Las actas de reuniones largas y sensibles. COMEX, comités de dirección, negociaciones comerciales prolongadas, defensas orales de varias horas. Todos los que lo han intentado conocen el umbral: más allá de treinta minutos de transcripción, Copilot ya no sabe producir un acta detallada. Una síntesis rápida sigue siendo posible. Un acta fina, que rastree los compromisos y permita a cada uno preparar el próximo hito, ya no lo es.

La causa técnica es precisa, y es poco conocida: la restricción dominante reside en la ventana de salida, más que en la ventana de entrada. Aunque Copilot tragara la transcripción literal de cuatro horas, solo podría escribir un acta de unos pocos miles de tokens —unas pocas páginas como máximo—. Se ve obligado a comprimir, y a esa tasa, lo operativo desaparece. El resultado es corto por construcción. Conviene al directivo que sobrevuela el tema y quiere comprenderlo de un vistazo. No basta a quien debe profundizar, ni a quien debe decidir sobre la base de ese acta.

A esto se suma el punto ya nombrado: la sustancia de una reunión larga no está en las frases pronunciadas, está en los encadenamientos, los vuelcos, los silencios. Un RAG no ve lo que no se verbaliza. Y una ventana de salida corta no podría restituir lo que un RAG hubiera, por suerte, detectado.

El análisis documental transversal. Auditoría de cartera, análisis competitivo sobre treinta documentos públicos, due diligence de adquisición, evaluación de riesgo sobre un corpus contractual. El valor añadido nace del cross-reading. Un RAG que recupera cinco fragmentos por consulta se detiene en el resumen aparente, sin alcanzar el análisis real.

La otra arquitectura: contexto largo y exploración

La arquitectura alternativa existe, y es accesible —a condición de aceptar el coste real de la inferencia de contexto largo, en lugar de buscar el margen en la limitación—. Anthropic abrió la vía en 2023 con una ventana de cien mil tokens en Claude 2, extendida a doscientos mil en 2024 en Claude 3, y luego al millón de tokens en las versiones Opus de la serie 4. Esta extensión es ante todo arquitectónica, más allá de la mera ganancia cuantitativa: con un millón de tokens, un expediente de licitación completo, una transcripción literal de cuatro horas de reunión, una cartera de treinta documentos competitivos pasan en una sola pasada. Sin RAG. Sin selección previa. Sin fragmento recuperado. El modelo ve el conjunto simultáneamente, y puede operar las puestas en relación que la arquitectura corta no permite.

La diferencia es medible. El benchmark «Needle in a Haystack» propone una prueba simple: se inserta una información precisa en un corpus largo, y se pide al modelo que la recupere. Los modelos de contexto largo anclado (Claude Opus, Gemini Pro, GPT) alcanzan tasas de recuperación superiores al 95 % sobre contextos de varios cientos de miles de tokens. Las arquitecturas RAG, en la misma prueba, dependen por completo de la calidad del retrieval: si la aguja no tiene el vocabulario adecuado, no se recupera.

El trabajo de Liu et al. (NAACL 2024), «Lost in the Middle: How Language Models Use Long Contexts», documentó un matiz: incluso en modelos técnicamente de contexto largo, la atención decae sobre las porciones medianas del documento. El rendimiento sigue siendo estructuralmente superior al de un RAG, pero la calibración del contexto largo no es uniforme. Razón adicional para combinar contexto largo y protocolos de exploración explícita. Es lo que hacen las arquitecturas agénticas cada vez más utilizadas en el bid management profesional: el agente identifica de antemano las zonas del corpus que merecen una lectura reforzada, en lugar de dejar que la atención se diluya sobre el conjunto.

La prueba práctica para distinguir

Una prueba simple permite distinguir una herramienta dimensionada para el trabajo real de una herramienta dimensionada para la demo: plantear a la herramienta una pregunta cuya respuesta no esté en ningún documento tomado aisladamente, sino que emerja de la puesta en relación de tres documentos como mínimo.

Sobre una respuesta a una licitación: «habida cuenta del calendario impuesto en el RC, de las plantillas mínimas exigidas en el CCTP y de las referencias solicitadas en el anexo 4, ¿qué candidatos eran estructuralmente elegibles antes de la publicación?». Ningún documento contiene la respuesta. Emerge del cruce.

Sobre un acta de COMEX: «¿qué posiciones expresadas en esta reunión contradicen las que los mismos participantes defendieron en las dos reuniones anteriores?». La respuesta exige sostener simultáneamente tres corpus de varias horas.

Sobre una auditoría competitiva: «entre los treinta documentos públicos analizados, ¿qué competidores presentan una trayectoria comercial que señala un reposicionamiento estratégico aún no anunciado?». La respuesta se aloja en las distancias entre documentos, fuera de todo documento particular.

Si la herramienta produce una respuesta fluida que no podría sostenerse ante una auditoría, porque ningún documento la fundamenta, es una herramienta de RAG alucinando. Si la herramienta dice honestamente «no he visto esa información» cuando está en el corpus completo, es una herramienta cuya ventana es demasiado pequeña. Si la herramienta produce una respuesta sustentada en la puesta en relación explícita de tres documentos identificados, es una herramienta dimensionada para el trabajo real.

Consecuencia operativa

La lección, para un directivo, un bid manager, un director jurídico, un responsable de estrategia, es precisa: hay que separar la buena herramienta del buen uso.

Microsoft Copilot, ChatGPT, Gemini, Claude.ai en su interfaz de chat son herramientas excelentes para las tareas cuyo objeto cabe en la ventana corta que su editor ha elegido servir: correo, nota interna, síntesis rápida, generación de ideas, primera versión de un documento breve. Sobre esas tareas, su rendimiento es real, su productividad es medible, su uso es legítimo.

Sobre las tareas cuyo objeto rebasa la ventana —licitación completa, reunión larga sensible, análisis documental transversal, due diligence, memoria de defensa compleja—, esas herramientas conmutan a modo RAG. Pierden la capacidad de exploración y de metacognición que justificaría precisamente que se las emplee en ellas. Sobre esas tareas, la ilusión de rendimiento es más peligrosa que la ausencia de herramienta, porque produce entregables fluidos, estructurados, autoritarios y estructuralmente insuficientes.

El error de categoría no es neutro. Expone jurídicamente. Hace malgastar semanas en rehacer expedientes generados por IA. Y, más profundamente, fragiliza la confianza en la IA aplicada al oficio real: se hace pagar a los fracasos de la ventana corta una reputación que las arquitecturas de contexto largo están mereciendo.

La buena herramienta para la buena tarea. Y, tanto en bid management como en pilotaje estratégico, la buena herramienta para los expedientes de verdad se dimensiona en millones de tokens, más que en chats de unas pocas decenas de páginas.

Para profundizar en las consecuencias de este diagnóstico: el coste real de la inferencia (cuánto cuesta de verdad un expediente tratado con un modelo premium y un bucle humano serio, y por qué la ventana actual es, paradójicamente, la más barata que veremos en mucho tiempo), y luego la cuestión de soberanía que abre DeepSeek V4 (para las grandes organizaciones que pueden desplegar un modelo de clase SOTA sobre infraestructura propietaria).

Fuentes principales: Lewis et al., «Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks», NeurIPS 2020. Liu et al., «Lost in the Middle: How Language Models Use Long Contexts», NAACL 2024. Karpukhin et al., «Dense Passage Retrieval for Open-Domain Question Answering», EMNLP 2020. Anthropic, «Introducing 100K Context Windows» (mayo de 2023), «Claude 3 family» (marzo de 2024), «Claude Opus 4 with 1M context» (2025). Bai et al., «LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding», arXiv 2308.14508, 2023. Greg Kamradt, «Needle in a Haystack: pressure testing LLMs», 2023.

La ilusión Copilot: por qué las IA de consumo aguantan en diez líneas y se desmoronan en cien páginas

La ilusión Copilot: por qué las IA de consumo aguantan en diez líneas y se desmoronan en cien páginas

La limitación económica de las herramientas de consumo

Tres fallas estructurales

Lo que funciona en pequeño, lo que se rompe en grande

La otra arquitectura: contexto largo y exploración

La prueba práctica para distinguir

Consecuencia operativa

¿Listo para transformar sus respuestas a licitaciones?

Artículos recomendados

Lo que el asistente hace visible — cuatro escalones de reciprocidad

La preventa es un ejercicio de mando — y usted lo dirige sin mapa de estado mayor

El fin del consultor júnior — lo que muere, lo que nace