Liderazgo de Opinión·3 de mayo de 2026·27 min de lectura

La IA gratuita no existe: economía de la inferencia y ventana de oportunidad

La IA generativa parece barata porque el capital riesgo financia su consumo desde hace tres años. Cuando se mira el coste real de un uso profundo —una licitación tratada con un modelo premium y un bucle humano serio— la aritmética cambia. Un agente sénior consume entre 150 y 400 dólares de tokens por expediente, no por mes. OpenAI duplicó su tarifa de API el 23 de abril de 2026; la subvención del capital riesgo alcanza su cénit. Esta columna hace explícito el verdadero coste de inferencia, desmonta el dilema del director de sistemas entre un Copilot capado y un premium auto-racionado, propone la única arquitectura que sale rentable y defiende una tesis contraintuitiva: la ventana actual es, paradójicamente, la más barata que veremos en mucho tiempo.

Por Aléaume Muller

CR

La IA gratuita no existe: economía de la inferencia y ventana de oportunidad

Una reunión de presupuestos en una dirección comercial francesa, a principios de 2026. El director financiero plantea la pregunta sencilla: «¿cuánto nos cuesta la IA en preventa?». El responsable de IT calcula: «30 € por usuario y por mes; en una preventa media, el equipo moviliza a ocho personas durante tres meses —es decir, 720 € por expediente. En un gran expediente que moviliza a quince personas durante seis meses, subimos a 2.700 €.» El director financiero anota las cifras. El director de ventas asiente. El ticket parece razonable, casi virtuoso: se tiene la impresión de una verdadera inversión, calibrada según el tamaño del expediente y la duración del ciclo.

El cálculo es falso, y lo es de una manera interesante. El ticket sigue siendo razonable; simplemente pesa, sobre el coste total de una preventa seria, una fracción invisible —para un beneficio funcional ampliamente subóptimo. La herramienta de 30 € no trata los expedientes serios; el artículo anterior trazó la mecánica del capado económico que la vuelve impotente sobre los corpus largos. La herramienta que sí los trata de verdad tiene otra tarifa, y esa tarifa ha estado enmascarada durante tres años por el capital riesgo que inunda el ecosistema de la IA generativa. Cuando el director financiero pregunta «cuánto cuesta la IA», la respuesta honesta es: «depende de si quiere la ilusión o el trabajo.»

Este artículo hace visible el coste real de un uso de IA dimensionado para el trabajo real, lo coloca junto al coste visible de los planes de gran consumo y defiende una tesis contraintuitiva: la ventana actual es la más barata que veremos en mucho tiempo.

El coste bruto de la inferencia seria

Las tarifas de Anthropic sobre Claude Opus 4.7, lanzado en abril de 2026, son públicas: 5 dólares por millón de tokens de entrada, 25 dólares por millón de tokens de salida. Es la tarifa de un modelo de clase SOTA —State Of The Art, es decir, la clase de modelos que definen en tiempo real la frontera de lo que la máquina sabe hacer en razonamiento, en análisis de corpus largos, en coherencia sobre largas cadenas de inferencia. La clase SOTA reúne hoy un puñado de modelos: Claude Opus 4.7 en Anthropic, GPT-5.5 y GPT-5.5 Pro en OpenAI, Gemini Pro en Google, y un círculo restringido de aspirantes. Es el utillaje del trabajo intelectual serio, que hay que distinguir netamente del de los chatbots de gran consumo.

OpenAI, precisamente, lanzó el 23 de abril de 2026 GPT-5.5 y duplicó su tarifa de API respecto a GPT-5 —la entrada pasa de 2,50 a 5 dólares por millón de tokens, la salida de 15 a 30 dólares. Google mantiene Gemini Pro ligeramente por debajo, pero la pendiente es idéntica. Ningún modelo de clase SOTA baja de forma significativa, y por primera vez desde 2023, la pendiente ha cambiado de signo: las tarifas suben.

Una licitación completa pesa, en la lectura, entre 200.000 y 400.000 tokens —CCTP, RC, BPU, DQE, DPGF, AE, reglamento de la consulta, lotes, anexos técnicos, y la memoria técnica del competidor anterior obtenida por vía pública. Esta ingesta bruta representa entre uno y dos dólares de entrada. Ahora bien, leer un expediente está lejos de responderlo.

Una verdadera respuesta exige operaciones múltiples: leer, analizar, cartografiar los requisitos, identificar las zonas de divergencia estratégica, simular la fórmula de ponderación, cruzar las referencias de la competencia, escribir una primera memoria, cuestionarla, reescribirla. Cada operación consume tokens en la lectura del contexto anterior y en la producción de nuevo texto. Un agente que orquesta limpiamente estas etapas no hace una sola pasada sobre el DCE: hace de diez a treinta, releyendo cada una todo o parte del contexto anterior en cada turno. Una primera generación automática de una memoria técnica de cincuenta páginas, sin intervención humana, consume típicamente entre veinte y sesenta dólares de tokens en Opus 4.7.

Es el coste suelo. El coste real está en otra parte.

Por qué un expediente cuesta 400 dólares, no 50

La primera generación rara vez es el expediente final. En una verdadera cadena de producción, el bid manager interviene en varias ocasiones a lo largo de un ciclo de ocho a doce semanas.

Dialoga con la IA para reorientar la estrategia tras la primera pasada. Introduce progresivamente informaciones que no estaban disponibles inicialmente —la grilla de tarifas interna, el arbitraje de RRHH sobre el equipo disponible, el historial de la relación con ese cliente. En cada etapa, el contexto del agente crece, a veces hasta el millón de tokens, y cada turno de conversación reproduce ese contexto a la tarifa de entrada.

El DCE evoluciona: el comprador publica una actualización, añade un anexo, reencuadra el perímetro. El agente debe rehacer parte del trabajo. Las preguntas y respuestas publicadas conllevan una nueva revisión. El desafío humano-IA —«esta sección no se sostiene, propón una alternativa que asuma el riesgo sobre el calendario pero asegure el perímetro»— desencadena de cinco a diez turnos de refinamiento. Las relecturas sucesivas por parte del director comercial, el director jurídico, el sponsor ejecutivo imponen otras tantas reescrituras localizadas. Las modificaciones de última hora, en las veinticuatro horas previas a la entrega, están entre las más costosas porque se operan sobre la totalidad del contexto maduro.

En un expediente serio llevado con un bucle humano serio, el consumo total de tokens se sitúa típicamente entre 150 y 400 dólares. Un expediente complejo —variantes, opciones, multilote, defensa preparada con simulación oral, agente que mantiene el contexto más allá del millón de tokens durante las últimas semanas— puede superar los 600 dólares por expediente, e incluso acercarse a los 1.000 dólares en las licitaciones multilote muy grandes con defensa.

Esta horquilla marca el expediente verdaderamente trabajado, más que un defecto de optimización. Un expediente que consume treinta dólares de tokens es un expediente que nadie ha cuestionado en profundidad.

Por qué ningún modelo de contexto largo es barato

La objeción llega siempre: «¿y el código abierto?». Llama, DeepSeek, Mistral Large publican modelos capaces, bajo licencia abierta. La promesa de inferencia a coste marginal nulo sigue inscrita en el relato.

No se sostiene para el uso profesional. Tres razones.

La inferencia de un modelo de clase Llama 405B o DeepSeek-V3 sobre un millón de tokens de contexto exige varias GPU H100 o B200 asignadas durante el tiempo del tratamiento. El coste horario de un clúster que aguante esa carga, operado internamente por una dirección de sistemas, supera rápidamente la tarifa de API de un modelo SOTA propietario —sin la ventaja de la calidad.

El alojamiento por terceros (Together AI, Fireworks, Groq, Anyscale) hace el despliegue más accesible, pero la tarifa refacturada converge mecánicamente hacia el coste de inferencia de los operadores propietarios. Las diferencias publicadas en los comparativos no se sostienen a potencia comparable y contexto largo efectivo.

La atención sigue siendo, en la mayoría de las arquitecturas, de complejidad cuadrática sobre la longitud del contexto. Duplicar la ventana cuadruplica el coste de inferencia. Las optimizaciones recientes —Flash Attention, Ring Attention, Sliding Window— reducen las constantes pero no cambian la clase asintótica para contextos de varios cientos de miles de tokens. La física de la memoria no desaparece al migrar al código abierto.

Conclusión seca: no existe, en 2026, atajo económico alguno hacia el contexto de 1M eficaz. Cuando un proveedor propone una tarifa que desafía al mercado, la ventana efectiva es más corta, el recuerdo de los tokens medianos se desploma (cf. Lost in the Middle, Liu et al. NAACL 2024), o la calidad de generación retrocede. Lo que parece gratuito nunca lo es estructuralmente.

La paradoja de Claude Max

Anthropic ofrece dos niveles de plan de uso individual: Claude Max 5x a 100 dólares por mes, y Claude Max 20x a 200 dólares por mes, que abren respectivamente cinco y veinte veces la capacidad del plan Pro estándar. El primer reflejo de un comprador de gran consumo ante la tarifa de 200 dólares es: «es muy caro para una herramienta personal». El primer reflejo de un usuario que ha experimentado la tarifa de API es: «es la oferta más subvencionada del mercado».

Ambos reflejos son ciertos. No se dirigen a la misma persona.

Sobre un uso moderado —unas pocas conversaciones por semana, expedientes ocasionales, código accesorio— el plan de 200 dólares es derrochador. ChatGPT Plus a 23 dólares o Claude.ai estándar a 20 dólares bastan. Sobre un uso profundo —un bid manager que orquesta dos expedientes completos por semana, un consultor sénior que trata auditorías de sesenta documentos, un desarrollador que mantiene el agente en bucle largo sobre código— el consumo observado en los power users que se han pasado a Max corresponde, a tarifa de API equivalente, a varios miles de dólares de tokens por mes.

El plan subvenciona el uso profundo. Solo es caro para quien lo usa poco. Es uno de los muy escasos productos donde lo contrario de la percepción espontánea se sostiene —y donde las recomendaciones entre pares divergen radicalmente según la profundidad de uso de quien recomienda.

Esta paradoja tiene no obstante un reverso —una relación calidad-precio de doble filo que se manifestó en marzo-abril de 2026. Anthropic estrechó discretamente los límites de sesión de sus usuarios Max durante las horas punta: las sesiones de cinco horas se consumían en noventa minutos en Max 5x, ciertos prompts hacían saltar un indicador de Max 20x del 21 % al 100 % en una sola pasada. Confirmación oficial de Anthropic a continuación —en torno al 7 % de los usuarios chocaban ya con límites con los que no chocaban antes. La razón invocada públicamente quedó vaga; la razón estructural, en cambio, es clara: la demanda supera la capacidad de GPU disponible, y el editor arbitra, sin decirlo frontalmente, capando los usos más intensivos para preservar la calidad del servicio a gran escala. El plan sigue subvencionado, pero la subvención se vuelve condicional.

El mismo fenómeno, aún más visible, apareció en Claude Mythos, el modelo de frontera anunciado por Anthropic el 7 de abril de 2026 —un modelo del orden de diez billones de parámetros, entrenado sobre las generaciones Blackwell de Nvidia. La difusión quedó restringida a una cincuentena de socios seleccionados (programa Project Glasswing), con una tarifa de API de 25 dólares de entrada y 125 dólares de salida por millón de tokens —cinco veces la tarifa de Opus 4.7. La justificación pública pone por delante la seguridad; las comunicaciones internas citadas en la prensa especializada dicen otra cosa. Anthropic reconoce abiertamente que Mythos es « very expensive for us to serve, and will be very expensive for our customers to use », y trabaja en hacerlo más eficiente antes de cualquier difusión más amplia. La difusión restringida es, en buena parte, una difusión limitada por el coste de inferencia y la capacidad industrial disponible, más que una simple medida de precaución.

Estas dos señales convergen. Indican que el SOTA se ha acercado, en 2026, al límite de lo que el ecosistema industrial puede servir a la tarifa corriente. El plan de 200 dólares, la tarifa de API de Opus 4.7, la tarifa duplicada de GPT-5.5 —todos reflejan esta tensión. Lejos del punto de llegada, marcan una etapa hacia arriba.

El dilema del director de sistemas

Un comprador director de sistemas, en 2026, se enfrenta a una grilla de tres opciones.

Opción A — restricción estricta. Se despliega Microsoft Copilot, ChatGPT Enterprise o Gemini for Workspace a 20-30 € por usuario. La gobernanza es sencilla, el ticket es conocido, la integración con el SI se facilita. El artículo anterior documentó lo que se desmorona: sobre la licitación completa, sobre el acta de reunión larga, sobre el análisis documental transversal, estas herramientas bascula hacia una arquitectura RAG capada y producen entregables fluidos pero estructuralmente insuficientes. El retorno del terreno, a gran escala, es uniformemente «muy muy decepcionante» en los expedientes con apuesta. El margen oculto —tiempo perdido en retomar salidas de IA insuficientes, expedientes fallidos por falta de profundidad, exposición jurídica sobre las actas falsas por omisión— queda enmascarado por la sencillez del ticket visible.

Opción B — premium con auto-racionamiento. Se despliega un acceso de API a Anthropic, OpenAI o Google, pero la gobernanza impone modelos intermedios «para el margen»: Sonnet, Gemini Flash, Grok, GPT-4.1 mini. La tarifa unitaria cae por cinco o por diez. La capacidad de razonamiento cae también, pero de forma menos visible. El resultado sobre una licitación seria es un razonamiento competente pero mediano, que pierde las inflexiones estratégicas que solo un modelo premium identifica. Esta opción es en realidad más peligrosa que la opción A. Con Copilot, el usuario desconfía —la herramienta es pública, el límite es conocido, se relee antes de firmar. Con una API premium desplegada y un modelo intermedio en segundo plano, el usuario tiene la sensación de haber accedido a una infraestructura sofisticada, su confianza en la salida aumenta, su vigilancia crítica baja. Firma análisis que parecen sólidos porque son fluidos, pero que pierden precisamente las zonas donde una verdadera capacidad de razonamiento habría marcado la diferencia. La decepción final es más pesada, porque viene acompañada de errores validados por el camino.

La misma lógica vale para la otra forma de auto-racionamiento, más discreta: el uso masivo de RAG sobre todo el corpus. Se indexan los documentos, se inyectan los fragmentos recuperados en cada pregunta, se hace economía de un contexto largo premium. La salida parece informada, con fuentes, estructurada. Pero el RAG juega sobre la proximidad semántica entre la pregunta y unos fragmentos —no juega ni sobre la lógica, ni sobre el juicio, ni sobre la puesta en relación transversal. En una licitación, la pregunta estratégica típica —«¿qué coherencias exige este expediente sobre el cruce entre fórmula de ponderación, referencias solicitadas y calendario?»— no tiene ninguna respuesta en ningún fragmento aislado. El RAG devuelve párrafos pertinentes por palabras clave, el modelo compone una respuesta coherente sobre esa base, y el usuario recibe un entregable que parece reflexionado pero que no ha visto el expediente en su integridad. Es la misma ilusión que la opción A, disfrazada tras una infraestructura más cara.

Opción C — la única que sale rentable. Un modelo premium (Opus, GPT-5.5 pleno, Gemini Pro pleno) sobre los actos de gran apuesta —análisis estratégico del DCE, reencuadre del expediente, producción de las secciones críticas, simulación de defensa. Modelos de apoyo optimizados (Sonnet, Gemini Flash, Grok) sobre los actos de apuesta media —extracción de los requisitos, primer esqueleto de capítulo, verificación ortográfica. Un control arquitectónico riguroso —que decide qué acto va a qué modelo, y que mide el consumo. Un control cognitivo riguroso —un encuadre humano aguas arriba, unos operadores epistémicos puestos a mano, una revisión crítica de las salidas. Y una gestión del cambio exigente del lado de los usuarios.

Esta opción implica un salto de utillaje que pocas organizaciones han franqueado hoy: pasar del chatbot a un verdadero modo agéntico. Un agente que interactúa directamente sobre los documentos —que los abre, los lee, los compara, ejecuta órdenes de escritura y de exploración, estructura sus propias etapas, conserva la traza de sus razonamientos. En lugar del asistente al que se le copian y pegan extractos en una ventana de chat, un sistema que opera sobre el corpus en autonomía, bajo control humano. La tecnología está madura, la transición es técnicamente fácil en 2026 —pero demasiado pocas direcciones comerciales y direcciones de sistemas están posicionadas sobre este utillaje. Es precisamente esta brecha la que constituye la palanca competitiva de los dos próximos años.

El coste visible de la opción C es más elevado que el de la opción A. El coste total de propiedad es netamente más bajo. Incluso un expediente que consume 1.000 dólares de API durante sus semanas de producción sigue siendo una fracción del coste total: es el equivalente de uno a dos días de prestación de un consultor sénior, sobre una preventa cuyo presupuesto total —tiempo de bid manager, experiencia técnica, soporte comercial, defensa— se cuenta en decenas e incluso en centenares de miles de euros en una ESN seria. La verdadera pregunta no recae sobre el coste absoluto de la IA premium, sino sobre la capacidad del sobrecoste de inferencia para amortizar varios días-hombre y mejorar la calidad del entregable. En una licitación de gran apuesta, la respuesta es mecánicamente sí.

Es, sin embargo, un cálculo que las direcciones financieras francesas tienen dificultad para hacer, porque opone un gasto visible mensual a una creación de valor difusa —tasa de conversión, márgenes sobre expedientes ganados, velocidad de ciclo.

La gestión del cambio es la mitad de la inversión

Dar Opus a usuarios sin formación equivale a dar un piano de concierto a un principiante. El coste del instrumento parece absurdo frente al sonido producido. La respuesta consiste en formar al pianista, más que en rebajar el instrumento.

La disciplina cognitiva que hay que transmitir es precisa.

Expresar claramente la intención. Un usuario que escribe «hazme una memoria técnica» desperdicia la capacidad del modelo. El encuadre explícito —«el cliente es una administración, el perímetro se limita al lote 2, la estrategia de diferenciación es la del aseguramiento del calendario, el tono esperado es tranquilizador sobre el riesgo operativo y ofensivo sobre el compromiso de calidad»— redistribuye la distribución de completado del modelo hacia la zona útil. Es la operación humana más rentable de la cadena. Una hora dedicada a reformular el marco vale, en efecto palanca, diez horas de prompting iterativo sobre un marco estándar.

Aportar el contexto exacto, ni más ni menos. Un usuario que arroja todo el DCE en la ventana sin jerarquía ahoga al modelo. Un usuario que solo aporta el CCTP pierde las referencias internas pertinentes. La dosis justa es una disciplina que se aprende. Se mide: si la salida no se sostiene, el contexto aportado era o demasiado pobre, o demasiado plano.

Minimizar las interacciones mediante ciclos estructurados. Un diálogo de veinte turnos mal estructurados cuesta más caro y produce menos que un diálogo de cinco turnos con puntos de control claros. El método eficaz alterna generación larga, revisión humana focalizada, instrucción de corrección calibrada, regeneración encuadrada. Se transmite, sin descubrirse solo.

Poner los operadores críticos a mano. Los pasajes con carga contractual o estratégica —compromisos de plazo, fórmula de tarifas, cláusulas de reversibilidad, referencias cualificadoras— se redactan o se releen a mano. Las tarifas y los compromisos nunca se dejan al modelo.

Durante los primeros meses, ciertos usuarios van a disparar el presupuesto inicial de 200 a 300 dólares adicionales por mes y por persona, a veces más. Es la curva de aprendizaje, y es normal. El retorno de la inversión se mide en tasa de conversión de licitaciones, y en el ascenso en competencia del colaborador que irá progresivamente optimizando sus interacciones —expresar el marco más ajustado, aportar el contexto más denso, estructurar el diálogo más corto— antes de que la inferencia de IA deje de ser barata. La dirección que sanciona el sobreconsumo durante la fase de aprendizaje mata la transformación que ha pagado por emprender.

TenderGraph TITAN: el sistema agéntico que optimiza la inferencia por usted

Una organización que plantea el problema honestamente llega rápido a la misma conclusión: dejar que sus colaboradores «se las arreglen» con lo agéntico sin sistema, sin método, sin marco, es garantizar uno de los dos peores escenarios. O bien la adopción fracasa porque la complejidad de uso desanima —el usuario retoma Word y su antiguo método tras tres intentos fallidos. O bien la adopción tiene mal éxito —el usuario consume masivamente tokens premium para resultados medianos, porque no tiene ni el encuadre, ni la secuencia de inferencias, ni la disciplina cognitiva que exige un uso eficaz. En ambos casos, la organización paga sin recoger.

Es precisamente esta brecha la que TenderGraph aborda con TITAN. TITAN es un sistema agéntico cognitivo concebido para la producción de preventas: opera directamente sobre los documentos del DCE, ejecuta la cadena de inferencia en el buen orden, plantea las preguntas correctas en los momentos correctos, aplica las lógicas de análisis correctas —fórmula de ponderación, cruce BPU/DQE, lectura del marco implícito del CCTP, identificación de las zonas de divergencia estratégica. El beneficio es doble. Del lado del tiempo, el agente automatiza las etapas mecánicas que el bid manager no debería rehacer a mano. Del lado del coste de inferencia, el agente optimiza drásticamente el consumo de tokens —cadena de inferencia preestructurada, sin fricción humana generadora de turnos de conversación redundantes, encuadre mejor planteado aguas arriba, lo que reduce las regeneraciones aguas abajo. Sobre un expediente serio, un sistema agéntico cognitivo bien concebido consume típicamente entre un 30 % y un 60 % menos que un bucle humano sin utillaje para un entregable equivalente o mejor.

TenderGraph propone igualmente formaciones dedicadas para ayudar a los bid managers, a los directores comerciales y a los sponsors ejecutivos a optimizar la relación calidad-coste de su interacción con la IA —método de encuadre, economía del contexto, estructura de diálogo, postura de revisión crítica. Es la otra mitad de la transformación: una herramienta agéntica sin usuarios formados rinde por debajo; usuarios formados sin herramienta agéntica sobreconsumen. Ambos juntos enderezan la aritmética.

Por qué ahora es la ventana más barata

Tres líneas de presión al alza convergen sobre los próximos doce a veinticuatro meses.

La subvención del capital riesgo ha alcanzado su cénit. Las captaciones solo del primer trimestre de 2026 —OpenAI 122.000 millones de dólares, Anthropic 30.000 millones, xAI 20.000 millones— son históricas. Acumulativamente, OpenAI supera los 110.000 millones de dólares de capitales comprometidos (Stargate incluido), Anthropic alcanza cerca de 64.000 millones desde 2021, xAI 42.000 millones desde 2023. Estas captaciones han sido necesarias precisamente porque los balances publicados muestran un despegue de la cifra de negocio más rápido que la bajada de los costes unitarios: el delta entre ingreso y coste de inferencia ha sido cubierto por el capital. Los fondos aceptan todavía en abril de 2026 valoraciones de varias decenas de veces el ingreso, pero la disciplina financiera regresa —y la trayectoria de los precios ya lo refleja. OpenAI duplicó su tarifa de API al pasar de GPT-5 a GPT-5.5 el 23 de abril de 2026. La subvención al token ya no es una promesa duradera.

Los modelos más capaces son más caros —y la pendiente está ya documentada. El paso de GPT-5 a GPT-5.5 en OpenAI ilustra la mecánica: tarifa de entrada multiplicada por dos, tarifa de salida multiplicada por dos, lanzamiento de una variante GPT-5.5 Pro a 30 dólares de entrada y 180 dólares de salida por millón de tokens. Anthropic procedió de forma distinta —la nomenclatura «Opus 4.5 / 4.6 / 4.7» mantiene un precio de catálogo estable a 5 / 25, pero el nuevo tokenizador de Opus 4.7 infla el consumo efectivo hasta un 35 % sobre los mismos textos, lo que equivale a una subida silenciosa. Google mantiene Gemini Pro ligeramente por debajo, pero el gradiente es idéntico. El SOTA sube; la tarifa efectiva del SOTA sube; la tarifa de los modelos de gama de entrada baja, pero esos modelos no tratan los expedientes serios. Las diferencias entre clases van a ampliarse, lejos de reducirse.

La capacidad industrial está limitada en cuatro dimensiones a la vez —y ninguna se resuelve con dinero a corto plazo.

La producción de chips. TSMC es el único fundidor capaz de producir a escala las generaciones Blackwell de Nvidia, AMD MI400, y los chips propietarios de Google (TPU v7), de Amazon (Trainium 3) y de Meta. La capacidad de grabado de 3 nm y 2 nm está saturada para 2026 y ampliamente reservada para 2027. Ningún actor, ni siquiera Microsoft o Google, puede acelerar la cadencia de grabado: las fábricas funcionan ya a pleno rendimiento, y la construcción de una nueva fab de TSMC en Phoenix o Kumamoto requiere de cuatro a seis años. La cola de espera para comprar un H200 o un Blackwell se cuenta en meses, y los hyperscalers consumen lo esencial de las asignaciones.

El coste y la disponibilidad de la energía. La inferencia a gran escala se ha convertido, en 2025-2026, en uno de los rubros de consumo eléctrico de mayor crecimiento en los países industrializados. Los operadores de centros de datos pagan ya su electricidad a tarifas que se han duplicado en dos años en Virginia del Norte, en Irlanda, en Singapur. La factura energética se convierte en una fracción significativa del coste de inferencia —y aumenta con cada oleada de puesta en servicio de clúster GPU de alta densidad.

El tiempo físico de construcción. Todo el dinero del mundo no produce un centro de datos al instante. Adquirir el terreno, obtener los permisos, negociar la conexión con el operador de red, construir el edificio, instalar la alta tensión, refrigerar los bastidores, validar la seguridad —cada etapa toma de doce a treinta y seis meses, sin contar los recursos administrativos. Los centros de datos en construcción hoy fueron lanzados en 2023-2024; los que cubrirán la demanda de 2027-2028 deben lanzarse ahora. Ningún atajo financiero borra este plazo físico.

La conexión a la red eléctrica. Los centros de datos de clase IA exigen conexiones de alta tensión de varios centenares de megavatios. Los operadores de red en Estados Unidos, en Irlanda, en la Isla de Francia, en Alemania señalan colas de espera que añaden de dieciocho a treinta y seis meses a los proyectos, a veces más. La red eléctrica no fue dimensionada para esta demanda, y su refuerzo sigue sus propios plazos industriales y políticos. Microsoft, Google y Amazon aseguran contratos nucleares a diez años precisamente porque la disponibilidad eléctrica gestionable se convierte en el factor limitante —no el cálculo, el electrón.

La suma es inapelable: la oferta está ya en su techo durante varios meses, e incluso varios años en razón de los contratos ya firmados y de las cadenas industriales ya comprometidas. Mientras tanto, la demanda explota —adopción empresarial que despega, lo agéntico que multiplica el volumen de tokens consumidos por usuario activo, contextos largos que multiplican el coste por petición, modelos más capaces que exigen más cálculo. La repercusión en precio de inferencia es mecánica: cuando la demanda crece varias veces más rápido que la oferta, y la oferta no puede acelerar a corto plazo, las tarifas solo pueden subir.

Consecuencia: el coste de uso profundo de la IA va a subir antes de volver a bajar. Los modelos seguirán volviéndose más inteligentes, pero a una tarifa más elevada. Las metodologías —las maneras de prompting, de estructurar el diálogo, de plantear el marco, de calibrar los operadores— son, en cambio, activos duraderos. Una organización que invierte en 2026 en la disciplina cognitiva de sus bid managers recogerá, en 2027 y 2028, los beneficios sobre modelos más capaces. Una organización que espera a que «cueste menos caro» esperará mucho tiempo, y llegará a un mercado donde sus competidores tendrán una ventaja metodológica de dos años.

El argumento económico estándar —«esperar a que la tecnología madure»— se basa, sobre la IA generativa, en una lectura invertida de las curvas. Las herramientas ya están maduras; es la tarifa la que deja de estarlo.

Consecuencia operativa

Para un director comercial, un director de sistemas, un sponsor ejecutivo, la grilla de decisión se sostiene en tres líneas.

El coste visible más bajo —Copilot, ChatGPT Plus— es el coste real más alto, porque financia expedientes estructuralmente insuficientes y porque fragiliza la confianza en la herramienta. Es la opción que produce la frase «probamos la IA, no es convincente» cuando solo se ha probado un producto capado en casos fuera de campo.

El coste visible intermedio —premium auto-racionado sobre Sonnet, Grok, Gemini Flash— es la opción de la sofisticación aparente sin el rendimiento. Decepciona igual, más caro.

El coste visible más elevado —Opus sobre los actos críticos, modelos de apoyo sobre el resto, control arquitectónico y gestión del cambio serios— es el único que sale rentable. Exige aceptar que una licitación tratada a fondo consuma entre 150 y 400 dólares de tokens, y que un usuario en fase de aprendizaje vaya a superar el presupuesto en 200 a 300 dólares por mes. Exige también medir el retorno a la malla correcta: tasa de conversión, márgenes sobre expedientes ganados, velocidad de ciclo, calidad de defensa.

No hay solución milagrosa

Todas las señales convergen hacia la misma conclusión. No hay atajo. Para beneficiarse realmente de la IA generativa en preventa, dos condiciones se sostienen simultáneamente: estar dispuesto a pagar la inferencia a su justo precio, y emprender la transformación ahora formando a los usuarios para emplearla mejor. Ninguna de las dos basta por sí sola. Y la segunda implica en realidad la primera: no se aprende a conducir una Fórmula 1 en un utilitario, por muy de última generación que sea. Un equipo formado sobre Copilot seguirá razonando en clave Copilot —ventana corta, RAG semántico, entregables fluidos y estructuralmente insuficientes— se le enseñe lo que se le enseñe por encima.

Estar dispuesto a pagar, en la práctica, toma dos formas. Lo ideal es una suscripción empresarial con un editor SOTA, en las condiciones más óptimas —acceso al modelo premium sin racionamiento oculto, contexto largo disponible, agéntico pleno— y se mira el precio lo menos posible. Esta opción se ofrece hoy a las empresas serias y sigue siendo accesible —precisamente porque la ventana está subvencionada. La alternativa, para las organizaciones que quieren conservar el control granular, es pagar el volumen que transita por API a la tarifa fuerte, asumiendo el gasto para asegurarse la predominancia técnica sobre los competidores que todavía dudan.

Para las muy grandes empresas, una tercera palanca estratégica empieza a emerger: poseer sus propios centros de datos, sus propios chips, y dominar su consumo, sus modelos y sus datos. Es la vía que Microsoft, Google, Amazon toman a gran escala para sus propios usos, y que se vuelve progresivamente accesible a las grandes cuentas industriales y financieras a medida que los modelos de código abierto como DeepSeek V4 alcanzan una calidad comparable al SOTA propietario —al precio de una inversión en infraestructura y en competencias internas considerable. Este posicionamiento estratégico es el objeto del artículo siguiente, que examina lo que el código abierto cambia realmente, lo que no cambia, y la grilla de tres niveles que de ello se deriva para las direcciones de IT.

Cualquiera que sea la palanca elegida, el mensaje se sostiene en una línea: la máquina puede tratar el expediente. Al humano le toca decidir qué coste acepta ver, y cuál prefiere seguir pagando oculto —en márgenes perdidos, en expedientes fallidos, en respuestas fluidas que no fundamentan nada, y en dos años de retraso acumulados sobre los competidores que habrán emprendido la transformación mientras la ventana estaba aún subvencionada.


Fuentes principales: Anthropic, « Claude Opus 4.7 pricing and API documentation », platform.claude.com y anthropic.com, abril de 2026. OpenAI, « GPT-5.5 pricing and release notes », openai.com y platform.openai.com, 23 de abril de 2026. Anthropic, « Max plan », claude.com/pricing/max, 2026. Anthropic, « Claude Mythos Preview / Project Glasswing », red.anthropic.com, 7 de abril de 2026. PCWorld, « Anthropic confirms it's been adjusting Claude usage limits », marzo de 2026. The Register, « Anthropic admits Claude Code quotas running out too fast », 31 de marzo de 2026. InfoWorld, « Anthropic throttles Claude subscriptions to meet capacity », 2026. MacRumors, « Claude Code Users Report Rapid Rate Limit Drain », 26 de marzo de 2026. Issue GitHub anthropics/claude-code #41788, marzo de 2026. Xaltius Academy, « The 10-Trillion Parameter Problem: Why Anthropic Locked Away Claude Mythos », 2026. Google, « Gemini API pricing », ai.google.dev, 2026. Crunchbase, « Foundational AI Startup Funding Q1 2026 », news.crunchbase.com, abril de 2026. PitchBook / SiliconANGLE, « US venture funding surges to record $267B as OpenAI, Anthropic and xAI dominate AI deals », abril de 2026. Liu et al., « Lost in the Middle: How Language Models Use Long Contexts », NAACL 2024. Hoffmann et al., « Training Compute-Optimal Large Language Models » (Chinchilla scaling laws), NeurIPS 2022. Dao et al., « FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness », NeurIPS 2022. Liu et al., « Ring Attention with Blockwise Transformers for Near-Infinite Context », arXiv 2310.01889, 2023. Stanford HAI, « AI Index Report 2025 », cap. 4 (Economy). Finout, « Claude Opus 4.7 Pricing — The Real Cost Story Behind the Unchanged Price Tag » (análisis tokenizador Opus 4.7), abril de 2026.

Etiquetas

#IA#LLM#economía de la IA#inferencia#tokens#bid management#Claude#Opus#ROI IA

Siguiente paso

¿Listo para transformar sus respuestas a licitaciones?

Seguir leyendo

Artículos recomendados

Liderazgo de Opinión

Lo que el asistente hace visible — cuatro escalones de reciprocidad

Se lee en todas partes que el asistente hace ganar tiempo, y la mayoría de los directivos que lo han probado lo cerraron al cabo de un mes. La explicación no es la calidad del modelo, sino una asimetría de expectativa: se esperaba un servicio cuando se trataba de una relación. Este artículo describe la trayectoria en cuatro escalones — devolverle algo, hacer con él, dejarle hacer con nosotros, dejarle hacer sin nosotros — al término de la cual el asistente deja de hacer ganar tiempo para hacer visible cuánto valía ese tiempo.

Leer artículo

Liderazgo de Opinión

La preventa es un ejercicio de mando — y usted lo dirige sin mapa de estado mayor

Cartografiar el terreno. Componer con sus fuerzas. Reducir la fricción. La preventa comparte con la planificación de operaciones la misma estructura fundamental: un objetivo, restricciones, un adversario (el statu quo del cliente), y un plan que nunca sobrevive al primer contacto con la realidad.

Leer artículo

Liderazgo de Opinión

El fin del consultor júnior — lo que muere, lo que nace

En dieciocho meses, la IA ha vaciado de su sustancia lo que hacía un consultor júnior. La cuestión no es saber si el oficio va a desaparecer (sobrevivirá), sino qué hay que transmitir, y a qué coste, para que esta mutación no produzca una generación de operadores sin raíces. El artículo retoma tres ángulos que nadie formula con claridad en 2026: el sénior firma ahora sin red, los júniores eran un sensor sociológico invisible cuya existencia el despacho acaba de descubrir al perderlo, y el fin de la esclusa de entrada podría volver a cerrar uno de los últimos ascensores sociales del capitalismo terciario.

Leer artículo