El marcado epistemológico: la firma humana que los LLM no reproducen

Primer artículo de un nuevo bloque dedicado a las firmas cognitivas humanas que los LLM no reproducen. El bloque anterior, sobre las figuras retóricas, se cerró con la aposiopesis — la contención del compromiso por la forma. Aquí descendemos por debajo de la retórica: la contención del compromiso por la calibración probabilística. Con, de fondo, lo que la lítote ya había nombrado: la «contención activa» frente al incentivo a la proliferación del RLHF, y el inventario de los sesgos cognitivos humano/IA en el terreno del exceso de confianza.

En octubre de 1962, el Comité Ejecutivo del Consejo de Seguridad Nacional estadounidense delibera trece días sobre los misiles soviéticos en Cuba. Sobre la mesa, fotos de reconocimiento, estimaciones divergentes, hipótesis operativas. Durante cuarenta años, las actas desclasificadas mostrarán un rasgo común a todas las intervenciones de los analistas senior: ninguna afirmación sale sin su marcador de certeza. «Sabemos que…», «estimamos en un 70 % la probabilidad de que…», «no podemos excluir que…», «nada indica que…». El contenido informativo de las frases es inseparable de su carga epistemológica.

Algunos lo interpretarían como una coquetería de burócrata. Es, por el contrario, la condición de posibilidad de toda decisión racional bajo información incompleta. Y es precisamente la competencia que la arquitectura de los grandes modelos de lenguaje no reproduce.

Tetlock y la revelación embarazosa de la CIA

En 2015, Philip Tetlock publica Superforecasting: The Art and Science of Prediction, que sintetiza veinte años de investigación en el Good Judgment Project. El proyecto, financiado por la IARPA — la rama de investigación de la Office of the Director of National Intelligence —, enfrenta sobre cuestiones geopolíticas a dos poblaciones: analistas profesionales de la CIA y aficionados seleccionados únicamente por su puntuación en preguntas de calibración.

El resultado sigue siendo uno de los más incómodos de la historia reciente de la inteligencia estadounidense: los mejores aficionados superan a los analistas de la CIA en aproximadamente un 30 %, medido en Brier score. Tetlock identifica el rasgo común a estos superforecasters: no son ni más inteligentes, ni están mejor informados, ni tienen acceso a datos clasificados. Comparten una metacompetencia — la calibración probabilística: la capacidad de decir «tengo un 65 % de confianza» en lugar de «estoy casi seguro», y de ver que su 65 % se realiza en el 65 % de los casos verificados a largo plazo.

Esta metacompetencia se construye con la práctica, el feedback sistemático y la disciplina del marcado explícito. Los superpronosticadores operan menos como oráculos que como contables de su propia incertidumbre.

Wittgenstein, Russell y la distinción marcador / operador

La tradición filosófica había planteado el problema un siglo antes. Wittgenstein, en la última proposición del Tractatus (1921), formula el aforismo más citado de la filosofía analítica: «De lo que no se puede hablar, hay que callar.» La frase casi siempre se lee mal, como una conminación al silencio sobre lo místico. Su alcance es más preciso: una aserción que sale de la zona donde la epistemología es sostenible ya no es una aserción — es otro acto de habla, que hay que tratar como tal.

Bertrand Russell, en An Inquiry into Meaning and Truth (1940), lleva el análisis más lejos al plantear el concepto de operador epistémico. Para él, toda aserción lleva implícitamente un prefijo — «Sé que p», «Creo que p», «Es probable que p», «Supongo que p». La confusión entre estos operadores degrada irremediablemente la calidad y la racionalidad del discurso.

Esta distinción, central, casi siempre se confunde con la simple presencia de marcadores.

Un marcador epistemológico es un hecho de superficie — una palabra, un adverbio, una modulación: «quizás», «parece que», «plausiblemente», «verosímilmente». Es materia estilística: señala al lector una intención de prudencia, sin modificar la naturaleza de la aserción que acompaña.

Un operador epistémico interviene en el fondo. Transforma el valor de verdad de la proposición que prefija y, en un contexto contractual, su alcance jurídico. Decir «garantizamos la conformidad con el RGPD» y «estimamos estar en conformidad con las exigencias del RGPD» no procede de una variación estilística. Son dos aserciones de naturaleza jurídica distinta: la primera compromete la firma, la segunda se posiciona. Un adjudicatario comprometido con la primera se expone a una acción por incumplimiento si se constata una no conformidad; un adjudicatario comprometido con la segunda ha realizado un acto de posicionamiento verificable, no un compromiso contractual blindado.

Una respuesta a una licitación es un sistema de operadores epistémicos disfrazado de lenguaje natural. La aparente fluidez del español profesional enmascara un apilamiento de prefijos — explícitos o implícitos — que determinan, frase por frase, lo que el adjudicatario está obligado a cumplir en ejecución. Un comprador experimentado no lee la prosa; lee los operadores.

La métrica formal: el Brier score

El marcado epistemológico tiene una medida formal. Glenn Brier, meteorólogo estadounidense, la propone en 1950 en un artículo del Monthly Weather Review. El Brier score mide la diferencia entre las probabilidades anunciadas y las frecuencias observadas. Un pronosticador que anuncia «80 % de probabilidad de lluvia» a lo largo de cien jornadas está calibrado si la lluvia cae en setenta y ocho a ochenta y dos de ellas; deriva si cae en cincuenta o en noventa y cinco. La exactitud individual de cada pronóstico importa menos que el alineamiento, en el conjunto, entre confianza anunciada y frecuencia observada.

La métrica ha sido retomada desde entonces por toda la literatura sobre calibración: sondeo electoral (Nate Silver, FiveThirtyEight), evaluación médica, previsión macroeconómica y, ahora, evaluación de los grandes modelos de lenguaje. Plantea un criterio objetivo sobre lo que parece subjetivo: un discurso es epistemológicamente honesto si la frecuencia de realización de las afirmaciones al 70 % se sitúa en torno al 70 %, y la de las afirmaciones al 95 % en torno al 95 %. El exceso de confianza se mide; se corrige; no se enmascara por mucho tiempo.

Cuatro niveles de operador en bid management

Una respuesta a una licitación es un acto de compromiso contractual bajo información incompleta. Sobre ochenta criterios, el bid manager solo tiene certeza sobre la mitad. Sobre la otra mitad, el operador epistémico prefijado a cada frase es un acto jurídico tanto como retórico.

Cuatro niveles de operador estructuran una memoria técnica profesional.

Nivel 1 — la afirmación factual anclada. «Nuestro equipo ha entregado cuarenta y tres proyectos similares desde 2019.» Verificable, fechado, cifrado. Único nivel donde un comprador puede dar la afirmación por adquirida. Una respuesta a licitación seria contiene una veintena de ellas, no más.

Nivel 2 — la estimación calibrada. «Estimamos el plazo de implementación en doce semanas, sobre la base de retornos de experiencia consolidados en configuraciones comparables.» La estimación lleva su fuente. El lector sabe en qué se apoya. El margen de error es implícito pero no negado.

Nivel 3 — la modalización hipotética. «Sujeto a la disponibilidad de los interlocutores de negocio en fase de encuadre, el despliegue podría concluirse en ocho semanas.» El compromiso es condicional, la condición está nombrada. Registro de los puntos donde se toma posición sin garantizar.

Nivel 4 — el reconocimiento de ignorancia operativa. «La compatibilidad con las configuraciones específicas evocadas en el punto 4.7.3 del CCTP requerirá una instrucción complementaria en fase de encuadre.» No se sabe. Se dice. Se nombra la modalidad de resolución. Este reconocimiento funciona, paradójicamente, como una potente señal de senioridad, porque solo quien domina un tema sabe identificar con precisión la zona que aún no domina.

Una memoria técnica que aplana estos cuatro niveles en uno solo — ya sea «garantizamos» en todas partes o «estaríamos en condiciones de» en todas partes — pierde todo valor informativo para el lector experimentado. El sistema de operadores se derrumba, y con él la legibilidad jurídica del expediente.

Por qué los LLM son estructuralmente sobreconfiados

Tres mecanismos convergentes explican por qué esta disciplina no sobrevive en una respuesta generada por IA.

La distribución de entrenamiento aplana los operadores. Durante el preentrenamiento, el modelo aprende la distribución conjunta de los tokens en un corpus masivo. Ahora bien, las frases factuales directas son ahí masivamente más frecuentes que las frases marcadas epistemológicamente: «la capital de Francia es París» se impone por varios órdenes de magnitud sobre «es probable, al 99,9 %, que la capital de Francia sea París». El modelo aprende a producir la forma dominante. Cuando se le pide una afirmación incierta, produce la forma cierta — es la compleción más probable.

El RLHF amplifica el sesgo. Ouyang et al. (NeurIPS 2022) sentaron la arquitectura de referencia del Reinforcement Learning from Human Feedback. Los anotadores humanos — reclutados en masa, pagados por tarea, poco expertos en el dominio evaluado — prefieren las respuestas claras, completas, asertivas. Una respuesta modalizada («no estoy seguro, pero creo que…») es masivamente penalizada con votos negativos por «evasiva» o «poco útil». El gradiente de entrenamiento empuja, por tanto, al modelo a aumentar la confianza aparente incluso cuando el saber efectivo disminuye. Es, punto por punto, lo inverso de lo que aprende un superpronosticador.

La ausencia de señal interna de calibración expuesta. Kadavath et al. (Anthropic 2022), en «Language Models (Mostly) Know What They Know», publicaron un estudio leído durante mucho tiempo como tranquilizador: los LLM pueden, internamente, distinguir las preguntas en las que tienen la respuesta correcta de aquellas en las que la inventan. La probabilidad asociada al token correcto es más alta en el primer caso. Pero esta distinción permanece interna y no expuesta. El modelo no saca la probabilidad. Saca la frase, con la misma entonación de autoridad tanto si hay un 95 % como un 30 % de probabilidad de que la frase sea exacta. Lin, Hilton y Evans (NeurIPS 2022), en «Teaching Models to Express Their Uncertainty in Words», intentaron corregirlo entrenando un modelo para producir explícitamente estimaciones de confianza verbales. El resultado es matizado: la mejora es medible, la calibración sigue siendo muy inferior a la de un analista humano entrenado.

Consecuencia en bid management. A un LLM al que se le pide redactar una memoria técnica produce, por defecto, un texto de nivel de operador 1 en todas partes — «garantizamos», «nuestra solución responde íntegramente», «nuestro enfoque permite». Allí donde el humano prefija operadores diferentes según el grado de saber, la IA prefija un operador único según el modo estadístico del corpus. Un comprador senior reconoce de inmediato la firma: el exceso de confianza permanente es uno de los marcadores de IA más nítidos, justo por delante de la saturación de tricolones y del apilamiento de correctios.

La calibración como marcador de senioridad

En el consultoría, la calibración epistemológica es uno de los marcadores de senioridad más difíciles de imitar. Un consultor junior, ante un expediente difícil, escribe:

«Esta transformación presenta riesgos importantes que requieren una atención particular.»

El tono es uniforme, el verbo es plano, el operador epistémico implícito es la constatación («es el caso que»). Ninguna fuente, ninguna calibración, ninguna delimitación. La frase delata la ausencia de metacognición.

Un senior partner, sobre el mismo expediente, escribe:

«Sobre la base de cinco misiones comparables realizadas entre 2019 y 2024, estimamos que esta transformación conlleva un riesgo operativo elevado en los seis primeros meses; dos variables determinarán el éxito — la calidad del pilotaje de negocio y el nivel de preparación de los datos patrimoniales.»

La segunda frase contiene cuatro operadores explícitos — la fuente (cinco misiones, periodo fechado), la estimación (estimamos, no sabemos), la delimitación temporal (seis primeros meses, no a largo plazo), la identificación de las incógnitas estructurantes (dos variables nombradas). El lector experimentado extrae de ella más información útil que de la primera, porque cada palabra está calibrada sobre una realidad observable.

Esta disciplina pertenece menos al orden de la opción que a la materia misma del consultoría senior — precisamente lo que los LLM, en este estadio de su arquitectura, no reproducen, por construcción del gradiente de entrenamiento más que por falta de datos.

Tres prácticas operativas en bid management asistido por IA

Identificar las zonas de operador obligatorio antes de generar. Una memoria técnica tiene típicamente de seis a diez pasajes donde el operador prefijado lleva una carga jurídica crítica: compromisos de plazo, compromisos de coste, referencias de clientes, certificaciones, compatibilidades técnicas, capacidad del equipo, conformidad reglamentaria. Estos pasajes deben redactarse o releerse a mano. El LLM puede producir el esqueleto del capítulo, jamás el operador final de esas frases.

Auditar el exceso de confianza pasaje por pasaje. En cada párrafo producido por la IA, plantear la pregunta: «¿cuál es la probabilidad real de que esta frase sea exacta si el comprador la lee al pie de la letra?». Probabilidad inferior al 90 % → el operador debe ajustarse a la baja. Inferior al 60 % → la frase debe reescribirse o suprimirse. Esta auditoría lleva de tres a cinco minutos por pasaje crítico. Pertenece al orden de lo innegociable.

Preparar la instanciación para la presentación oral. Cada operador de nivel 2 o 3 planteado en la memoria debe estar preparado para ser instanciado si el comprador lo lleva a aclaración. «Estimamos doce semanas» debe estar respaldado por una lista de cinco proyectos comparables con sus duraciones efectivas. «Sujeto a la disponibilidad de los interlocutores de negocio» debe poder traducirse en «dos entrevistas semanales de una hora cada una durante las seis primeras semanas». La modalización no instanciable es una trampa tendida a uno mismo, disfrazada de figura de prudencia.

Lo que le queda al autor humano

El marcado epistemológico es uno de los últimos terrenos donde la firma humana sigue siendo estructuralmente más fiable que la producción de la máquina. El tamaño del modelo no cambia nada. La arquitectura transformer tampoco. El factor determinante reside en la vocación del gradiente de entrenamiento: el RLHF fue concebido para producir respuestas útiles, claras, completas. La calibración probabilística, que exige precisamente contener el compromiso cuando el saber disminuye, va frontalmente en contra de esa vocación.

Para un bid manager, un consultor, un negociador, el marcado epistemológico constituye la condición de posibilidad del compromiso contractual. Una respuesta a una licitación es un acto jurídico más que una demostración de capacidad conversacional. Mientras los modelos estén optimizados para la fluidez más que para la calibración, le corresponde al humano plantear el operador final.

La máquina puede redactar los párrafos explicativos.

El operador epistémico que firma la autoridad contractual hay que plantearlo todavía uno mismo.

Fuentes principales: Tetlock & Gardner, Superforecasting: The Art and Science of Prediction, Crown, 2015. Brier, «Verification of Forecasts Expressed in Terms of Probability», Monthly Weather Review, 1950. Kadavath et al., «Language Models (Mostly) Know What They Know», arXiv 2207.05221, Anthropic 2022. Lin, Hilton & Evans, «Teaching Models to Express Their Uncertainty in Words», NeurIPS 2022. Ouyang et al., «Training language models to follow instructions with human feedback», NeurIPS 2022. Wittgenstein, Tractatus Logico-Philosophicus, 1921. Russell, An Inquiry into Meaning and Truth, A. & U., 1940.

El marcado epistemológico: la firma humana que los LLM no reproducen

El marcado epistemológico: la firma humana que los LLM no reproducen

Tetlock y la revelación embarazosa de la CIA

Wittgenstein, Russell y la distinción marcador / operador

La métrica formal: el Brier score

Cuatro niveles de operador en bid management

Por qué los LLM son estructuralmente sobreconfiados

La calibración como marcador de senioridad

Tres prácticas operativas en bid management asistido por IA

Lo que le queda al autor humano

¿Listo para transformar sus respuestas a licitaciones?

Artículos recomendados

Lo que el asistente hace visible — cuatro escalones de reciprocidad

La preventa es un ejercicio de mando — y usted lo dirige sin mapa de estado mayor

El fin del consultor júnior — lo que muere, lo que nace