Le marquage épistémologique : la signature humaine que les LLM ne reproduisent pas

En octobre 1962, le Comité exécutif du Conseil de sécurité national américain délibère treize jours sur les missiles soviétiques à Cuba. Sur la table, des photos de reconnaissance, des estimations divergentes, des hypothèses opérationnelles. Pendant quarante ans, les comptes rendus déclassifiés montreront un trait commun à toutes les interventions des analystes seniors : aucune affirmation ne sort sans son marqueur de certitude. « Nous savons que… », « nous estimons à 70 % de probabilité que… », « nous ne pouvons pas exclure que… », « rien n'indique que… ». Le contenu informationnel des phrases est inséparable de leur charge épistémologique.

Certains interpréteraient cela comme une coquetterie de bureaucrate. C'est au contraire la condition de possibilité de toute décision rationnelle sous information incomplète. Et c'est précisément la compétence que l'architecture des grands modèles de langage ne reproduit pas.

Tetlock et la révélation embarrassante de la CIA

En 2015, Philip Tetlock publie Superforecasting: The Art and Science of Prediction, qui synthétise vingt ans de recherche au Good Judgment Project. Le projet, financé par l'IARPA — la branche recherche de l'Office of the Director of National Intelligence —, fait s'affronter sur des questions géopolitiques deux populations : des analystes professionnels de la CIA et des amateurs sélectionnés sur leur seul score à des questions de calibration.

Le résultat reste l'un des plus inconfortables de l'histoire récente du renseignement américain : les meilleurs amateurs battent les analystes CIA d'environ 30 %, mesurés en Brier score. Tetlock identifie le trait commun à ces superforecasters : ils ne sont ni plus intelligents, ni mieux informés, ils n'ont pas accès à des données classifiées. Ils partagent une méta-compétence — la calibration probabiliste : la capacité à dire « je suis à 65 % de confiance » plutôt que « je suis presque certain », et à voir leur 65 % se réaliser dans 65 % des cas vérifiés sur le long terme.

Cette méta-compétence se construit par la pratique, le feedback systématique, et la discipline du marquage explicite. Les superprévisionnistes opèrent moins comme des oracles que comme des comptables de leur propre incertitude.

Wittgenstein, Russell, et la distinction marqueur / opérateur

La tradition philosophique avait posé le problème un siècle plus tôt. Wittgenstein, dans la dernière proposition du Tractatus (1921), formule l'aphorisme le plus cité de la philosophie analytique : « Ce dont on ne peut parler, il faut le taire. » La phrase est presque toujours mal lue comme une injonction au silence sur le mystique. Sa portée est plus précise : une assertion qui sort de la zone où l'épistémologie est tenable n'est plus une assertion — c'est un autre acte de langage, qu'il faut traiter comme tel.

Bertrand Russell, dans An Inquiry into Meaning and Truth (1940), pousse l'analyse en posant le concept d'opérateur épistémique. Pour lui, toute assertion porte implicitement un préfixe — « Je sais que p », « Je crois que p », « Il est probable que p », « Je suppose que p ». La confusion entre ces opérateurs dégrade irrémédiablement la qualité et la rationalité du discours.

Cette distinction, centrale, est presque toujours confondue avec la simple présence de marqueurs.

Un marqueur épistémologique est un fait de surface — un mot, un adverbe, une modulation : « peut-être », « il semble que », « plausiblement », « vraisemblablement ». C'est de la matière stylistique : il signale au lecteur une intention de prudence, sans modifier la nature de l'assertion qu'il accompagne.

Un opérateur épistémique intervient sur le fond. Il transforme la valeur de vérité de la proposition qu'il préfixe et, dans un contexte contractuel, sa portée juridique. Dire « nous garantissons la conformité RGPD » et « nous estimons être en conformité avec les exigences RGPD » ne procède pas d'une variation stylistique. Ce sont deux assertions de natures juridiques différentes : la première engage la signature, la seconde se positionne. Un titulaire engagé sur la première s'expose à une attaque en exécution si une non-conformité est constatée ; un titulaire engagé sur la seconde a posé un acte de positionnement vérifiable, pas un engagement contractuel verrouillé.

Une réponse à appel d'offres est un système d'opérateurs épistémiques déguisé en langage naturel. L'apparente fluidité du français professionnel masque un empilement de préfixes — explicites ou implicites — qui déterminent, phrase par phrase, ce que le titulaire est tenu de tenir en exécution. Un acheteur expérimenté ne lit pas la prose ; il lit les opérateurs.

La métrique formelle : Brier score

Le marquage épistémologique a une mesure formelle. Glenn Brier, météorologue américain, la propose en 1950 dans un article du Monthly Weather Review. Le Brier score mesure l'écart entre les probabilités annoncées et les fréquences observées. Un prévisionniste qui annonce « 80 % de probabilité de pluie » sur cent journées est calibré si la pluie tombe sur soixante-dix-huit à quatre-vingt-deux d'entre elles ; il dérive si elle tombe sur cinquante ou sur quatre-vingt-quinze. La justesse individuelle de chaque prévision compte moins que l'alignement, sur l'ensemble, entre confiance annoncée et fréquence observée.

La métrique a depuis été reprise par toute la littérature sur la calibration : sondage électoral (Nate Silver, FiveThirtyEight), évaluation médicale, prévision macroéconomique, et désormais évaluation des grands modèles de langage. Elle pose un critère objectif sur ce qui paraît subjectif : un discours est épistémologiquement honnête si la fréquence de réalisation des affirmations à 70 % se situe autour de 70 %, et celle des affirmations à 95 % autour de 95 %. La sur-confiance se mesure ; elle se corrige ; elle ne se masque pas longtemps.

Quatre niveaux d'opérateur en bid management

Une réponse à appel d'offres est un acte d'engagement contractuel sous information incomplète. Sur quatre-vingts critères, le bid manager n'a la certitude que sur la moitié. Sur l'autre moitié, l'opérateur épistémique préfixé à chaque phrase est un acte juridique autant que rhétorique.

Quatre niveaux d'opérateur structurent un mémoire technique professionnel.

Niveau 1 — l'affirmation factuelle ancrée. « Notre équipe a livré quarante-trois projets similaires depuis 2019. » Vérifiable, daté, chiffré. Seul niveau où un acheteur peut tenir l'affirmation pour acquise. Une réponse à AO sérieuse en compte une vingtaine, pas davantage.

Niveau 2 — l'estimation calibrée. « Nous estimons le délai de mise en œuvre à douze semaines, sur la base de retours d'expérience consolidés sur configurations comparables. » L'estimation porte sa source. Le lecteur sait sur quoi elle repose. La marge d'erreur est implicite mais non niée.

Niveau 3 — la modalisation hypothétique. « Sous réserve de la disponibilité des interlocuteurs métier en phase de cadrage, le déploiement pourrait s'achever en huit semaines. » L'engagement est conditionnel, la condition est nommée. Registre des points où l'on prend position sans garantir.

Niveau 4 — l'aveu d'ignorance opérationnelle. « La compatibilité avec les configurations spécifiques évoquées au point 4.7.3 du CCTP nécessitera une instruction complémentaire en phase de cadrage. » On ne sait pas. On le dit. On nomme la modalité de résolution. Cet aveu fonctionne paradoxalement comme un puissant signal de séniorité, parce que seul celui qui maîtrise un sujet sait identifier précisément la zone qu'il ne maîtrise pas encore.

Un mémoire technique qui aplatit ces quatre niveaux à un seul — qu'il soit « nous garantissons » partout ou « nous serions en mesure de » partout — perd toute valeur informationnelle pour le lecteur expérimenté. Le système d'opérateurs s'effondre, et avec lui la lisibilité juridique du dossier.

Pourquoi les LLM sont structurellement sur-confiants

Trois mécanismes convergents expliquent pourquoi cette discipline ne survit pas dans une réponse générée par IA.

La distribution d'entraînement aplatit les opérateurs. Pendant le pré-entraînement, le modèle apprend la distribution conjointe des tokens dans un corpus massif. Or les phrases factuelles directes y sont massivement plus fréquentes que les phrases marquées épistémologiquement : « la capitale de la France est Paris » l'emporte de plusieurs ordres de grandeur sur « il est probable, à 99,9 %, que la capitale de la France soit Paris ». Le modèle apprend à produire la forme dominante. Quand on lui demande une affirmation incertaine, il produit la forme certaine — c'est la complétion la plus probable.

Le RLHF amplifie le biais. Ouyang et al. (NeurIPS 2022) ont posé l'architecture de référence du Reinforcement Learning from Human Feedback. Les annotateurs humains — recrutés en masse, payés à la tâche, peu experts du domaine évalué — préfèrent les réponses claires, complètes, assertives. Une réponse modalisée (« je ne suis pas sûr, mais je pense que… ») est massivement downvotée comme « évasive » ou « peu utile ». Le gradient d'entraînement pousse donc le modèle à augmenter la confiance apparente même quand le savoir effectif diminue. C'est, point par point, l'inverse de ce qu'un superprévisionniste apprend.

L'absence de signal interne de calibration exposé. Kadavath et al. (Anthropic 2022), dans « Language Models (Mostly) Know What They Know », ont publié une étude longtemps lue comme rassurante : les LLM peuvent, en interne, distinguer les questions où ils ont la bonne réponse de celles où ils l'inventent. La probabilité associée au token correct est plus élevée dans le premier cas. Mais cette distinction reste interne et non exposée. Le modèle ne sort pas la probabilité. Il sort la phrase, avec la même intonation d'autorité qu'il y ait 95 % ou 30 % de probabilité que la phrase soit exacte. Lin, Hilton et Evans (NeurIPS 2022), dans « Teaching Models to Express Their Uncertainty in Words », ont tenté de corriger en entraînant un modèle à produire explicitement des estimations de confiance verbales. Le résultat est nuancé : l'amélioration est mesurable, la calibration reste très inférieure à celle d'un analyste humain entraîné.

Conséquence en bid management. Un LLM à qui l'on demande de rédiger un mémoire technique produit, par défaut, un texte au niveau d'opérateur 1 partout — « nous garantissons », « notre solution répond intégralement », « notre approche permet de ». Là où l'humain préfixe d'opérateurs différents selon le degré de savoir, l'IA préfixe d'un opérateur unique selon le mode statistique du corpus. Un acheteur senior reconnaît immédiatement la signature : la sur-confiance permanente est l'un des marqueurs IA les plus nets, juste devant la saturation des tricolons et l'empilement des correctios.

La calibration comme marqueur de séniorité

Dans le conseil, la calibration épistémologique est l'un des marqueurs de séniorité les plus durs à imiter. Un consultant junior, confronté à un dossier difficile, écrit :

« Cette transformation présente des risques majeurs nécessitant une attention particulière. »

Le ton est uniforme, le verbe est plat, l'opérateur épistémique implicite est le constat (« il est le cas que »). Aucune source, aucune calibration, aucune délimitation. La phrase signe l'absence de méta-cognition.

Un senior partner, sur le même dossier, écrit :

« Sur la base de cinq missions comparables menées entre 2019 et 2024, nous estimons que cette transformation porte un risque opérationnel élevé sur les six premiers mois ; deux variables détermineront le succès — la qualité du pilotage métier et le niveau de préparation des données patrimoniales. »

La seconde phrase contient quatre opérateurs explicites — la source (cinq missions, période datée), l'estimation (nous estimons, pas nous savons), la délimitation temporelle (six premiers mois, pas à long terme), l'identification des inconnues structurantes (deux variables nommées). Le lecteur expérimenté en extrait davantage d'information utile que de la première, parce que chaque mot est calibré sur une réalité observable.

Cette discipline n'est pas optionnelle. Elle est la matière même du conseil senior — précisément ce que les LLM, à ce stade de leur architecture, ne reproduisent pas, par construction du gradient d'entraînement plutôt que par manque de données.

Trois pratiques opérationnelles en bid management assisté par IA

Identifier les zones d'opérateur obligatoire avant de générer. Un mémoire technique a typiquement six à dix passages où l'opérateur préfixé porte une charge juridique critique : engagements de délai, engagements de coût, références clients, certifications, compatibilités techniques, capacité de l'équipe, conformité réglementaire. Ces passages doivent être rédigés ou relus à la main. Le LLM peut produire le squelette du chapitre, jamais l'opérateur final de ces phrases-là.

Auditer la sur-confiance passage par passage. À chaque paragraphe produit par IA, poser la question : « quelle est la probabilité réelle que cette phrase soit exacte si elle est lue à la lettre par l'acheteur ? ». Probabilité inférieure à 90 % → l'opérateur doit être ajusté à la baisse. Inférieure à 60 % → la phrase doit être réécrite ou supprimée. Cet audit prend trois à cinq minutes par passage critique. Il n'est pas négociable.

Préparer l'instanciation pour la soutenance. Chaque opérateur de niveau 2 ou 3 posé dans le mémoire doit être préparé à être instancié si l'acheteur le pousse en clarification. « Nous estimons douze semaines » doit être adossé à une liste de cinq projets comparables avec leurs durées effectives. « Sous réserve de la disponibilité des interlocuteurs métier » doit pouvoir être traduit en « deux interviews hebdomadaires d'une heure chacune sur les six premières semaines ». La modalisation non instanciable est un piège tendu à soi-même, déguisé en figure de prudence.

Ce qui reste à l'auteur humain

Le marquage épistémologique est l'un des derniers terrains où la signature humaine reste structurellement plus fiable que la production machine. La taille de modèle n'y change rien. L'architecture transformer non plus. Le facteur déterminant tient à la vocation du gradient d'entraînement : le RLHF a été conçu pour produire des réponses utiles, claires, complètes. La calibration probabiliste, qui exige précisément de retenir l'engagement quand le savoir diminue, va frontalement contre cette vocation.

Pour un bid manager, un consultant, un négociateur, le marquage épistémologique constitue la condition de possibilité de l'engagement contractuel. Une réponse à appel d'offres est un acte juridique, pas une démonstration de capacité conversationnelle. Tant que les modèles seront optimisés pour la fluidité plutôt que pour la calibration, c'est à l'humain de poser l'opérateur final.

La machine peut rédiger les paragraphes explicatifs.

L'opérateur épistémique qui signe l'autorité contractuelle, il faut encore le poser soi-même.

Sources principales : Tetlock & Gardner, Superforecasting: The Art and Science of Prediction, Crown, 2015. Brier, « Verification of Forecasts Expressed in Terms of Probability », Monthly Weather Review, 1950. Kadavath et al., « Language Models (Mostly) Know What They Know », arXiv 2207.05221, Anthropic 2022. Lin, Hilton & Evans, « Teaching Models to Express Their Uncertainty in Words », NeurIPS 2022. Ouyang et al., « Training language models to follow instructions with human feedback », NeurIPS 2022. Wittgenstein, Tractatus Logico-Philosophicus, 1921. Russell, An Inquiry into Meaning and Truth, A. & U., 1940.

Le marquage épistémologique : la signature humaine que les LLM ne reproduisent pas

Le marquage épistémologique : la signature humaine que les LLM ne reproduisent pas

Tetlock et la révélation embarrassante de la CIA

Wittgenstein, Russell, et la distinction marqueur / opérateur

La métrique formelle : Brier score

Quatre niveaux d'opérateur en bid management

Pourquoi les LLM sont structurellement sur-confiants

La calibration comme marqueur de séniorité

Trois pratiques opérationnelles en bid management assisté par IA

Ce qui reste à l'auteur humain

Prêt à transformer votre réponse aux appels d'offres ?

Articles recommandés

La connaissance client — la clé à double tour de l'appel d'offres

Où en est le dossier — la question qui tue l'avant-vente

Un outil pour dix — pourquoi l'avant-vente croule sous les logiciels et comment en sortir