Thought Leadership·2 mai 2026·13 min de lecture

L'illusion Copilot : pourquoi les IA grand public tiennent sur dix lignes et s'effondrent sur cent pages

Microsoft Copilot, ChatGPT, Gemini reposent en réalité sur des modèles à long contexte (128 k+ tokens). Mais les éditeurs les brident volontairement dans leurs interfaces grand public — la limite n'est pas technique, elle est économique. La gratuité apparente est subventionnée par le capital-risque, et les outils disponibles sont cognitivement décevants dans la majorité des cas où l'on aurait besoin de profondeur, parce qu'on a refusé d'en assumer le prix. Conséquence : appel d'offres, réunions longues sensibles, analyse documentaire transversale échappent au champ d'usage légitime des chatbots grand public.

Par Aléaume Muller

IC

L'illusion Copilot : pourquoi les IA grand public tiennent sur dix lignes et s'effondrent sur cent pages

Une scène vécue dans les grands comptes en 2025-2026. Un directeur commercial montre, en réunion d'équipe, la dernière démo de Microsoft Copilot. Une réunion Teams de trente minutes vient de se terminer. Trois clics, un prompt : « Résume cette réunion avec les actions à entreprendre. » Quinze secondes plus tard, un compte rendu propre apparaît, structuré, avec les noms des intervenants et les engagements pris. La salle est convaincue. « Cet outil va changer la façon dont nous travaillons. »

Quelques semaines plus tard, le même outil est lancé sur un objet d'une autre nature. Une réunion de quatre heures du COMEX, vingt participants, où s'est jouée — sans qu'aucun mot frontal ne le dise — la trajectoire de la cession d'une filiale. Le compte rendu Copilot est livré. Il est propre, structuré, avec les noms des intervenants et les engagements pris.

Il a manqué l'essentiel.

La tension entre le directeur financier et le directeur des opérations, qui a structuré toutes les inflexions sur les sujets de cession depuis dix-huit mois, n'apparaît nulle part. La directrice juridique a concédé sur le calendrier, en compensation d'une victoire obtenue trois semaines plus tôt sur le périmètre — concession invisible dans le compte rendu. La phrase apparemment anodine du président — « nous allons devoir penser ce dossier autrement » — qui pour les initiés signe l'enterrement de la stratégie défendue depuis six mois par le directeur stratégique, est restituée comme un encouragement à la créativité.

Le compte rendu produit expose juridiquement l'entreprise. Il est faux par omission, et la signature d'un président qui le valide en croyant valider la réalité de sa propre réunion est un acte que peu de juristes recommanderaient.

C'est l'écart entre une IA dimensionnée pour le mail et une IA dimensionnée pour le dossier.

Le bridage économique des outils grand public

Microsoft Copilot, ChatGPT, Gemini, et l'essentiel des chatbots grand public reposent en réalité sur des modèles à long contexte. Les versions sous-jacentes — GPT, Claude, Gemini — disposent de fenêtres de 128 000 tokens au minimum, parfois 1 million. C'est déjà très correct.

Mais l'utilisateur final n'a pas accès à cette capacité. Les éditeurs brident volontairement les modèles dans leurs interfaces grand public. Le moteur peut techniquement traiter 200 000 tokens en entrée et 64 000 en sortie ; le produit Copilot ne livre de quoi traiter qu'environ 30 000 tokens en entrée et 4 000 en sortie. Cet écart est purement économique.

L'arithmétique est simple. Une licence Copilot à 30 dollars par utilisateur et par mois ne couvre pas le coût d'inférence d'un usage intensif sur un long contexte. Si Microsoft laissait Copilot ingérer le verbatim brut d'une réunion de quatre heures et produire un compte rendu de cinquante pages, le coût d'inférence dépasserait largement le revenu mensuel de la licence. Le bridage protège la marge du produit.

Cette logique mérite d'être explicitée, parce qu'elle est massivement ignorée. Le grand public a aujourd'hui le sentiment que l'IA générative est gratuite ou presque. Cette gratuité apparente est en partie réelle — les coûts d'inférence ont fortement chuté en deux ans — et en partie subventionnée par le capital-risque, qui brûle des dizaines de milliards par an pour pousser l'adoption avant la rentabilité. Dès que l'utilisateur intensifie l'usage — long contexte, raisonnement étendu, multimodalité, agentique — les coûts réels réapparaissent. Les éditeurs ont alors deux options : facturer au juste niveau, ou brider le produit pour que l'usage ne dépasse pas le forfait. Pour le grand public, c'est presque toujours la seconde. Résultat : les outils disponibles sont cognitivement décevants dans la majorité des cas où l'on aurait besoin de profondeur, parce qu'on a refusé d'en assumer le prix.

Le bridage prend, en pratique, la forme d'une architecture en deux temps : le RAG, ou Retrieval-Augmented Generation. Le terme, formalisé par Lewis et al. (NeurIPS 2020), désigne un montage où l'on n'envoie pas le document complet au modèle. Quand l'utilisateur pose une question, un moteur de recherche extrait d'abord quelques fragments pertinents, et le modèle de langage ne génère sa réponse qu'à partir de ces fragments. Le RAG divise le coût d'inférence par vingt ou par cent. Pour une question dont la réponse tient dans un seul paragraphe — « quelle est la date d'échéance du contrat ? », « qui est responsable du lot 3 ? » — il fonctionne bien. La réponse est correcte, rapide, peu coûteuse.

Le RAG repose pourtant sur une hypothèse cachée : que la réponse à toute question utile se trouve dans un nombre restreint de fragments contigus. L'hypothèse tient pour les questions factuelles ponctuelles. Elle s'effondre dès qu'une question demande une mise en relation transversale.

Trois failles structurelles

La perte des relations inter-documents. Une réponse à appel d'offres complexe agrège typiquement un CCTP, un RC, un BPU, un DQE, une DPGF, un AE, un règlement de la consultation, deux ou trois lots, douze annexes techniques, et le mémoire technique du concurrent précédent obtenu par voie publique. Une question stratégique typique du bid manager — « quels sont les points où la formule de pondération du jugement avantage structurellement le titulaire sortant ? » — n'a pas de réponse dans un seul fragment. La réponse vient du croisement entre la formule du RC, les volumes du DQE, les références exigées dans le CCTP, et les valeurs du marché précédent. Le RAG, qui retrouve des paragraphes par similarité sémantique avec la question, n'a aucun moyen d'opérer ce croisement. Il sélectionne quelques paragraphes contenant le mot « pondération », et passe à côté de l'analyse.

La perte de la méta-cognition. Un modèle qui voit cinq fragments retrouvés par un moteur de recherche ne peut pas savoir ce qu'il ne voit pas. Il ignore qu'il existe, ailleurs dans le corpus, un paragraphe qui contredit ou nuance ceux qu'il a sous les yeux. Il répond avec confiance sur la base partielle dont il dispose. Son intonation d'autorité, héritée du RLHF, masque l'incomplétude. Sur une question fermée, c'est sans conséquence. Sur une question ouverte qui exige une vue d'ensemble, c'est désastreux : la réponse est à la fois fluide et insuffisante.

La perte des dynamiques du texte long. Une réunion de quatre heures n'est pas une réunion d'une demi-heure faite plus longue. Elle a des phases distinctes — exposition, débat, négociation tacite, consensus apparent, retournement, clôture politique — qui ne se révèlent qu'à la lecture de l'ensemble. Le retour d'un participant sur un point évoqué deux heures plus tôt donne à ce point une intensité qui n'est lisible qu'avec la séquence complète. Un RAG qui retrouve, à la demande, « les engagements pris », présente une liste plate. Il dépouille la réunion de sa politique — au sens où une réunion COMEX est, fondamentalement, un acte politique avant d'être un acte délibératif.

Ce qui marche sur petit, ce qui casse sur grand

L'illusion vient d'une erreur de généralisation. La performance des outils grand public sur les petites tâches est réelle : rédiger un mail de deux paragraphes, résumer une note de cinq pages, reformuler un brief de trois cents mots, brainstormer sur une question fermée. Sur ces objets, la fenêtre de contexte est largement suffisante, le RAG est inutile (le document tient en une seule passe), et le modèle peut allouer toute sa capacité d'inférence à la qualité de la production.

Le piège est que cette performance, vécue quotidiennement, fonde une conviction implicite : « cet outil maîtrise le langage écrit, donc il maîtrisera mes sujets sérieux. » C'est l'erreur. L'outil ne maîtrise le langage écrit que sur des objets de la taille de sa fenêtre. Dès que l'objet dépasse cette taille, l'architecture bascule en mode RAG. Et l'outil perd la capacité d'exploration, de mise en relation, de méta-cognition qu'il n'a jamais vraiment eue, mais qu'il simulait correctement sur les petits formats.

Trois zones professionnelles concentrent ce basculement.

La réponse à appel d'offres. Un dossier complet pèse entre trois cents et mille cinq cents pages. La question stratégique est rarement factuelle. Elle ressemble à « quel est le cadre que ce client adopte sans le savoir, et où sont mes leviers de différenciation ? ». Le RAG ne sait pas y répondre. Aucun fragment ne la contient ; la réponse émerge du croisement.

Les comptes rendus de réunions longues et sensibles. COMEX, comités de direction, négociations commerciales prolongées, soutenances orales de plusieurs heures. Tous ceux qui ont essayé connaissent le seuil : au-delà de trente minutes de transcription, Copilot ne sait plus produire un compte rendu détaillé. Une synthèse rapide reste possible. Un compte rendu fin, qui trace les engagements et permet à chacun de préparer la prochaine échéance, ne l'est plus.

La cause technique est précise, et elle est mal connue : la contrainte dominante tient à la fenêtre de sortie, plus qu'à la fenêtre d'entrée. Même si Copilot avalait le verbatim de quatre heures, il ne pourrait écrire qu'un compte rendu de quelques milliers de tokens — quelques pages au maximum. Il est obligé de compresser, et à ce taux, l'opérationnel disparaît. Le résultat est court par construction. Il convient au dirigeant qui survole le sujet et veut comprendre d'un coup d'œil. Il ne suffit pas à qui doit creuser, ni à qui doit décider sur la base de ce compte rendu.

S'ajoute le point déjà nommé : la substance d'une longue réunion n'est pas dans les phrases prononcées, elle est dans les enchaînements, les retournements, les silences. Un RAG ne voit pas ce qui n'est pas verbalisé. Et une fenêtre de sortie courte ne pourrait pas restituer ce qu'un RAG aurait, par chance, repéré.

L'analyse documentaire transversale. Audit de portefeuille, analyse concurrentielle sur trente documents publics, due diligence d'acquisition, évaluation de risque sur un corpus contractuel. La valeur ajoutée naît du cross-reading. Un RAG qui retrouve cinq fragments par requête peut produire un résumé apparent, jamais une analyse réelle.

L'autre architecture : long contexte et exploration

L'architecture alternative existe, et elle est accessible — à condition d'accepter le coût réel de l'inférence à long contexte, plutôt que de chercher la marge dans le bridage. Anthropic a ouvert la voie en 2023 avec une fenêtre de cent mille tokens sur Claude 2, étendue à deux cent mille en 2024 sur Claude 3, puis au million de tokens sur les versions Opus de la série 4. Cette extension n'est pas seulement quantitative. Elle est architecturale : avec un million de tokens, un dossier d'appel d'offres complet, un verbatim de quatre heures de réunion, un portefeuille de trente documents concurrentiels passent en une seule passe. Pas de RAG. Pas de sélection préalable. Pas de fragment retrouvé. Le modèle voit l'ensemble simultanément, et peut opérer les mises en relation que l'architecture courte ne permet pas.

La différence est mesurable. Le benchmark « Needle in a Haystack » propose un test simple : on insère une information précise dans un long corpus, et l'on demande au modèle de la retrouver. Les modèles à long contexte ancré (Claude Opus, Gemini Pro, GPT) atteignent des taux de récupération supérieurs à 95 % sur des contextes de plusieurs centaines de milliers de tokens. Les architectures RAG, sur le même test, dépendent entièrement de la qualité du retrieval — si l'aiguille n'a pas le bon vocabulaire, elle n'est pas retrouvée.

Le travail de Liu et al. (NAACL 2024), « Lost in the Middle: How Language Models Use Long Contexts », a documenté une nuance : même sur des modèles techniquement à long contexte, l'attention décline sur les portions médianes du document. La performance reste structurellement supérieure à un RAG, mais la calibration du long contexte n'est pas uniforme. Raison supplémentaire de combiner long contexte et protocoles d'exploration explicite. C'est ce que font les architectures agentiques de plus en plus utilisées en bid management professionnel : l'agent identifie en amont les zones du corpus qui méritent une lecture renforcée, plutôt que de laisser l'attention se diluer sur l'ensemble.

Le test pratique pour distinguer

Un test simple permet de distinguer un outil dimensionné pour le travail réel d'un outil dimensionné pour la démo : poser à l'outil une question dont la réponse n'est dans aucun document pris isolément, mais émerge de la mise en relation de trois documents au minimum.

Sur une réponse à appel d'offres : « compte tenu du calendrier imposé au RC, des effectifs minimaux exigés au CCTP, et des références demandées en annexe 4, quels candidats étaient structurellement éligibles avant publication ? ». Aucun document ne contient la réponse. Elle émerge du croisement.

Sur un compte rendu de COMEX : « quelles positions exprimées dans cette réunion contredisent celles que les mêmes participants ont défendues dans les deux réunions précédentes ? ». La réponse exige de tenir simultanément trois corpus de plusieurs heures.

Sur un audit concurrentiel : « sur les trente documents publics analysés, quels concurrents présentent une trajectoire commerciale qui signale un repositionnement stratégique non encore annoncé ? ». La réponse est dans les écarts entre documents, pas dans aucun document particulier.

Si l'outil produit une réponse fluide qui ne pourrait pas tenir devant un audit, parce qu'aucun document ne la fonde, c'est un outil de RAG en train d'halluciner. Si l'outil dit honnêtement « je n'ai pas vu cette information » alors qu'elle est dans le corpus complet, c'est un outil dont la fenêtre est trop petite. Si l'outil produit une réponse étayée sur la mise en relation explicite de trois documents identifiés, c'est un outil dimensionné pour le travail réel.

Conséquence opérationnelle

La leçon, pour un dirigeant, un bid manager, un directeur juridique, un responsable stratégie, est précise : il faut séparer le bon outil du bon usage.

Microsoft Copilot, ChatGPT, Gemini, Claude.ai dans son interface chat sont des outils excellents pour les tâches dont l'objet tient dans la fenêtre courte que leur éditeur a choisi de servir : mail, note interne, synthèse rapide, brainstorming, première version d'un document court. Sur ces tâches, leur performance est réelle, leur productivité est mesurable, leur usage est légitime.

Sur les tâches dont l'objet dépasse la fenêtre — appel d'offres complet, réunion longue sensible, analyse documentaire transversale, due diligence, mémoire de soutenance complexe — ces outils basculent en mode RAG. Ils perdent la capacité d'exploration et de méta-cognition qui justifierait précisément qu'on les y emploie. Sur ces tâches, l'illusion de performance est plus dangereuse que l'absence d'outil, parce qu'elle produit des livrables fluides, structurés, autoritaires, et structurellement insuffisants.

L'erreur de catégorie n'est pas neutre. Elle expose juridiquement. Elle fait gaspiller des semaines à reprendre des dossiers IA-générés. Et plus profondément, elle fragilise la confiance dans l'IA appliquée au métier réel : on fait payer aux échecs de la fenêtre courte une réputation que les architectures à long contexte sont en train de mériter.

Le bon outil pour la bonne tâche. Et, en bid management comme en pilotage stratégique, le bon outil pour les vrais dossiers est dimensionné en millions de tokens, pas en chats de quelques dizaines de pages.


Sources principales : Lewis et al., « Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks », NeurIPS 2020. Liu et al., « Lost in the Middle: How Language Models Use Long Contexts », NAACL 2024. Karpukhin et al., « Dense Passage Retrieval for Open-Domain Question Answering », EMNLP 2020. Anthropic, « Introducing 100K Context Windows » (mai 2023), « Claude 3 family » (mars 2024), « Claude Opus 4 with 1M context » (2025). Bai et al., « LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding », arXiv 2308.14508, 2023. Greg Kamradt, « Needle in a Haystack: pressure testing LLMs », 2023.

Tags

#IA#LLM#Copilot#RAG#long contexte#bid management#économie de l'IA

Prochaine étape

Prêt à transformer votre réponse aux appels d'offres ?

À lire aussi

Articles recommandés