Thought Leadership·3 mai 2026·26 min de lecture

L'IA gratuite n'existe pas : économie de l'inférence et fenêtre d'opportunité

L'IA générative paraît bon marché parce que le capital-risque en finance la consommation depuis trois ans. Quand on regarde le coût réel d'un usage profond — un dossier d'appel d'offres traité avec un modèle premium et une boucle humaine sérieuse — l'arithmétique change. Un agent senior consomme entre 150 et 400 dollars de tokens par dossier, pas par mois. OpenAI a doublé son tarif API le 23 avril 2026 ; la subvention VC atteint son zénith. Cette colonne explicite le vrai coût d'inférence, démonte le dilemme du DSI entre Copilot bridé et premium auto-rationné, propose la seule architecture qui paie, et défend une thèse contre-intuitive : la fenêtre actuelle est, paradoxalement, la moins chère que l'on verra avant longtemps.

Par Aléaume Muller

CR

L'IA gratuite n'existe pas : économie de l'inférence et fenêtre d'opportunité

Une réunion budgétaire dans une direction commerciale française, début 2026. Le directeur financier pose la question simple : « combien nous coûte l'IA en avant-vente ? ». Le responsable IT calcule : « 30 € par utilisateur et par mois ; sur une avant-vente moyenne, l'équipe mobilise huit personnes pendant trois mois — soit 720 € par dossier. Sur un gros dossier qui mobilise quinze personnes pendant six mois, on monte à 2 700 €. » Le DAF note les chiffres. Le directeur des ventes acquiesce. Le ticket paraît raisonnable, presque vertueux : on a l'impression d'un véritable investissement, calibré sur la taille du dossier et la durée du cycle.

Le calcul est faux, et il l'est d'une manière intéressante. Pas parce que le ticket est trop cher. Parce qu'il ne pèse, sur le coût total d'une avant-vente sérieuse, qu'une fraction invisible — pour un bénéfice fonctionnel largement sous-optimisé. L'outil à 30 € ne traite pas les dossiers sérieux ; l'article précédent a tracé la mécanique du bridage économique qui le rend impuissant sur les longs corpus. L'outil qui les traite vraiment a un autre tarif, et ce tarif a été masqué pendant trois ans par le capital-risque qui inonde l'écosystème de l'IA générative. Quand le DAF demande « combien coûte l'IA », la réponse honnête est : « cela dépend si vous voulez l'illusion ou le travail. »

Cet article rend visible le coût réel d'un usage IA dimensionné pour le travail réel, le pose à côté du coût visible des forfaits grand public, et défend une thèse contre-intuitive : la fenêtre actuelle est la moins chère que l'on verra avant longtemps.

Le coût brut de l'inférence sérieuse

Les tarifs d'Anthropic sur Claude Opus 4.7, sortie en avril 2026, sont publics : 5 dollars par million de tokens en entrée, 25 dollars par million de tokens en sortie. C'est le tarif d'un modèle de classe SOTA — State Of The Art, c'est-à-dire la classe des modèles qui définissent en temps réel la frontière de ce que la machine sait faire en raisonnement, en analyse de longs corpus, en cohérence sur de longues chaînes d'inférence. La classe SOTA réunit aujourd'hui une poignée de modèles : Claude Opus 4.7 chez Anthropic, GPT-5.5 et GPT-5.5 Pro chez OpenAI, Gemini Pro chez Google, et un cercle restreint de challengers. C'est l'outillage du travail intellectuel sérieux, pas celui des chatbots grand public.

OpenAI a justement, le 23 avril 2026, sorti GPT-5.5 et doublé son tarif d'API par rapport à GPT-5 — l'entrée passe de 2,50 à 5 dollars par million de tokens, la sortie de 15 à 30 dollars. Google maintient Gemini Pro légèrement en dessous, mais la pente est identique. Aucun modèle de classe SOTA ne descend significativement, et pour la première fois depuis 2023, la pente a basculé : les tarifs montent.

Un dossier d'appel d'offres complet pèse, à la lecture, entre 200 000 et 400 000 tokens — CCTP, RC, BPU, DQE, DPGF, AE, règlement de la consultation, lots, annexes techniques, et le mémoire technique du concurrent précédent obtenu par voie publique. Cette ingestion brute représente entre un et deux dollars d'entrée. Mais lire un dossier n'est pas y répondre.

Une vraie réponse exige des opérations multiples : lire, analyser, cartographier les exigences, identifier les zones de divergence stratégique, simuler la formule de pondération, croiser les références concurrentielles, écrire un premier mémoire, le challenger, le réécrire. Chaque opération consomme des tokens en lecture du contexte précédent et en production de nouveau texte. Un agent qui orchestre proprement ces étapes ne fait pas une seule passe sur le DCE : il en fait dix à trente, chacune relisant tout ou partie du contexte précédent à chaque tour. Une première génération automatique d'un mémoire technique de cinquante pages, sans intervention humaine, consomme typiquement entre vingt et soixante dollars de tokens sur Opus 4.7.

C'est le coût plancher. Le coût réel est ailleurs.

Pourquoi un dossier coûte 400 dollars, pas 50

La première génération est rarement le dossier final. Dans une vraie chaîne de production, le bid manager intervient à plusieurs reprises sur un cycle de huit à douze semaines.

Il dialogue avec l'IA pour réorienter la stratégie après le premier passage. Il introduit progressivement des informations qui n'étaient pas disponibles initialement — la grille tarifaire interne, l'arbitrage RH sur l'équipe disponible, l'historique de la relation avec ce client. À chaque étape, le contexte de l'agent grossit, parfois jusqu'au million de tokens, et chaque tour conversationnel rejoue ce contexte au tarif d'entrée.

Le DCE évolue : l'acheteur publie une mise à jour, ajoute une annexe, recadre le périmètre. L'agent doit refaire une partie du travail. Les questions-réponses publiées entraînent une nouvelle révision. Le challenge humain-IA — « cette section ne tient pas, propose une alternative qui assume le risque sur le calendrier mais sécurise le périmètre » — déclenche cinq à dix tours de raffinement. Les relectures successives par le directeur commercial, le directeur juridique, le sponsor exécutif imposent autant de réécritures localisées. Les modifications de dernière minute, dans les vingt-quatre heures avant remise, sont parmi les plus coûteuses parce qu'elles s'opèrent sur l'intégralité du contexte mature.

Sur un dossier sérieux mené avec une boucle humaine sérieuse, la consommation totale de tokens se situe typiquement entre 150 et 400 dollars. Un dossier complexe — variantes, options, multi-lots, soutenance préparée avec simulation orale, agent qui maintient le contexte au-delà du million de tokens sur les dernières semaines — peut dépasser les 600 dollars par dossier, voire approcher les 1 000 dollars sur les très gros AO multi-lots avec soutenance.

Cette fourchette n'est pas un défaut d'optimisation. C'est la signature d'un dossier vraiment travaillé. Un dossier qui consomme trente dollars de tokens est un dossier que personne n'a challengé en profondeur.

Pourquoi aucun modèle long contexte n'est bon marché

L'objection vient toujours : « et l'open source ? ». Llama, DeepSeek, Mistral Large publient des modèles capables, sous licence ouverte. La promesse d'inférence à coût marginal nul reste inscrite dans le récit.

Elle ne tient pas à l'usage professionnel. Trois raisons.

L'inférence d'un modèle de classe Llama 405B ou DeepSeek-V3 sur un million de tokens en contexte exige plusieurs GPU H100 ou B200 alloués pendant la durée du traitement. Le coût horaire d'un cluster qui tient cette charge, opéré en interne par une DSI, dépasse rapidement le tarif d'API d'un modèle SOTA propriétaire — sans l'avantage de la qualité.

L'hébergement par tiers (Together AI, Fireworks, Groq, Anyscale) rend le déploiement plus accessible, mais le tarif refacturé converge mécaniquement vers le coût d'inférence des opérateurs propriétaires. Les écarts publiés dans les comparatifs ne tiennent pas à puissance comparable et long contexte effectif.

L'attention reste, dans la plupart des architectures, en complexité quadratique sur la longueur du contexte. Doubler la fenêtre quadruple le coût d'inférence. Les optimisations récentes — Flash Attention, Ring Attention, Sliding Window — réduisent les constantes mais ne changent pas la classe asymptotique pour des contextes de plusieurs centaines de milliers de tokens. La physique mémoire ne disparaît pas en migrant vers l'open source.

Conclusion sèche : il n'existe pas, en 2026, de raccourci économique vers le 1M-context performant. Quand un fournisseur propose un tarif qui défie le marché, la fenêtre effective est plus courte, le rappel des tokens médians s'effondre (cf. Lost in the Middle, Liu et al. NAACL 2024), ou la qualité de génération régresse. Ce qui paraît gratuit ne l'est jamais structurellement.

Le paradoxe Claude Max

Anthropic propose deux paliers de forfait d'usage individuel : Claude Max 5x à 100 dollars par mois, et Claude Max 20x à 200 dollars par mois, qui ouvrent respectivement cinq et vingt fois la capacité du forfait Pro standard. Le premier réflexe d'un acheteur grand public devant le tarif à 200 dollars est : « c'est très cher pour un outil personnel ». Le premier réflexe d'un utilisateur qui a fait l'expérience du tarif API est : « c'est l'offre la plus subventionnée du marché ».

Les deux réflexes sont vrais. Ils ne s'adressent pas à la même personne.

Sur un usage modéré — quelques conversations par semaine, dossiers occasionnels, code accessoire — le forfait à 200 dollars est dispendieux. ChatGPT Plus à 23 dollars ou Claude.ai standard à 20 dollars suffisent. Sur un usage profond — un bid manager qui orchestre deux dossiers complets par semaine, un consultant senior qui traite des audits de soixante documents, un développeur qui tient l'agent en boucle longue sur du code — la consommation observée chez les power users qui ont basculé sur Max correspond, à tarif API équivalent, à plusieurs milliers de dollars de tokens par mois.

Le forfait subventionne l'usage profond. Il n'est cher que pour qui s'en sert peu. C'est l'un des très rares produits où l'inverse de la perception spontanée tient — et où les recommandations entre pairs divergent radicalement selon la profondeur d'usage du recommandeur.

Ce paradoxe a néanmoins un revers — un rapport qualité-prix à double tranchant qui s'est manifesté en mars-avril 2026. Anthropic a discrètement resserré les limites de session sur ses utilisateurs Max pendant les heures de pointe : les sessions de cinq heures étaient consommées en quatre-vingt-dix minutes sur Max 5x, certains prompts faisaient sauter une jauge Max 20x de 21 % à 100 % en une seule passe. Confirmation officielle d'Anthropic dans la foulée — environ 7 % des utilisateurs heurtaient désormais des limites qu'ils ne heurtaient pas avant. La raison invoquée publiquement est restée vague. La raison structurelle est claire : la demande dépasse la capacité GPU disponible, et l'éditeur arbitre, sans le dire frontalement, en bridant les usages les plus intensifs pour préserver la qualité du service à grande échelle. Le forfait reste subventionné, mais la subvention devient conditionnelle.

Le même phénomène, plus visible encore, est apparu sur Claude Mythos, le modèle de frontière annoncé par Anthropic le 7 avril 2026 — un modèle de l'ordre de dix mille milliards de paramètres, entraîné sur les générations Blackwell de Nvidia. La diffusion est restée restreinte à une cinquantaine de partenaires triés (programme Project Glasswing), avec un tarif d'API de 25 dollars en entrée et 125 dollars en sortie par million de tokens — cinq fois le tarif d'Opus 4.7. La justification publique met en avant la sécurité ; les communications internes citées dans la presse spécialisée disent autre chose. Anthropic reconnaît ouvertement que Mythos est « very expensive for us to serve, and will be very expensive for our customers to use », et travaille à le rendre plus efficace avant toute diffusion plus large. La diffusion restreinte est, pour une part importante, une diffusion contrainte par le coût d'inférence et la capacité industrielle disponible, pas seulement une mesure de précaution.

Ces deux signaux convergent. Ils indiquent que le SOTA s'est rapproché, en 2026, de la limite de ce que l'écosystème industriel peut servir au tarif courant. Le forfait à 200 dollars, le tarif d'API d'Opus 4.7, le tarif doublé de GPT-5.5 — tous reflètent cette tension. Ils ne sont pas le point d'arrivée. Ils sont une étape vers le haut.

Le dilemme du DSI

Un acheteur DSI, en 2026, fait face à une grille à trois options.

Option A — restriction stricte. On déploie Microsoft Copilot, ChatGPT Enterprise ou Gemini for Workspace à 20-30 € par utilisateur. La gouvernance est simple, le ticket est connu, l'intégration au SI est facilitée. L'article précédent a documenté ce qui s'effondre : sur l'appel d'offres complet, sur le compte rendu de réunion longue, sur l'analyse documentaire transversale, ces outils basculent en architecture RAG bridée et produisent des livrables fluides mais structurellement insuffisants. Le retour terrain, à grande échelle, est uniformément « très très décevant » sur les dossiers à enjeu. La marge cachée — temps perdu à reprendre des sorties IA insuffisantes, dossiers ratés faute de profondeur, exposition juridique sur les comptes rendus faux par omission — est masquée par la simplicité du ticket visible.

Option B — premium avec auto-rationnement. On déploie un accès API à Anthropic, OpenAI ou Google, mais la gouvernance impose des modèles intermédiaires « pour la marge » : Sonnet, Gemini Flash, Grok, GPT-4.1 mini. Le tarif unitaire chute par cinq ou par dix. La capacité de raisonnement chute aussi, mais moins visiblement. Le résultat sur un dossier d'AO sérieux est un raisonnement compétent mais médian, qui rate les inflexions stratégiques que seul un modèle premium identifie. Cette option est en réalité plus dangereuse que l'option A. Avec Copilot, l'utilisateur se méfie — l'outil est public, la limite est connue, on relit avant de signer. Avec une API premium déployée et un modèle intermédiaire en arrière-plan, l'utilisateur a la sensation d'avoir accédé à une infrastructure sophistiquée, sa confiance dans la sortie augmente, sa vigilance critique baisse. Il signe des analyses qui paraissent solides parce qu'elles sont fluides, mais qui ratent précisément les zones où une vraie capacité de raisonnement aurait fait la différence. La déception finale est plus lourde, parce qu'elle s'accompagne d'erreurs validées en cours de route.

La même logique vaut pour l'autre forme d'auto-rationnement, plus discrète : l'usage massif de RAG sur tout le corpus. On indexe les documents, on injecte les fragments retrouvés à chaque question, on fait l'économie d'un long contexte premium. La sortie paraît informée, sourcée, structurée. Mais le RAG joue sur la proximité sémantique entre la question et des fragments — il ne joue ni sur la logique, ni sur le jugement, ni sur la mise en relation transversale. Sur un AO, la question stratégique typique — « quelles cohérences ce dossier exige-t-il sur le croisement entre formule de pondération, références demandées, et calendrier ? » — n'a aucune réponse dans aucun fragment isolé. Le RAG renvoie des paragraphes pertinents par mots-clés, le modèle compose une réponse cohérente sur cette base, et l'utilisateur reçoit un livrable qui semble réfléchi mais qui n'a pas vu le dossier dans son intégralité. C'est la même illusion que l'option A, déguisée derrière une infrastructure plus chère.

Option C — la seule qui paie. Un modèle premium (Opus, GPT-5.5 plein, Gemini Pro plein) sur les actes à fort enjeu — analyse stratégique du DCE, recadrage du dossier, production des sections critiques, simulation de soutenance. Des modèles support optimisés (Sonnet, Gemini Flash, Grok) sur les actes à enjeu moyen — extraction des exigences, premier squelette de chapitre, vérification orthographique. Un contrôle architectural rigoureux — qui décide quel acte va sur quel modèle, et qui mesure la consommation. Un contrôle cognitif rigoureux — un cadrage humain en amont, des opérateurs épistémiques posés à la main, une revue critique des sorties. Et un change management exigeant côté utilisateurs.

Cette option implique un saut d'outillage que peu d'organisations ont aujourd'hui franchi : passer du chatbot à un véritable mode agentique. Un agent qui interagit directement sur les documents — qui les ouvre, les lit, les compare, exécute des ordres d'écriture et d'exploration, structure ses propres étapes, conserve la trace de ses raisonnements. Pas un assistant à qui l'on copie-colle des extraits dans une fenêtre de chat, mais un système qui opère sur le corpus en autonomie, sous contrôle humain. La technologie est mûre, la transition est techniquement facile en 2026 — mais trop peu de directions commerciales et de DSI sont positionnées sur cet outillage. C'est précisément ce gap qui fait le levier compétitif des deux prochaines années.

Le coût visible de l'option C est plus élevé que celui de l'option A. Le coût total de possession est nettement plus bas. Même un dossier qui consomme 1 000 dollars d'API sur ses semaines de production reste une fraction du coût total : c'est l'équivalent d'un à deux jours de prestation consultant senior, sur une avant-vente dont le budget total — temps de bid manager, expertise technique, support commercial, soutenance — se compte en dizaines voire en centaines de milliers d'euros dans une ESN sérieuse. La question n'est pas de savoir si l'IA premium coûte cher dans l'absolu. Elle est de savoir si le surcoût d'inférence rachète plusieurs jours-homme et améliore la qualité du livrable. Sur un AO à fort enjeu, la réponse est mécaniquement oui.

C'est pourtant un calcul que les directions financières françaises ont du mal à faire, parce qu'il oppose une dépense visible mensuelle à une création de valeur diffuse — taux de transformation, marges sur dossiers gagnés, vitesse de cycle.

Le change management est la moitié de l'investissement

Donner Opus à des utilisateurs sans formation revient à donner un piano de concert à un débutant. Le coût de l'instrument paraît absurde face au son produit. La réponse n'est pas de redescendre l'instrument, c'est de former le pianiste.

La discipline cognitive à transmettre est précise.

Exprimer clairement l'intention. Un utilisateur qui prompte « fais-moi un mémoire technique » gaspille la capacité du modèle. Le cadrage explicite — « le client est une administration, le périmètre est limité au lot 2, la stratégie de différenciation est celle de la sécurisation du calendrier, le ton attendu est rassurant sur le risque opérationnel et offensif sur l'engagement de qualité » — redistribue la distribution de complétion du modèle vers la zone utile. C'est l'opération humaine la plus rentable de la chaîne. Une heure passée à reformuler le cadre vaut, en effet de levier, dix heures de prompting itératif sur un cadre standard.

Fournir le contexte exact, ni plus ni moins. Un utilisateur qui balance tout le DCE dans la fenêtre sans hiérarchie noie le modèle. Un utilisateur qui ne fournit que le CCTP rate les références internes pertinentes. Le bon dosage est une discipline qui s'apprend. Elle se mesure : si la sortie ne tient pas, le contexte fourni était soit trop pauvre, soit trop plat.

Minimiser les interactions par cycles structurés. Un dialogue à vingt tours mal structurés coûte plus cher et produit moins qu'un dialogue à cinq tours avec des points de contrôle clairs. La méthode efficace alterne génération longue, revue humaine ciblée, instruction de correction calibrée, regénération encadrée. Elle ne se découvre pas seule. Elle se transmet.

Poser les opérateurs critiques à la main. Les passages à charge contractuelle ou stratégique — engagements de délai, formule tarifaire, clauses de réversibilité, références qualifiantes — sont rédigés ou relus à la main. Les tarifs et les engagements ne sont jamais laissés au modèle.

Sur les premiers mois, certains utilisateurs vont exploser le budget initial de 200 à 300 dollars supplémentaires par mois et par personne, parfois davantage. C'est la courbe d'apprentissage, et elle est normale. Le retour sur investissement se mesure en taux de transformation d'AO, et en montée en compétence du collaborateur qui va progressivement optimiser ses interactions — exprimer le cadre plus juste, fournir le contexte plus dense, structurer le dialogue plus court — avant que l'inférence IA ne cesse d'être bon marché. La direction qui sanctionne la sur-consommation pendant la phase d'apprentissage tue la transformation qu'elle a payée pour engager.

TenderGraph TITAN : le système agentique qui optimise l'inférence pour vous

Une organisation qui pose le problème honnêtement arrive vite à la même conclusion : laisser ses collaborateurs « se débrouiller » avec l'agentique sans système, sans méthode, sans cadre, c'est garantir l'un des deux pires scénarios. Soit l'adoption échoue parce que la complexité d'usage décourage — l'utilisateur reprend Word et son ancienne méthode après trois tentatives ratées. Soit l'adoption réussit mal — l'utilisateur consomme massivement des tokens premium pour des résultats médians, parce qu'il n'a ni le cadrage, ni la séquence d'inférences, ni la discipline cognitive qu'un usage performant exige. Dans les deux cas, l'organisation paie sans récolter.

C'est précisément ce gap que TenderGraph adresse avec TITAN. TITAN est un système agentique cognitif conçu pour la production d'avant-ventes : il opère directement sur les documents du DCE, exécute la chaîne d'inférence dans le bon ordre, pose les bonnes questions aux bons moments, applique les bonnes logiques d'analyse — formule de pondération, croisement BPU/DQE, lecture du cadre implicite du CCTP, identification des zones de divergence stratégique. Le bénéfice est double. Côté temps, l'agent automatise les étapes mécaniques que le bid manager ne devrait pas refaire à la main. Côté coût d'inférence, l'agent optimise drastiquement la consommation de tokens — chaîne d'inférence pré-structurée, pas de friction humaine génératrice de tours conversationnels redondants, cadrage mieux posé en amont, ce qui réduit les regénérations en aval. Sur un dossier sérieux, un système agentique cognitif bien conçu consomme typiquement entre 30 % et 60 % de moins qu'une boucle humaine non outillée pour un livrable équivalent ou meilleur.

TenderGraph propose également des formations dédiées pour aider les bid managers, les directeurs commerciaux et les sponsors exécutifs à optimiser le rapport qualité-coût de leur interaction IA — méthode de cadrage, économie du contexte, structure de dialogue, posture de revue critique. C'est l'autre moitié de la transformation : un outil agentique sans utilisateurs formés sous-performe ; des utilisateurs formés sans outil agentique surconsomment. Les deux ensemble redressent l'arithmétique.

Pourquoi maintenant est la fenêtre la moins chère

Trois lignes de pression haussière convergent sur les douze à vingt-quatre prochains mois.

La subvention du capital-risque a atteint son zénith. Les levées du seul premier trimestre 2026 — OpenAI 122 milliards de dollars, Anthropic 30 milliards, xAI 20 milliards — sont historiques. Cumulativement, OpenAI dépasse les 110 milliards de dollars de capitaux engagés (Stargate inclus), Anthropic atteint près de 64 milliards depuis 2021, xAI 42 milliards depuis 2023. Ces levées ont été nécessaires précisément parce que les bilans publiés montrent un décollage du chiffre d'affaires plus rapide que la baisse des coûts unitaires : le delta entre revenu et coût d'inférence a été couvert par le capital. Les fonds acceptent encore en avril 2026 des valorisations à plusieurs dizaines de fois le revenu, mais la discipline financière revient — et la trajectoire des prix le reflète déjà. OpenAI a doublé son tarif d'API en passant de GPT-5 à GPT-5.5 le 23 avril 2026. La subvention au token n'est plus une promesse durable.

Les modèles plus capables sont plus chers — et la pente est désormais documentée. Le passage GPT-5 → GPT-5.5 chez OpenAI illustre la mécanique : tarif d'entrée multiplié par deux, tarif de sortie multiplié par deux, lancement d'une variante GPT-5.5 Pro à 30 dollars d'entrée et 180 dollars de sortie par million de tokens. Anthropic a procédé différemment — la nomenclature « Opus 4.5 / 4.6 / 4.7 » maintient un prix de catalogue stable à 5 / 25, mais le nouveau tokenizer d'Opus 4.7 inflate la consommation effective jusqu'à 35 % sur les mêmes textes, ce qui revient à une hausse silencieuse. Google maintient Gemini Pro légèrement en dessous, mais le gradient est identique. Le SOTA monte ; le tarif effectif du SOTA monte ; le tarif des modèles d'entrée descend, mais ces modèles ne traitent pas les dossiers sérieux. Les écarts entre classes vont s'élargir, pas se réduire.

La capacité industrielle est contrainte sur quatre dimensions à la fois — et aucune ne se résout avec de l'argent à court terme.

La production de puces. TSMC est l'unique fondeur capable de produire à l'échelle les générations Blackwell de Nvidia, AMD MI400, et les puces propriétaires de Google (TPU v7), d'Amazon (Trainium 3) et de Meta. La capacité de gravure 3 nm et 2 nm est saturée pour 2026 et largement réservée pour 2027. Aucun acteur, même Microsoft ou Google, ne peut accélérer la cadence de gravure : les usines fonctionnent déjà à plein régime, et la construction d'une nouvelle fab TSMC à Phoenix ou Kumamoto demande de quatre à six ans. La file d'attente pour acheter du H200 ou du Blackwell se compte en mois, et les hyperscalers consomment l'essentiel des allocations.

Le coût et la disponibilité de l'énergie. L'inférence à grande échelle est devenue, en 2025-2026, l'un des postes de consommation électrique en plus forte croissance dans les pays industrialisés. Les opérateurs de data centers paient désormais leur électricité à des tarifs qui ont doublé sur deux ans en Virginie du Nord, en Irlande, à Singapour. La facture énergétique devient une fraction significative du coût d'inférence — et elle augmente à chaque vague de mise en service de cluster GPU haute densité.

Le temps physique de construction. Tout l'argent du monde ne produit pas un data center instantanément. Acquérir le foncier, obtenir les permis, négocier le raccordement avec l'opérateur réseau, construire le bâtiment, installer la haute tension, refroidir les baies, valider la sécurité — chaque étape prend de douze à trente-six mois, sans compter les recours administratifs. Les data centers en construction aujourd'hui ont été lancés en 2023-2024 ; ceux qui couvriront la demande de 2027-2028 doivent être lancés maintenant. Aucun raccourci financier n'efface ce délai physique.

Le raccordement au réseau électrique. Les data centers de classe IA exigent des raccordements en haute tension de plusieurs centaines de mégawatts. Les opérateurs réseau aux États-Unis, en Irlande, en Île-de-France, en Allemagne signalent des files d'attente qui ajoutent dix-huit à trente-six mois aux projets, parfois davantage. Le réseau électrique n'a pas été dimensionné pour cette demande, et son renforcement suit ses propres délais industriels et politiques. Microsoft, Google et Amazon sécurisent des contrats nucléaires sur dix ans précisément parce que la disponibilité électrique pilotée devient le facteur limitant — pas le calcul, l'électron.

L'addition est sans appel : l'offre est déjà à son plafond pour plusieurs mois, voire plusieurs années en raison des contrats déjà signés et des chaînes industrielles déjà engagées. Pendant ce temps, la demande explose — adoption entreprise qui décolle, agentique qui multiplie le volume de tokens consommés par utilisateur actif, contextes longs qui multiplient le coût par requête, modèles plus capables qui exigent plus de calcul. La répercussion en prix d'inférence est mécanique : quand la demande croît plusieurs fois plus vite que l'offre, et que l'offre ne peut pas accélérer à court terme, les tarifs ne peuvent que monter.

Conséquence : le coût d'usage profond de l'IA va monter avant de baisser à nouveau. Les modèles vont continuer à devenir plus intelligents, mais à un tarif plus élevé. Les méthodologies — les manières de prompter, de structurer le dialogue, de poser le cadre, de calibrer les opérateurs — sont, elles, des actifs durables. Une organisation qui investit en 2026 dans la discipline cognitive de ses bid managers récoltera, en 2027 et 2028, les bénéfices sur des modèles plus capables. Une organisation qui attend que « cela coûte moins cher » attendra longtemps, et arrivera sur un marché où ses concurrents auront une avance méthodologique de deux ans.

L'argument économique standard — « attendre que la technologie mûrisse » — repose, sur l'IA générative, sur une lecture inversée des courbes. Les outils sont déjà mûrs. C'est le tarif qui ne le sera plus.

Conséquence opérationnelle

Pour un directeur commercial, un DSI, un sponsor exécutif, la grille de décision tient en trois lignes.

Le coût visible le plus bas — Copilot, ChatGPT Plus — est le coût réel le plus haut, parce qu'il finance des dossiers structurellement insuffisants et qu'il fragilise la confiance dans l'outil. C'est l'option qui produit la phrase « on a essayé l'IA, ce n'est pas convaincant » alors qu'on n'a essayé qu'un produit bridé sur des cas hors champ.

Le coût visible intermédiaire — premium auto-rationné sur Sonnet, Grok, Gemini Flash — est l'option de la sophistication apparente sans la performance. Elle déçoit pareil, plus cher.

Le coût visible le plus élevé — Opus sur les actes critiques, modèles support sur le reste, contrôle architectural et change management sérieux — est le seul qui paie. Il exige d'accepter qu'un dossier d'AO traité à fond consomme entre 150 et 400 dollars de tokens, et qu'un utilisateur en phase d'apprentissage va dépasser le budget de 200 à 300 dollars par mois. Il exige aussi de mesurer le retour à la bonne maille : taux de transformation, marges sur dossiers gagnés, vitesse de cycle, qualité de soutenance.

Pas de solution miracle

Tous les signaux convergent vers la même conclusion. Il n'y a pas de raccourci. Pour bénéficier réellement de l'IA générative en avant-vente, deux conditions tiennent simultanément : être prêt à payer l'inférence à son juste prix, et engager la transformation maintenant en formant les utilisateurs à mieux l'employer. Aucune des deux ne suffit seule. Et la seconde implique en réalité la première : on n'apprend pas à conduire une Formule 1 sur une citadine, fût-elle dernier cri. Une équipe formée sur Copilot continuera à raisonner Copilot — fenêtre courte, RAG sémantique, livrables fluides et structurellement insuffisants — quoi qu'on lui enseigne par-dessus.

Être prêt à payer, en pratique, prend deux formes. L'idéal est un abonnement entreprise auprès d'un éditeur SOTA, dans les conditions les plus optimales — accès au modèle premium sans rationnement caché, contexte long disponible, agentique pleine — et l'on regarde le prix le moins possible. Cette option est offerte aujourd'hui aux entreprises sérieuses et reste accessible — précisément parce que la fenêtre est subventionnée. L'alternative, pour les organisations qui veulent garder le contrôle granulaire, est de payer le volume transitant par API au tarif fort, en assumant la dépense pour s'assurer la prédominance technique sur les concurrents qui hésitent encore.

Pour les très grandes entreprises, un troisième levier stratégique commence à émerger : posséder leurs propres centres de données, leurs propres puces, et maîtriser leur consommation, leurs modèles, et leurs données. C'est la voie que Microsoft, Google, Amazon prennent à grande échelle pour leurs propres usages, et qui devient progressivement accessible aux grands comptes industriels et financiers à mesure que les modèles open source comme DeepSeek V4 atteignent une qualité comparable au SOTA propriétaire — au prix d'un investissement en infrastructure et en compétences internes considérable. Ce positionnement stratégique fait l'objet de l'article suivant, qui examine ce que l'open source change réellement, ce qu'il ne change pas, et la grille à trois niveaux qui en découle pour les directions IT.

Quel que soit le levier choisi, le message tient en une ligne : la machine peut traiter le dossier. À l'humain de décider quel coût il accepte de voir, et lequel il préfère continuer à payer caché — en marges perdues, en dossiers ratés, en réponses fluides qui ne fondent rien, et en deux ans de retard accumulés sur les concurrents qui auront engagé la transformation pendant que la fenêtre était encore subventionnée.


Sources principales : Anthropic, « Claude Opus 4.7 pricing and API documentation », platform.claude.com et anthropic.com, avril 2026. OpenAI, « GPT-5.5 pricing and release notes », openai.com et platform.openai.com, 23 avril 2026. Anthropic, « Max plan », claude.com/pricing/max, 2026. Anthropic, « Claude Mythos Preview / Project Glasswing », red.anthropic.com, 7 avril 2026. PCWorld, « Anthropic confirms it's been adjusting Claude usage limits », mars 2026. The Register, « Anthropic admits Claude Code quotas running out too fast », 31 mars 2026. InfoWorld, « Anthropic throttles Claude subscriptions to meet capacity », 2026. MacRumors, « Claude Code Users Report Rapid Rate Limit Drain », 26 mars 2026. Issue GitHub anthropics/claude-code #41788, mars 2026. Xaltius Academy, « The 10-Trillion Parameter Problem: Why Anthropic Locked Away Claude Mythos », 2026. Google, « Gemini API pricing », ai.google.dev, 2026. Crunchbase, « Foundational AI Startup Funding Q1 2026 », news.crunchbase.com, avril 2026. PitchBook / SiliconANGLE, « US venture funding surges to record $267B as OpenAI, Anthropic and xAI dominate AI deals », avril 2026. Liu et al., « Lost in the Middle: How Language Models Use Long Contexts », NAACL 2024. Hoffmann et al., « Training Compute-Optimal Large Language Models » (Chinchilla scaling laws), NeurIPS 2022. Dao et al., « FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness », NeurIPS 2022. Liu et al., « Ring Attention with Blockwise Transformers for Near-Infinite Context », arXiv 2310.01889, 2023. Stanford HAI, « AI Index Report 2025 », chap. 4 (Economy). Finout, « Claude Opus 4.7 Pricing — The Real Cost Story Behind the Unchanged Price Tag » (analyse tokenizer Opus 4.7), avril 2026.

Tags

#IA#LLM#économie de l'IA#inférence#tokens#bid management#Claude#Opus#ROI IA

Prochaine étape

Prêt à transformer votre réponse aux appels d'offres ?

À lire aussi

Articles recommandés