Citation
L'auteur
Olivier Mamavi
(omamavi@gmail.com) - Paris School of Business - ORCID : https://orcid.org/0000-0002-6421-1048
Copyright
Déclaration d'intérêts
Financements
Aperçu
Contenu
La scène est devenue banale : une entreprise annonce des dizaines de POC, déploie un assistant conversationnel « officiel », et voit ses usages internes exploser, sans qu’un directeur financier puisse relier cet enthousiasme à un impact sur le résultat.
Le rapport NANDA (2025) du MIT pousse le trait pour nommer ce fossé. Malgré 30 à 40 milliards de dollars d’investissements en IA générative, 95 % des organisations n’obtiendraient aucun retour mesurable, et seuls 5 % des pilotes intégrés obtiendraient un retour sur investissement (ROI). Le rapport revendique une base empirique solide (revue de plus de 300 initiatives publiques, entretiens avec 52 organisations, enquête auprès de 153 dirigeants), mais rappelle aussi des limites (données en partie auto‑rapportées, définitions variables du « succès », etc.).
Dans le même temps, la « vague agentique » promet d’aller plus loin que le simple chatbot : déléguer une succession d’actions, orchestrer des outils, et s’évaluer pour corriger sa trajectoire. La note du Conseil de l’IA et du Numérique (2026) insiste sur un point décisif : l’IA agentique n’est pas un modèle, mais une architecture dont le déploiement implique une transformation en profondeur des processus et des responsabilités. Elle souligne aussi que la baisse rapide des coûts d’inférence (par jeton) alimente la diffusion des usages.
En fait, l’échec de l’IA en entreprise est principalement organisationnel et économique, plus que technologique. La performance des modèles est nécessaire, mais la valeur dépend de cinq tensions à résoudre :
- adoption vs transformation,
- exploration vs exploitation,
- performance locale vs valeur globale,
- capacité technique vs capacité organisationnelle,
- mesure classique vs valeur réelle.
Le paradoxe de performance
Pourquoi les entreprises adoptent‑elles l’IA sans se transformer ? Parce que l’IA est souvent évaluée au mauvais niveau.
Le premier révélateur est l’horizon temporel. L’étude du METR (2025) observe que sur les tâches informatiques, les agents IA réussissent presque toujours des tâches de quelques minutes, mais tombent à moins de 10 % de succès sur des tâches qui prendraient à un humain plus de 4 heures. Cette étude mesure la durée d’une tâche (équivalente au temps d’un expert humain) qu’un agent peut réussir avec un niveau de fiabilité donné (50 % ou 80 %). Elle précise que ce n’est pas le temps que l’IA met à produire une sortie, mais un indicateur de difficulté lié à la longueur d’un enchaînement d’actions.
Or, le travail en entreprise est précisément complexe : dépendant du contexte, des exceptions, et de critères de réussite non algorithmisables. L’étude insiste sur l’écart entre ses tâches (auto‑contenues, bien spécifiées, scorables) et le travail économique réel (contexte préalable, connaissance tacite, interactions humaines). L’entreprise demande donc à l’IA d’être fiable exactement là où l’horizon, l’ambiguïté et la responsabilité s’accumulent.
Le deuxième révélateur est l’écart entre adoption et transformation. Le rapport NANDA indique que des outils génériques sont largement explorés voire déployés, mais qu’ils améliorent surtout la productivité individuelle plutôt que la performance globale. À l’inverse, les systèmes spécifiques intégrés aux workflows subissent une attrition massive entre évaluation, pilote et production. Ce qui est le signe d’une adoption sans transformation.
Le troisième révélateur est que l’IA agentique déplace le problème vers l’orchestration. En effet, la note du Conseil (2026) rappelle que le cœur économique et technique du déploiement agentique est l’orchestration : séquencer des actions, appeler des micro‑services, intégrer des bases de données, gérer l’évaluation et les corrections. C’est précisément le lieu où l’organisation bute : dès qu’un agent touche au SI, il touche aussi à la conformité, à la sécurité, et aux responsabilités.
Réussir l’industrialisation de l’IA en entreprise
Pourquoi les POC se multiplient mais passent rarement à l’échelle ? Parce que le passage à l’échelle n’est pas un problème d’IA, mais un problème d’apprentissage, de coordination et de responsabilité.
Le cadre de James G. March (1991) sur l’exploration et l’exploitation aide à comprendre l’écart POC→production : l’exploration valorise la vitesse, la démonstration et l’apprentissage local ; l’exploitation exige fiabilité, standardisation, support, et amélioration continue. La littérature sur l’apprentissage organisationnel insiste d’ailleurs sur le fait que l’apprentissage est routinisé, dépendant de l’histoire et orienté par des objectifs : un pilote « intéressant » ne vaut rien tant qu’il n’est pas converti en routines stables (Levitt & March, 1988).
Le rapport NANDA (2025) propose un diagnostic opératoire : le « learning gap ». Les déploiements qui échouent sont ceux où l’outil ne retient pas les feedbacks, ne s’adapte pas au contexte et ne s’améliore pas, ce qui le rend inutilisable dans les workflows critiques. Le rapport note d’ailleurs que les utilisateurs invoquent souvent la « qualité » comme frein, mais que cette qualité se dégrade surtout faute de contexte, de mémoire et d’adaptation au workflow. Le même rapport décrit une « shadow AI economy » : les salariés contournent l’organisation en utilisant des outils personnels plus flexibles, ce qui crée des gains locaux mais fragilise la gouvernance.
La note sur l’IA agentique éclaire le moteur technique de cette difficulté. En enchaînant des opérations, les erreurs se composent (« effets de cascade ») ; en augmentant le nombre d’agents, l’imprévisibilité augmente (« complexité systémique ») ; et sans cadre commun, l’ensemble peut dériver (« dérive de l’orchestration », « désalignement sémantique »). Même si la technologie progresse, le passage à l’échelle exige donc des mécanismes continus de test, de monitoring et de reprise. Plus profondément, l’organisation standard (processus figés, SI conçus pour le déterminisme, responsabilités segmentées) n’est pas construite pour coopérer avec des systèmes probabilistes qui « raisonnent » et agissent : il faut donc créer une capacité organisationnelle dédiée à la collaboration homme-machine.
À cela s’ajoute un verrou économique : les coûts de transaction. En effet, Williamson (1985) rappelle qu’organiser une transaction a un coût (spécification, contrôle, responsabilité). Industrialiser une IA, c’est créer des transactions supplémentaires : droits d’accès aux données, validations, traçabilité, supervision, gestion des incidents.
Enfin, l’industrialisation échoue souvent par manque de complémentarités. Milgrom et Roberts (1990) montrent que les gains forts d’une technologie proviennent de changements complémentaires (structure, incitations, processus, systèmes) : isoler un outil sans retoucher le reste produit des effets limités.
Repenser la valeur et la mesure
Pourquoi l’IA augmente la performance sans augmenter le ROI ? Parce que les KPI dominants mesurent l’activité (utilisation, volumes) plutôt que la valeur (coût complet, risque, apprentissage).
Le rapport NANDA observe un biais d’allocation budgétaire vers les fonctions où l’attribution est simple (souvent sales/marketing), tandis que des gains parfois plus rentables (back‑office, réduction de dépenses externes) restent sous‑investis car plus difficiles à relier à un indicateur « board‑friendly ».
Ce décalage renvoie à un phénomène classique du paradoxe de productivité popularisé par la citation de l’économiste américain Robert Solow (1987) :
Vous pouvez voir l’ère informatique partout, sauf dans les statistiques de la productivité.
Brynjolfsson (1993) propose des explications encore pertinentes pour l’IA, dont les délais d’apprentissage et le management des complémentarités technologie‑organisation.
Trois pivots de mesure aident à rendre la valeur pilotable.
Mesurer la fiabilité par horizon de tâche. La métrique d’horizon temporel de METR fournit un langage simple : « sur quelles durées de tâches, avec quel niveau de supervision, l’agent est‑il fiable ? ». En entreprise, cela revient à instrumenter des unités end‑to‑end (un ticket client, un dossier KYC, une clôture) et à mesurer la part automatisable sans explosion des reprises.
Mesurer la valeur globale, pas l’effet local. Une minute économisée n’est une création de valeur que si elle se convertit en réduction de coût, accélération de cycle, amélioration de qualité ou baisse de risque. NANDA indique que les effets financiers les plus tangibles observés chez des organisations « avancées » viennent souvent de réductions de dépenses externes (BPO, agences), plus que de coupes d’effectifs internes.
Mesurer l’apprentissage. Si le « learning gap » est le verrou, le KPI clé devient la capacité à ne pas refaire deux fois la même erreur : temps de correction d’un prompt, révision d’une base de connaissances, mise à jour d’un agent, réduction d’incidents récurrents.
Les facteurs clés de succès
La littérature scientifique converge : la valeur vient de systèmes intégrés et apprenants, pas d’un modèle isolé.
Levier un : partir d’un processus, pas d’un outil. Choisir une unité de travail avec forte répétition, critères de succès observables, coûts compressibles, horizon découpable en sous‑tâches courtes. La note française décrit d’ailleurs cinq degrés d’autonomie, et rappelle que l’autonomie bout‑en‑bout (sans supervision) n’est pas atteinte aujourd’hui : une stratégie graduelle est donc rationnelle. Le rapport NANDA cite, parmi les zones où les déploiements semblent plus fréquents, des cas d’usage comme la synthèse/routage d’appels, l’automatisation documentaire (contrats, formulaires) ou la génération de processus relativement mesurables et découpables.
Levier deux : concevoir dans un cadre socio‑technique. La théorie des systèmes socio‑techniques insiste sur l’interdépendance entre sous‑système social (rôles, coordination, compétences) et sous‑système technique (outils, procédures). Pour l’IA, cela impose de redessiner : qui valide, qui arbitre une exception, qui porte la responsabilité, et comment le « travail réel » (informel) est pris en compte.
Levier trois : construire des capacités et des routines. Une capacité dynamique, au sens de David et Winter (1997), est une faculté répétable de détecter, intégrer et reconfigurer (Khatri & Brown, 2010). Concrètement : équipe produit IA transverse (métier, data, IT, juridique), rituel d’évaluation, versioning des prompts/agents, et procédures de reprise (runbooks).
Levier quatre : gouverner les données, pas seulement les stocker. La gouvernance des données consiste à attribuer des droits de décision et des responsabilités sur des domaines comme l’accès, la qualité, les métadonnées et le cycle de vie, afin d’augmenter la valeur du data asset tout en réduisant coûts et risques. NANDA met en avant la demande de frontières de données claires et d’intégration au workflow existant. La note française rappelle l’importance de la traçabilité et de la supervision dès que l’on touche à des usages sensibles.
Levier cinq : contracter sur l’apprentissage, pas sur la promesse. NANDA observe de meilleurs résultats via des partenariats externes que via des builds internes, tout en rappelant la limite de causalité. La bonne pratique est de formaliser un contrat de co‑évolution : objectifs métier, mécanismes de feedback, obligations de réversibilité, clauses de sécurité.
Conclusion
L’entreprise ne manque pas d’IA ; elle manque d’organisation pour l’IA. Les constats du rapport NANDA, la description des architectures agentiques et les mesures METR convergent : la capacité technique progresse vite, mais la valeur se débloque quand l’on transforme la coordination, l’apprentissage et la mesure.
La question stratégique n’est donc pas « quel modèle choisir ? », mais « quelle part de nos processus pouvons‑nous rendre apprenante, traçable et gouvernable à coût de transaction acceptable ? ». Les organisations qui traiteront cette question comme un problème de design organisationnel, et non comme un achat de technologie, seront celles qui transformeront une performance technique en avantage économique durable.
Bibliographie
Abraham, R., Schneider, J., & vom Brocke, J. (2019). Data Governance: A conceptual framework, structured review, and research agenda. International Journal of Information Management, 49, 424–438.
Brynjolfsson, E. (1993). The Productivity Paradox of Information Technology. Communications of the ACM, 36(12), 66–77. DOI: 10.1145/163298.163309.
Conseil de l’IA et du Numérique (2026). Les intelligences artificielles à l’heure de la vague agentique : de quoi parle-t-on ? Note, février 2026.
Emery, F. E., & Trist, E. L. (1960). Socio-Technical Systems. In Management Sciences, Models and Techniques (référence historique, synthèse).
Khatri, V., & Brown, C. V. (2010). Designing Data Governance. Communications of the ACM, 53(1), 148–152. DOI: 10.1145/1629175.1629210.
Levitt, B., & March, J. G. (1988). Organizational Learning. Annual Review of Sociology, 14, 319–340. DOI: 10.1146/annurev.so.14.080188.001535.
March, J. G. (1991). Exploration and Exploitation in Organizational Learning. Organization Science, 2(1), 71–87. DOI: 10.1287/orsc.2.1.71.
METR (2025). Measuring AI Ability to Complete Long Tasks.
METR (2026). Task-Completion Time Horizons of Frontier AI Models. (page mise à jour périodiquement, dernière mise à jour : 6 fév. 2026).
Milgrom, P., & Roberts, J. (1990). The Economics of Modern Manufacturing: Technology, Strategy, and Organization. American Economic Review, 80(3), 511–528.
Milgrom, P., & Roberts, J. (1995). Complementarities and Fit: Strategy, Structure, and Organizational Change in Manufacturing. Journal of Accounting and Economics, 19(2–3), 179–208. DOI: 10.1016/0165-4101(94)00382-F.
MIT NANDA (2025). The GenAI Divide: State of AI in Business 2025. Preliminary findings (Jan–Jun 2025).
Teece, D. J., Pisano, G., & Shuen, A. (1997). Dynamic Capabilities and Strategic Management. Strategic Management Journal, 18(7), 509–533. DOI: 10.1002/(SICI)1097-0266(199708)18:7<509::AID-SMJ882>3.0.CO;2-Z.
Williamson, O. E. (1985). The Economic Institutions of Capitalism: Firms, Markets, Relational Contracting. New York: Free Press.
Winter, S. G. (2003). Understanding Dynamic Capabilities. Strategic Management Journal, 24(10), 991–995. DOI: 10.1002/smj.318.
il ne peut pas avoir d'altmétriques.)