Citation
L'auteur
Gilles Paché
(gilles.pache@univ-amu.fr) - Aix-Marseille Université
Copyright
Déclaration d'intérêts
Financements
Aperçu
Contenu
Fin 2023, Mary B. James, professeure d’histoire contemporaine dans une université américaine de la Ivy League et auteure de plus de 150 articles académiques, reçut le courriel d’une revue prestigieuse auquel elle avait soumis deux mois auparavant son dernier article. Rigoureusement documenté, s’appuyant sur un énorme travail d’analyse d’archives déclassifiées relatives à la crise des missiles de Cuba (1962), et écrit du début à la fin par la professeure, cet article était soupçonné par le rédacteur en chef d’être « probablement généré par une IA générative à hauteur de 65 % », en s’appuyant pour cela sur un logiciel de détection acheté à prix d’or par l’éditeur. Mary B. James, n’ayant jamais utilisé ChatGPT, ni aucun outil similaire, fixa son écran d’ordinateur avec incrédulité. L’accusait-on implicitement de malhonnêteté académique… pour avoir trop bien argumenté et écrit, dans son style inimitable connu de toute la communauté des historiens ? Le rédacteur en chef, tout aussi déconcerté, et connaissant la probité légendaire de Mary B. James, lui suggéra de « réécrire certaines sections de l’article pour qu’elles soient plus imparfaites » (sic). Furieuse, mais déterminée, elle reformula plusieurs passages, ajouta six notes de bas de page totalement inutiles et, au comble de l’exaspération, inséra une quinzaine de coquilles et fautes syntaxiques dans son texte. L’article révisé passa avec succès le test d’usage potentiel d’une IA générative, et il fut accepté fin 2024 pour publication ‒ sous réserve de modifications mineures… de forme ! ‒ après les retours enthousiastes de trois évaluateurs anonymes.
Le cas réel de Mary B. James, dont l’identité et le sujet de recherche sont modifiés pour des raisons de confidentialité, est loin d’être isolé, et il paraît plus que probable que de nombreux collègues en sciences sociales, notamment en management, se retrouvent ‒ ou vont se retrouver ‒ dans une situation comparable, et ô combien déstabilisante. Alors que les meilleures revues internationales s’efforcent de lutter contre les soumissions générées par l’IA générative depuis trois ans, condamnant même le fait que ChatGPT soit identifié comme co-auteur (Moussavou, 2023), elles se tournent dans la précipitation vers des outils automatisés de détection dont la fiabilité n’est aucunement prouvée, avec des conséquences potentiellement désastreuses sur la diffusion de la connaissance. L’erreur sans doute la plus absurde des outils conçus pour identifier les empreintes linguistiques de l’IA générative est d’assimiler une écriture de haute qualité à un texte généré par une machine. Bienvenue dans un voyage en absurdie où une recherche universitaire argumentée, parfaitement structurée et au style élégant, suscite la suspicion, et où des chercheurs prolifiques, très présents sur Internet grâce à la science ouverte, sont les plus exposés aux fausses accusations. Une ère du soupçon délétère, aurait écrit Sarraute (1987 [1956]), dans laquelle dominent méfiance et interrogation sur la probité de l’Autre. En l’absence de réaction, les « chiens de garde » que sont les outils automatisés de détection de l’IA générative pourraient remodeler très vite l’édition scientifique d’une manière qui punit l’expertise et transforme le monde universitaire en une bureaucratie où « trop bien » argumenter devient presque un délit punissable.
Erreur 404 : Écriture humaine non trouvée
Les outils de détection de l’IA générative sont désormais largement adoptés dans les institutions universitaires pour garantir l’intégrité des écrits, notamment de leurs étudiants (Ardito, 2025). Pas à pas, ils infusent l’univers de la publication scientifique, avec des résultats plus ou moins probants (plutôt moins que plus, semble-t-il). En effet, les outils de détection de l’IA générative conduisent souvent à de fausses accusations à l’encontre de chercheurs ayant totalement respecté les règles éthiques de la production scientifique (dans la suite de l’article, le terme de chercheur est utilisé de manière générique, quel que soit le genre de la personne). Le principal problème réside dans la méthodologie employée pour différencier les écrits humains des textes générés par une IA générative. Des modèles statistiques sont utilisés pour analyser des schémas linguistiques et ils signalent à partir de là des textes ou des portions de textes ressemblant trop à ceux produits par une machine (Shah et al., 2023). Or, les chercheurs s’efforcent de produire des écrits rigoureux, suivant une trame narrative devenue le plus souvent le « standard » d’une discipline, et d’ailleurs parfois imposée par des revues (en management, le fameux quadriptyque « revue de la littérature, méthodologie, résultats, discussion »), ce qui se rapproche des caractéristiques observées dans les contenus produits par des algorithmes. La tâche des outils de détection s’en trouve complexifiée car les écrits humains ne diffèrent pas toujours suffisamment des textes générés par l’IA générative, entraînant des erreurs d’identification.
Un autre défaut majeur des outils de détection de l’IA générative réside dans leur dépendance à des ensembles de données biaisées puisque les corpus de référence sont constitués de textes écrits tant par des IA génératives que par des humains. Or, si les échantillons d’écrits humains utilisés lors du processus d’analyse sont de qualité médiocre, les outils de détection de l’IA générative auront du mal à reconnaître des écrits humains de qualité supérieure (Gallegos et al., 2024). Une telle situation conduit à une réelle absurdité selon laquelle des articles académiques parfaitement organisés, clairs et exempts d’erreurs syntaxiques, peuvent être à tort identifiés comme générés par une IA générative, simplement parce qu’ils surpassent la qualité des écrits humains utilisés par la machine. En bref, c’est le serpent qui se mord la queue puisque les outils actuels sont incapables de distinguer avec précision, et une totale fiabilité, des écrits humains de haute qualité et des textes générés par une IA générative. Ainsi, des chercheurs reconnus, ayant pris soin de rédiger des travaux rigoureux pendant des décennies, peuvent se retrouver accusés à tort d’avoir recours à une machine, alors que leur production en cours est simplement le fruit de compétences cognitives et rédactionnelles ayant atteint leur apogée. Nous reviendrons sur ce point essentiel par la suite.
Enfin, les outils de détection de l’IA générative se fondent sur des hypothèses rigides quant aux caractéristiques que possèdent des textes générés par une machine, notamment en ce qui concerne leur uniformité, la structure des phrases et l’organisation de l’argumentation, conduisant Bender et al. (2020) à parler des fameux « perroquets stochastiques ». Ces hypothèses donnent lieu à des erreurs de jugement, particulièrement pour des styles d’écriture plutôt « techniques », comme ceux que l’on trouve en sciences dures, en ingénierie, en droit, voire en management. Les publications y respectent des conventions strictes en matière d’argumentation, de structure et de formulation, selon une rhétorique ritualisée indique Gross (1990), ce qui peut rendre les textes uniformes aux yeux des algorithmes, et de fait, augmente la probabilité de faux positifs, où des articles respectant en fait les « figures imposées » d’une discipline sont illégitimement attribués à une machine. Circonstance aggravante : dans un contexte de lutte contre le plagiat et l’auto-plagiat, avec des situations parfois inextricables à gérer (Bergadaà, 2015), des revues académiques prises de panique procèdent à une adoption précipitée des outils de détection de l’IA générative sans validation approfondie par les pairs ni évaluation de leur précision. En conséquence, des chercheurs honnêtes peuvent se retrouver dans la position inconfortable de devoir défendre leur intégrité contre des algorithmes défaillants, sans véritable recours juridique, en subissant des retards préjudiciables dans la publication de leurs travaux.
Des chercheurs coupables d’excellence
En bref, on l’aura compris, les outils de détection de l’IA générative posent un problème majeur pour les chercheurs de nombreuses disciplines en signalant comme suspects des textes hyper-structurés, grammaticalement irréprochables et très cohérents sur le plan logique. Un tel paradoxe met évidemment lesdits chercheurs dans une situation délicate par rapport aux attendus de l’exercice académique, mais aussi par rapport à leurs pairs : on attend d’eux qu’ils produisent des travaux clairs, convaincants et rigoureux, mais cette exigence augmente le risque de fausses accusations d’utilisation d’une machine, même si la virtuosité en matière d’usage de prompts reste tentante pour un usage circonstancié, par exemple dans l’identification de la littérature pertinente (Frimousse & Besseyre des Horts, 2023). Force est d’admettre qu’il s’agit là d’un dilemme quasiment insoluble : les algorithmes se fondent par nature sur le postulat implicite que l’écriture humaine doit être imparfaite, maladroite, voire incohérente, pour être jugée finalement « authentique ». Une écriture fluide, qui constitue pourtant un point de passage obligé depuis des décennies pour espérer convaincre des évaluateurs de revues (Kerr et al., 1977), puis des collègues et doctorants de la discipline, est perçue à l’opposé comme trop machiniquement parfaite.
En cherchant des schémas syntaxiques récurrents dans les textes, les algorithmes omettent de prendre en compte la diversité des styles d’écriture d’un chercheur à l’autre, de même que la complexité plus ou moins forte des idées exprimées dans les travaux scientifiques. Ainsi, ils risquent de mal interpréter la qualité et la singularité d’une production académique, réduisant progressivement l’intensité du processus créatif. En effet, les chercheurs, en particulier les plus expérimentés, développent au fil des années des styles d’écriture distincts et aisément identifiables, aboutissant à une standardisation dans la narration, parfois à leurs corps défendant. Cela est particulièrement problématique pour les chercheurs francophones publiant en anglais de manière stéréotypée (choix de phrases très courtes, éradication de tout style « fleuri », suppression des subtilités du type « il semble que… », « il se pourrait que… », etc.). Leurs travaux prennent une forme standardisée, telle qu’exigée par les revues anglo-saxonnes du mainstream classées A et A+ (c’est moins le cas des revues du courant critical studies), ce qui accroît significativement le risque de suspicion de l’usage d’une machine. Les chercheurs prolifiques, en développant un style personnel article après article, sont ainsi sans doute les plus vulnérables aux faux positifs (Germain, 2024). Les outils de détection de l’IA générative renforcent dès lors les clichés productivistes négatifs à l’encontre des chercheurs fortement publiant, pénalisant injustement ceux qui ont passé des décennies à perfectionner leur art.
Piégés par l’empreinte numérique
L’une des limites majeures des outils de détection par l’IA générative de la provenance humaine d’un article est finalement l’incapacité à identifier correctement des chercheurs en fonction de leurs propres publications antérieures, autrement dit en fonction de leur empreinte numérique mesurée par une article-level metrics (Gasparyan et al., 2021). Ces outils s’appuient de fait sur de vastes ensembles de données, incluant des millions d’articles académiques publiés jusqu’à aujourd’hui. Plus un chercheur a publié, notamment en science ouverte, plus ses travaux sont susceptibles d’être intégrés à ces ensembles, créant une situation paradoxale : lorsqu’un article récent dudit chercheur est analysé, l’outil repère un grand nombre de similitudes avec ses propres textes… considérés comme produits par une IA générative car faisant partie d’un « corpus universel ». Or, une telle situation découle non pas d’une utilisation frauduleuse de l’IA générative par le chercheur, mais parce que l’IA générative a appris comme un perroquet stochastique de ses publications précédentes, de la même façon qu’elle apprend à reconnaître un chat après le visionnage de millions d’images de chats sans connaître les paramètres définissant cet animal (Patino, 2020 [2019]). Dit autrement, un chercheur peut être suspecté de recourir à l’IA générative dans la production d’un texte original… tout simplement parce que l’IA générative « butine » ses précédents articles dans le corpus universel sans savoir qu’il en est l’auteur ! On le comprend, une telle situation soulève d’importants questionnements éthiques sur la manière dont les données sont utilisées par des algorithmes ne mesurant que des similitudes syntaxiques, sans identifier la véritable paternité des travaux.
À bien y réfléchir, les conséquences sont désastreuses pour l’édition académique, et plus largement, pour la production de nouvelles connaissances. Si rien n’est entrepris pour résoudre un tel biais, des chercheurs pourraient être réticents à publier leurs travaux, notamment en science ouverte, de peur que leur empreinte numérique soit utilisée ultérieurement contre eux par certains rédacteurs en chef de revues renommées, déjà à cran sur l’auto-plagiat en référence à la très sensible intégrité intellectuelle (Fernandes, 2024). Plus problématique encore, il est possible que certains évitent à l’avenir de développer un style d’écriture singulier, redoutant qu’une trop grande cohérence dans leurs publications ne suscite des soupçons de recours à une machine. Cette tendance va à l’encontre des valeurs fondamentales du progrès scientifique, où l’ouverture, la rigueur intellectuelle et la transparence doivent être encouragées plutôt que pénalisées. À long terme, il apparaît clairement qu’une dépendance excessive aux outils de détection de l’IA générative risque de fausser profondément l’évaluation des travaux académiques, en mettant l’accent sur des critères superficiels de nature syntaxique, et non sur la qualité intrinsèque de la recherche. Si les revues persistent à fonder leurs décisions de desk reject sur de tels systèmes défaillants, elles risquent sans aucun doute de saper les principes fondamentaux qu’elles sont censées défendre, en pénalisant injustement les chercheurs les plus productifs.
Conclusion
Il n’est pas trop fort d’écrire que le monde académique risque de rapidement se retrouver au cœur d’un espace dystopique où la recherche de clarté et de précision, caractéristiques clé de l’excellence scientifique, met en péril la réputation de milliers de chercheurs à travers le monde. Imaginons un instant un avenir où, pour échapper au regard inquisiteur des outils de détection de l’IA générative, ils saboteraient délibérément leur propre travail. Pour éviter d’être catalogués comme des individus sans éthique, ces mêmes chercheurs n’hésiteraient plus à insérer volontairement des phrases bancales, des erreurs grammaticales et de nombreuses coquilles dans leurs soumissions, à l’instar de Mary B. James, voire à obscurcir délibérément leurs idées pour brouiller les pistes. Conçues pour apaiser la colère des Dieux, autrement dit des algorithmes défaillants mais tout-puissants, ces pratiques s’inscriraient alors dans une norme totalitaire à la 1984 qui ne dénoterait dans l’univers d’Orwell (2020 [1949]). Loin d’améliorer la qualité du discours universitaire, une telle dystopie possèderait, il faut l’admettre, un pouvoir paralysant inouï, obligeant les chercheurs à altérer leur production intellectuelle pour passer l’examen de logiciels de détection d’IA générative trop zélés, et récompensant de fait, d’une certaine manière, la médiocrité au détriment de la créativité et de l’innovation scientifique.
Qu’une telle logique perverse s’étende dans les prochaines années fait évidemment frémir, en particulier dans les sciences sociales, où les arguments nuancés et les idées complexes sont souvent exprimés dans une prose à la fois structurée et élégante. Si les chercheurs sont contraints de renoncer à la clarté par crainte d’être accusés d’utiliser une IA générative, la communication universitaire finira par régresser dans un labyrinthe de langage torturé et d’arguments mal agencés pour « singer » une présence humaine. Au lieu de favoriser l’éclosion d’un environnement intellectuel plus rigoureux et transparent, le monde académique risque alors de sombrer dans un cycle autodestructeur avec des chercheurs punis d’avoir trop bien effectué leur travail. La quête du savoir serait étouffée, remplacée par un environnement où règne le conformisme, par la faute d’une technologie défectueuse. Scénario catastrophe inéluctable ? L’auteur du présent avis d’expert, rédigé d’une traite sur son ordinateur deux journées pluvieuses d’hiver, avec un style personnel que l’on retrouve dans plusieurs centaines de ses articles et communications, a eu la curiosité de le soumettre à un logiciel de détection d’IA générative dont on taira le nom. L’honneur est sauf puisque la suspicion d’écriture par une machine s’élève à 0 %. Finalement, tout n’est peut-être pas perdu…
Bibliographie
Ardito, C.-G. (2025). Generative AI detection in higher education assessments. New Directions for Teaching & Learning, à paraître. https://doi.org/10.1002/tl.20624
Bender, E., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2020). On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, & Transparency. New York [online], 610‒623. https://doi.org/10.1145/3442188.3445922
Bergadaà, M. (2015). Le plagiat académique : Comprendre pour agir. Paris : L’Harmattan.
Fernandes, C.-G. (2024). Éthique et intégrité dans la production scientifique : Une analyse approfondie de l’auto-plagiat. Éthique & Santé, 21(2), 157‒163. https://doi.org/10.1016/j.etiqe.2023.10.001
Frimousse, S., & Besseyre des Horts, C.-H. (2023). L’art du prompt : Une compétence à maîtriser pour les futurs chercheurs en sciences de gestion. Management & Data Science, 7(3), Article 24326. https://doi.org/10.36863/mds.a.24326
Gallegos, I., Rossi, R., Barrow, J., Tanjim, M.-M., Kim, S., Dernoncourt, F., Yu, T., Zhang, R., and Ahmed, N. (2024). Bias and fairness in large language models: A survey. Computational Linguistics, 50(3):1097–1179. https://doi.org/10.1162/coli_a_00524
Gasparyan, A.-Y., Yessirkepov, M., Voronov, A., Maksaev, A., & Kitas, G. (2021). Article-level metrics. Journal of Korean Medical Science, 36(11), Article e74. https://doi.org/10.3346/jkms.2021.36.e74
Germain, T. (2024). AI detectors get it wrong: Writers are being fired anyway. Gizmodo, June 12. https://gizmodo.com/ai-detectors-inaccurate-freelance-writers-fired-1851529820
Gross, A. (1990). The rhetoric of science. Cambridge (MA): Harvard University Press.
Kerr, S., Tolliver, J., & Petree, D. (1977). Manuscript characteristics which influence acceptance for management and social science journals. Academy of Management Journal, 20(1), 132‒141. https://doi.org/10.5465/255467
Moussavou, J. (2023). ChatGPT dans la rédaction scientifique : Des perspectives prometteuses, des préoccupations légitimes. Management & Data Science, Article 23913. https://doi.org/10.36863/mds.a.23913
Orwell, G. (2020 [1949]). 1984. Paris : Folio.
Patino, B. (2020 [2019]). La civilisation du poisson rouge : Petit traité sur le marché de l’attention. Paris : Le Livre de Poche.
Sarraute, N. (1987 [1956]). L’ère du soupçon. Paris : Folio.
Shah, A., Ranka, P., Dedhia, U., Prasad, S., Muni, S., & Bhowmick, K. (2023). Detecting and unmasking AI-generated texts through explainable artificial intelligence using stylistic features. International Journal of Advanced Computer Science & Applications, 14(10), 1043‒1053. https://doi.org/10.14569/IJACSA.2023.01410110