Citation
L'auteur
Céline Averseng
(celine.averseng@umontpellier.fr) - (Pas d'affiliation)
Copyright
Déclaration d'intérêts
Financements
Aperçu
Contenu
L’essor des technologies d’intelligence artificielle générative (IAg) transforme divers secteurs, y compris l’enseignement supérieur en sciences de gestion. Les pratiques d’évaluation, en particulier, bénéficient de cette évolution, grâce à des outils comme ChatGPT, Copilot ou Wooflash, qui permettent une personnalisation et une automatisation avancées du processus d’évaluation.
Dans un environnement où l’enseignement devient de plus en plus hybride et numérique, ces outils offrent des solutions qui permettent aux formateurs de gagner du temps, d’améliorer l’engagement des étudiant et d’adapter les évaluations aux niveaux de compétence individuels.
Cet article examine comment les IAg peuvent transformer le processus d’évaluation, qu’elle soit formative ou sommative. En tirant partie des grandes possibilités d’analyse et de génération des IAg, le formateur va pouvoir créer des évaluations de formats divers, des grilles de correction mais aussi des retours adaptés aux apprenants.
Nous proposerons de nous pencher sur la problématique suivante : Comment créer des évaluations avec les IAg ? Quels outils et quels process ?
État de l’Art
Zawacki-Richter et al. (2019) identifient quatre principales applications de l’IA dans l’enseignement supérieur :
- Le profilage et la prédiction: elle permet de modéliser les parcours étudiants, en anticipant des besoins spécifiques, améliorant ainsi la capacité des institutions éducatives à maintenir les étudiants inscrits jusqu’à l’obtention de leur diplôme, en réduisant les risques d’abandon.
- L’évaluation et le feedback automatisés: elle offre un retour personnalisé aux étudiants tout en réduisant la charge des enseignants.
- Les systèmes de tutorat intelligents: elle permet d’adapter les contenus et le rythme d’apprentissage aux compétences individuelles, identifiant les lacunes pour un soutien ciblé.
- Enfin, les systèmes adaptatifs: elle permet de proposer des parcours personnalisés et de structurer l’apprentissage via des cartes conceptuelles, optimisant le processus éducatif.
En ce qui concerne les évaluations, les recherches de Seo et al. (2021) et de Li et al. (2023) montrent que l’IA permet non seulement de réduire le temps de correction mais aussi de fournir des retours individualisés et détaillés, augmentant ainsi l’engagement étudiant. Ce processus crée une interaction continue et réactive, créant ainsi un environnement d’apprentissage plus dynamique, même si les questions de fiabilité et de responsabilité en cas d’erreur restent posées.
Crompton et Burke (2023) soulignent également qu’un des usages majeurs des IAg dans l’enseignement porte sur l’évaluation, avec notamment les possibilités offertes par ces outils pour ajuster les évaluations en fonction des niveaux de compétence des apprenants. Cette personnalisation améliore leur motivation et permet une progression adaptée. Wooflash, par exemple, utilise des algorithmes pour sélectionner des questions en fonction des réponses précédentes des apprenants, favorisant un apprentissage personnalisé : l’algorithme proposera plus souvent les questions auxquelles l’apprenant a mal répondu et moins souvent celles pour lesquelles ce dernier n’a pas fait d’erreur. Ces auteurs mettent en avant la pertinence des agents intelligents et chatbots pour fournir aux apprenants un soutien en temps réel, notamment pour la gestion des questions ou l’évaluation formative.
Boucher (2023) explique que la capacité de Chat GPT-4 à générer des textes sophistiqués et adaptés aux exigences des enseignants rend obsolètes certaines formes d’évaluation traditionnelles, principalement les essais argumentatifs ou descriptifs de niveau universitaire. Cela remet en question la validité de ces évaluations, en permettant aux étudiants de tricher facilement. En conséquence, Boucher (ibid.) insiste sur la nécessité de repenser les pratiques d’évaluation pour qu’elles incluent des compétences que l’IAg ne peut reproduire, comme le raisonnement critique en contexte réel, la créativité, et l’analyse profonde.
L’utilisation de l’IAg dans l’évaluation académique pose également des questions éthiques. Selon certaines études, l’IAg pourrait engendrer une dépendance excessive aux technologies et affecter la capacité des étudiants à développer des compétences analytiques sans assistance numérique. Zawacki-Richter et al. (2019) soulignent un manque de réflexion sur les implications éthiques et les risques pédagogiques liés à l’utilisation de l’IA, notamment en matière de confidentialité et de réduction de l’engagement humain…
Cadre de l’étude
Dans ce contexte, nous avons souhaité nous intéresser à la question des évaluations à l’ère des IAg : les approches pédagogiques traditionnelles sont profondément impactées, que ce soit au niveau de la création des évaluations que de leur correction.
Pour ce qui est de la création des évaluations, nous distinguons les évaluations « papier » traditionnelles de celles automatisées proposées aux étudiants via les platefomes LMS (Learning Management System) comme Moodle. Dans le cadre de ces dernières, les IAg permettent de créer différents formats de question pour alimenter les banques de question des formateurs. Par exemple, les quiz de cours en format QCM peuvent être créés à partir d’une thématique générale ou d’un contenu de cours précis pour évaluer les connaissances détaillées des étudiants. Il sera aussi possible de créer des quiz calculés (sous forme de QCM ou de réponse à saisir). Enfin, les IAg permettent de générer des mini études de cas à l’aide des questions cloze sur Moodle[1].
En termes de correction, les IAg facilitent le travail préparatoire en proposant des corrections et en générant de grilles d’évaluation (barèmes). Ces outils permettent aux formateurs d’organiser et de structurer leurs évaluations de manière systématique, garantissant une analyse détaillée et équitable des réponses. L’IA contribue également à la correction des travaux des étudiants en fournissant des retours rapides et en adaptant les commentaires en fonction des points forts et des améliorations nécessaires, bien que cette correction doive rester supervisée pour assurer la justesse et l’objectivité des résultats.
Méthodologie
Notre méthodologie repose sur des expérimentations pratiques menées sur différentes plateformes d’IAg. Cette approche a permis d’explorer les capacités des principaux outils d’IAg disponibles sur le marché et de mettre en évidence leurs avantages et inconvénients respectifs dans le contexte académique. Les expériences réalisées incluent la génération de banques de questions pour des QCM, des questions calculées, mais aussi des questions Cloze (mini études de cas à questions intégrées) sur des outils tels que ChatGPT (gratuit et payant), Copilot, Perplexity, Gemini et Wooflash.
Dans la présente étude, nous avons mis l’accent sur la création de questions de cours de type QCM à partir d’un support pédagogique, dans l’optique de proposer des évaluations formatives à nos apprenants. Nous avons d’abord demandé à chaque outil de générer des questions, puis nous avons demandé la génération du code nécessaire pour l’importation de ces questions dans Moodle.
Génération des questions
Nous avons utilisé un prompt[2] identique pour demander à ces différents outils de créer 10 questions de cours à partir de notre support, un cours d’introduction à la comptabilité de gestion[3]. Un soin particulier a été apporté à la rédaction de notre prompt, détaillé dans la note méthodologique. Après la création des questions, une analyse approfondie a été réalisée pour évaluer la qualité et la pertinence de chaque question générée. Les questions ont été classées en trois catégories :
- Questions conservées en l’état : elles répondaient aux critères de pertinence pédagogique et s’intégraient parfaitement au cours ;
- Questions nécessitant une modification légère : besoin d’ajustements mineurs pour mieux correspondre au cours ; par exemple, l’IAg n’avait identifié qu’une seule bonne réponse alors qu’il y en avait plusieurs ;
- Et questions écartées pour des raisons d’ambiguïté, ou de manque de pertinence, de qualité, ou d’originalité (question redondante avec une ou plusieurs des autres questions générées).
Génération du code pour l’importation
Après avoir analysé la pertinence des questions produites automatiquement par les IAg, nous avons demandé la génération du code pour l’importation directe dans Moodle. Nous avons alors vérifié la compatibilité et la facilité d’intégration de ce code dans un environnement Moodle.
Les résultats obtenus sont résumés dans le Tableau 1 ci-dessous (le détail des questions obtenues est proposé dans la note méthodologique) :
Tableau 1 : Synthèse des résultats
Dans l’ensemble, les résultats obtenus sont concluants avec toutes les IAg, même si Chat GPT plus (en raison de la possibilité de télécharger directement le fichier d’import), Perplexity se détachent du lot[4].
Analyse et Discussion
Avantages de l’IAg pour la création d’évaluations
Les outils d’IAG ont montré leur efficacité pour générer rapidement des questions à partir d’un support de cours, permettant aux apprenants de bénéficier de tests d’entraînement supplémentaires et réduisant significativement la charge de travail des formateurs. Ces derniers pourront alors consacrer davantage de temps à l’accompagnement pédagogique et à l’analyse qualitative des progrès des étudiants. L’utilisation de l’IAg contribue également à l’enrichissement des banques de questions. Un des intérêts majeurs de cette pratique est la possibilité de créer des tests avec des questions piochées aléatoirement dans la banque de question. Les apprenants d’un même groupe n’auront pas les mêmes questions durant les évaluations. Il est toutefois essentiel de bien organiser les catégories dans la banque de questions, de manière à regrouper les questions par niveau de difficulté homogène afin de préserver l’équité entre les étudiants.
Bien que la création de questions directement dans Wooflash avec l’IAg intégrée n’ait pas été totalement concluante, cet outil reste particulièrement pertinent pour nos apprenants en raison de leur capacité à adapter les questions en fonction des réponses de ces derniers, offrant ainsi une personnalisation dynamique des parcours d’apprentissage. Cette adaptabilité favorise l’engagement des apprenants et permet un suivi plus précis de leur progression. Les parcours personnalisés favorisent également une expérience d’apprentissage plus motivante pour les étudiants, car ils sont confrontés à des questions adaptées à leur niveau de compétence.
Enjeux éthiques et limites de l’IAg dans l’évaluation
Bien que les outils d’IAG facilitent grandement la création et la personnalisation des évaluations, ils soulèvent également des défis éthiques.
Tout d’abord, la transparence des algorithmes utilisés est un enjeu central. Il est essentiel que les enseignants comprennent les critères de génération des questions pour pouvoir s’assurer qu’ils sont alignés avec les objectifs pédagogiques et les standards académiques. La nature « boîte noire » des systèmes d’IAg rend cette transparence difficile, posant ainsi des questions sur la responsabilité de l’enseignant vis-à-vis des contenus évaluatifs produits par ces outils. En outre, même si l’IA offre une évaluation rapide, elle peut en même temps réduire l’accès des étudiants aux pratiques de pensée divergente et créative, cruciales pour un apprentissage significatif (Li et al., 2023).
Ensuite, l’automatisation de l’évaluation, bien qu’elle présente des avantages en termes de gain de temps, peut nuire à la dimension humaine de l’évaluation. Les retours et la notation effectués par des IAg risquent de manquer de nuances dans la prise en compte des efforts individuels, ce qui pourrait affecter la motivation et l’engagement des étudiants. L’éthique de l’évaluation par l’IA repose donc sur une utilisation encadrée et complémentaire aux évaluations humaines, afin de garantir l’intégrité académique et l’équité entre tous les apprenants.
Enfin, si les IAg sont capables de créer des évaluations, elles ont également capables de fournir des réponses à la plupart des questions posés aux apprenants… Toute la validité des évaluations sommatives réalisées à distance est remise en question. A titre personnel, nous organisons toutes nos évaluations sur Moodle en présentiel, et nous rajoutons une ligne de code dans nos sujets pour que les étudiants ne puissent pas copier les questions dans un outil d’IAg…
Recommandations
Pour garantir la qualité des évaluations générées par des outils d’IAg tels que ChatGPT, Copilot, Perplexity ou Google IA, il est essentiel de soigner minutieusement le prompt initial. Ce processus inclut des itérations pour affiner le prompt afin d’obtenir des questions claires et adaptées au contexte pédagogique visé. La qualité du prompt est cruciale, car elle conditionne directement la pertinence et la clarté des questions produites par l’IAg.
Une relecture minutieuse est également indispensable pour vérifier la cohérence, la précision et la conformité des questions par rapport aux objectifs du cours. Cette étape permet d’identifier et de corriger d’éventuelles incohérences ou imprécisions qui auraient pu se glisser dans les formulations générées automatiquement.
Une fois les questions validées, leur importation dans Moodle peut être effectuée pour faciliter la gestion et la diffusion des évaluations auprès des étudiants. Là aussi, une vérification attentive sera nécessaire avant de mettre les questions à la disposition des apprenants.
Conclusion
Les outils d’IA générative représentent une avancée notable dans le domaine de l’évaluation et les applications en management sont nombreuses. Ils permettent aux formateurs de gagner du temps et ils offrent une flexibilité et une personnalisation accrues qui répondent aux besoins variés des apprenants. Néanmoins, leur adoption nécessite des précautions pour assurer l’équité et la fiabilité des évaluations, ainsi que le maintien de l’intégrité académique. Cela devra aussi passer par la formation des enseignants à la conception et à l’utilisation des prompts (Frimousse et & Besseyre des Horts, 2023). L’enjeu est crucial pour garantir une utilisation précise et cohérente de ces outils.
L’intégration des outils d’IAg dans les pratiques d’évaluation représente un changement de paradigme prometteur. Pour en maximiser le potentiel, il est crucial d’adopter et de transmettre aux apprenants une approche critique, équilibrée et réfléchie (Meissonier, 2023). En conclusion, bien que l’IAg permette d’automatiser et de personnaliser les évaluations de manière innovante, elle doit être envisagée comme un complément aux pratiques d’évaluation traditionnelles, et non comme un substitut total.
[1] Ce type de question permettra de simuler des situations concrètes, favorisant l’analyse et la résolution de problèmes complexes, tout en gardant les avantages d’une correction automatisée.
[2] Questions structurées et précises que l’on pose à l’IA pour obtenir des résultats pertinents
[3] Cours issu de notre MOOC Comptabilité de Gestion et Pratique du Tableur (disponible sur la plateforme FUN)
[4] Notons que ces tests ont été réalisés en Octobre 2024 et que la technologie évolue très vite.
Bibliographie
Boucher, J. P. (2023). ChatGPT: la riposte doit être pédagogique. Pédagogie collégiale vol. 36, no 3, printemps-été 2023. https://eduq.info/xmlui/bitstream/handle/11515/38834/Boucher-36-3-23.pdf?sequence=2
Crompton, H., Burke, (2023) “D. Artificial intelligence in higher education: the state of the field”, International Journal of Educational Technology in Higher Education, 20, 22. https://doi.org/10.1186/s41239-023-00392-8
Frimousse, S., & Besseyre des Horts, C.-H.. (2023). L’art du prompt : Une compétence à maîtriser pour les futurs chercheurs en sciences de gestion. Management et Datascience, 7(3). https://doi.org/10.36863/mds.a.24326.
Li, T., Reigh, E., He, P., & Adah Miller, E. (2023). Can we and should we use artificial intelligence for formative assessment in science? Journal of Research in Science Teaching, 1–5. https://doi.org/10.1002/tea.21867
MEISSONIER, R. (2023). La Pensée Complexe contre l’Intelligence Artificielle Dégénérative. Management et Datascience, 7(3). https://doi.org/10.36863/mds.a.24107.
Seo, K., Tang, J., Roll, I. et al. (2021) “The impact of artificial intelligence on learner–instructor interaction in online learning”. International Journal of Educational Technology in Higher Education, 18, 54. https://doi.org/10.1186/s41239-021-00292-9
Zawacki-Richter, O., Marín, V.I., Bond, M. et al. (2019), “Systematic review of research on artificial intelligence applications in higher education – where are the educators?”. International Journal of Educational Technology in Higher Education, 16, 39. https://doi.org/10.1186/s41239-019-0171-0
Nb. de commentaires
0