ChatGPT au banc d’essai : traduction, synthèse et défis

L’article de Shen, Chen, Backes et Zhang (2023) étant pris comme corpus de travail, nous avons, sous ChatGPT Plus avec GPT-4, réalisé un ensemble de prompts visant à produire un résumé en français de cet article long (21 pages au format PDF) en anglais, à créer une carte mentale de ce résumé (à partir d’un fichier textuel au format DOT copié depuis ChatGPT Plus et exécuté par Graphviz Online) puis à répondre de manière précise à un ensemble de 5 questions incluant, pour la dernière, la mise en œuvre de déductions simples à partir d’informations non totalement incluses dans le corpus. Notre contribution met en évidence trois écueils liés à cette utilisation de ChatGPT Plus : premièrement, le risque de production d’un résumé sur une partie du document uniquement, deuxièmement, la propension de ChatGPT à inventer des informations non incluses dans le corpus pour répondre aux questions posées et, troisièmement, le risque de baisse de fiabilité liée aux traductions entre le français (langue de l’utilisateur) et l’anglais (langue du document traité). Notre contribution documente la construction des prompts permettant de réduire l’effet de ces limitations de l’outil.

Contenu de la contribution

La revue Management & Data Science organise un « prompt challenge » en collaboration avec le salon Big Data World Paris. Ce prompt challenge porte sur trois thèmes : (1) produire un résumé précis d’un document ; (2) générer un graphique à partir d’un texte, et (3) extraire des informations fiables (5 questions). Le corpus sur lequel porte ce prompt challenge correspond au contenu de l’article de Shen, X., Chen, Z., Backes, M., & Zhang, Y. (2023) intitulé « In chatgpt we trust? measuring and characterizing the reliability of chatgpt » publié sur arXiv.

Pour répondre à ces défis, nous avons utilisé comme IA générative ChatGPT Plus (avec le modèle GPT-4). Pour certaines tâches, le plugin AskPDF (conçu pour accélérer l’extraction d’informations à partir de documents PDF) a été sollicité. Le diagramme a été produit avec Graphiz Online sur base d’un fichier textuel au format DOT produit par ChatGPT Plus.

Notre contribution comporte une réponse aux 3 thèmes, soit 2 + 5 prompts, proposés dans le challenge, avec une attention particulière portée au contrôle des réponses de ChatGPT Plus. Nous montrons en particulier qu’une exécution inattentive de prompts conduit, premièrement, à (probablement) travailler sur une version incomplète du document, deuxièmement, à recueillir des contenus partiellement inventés, troisièmement, à tromper l’IA par des faux amis au passage de l’anglais (texte du document de départ) et du français (langue de l’utilisateur). Nous proposons au fil de nos commentaires différentes techniques permettant de réduire ces risques ou de faciliter la détection des problèmes (recommandations relatives à l’écriture des prompts, contrôle des définitions, information de l’utilisateur…).

L’énergie déployée à la réalisation de certaines tâches complexes, eu égard aux limitations de l’outil (p. ex. taille des textes traités), à son fonctionnement en boîte noire (p. ex. interprétation du langage naturel et risque inévitable d’hallucinations), pose la question de la pertinence de cet investissement. À l’apogée de Google, Kilgarriff (2007) posait la question suivante : la Googlelogie n’est-elle pas une mauvaise science ? Ne doit-on pas aujourd’hui s’interroger sur la pertinence, et surtout les limites, d’une « promptologie », ou plus spécifiquement dans notre cas d’une « ChatGPTologie », mobilisant l’énergie des experts et des scientifiques, mais les détournant aussi d’approches potentiellement plus efficaces, surtout davantage contrôlables, en tout cas pour certains types d’usages. Ce qui est posé dans notre cas, ce sont les questions des couples « tâches / outils » optimaux, des limites inhérentes à chaque outil (conduisant à des problèmes de reproductibilité et de fiabilité) et de leurs combinaisons pour la réalisation de tâches complexes. En particulier, deux pistes mériteraient un approfondissement. D’une part, à côté des applications polyvalentes et (relativement) grand public comme ChatGPT, des outils déployables localement (comme Ollama par exemple) permettent la construction de chaînes de traitement sur mesure. Ce type d’approche aurait-il donné un meilleur résultat ? D’autre part, ChatGPT Plus se positionne de plus en plus comme une plate-forme généraliste d’IA générative. Comment, et dans quels cas, les plugins tiers permettent-ils d’améliorer la performance d’une tâche ?

Thème #1 : créer un résumé

« Votre défi consiste à créer un prompt qui générera un résumé précis de 300 mots en français, lequel débouchera sur des recommandations concrètes. »

Cette tâche a été réalisée sous ChatGPT Plus (avec le modèle GPT-4 et activation du plugin AskPDF).

Texte du prompt :

Input: load the FULL content of the PDF file https://arxiv.org/abs/2304.08979 containing the text of a scientific article published on Arxiv. Role: AI expert. Task: produce an abstract in french. Formal constraints: 300 words. Content of the summary: the problem, all the research questions, the methodology (including the data and its processing), the results (by research question) and the recommendations (for practitioners and researchers). Be factual. Don’t invent anything, analyse only the full textual content of the article!!!

Meilleur résultat :

Problématique : L’arrivée de ChatGPT, un modèle avancé de traitement du langage naturel, a transformé la manière dont les utilisateurs obtiennent des informations. Contrairement aux moteurs de recherche classiques, ChatGPT génère des réponses directement à partir de son modèle. Cependant, cette capacité impressionnante de réponse aux questions a soulevé des inquiétudes quant à sa fiabilité.

Questions de recherche :

Comment la fiabilité de ChatGPT varie-t-elle selon différents domaines ?
Quel est l’impact des rôles du système sur la fiabilité de ChatGPT ?
ChatGPT est-il vulnérable aux exemples adverses ?

Méthodologie :

Données et traitement : Les auteurs ont réalisé la première mesure à grande échelle de la fiabilité de ChatGPT, en utilisant un ensemble de 5 695 questions issues de dix ensembles de données et couvrant huit domaines différents.

Résultats :

Variabilité selon les domaines : La fiabilité de ChatGPT varie selon les domaines, avec des performances particulièrement faibles dans les domaines juridique et scientifique.
Impact des rôles du système : Les rôles du système, conçus pour orienter le comportement de ChatGPT, peuvent affecter sa fiabilité de manière subtile.
Vulnérabilité aux exemples adverses : ChatGPT est sensible aux exemples adverses, et même un changement d’un seul caractère peut réduire sa fiabilité dans certains cas.

Recommandations :

Pour les praticiens : Être conscient de la variabilité de la fiabilité de ChatGPT selon les domaines et l’utiliser avec prudence pour des questions complexes, notamment dans les domaines juridiques et scientifiques.
Pour les chercheurs : Il est crucial de renforcer la fiabilité et la sécurité des modèles de langage de grande taille (LLMs), en prenant en compte les vulnérabilités identifiées.

Cette étude offre des perspectives précieuses sur la fiabilité de ChatGPT et souligne l’importance de renforcer la fiabilité et la sécurité des LLMs.

Commentaire :

Ce prompt a été élaboré en deux étapes.

Première étape :

La première étape a consisté à exploiter la capacité interne à ChatGPT Plus à lire nativement les documents PDF. Cette approche nous a permis de mettre en évidence les difficultés de ChatGPT Plus à traiter des documents volumineux à la mise en page complexe (PDF en deux colonnes). Notre démarche a été décomposée en deux sous-étapes : la première a consisté à transformer le PDF en un fichier texte sur une seule colonne ; la seconde, à produire le résumé sur base du fichier texte.

Trois prompts ont dès lors été successivement utilisés :

Input: a PDF file from a scientific papier published in Arxiv. Task: extract the text content. Constraint: the file contains two columns. Output: create a correctly formatted text file with a single column.

Input: load the FULL content of the text file containing the text of a scientific article published on Arxiv. Role: AI expert. Task: produce an abstract in english. Formal constraints: 300 words. Content of the summary: include the problem, the research questions, the methodology (including the data and its processing), the results (by research question) and the recommendations (for practitioners and researchers). Be factual. Don’t invent anything, analyse only the full textual content of the article!!!

Translate this summary into French, keeping the formatting and respecting the 300-word limit.

Il lui est imposé de travailler sur l’intégralité du texte et de continuer jusqu’au dernier caractère du document. Ces consignes sont répétées du fait d’un suspicion quant à un comportement de ChatGPT qui consisterait à n’utiliser que les premiers caractères, soit les caractères affichés lorsque l’on clique sur le lien « View Analysis » (p. ex. full_text[:500] en code Python). La fin du résumé contient dès lors des informations plus ou moins inventées compte tenu du manque d’information sur le contenu réel de l’article.

La réalisation d’un résumé est une tâche relativement lourde. Le document pèse en effet 21 pages. Il comprend en outre 2 colonnes. De manière à soulager ChatGPT dans les tâches ultérieures, nous procédons dès lors à une tâche préalable d’extraction et de création d’un fichier textuel sur une seule colonne. Les contraintes de mise en forme (deux colonnes en entrée, une colonne en sortie) sont renseignées dans le prompt. À noter que la maîtrise des longs documents se révèle difficile pour ChatGPT Plus, ce qui occasionne des erreurs fréquentes (par exemple : « Error analyzing » / « Il semble y avoir eu un problème technique lors de l’accès au contenu supplémentaire de l’article »).

Ce prompt est structuré. Il sépare ainsi les données d’entrée, la tâche à exécuter et le rôle (« expert »). Le prompt est écrit en anglais de manière à coller au plus près de ses données d’entraînement dominantes. Plusieurs contraintes sont ajoutées suite à des tests préliminaires de réalisation d’un résumé. Premièrement, la contrainte de taille de 300 mots lui est imposée. Deuxièmement, et eu égard à cette propension de ChatGPT à broder dans le résumé lorsqu’il manque d’informations, nous lui avons ajouté la contrainte de ne rien inventer. Cette contrainte sera réutilisée pour le thème #3 (avec succès).

Seconde étape :

Nous avons voulu tester les performances de notre prompt avec le plugin AskPDF permettant l’interaction avec des documents PDF publiés en ligne. Les contraintes précédentes ont été conservées. Ce prompt (avec utilisation du plugin AskPDF) a été pris comme meilleur prompt car il se révèle aussi sensiblement plus fiable c’est-à-dire moins sujets à des erreurs d’exécution.

Thème #2 : créer un graphique

« Votre défi consiste à créer un prompt qui transforme le texte du résumé que vous avez produit en un schéma compréhensible et pertinent. »

Cette tâche a été réalisée sous ChatGPT Plus (avec le modèle GPT-4) ainsi qu’avec Graphiz Online (pour le rendu du diagramme).

Texte du prompt :

Task: to create a mind map of the French summary with at least three levels (middle, main ideas, and details). Output: a code in .dot format that I can copy in clipboard.

Meilleur résultat :

digraph RésuméEtudeChatGPT {
// Niveau intermédiaire
« ChatGPT » -> « Problème »
« ChatGPT » -> « Questions de recherche »
« ChatGPT » -> « Méthodologie »
« ChatGPT » -> « Résultats »
« ChatGPT » -> « Recommandations »

// Idées principales
« Problème » -> « Changement dans l’acquisition d’informations »
« Questions de recherche » -> « Fiabilité dans QA »
« Méthodologie » -> « Évaluation à grande échelle »
« Résultats » -> « Variabilité et vulnérabilité »
« Recommandations » -> « Pour praticiens »
« Recommandations » -> « Pour chercheurs »

// Détails
« Fiabilité dans QA » -> « Variation selon domaines »
« Fiabilité dans QA » -> « Impact des rôles système »
« Fiabilité dans QA » -> « Vulnérabilité aux exemples contradictoires »
« Évaluation à grande échelle » -> « 5695 questions »
« Évaluation à grande échelle » -> « Dix datasets »
« Évaluation à grande échelle » -> « Huit domaines »
« Variabilité et vulnérabilité » -> « Sous-performance en droit et science »
« Pour praticiens » -> « Surveillance et mise à jour continue »
« Pour chercheurs » -> « Améliorer précision et sécurité des LLMs »
}

Commentaire :

Nous repartons donc du résumé en français produit par le thème #1. Pour ce défi, nous partons sur une technologie que nous maîtrisons pour la création de diagrammes, à savoir le format « .dot ». L’outil Graphviz Online est utilisé pour le rendu du fichier « .dot ». De manière à ce que le diagramme soit suffisamment étoffé et obéisse bien aux règles de création d’un mind map, la contrainte « with at least three levels (middle, main ideas, and details) » lui est imposée. La formulation de l’« output » vise à lui imposer de produire simplement un code à copier-coller, sans tenter une exécution avec le module diagrams sous Python, ce qu’il se révèle incapable de faire.

Thème #3 : extraire des informations fiables

Cinq défis distincts sont proposés :

« a. Comment la fiabilité de ChatGPT varie-t-elle selon les domaines ? »
« b. Quel est l’impact des rôles du système sur l’exactitude de ChatGPT ? »
« c. Par ordre d’importance, quels sont les causes de défaillances des questions sans réponses ? »
« d. ChatGPT est-il vulnérable aux attaques adverses ? »
« e. Llama peut-il répondre de manière fiable face à des exemples contradictoires ? »

Thème #3.a

Cette tâche a été réalisée sous ChatGPT Plus (avec le modèle GPT-4 et le plugin AskPDF activé).

Texte du prompt :

Input: load the FULL content of the PDF file https://arxiv.org/abs/2304.08979 containing the text of a scientific article published on Arxiv. Role: AI expert. Task: answer in french the question « How does ChatGPT’s reliability vary from one domain to another? ». Constraint: stay focused on questions domains and present the answer by domain. Be factual. Don’t invent anything, be specific, analyse only the full textual content of the article!!! If you find no explicit sections, try by loading the next characters until you reach the end of the document.

Meilleur résultat :

L’article « In ChatGPT We Trust? Measuring and Characterizing the Reliability of ChatGPT » examine la fiabilité de ChatGPT dans différents domaines. Voici un résumé spécifique sur la variabilité de la fiabilité de ChatGPT selon les domaines, basé sur le contenu de l’article :

Domaines étudiés : L’étude a couvert huit domaines différents, en utilisant un ensemble de 5 695 questions issues de dix ensembles de données.

Fiabilité variable : Il a été constaté que la fiabilité de ChatGPT varie considérablement d’un domaine à l’autre. En particulier, ChatGPT a montré des performances sous-optimales dans les questions relevant du droit et des sciences.

Domaines spécifiques :

Droit : ChatGPT a sous-performé dans le domaine juridique, ce qui soulève des préoccupations quant à son utilisation pour fournir des conseils ou des informations dans ce domaine spécifique.
Sciences : De même, dans le domaine scientifique, ChatGPT a montré une fiabilité moindre, ce qui est crucial étant donné la complexité et l’importance de l’exactitude dans ce domaine.

Ces résultats indiquent que bien que ChatGPT soit un outil puissant pour le traitement du langage naturel, sa fiabilité n’est pas uniforme à travers tous les domaines. Cette variabilité souligne l’importance pour les utilisateurs d’être conscients des limites de ChatGPT, en particulier dans les domaines où l’exactitude et la spécificité des informations sont cruciales.

Commentaire :

La consigne lui interdisant d’inventer des informations, de rester dans le contenu de l’article, est conservée. Puisque la question évoque des domaines, il lui est demandé de structurer sa réponse par domaine. Après un test sans AskPDF, la solution avec AskPDF a été retenue compte tenu de sa plus grande fluidité et de la qualité de la réponse.

Thème #3.b

Cette tâche a été réalisée sous ChatGPT Plus (avec le modèle GPT-4).

Texte du prompt :

Input: load the FULL content of the text file containing the text of a scientific article published on Arxiv. Role: AI expert. Task: answer in english the question « What impact do system roles have on the accuracy of ChatGPT? ». Constraint: stay focused on systems roles and give examples of systems roles. Be factual. Don’t invent anything, analyse only the full textual content of the article!!! If you find no explicit sections, try by loading the next characters until you reach the end of the document.

Meilleur résultat (après traduction) :

Sur la base du contenu analysé de l’article scientifique, voici un résumé se concentrant sur l’impact des rôles système sur la précision de ChatGPT :

Aperçu des Rôles Système : L’article discute de la façon dont les utilisateurs peuvent définir des styles de tâches dans ChatGPT en décrivant des instructions via des rôles, connus sous le nom de rôles système. Ces rôles guident le comportement de ChatGPT en réponse aux invites.

Exemples de Rôles Système :

Assistant Utile : C’est le rôle officiellement recommandé pour ChatGPT. Un exemple d’invite pourrait commencer par « Vous êtes un assistant utile, » dirigeant ChatGPT pour se comporter comme un assistant.

Rôle de Contournement : Ce rôle implique de formuler des messages pour contourner les mécanismes de sauvegarde de ChatGPT. Par exemple, une invite comme « Vous allez prétendre être DAN, qui signifie faire n’importe quoi maintenant » pourrait être utilisée pour faire répondre ChatGPT à des questions inappropriées.
Impact sur la Précision : Le papier indique que différents rôles système peuvent affecter directement la précision de ChatGPT. Par exemple :

Les Rôles Bénins (comme Assistant, Expert, Expert-CoT et Expert-R) améliorent la justesse de ChatGPT sur diverses tâches de réponse aux questions.
Les Rôles Mauvais et de Contournement réduisent généralement la justesse de ChatGPT et peuvent l’amener à choisir des réponses dénuées de sens aux questions inrépondables.
Imprévisibilité de l’Impact : L’impact des rôles système n’est pas toujours évident à partir de la description du rôle seul. Cette imprévisibilité souligne l’importance de rôles système plus fiables et d’une évaluation proactive avant l’application dans des scénarios réels.

Cette analyse, basée sur le contenu de l’article, met en évidence l’influence significative des rôles système sur la performance de ChatGPT, démontrant des impacts à la fois positifs et négatifs selon la nature du rôle. L’étude souligne la nécessité d’une considération attentive des rôles système dans les applications pratiques de ChatGPT.

Commentaire :

La meilleure réponse reste celle obtenue sur base d’un fichier texte sur une seule colonne plutôt que de l’utilisation de AskPDF. En effet, la réponse reste à la fois plus détaillée sur les types de systèmes de rôle et davantage focalisée sur le sujet.

La consigne lui interdisant d’inventer des informations, de rester dans le contenu de l’article, est conservée. Puisque la question évoque des systèmes de rôle, il lui est demandé d’ajouter des exemples. En plus de renforcer la précision de la réponse, cette précaution permet de contrôler la bonne interprétation du prompt et du texte. Ce prompt est très proche du précédent dans sa logique de construction.

Thème #3.c

Cette tâche a été réalisée sous ChatGPT Plus (avec le modèle GPT-4).

Texte du prompt :

Input: load the FULL content of the text file containing the text of a scientific article published on Arxiv. Role: AI expert. Task: answer in english the question « What are the causes of unanswerable questions? ». Start by a definition of « unanswerable questions ». Constraint: stay focused on causes of unanswerable questions and rank the causes from most to least important. Be factual. Don’t invent anything, analyse only the full textual content of the article!!! If you find no explicit sections, try by loading the next characters until you reach the end of the document.

Meilleur résultat (après traduction) :

Définition des « Questions Inrépondables » : Les questions inrépondables sont celles auxquelles un modèle de langage comme ChatGPT ne peut pas fournir de réponse. Cela peut être dû à diverses raisons, telles que les limitations dans la connaissance du modèle, l’incapacité à comprendre le contexte, ou les contraintes programmées pour répondre à certains types de requêtes.

Causes des Questions Inrépondables :

Faits Hallucinatoires et Désinformation : Une cause importante des questions sans réponse est la dépendance de ChatGPT aux faits hallucinatoires ou à la désinformation. Cela conduit à générer des réponses incorrectes ou non pertinentes qui ne traitent pas efficacement la requête.

Compréhension Insuffisante du Contexte : Parfois, ChatGPT trouve le contexte fourni insuffisant ou peu clair, ce qui conduit à une incapacité à générer une réponse pertinente. Cette limitation dans la compréhension du contexte résulte en des questions sans réponse.

Influence des Rôles Système : Différents rôles systèmes peuvent affecter les réponses de ChatGPT. Certains rôles améliorent la précision, tandis que d’autres, en particulier les rôles de contournement comme ‘DAN’ et ‘ChatAGI’, ont un impact négatif sur les performances et conduisent à des questions sans réponse.

Limitations dans le Raisonnement et la Connaissance : Les limitations inhérentes dans le raisonnement et la portée des connaissances basées sur la formation de ChatGPT peuvent entraîner des questions sans réponse, en particulier dans des domaines complexes tels que le droit et la science.

Refus Intentionnel de Répondre : ChatGPT est conçu pour refuser de répondre à certaines requêtes, en particulier celles qui sont inappropriées ou au-delà de son champ de connaissance. Cette caractéristique de conception intentionnelle contribue aux questions sans réponse.

Capacité Limitée à Identifier les Questions Inrépondables : ChatGPT a une capacité limitée à identifier les questions inrépondables, faisant souvent des suppositions au lieu d’indiquer l’incapacité à répondre.

Ces causes sont classées du plus important au moins important en fonction du contenu de l’article. Les conclusions soulignent la nécessité d’améliorations continues dans ChatGPT, en particulier dans la compréhension du contexte, la vérification des faits et la gestion des domaines complexes.

Commentaire :

La meilleure réponse reste celle obtenue sur base d’un fichier texte sur une seule colonne plutôt que de l’utilisation de AskPDF. En effet, la réponse reste sensiblement plus détaillée sur les questions sans réponse. Les prompts suivants s’appuieront donc également sur la méthode utilisant le fichier texte sur une colonne extrait du document PDF.

La consigne lui interdisant d’inventer des informations, de rester dans le contenu de l’article, est conservée. Puisque la question comporte un concept (« unanswerable question »), il lui est demandé de le définir. En plus de renforcer la précision de la réponse, cette précaution permet de contrôler la bonne interprétation du prompt et du texte. Ce prompt est très proche du précédent dans sa logique de construction.

Travailler avec un prompt en anglais est ici intéressant dans la mesure où le concept de « unanswerable question » peut causer des problèmes de traduction, et dès lors diminuer la qualité de la réponse comme le montre justement l’article de Shen et al. (2023). En effet, la question en français, traduite en anglais (avec DeepL par exemple), donne « unanswered questions », soit une expression différente. Idem si l’on prend la question en anglais (avec le bon terme), qu’on la traduit en français puis qu’on la retraduit en anglais. Comme pour les interrogations dans les moteurs de recherche, le choix du vocabulaire utilisé s’avère ici critique. À noter que la question présente sur le site proposant le challenge présente une faute d’accord (« par ordre d’importance, quelLEs sont les causes de défaillances des questions sans réponses ? »), a priori bénigne, mais qu’il serait bon de corriger avant de l’entrer dans un prompt en français, l’article de Shen et al. (2023) révélant une sensibilité parfois surprenante à des erreurs au niveau des caractères des mots.

Thème #3.d

Cette tâche a été réalisée sous ChatGPT Plus (avec le modèle GPT-4).

Texte du prompt :

Input: load the FULL content of the text file containing the text of a scientific article published on Arxiv. Role: AI expert. Task: answer in english the question « Is ChatGPT vulnerable to adversarial attacks? ». Start by a definition of « adversarial attacks ». Constraint: structure the answer by type of adversarial attack. Be factual. Don’t invent anything, analyse only the full textual content of the article!!! If you find no explicit sections, try by loading the next characters until you reach the end of the document.

Meilleur résultat (après traduction) :

Sur la base du contenu complet de l’article scientifique, voici une analyse de la vulnérabilité de ChatGPT aux attaques adverses :

Définition des « Attaques Adverses » : Les attaques adverses, dans le contexte de l’IA et de l’apprentissage automatique, sont des techniques utilisées pour tromper les modèles en les amenant à commettre des erreurs. Ces attaques impliquent de modifier subtilement les données d’entrée de manière à entraîner des sorties incorrectes du modèle, alors que les changements peuvent être imperceptibles ou apparemment bénins pour les humains.

Vulnérabilité de ChatGPT aux Attaques Adverses :

Attaques au Niveau des Caractères (par exemple, VIPER) : Ces attaques modifient les questions au niveau des caractères, remplaçant des caractères par des alternatives visuellement similaires. Par exemple, remplacer ‘a’ par ‘â’. L’étude indique que ChatGPT peut être induit en erreur par de telles attaques, suggérant une vulnérabilité au niveau des caractères.

Attaques au Niveau des Mots (par exemple, Nat, Swap, Synonymes) : Celles-ci impliquent des bruits artificiels comme des fautes de frappe, des orthographes incorrectes ou l’utilisation de synonymes pour modifier l’entrée. Bien que ChatGPT montre une certaine résilience aux attaques basées sur les synonymes, il peut être vulnérable aux fautes de frappe et aux orthographes incorrectes introduites artificiellement.

Attaques au Niveau des Phrases (par exemple, SCPN) : Ce sont des attaques plus complexes qui impliquent de paraphraser des phrases entières. ChatGPT montre une vulnérabilité à ces attaques, indiquant que modifier la structure ou le contexte de la phrase peut efficacement induire le modèle en erreur.

Attaques Basées sur les Scores : L’étude examine également les attaques basées sur les scores où ChatGPT est trompé en révélant des scores de confiance pour différentes réponses. Ces attaques manipulent le modèle pour privilégier certaines réponses, ce qui peut conduire à des sorties incorrectes.

Les conclusions de l’article démontrent que ChatGPT, comme de nombreux modèles d’IA, est susceptible à divers types d’attaques adverses. L’efficacité de ces attaques varie, les attaques au niveau des phrases et basées sur les scores représentant des menaces significatives. Cette vulnérabilité souligne l’importance des efforts continus pour améliorer la robustesse des modèles d’IA comme ChatGPT contre de telles tactiques adverses.

Commentaire :

La consigne lui interdisant d’inventer des informations, de rester dans le contenu de l’article, est conservée. Puisque la question comporte un concept (« adversarial attacks »), il lui est demandé de le définir. En plus de renforcer la précision de la réponse, cette précaution permet de contrôler la bonne interprétation du prompt et du texte. Ce prompt est très proche du précédent dans sa logique de construction.

Travailler avec un prompt en anglais est ici intéressant dans la mesure où le concept de « adversarial attacks » peut causer des problèmes de traduction, et dès lors diminuer la qualité de la réponse comme le montre justement l’article de Shen et al. (2023). En effet, la question en français, traduite en anglais (avec DeepL par exemple), donne « attacks » tout court (« Is ChatGPT vulnerable to attack? »), soit une expression différente.

Thème #3.e

Cette tâche a été réalisée sous ChatGPT Plus (avec le modèle GPT-4).

Texte du prompt :

Input: load the FULL content of the text file containing the text of a scientific article published on Arxiv. Role: AI expert. Task: answer in english the question « Can Llama give a reliable answer when faced with contradictory examples? ». New information : Llama is a LLM model similar to GPT used in ChatGPT. Start by a description of Llama of and an explaination about what is « contradictory examples ». Be factual. Don’t invent anything, analyse only the full textual content of the article!!! Only about Llama you can search useful information outside the paper if needed (but you must inform me) and you can make deductions based on the article and the features shared by ChatGPT and Llama (but you must inform me). If you find no explicit sections, try by loading the next characters until you reach the end of the document.

Meilleur résultat (après traduction) :

Le modèle « Llama » n’est pas mentionné dans l’article scientifique fourni. Cependant, avec la nouvelle information indiquant que Llama est un modèle de grand modèle de langage (LLM) similaire au GPT utilisé dans ChatGPT, je peux fournir une description générale de Llama et expliquer ce que sont les exemples contradictoires. Je ferai ensuite des déductions basées sur l’article et les caractéristiques partagées par ChatGPT et Llama.

Description de Llama en tant que modèle LLM :
Llama, étant similaire aux modèles GPT utilisés dans ChatGPT, est probablement un modèle de langage sophistiqué formé sur un large corpus de données textuelles. Ces modèles sont capables de comprendre et de générer du langage naturel, et ils sont utilisés pour diverses tâches telles que la complétion de texte, la conversation, la résumé, et la réponse aux questions. Les capacités et les limites spécifiques de Llama dépendraient de ses données d’entraînement et de son architecture, généralement définies par ses développeurs.

Exemples contradictoires :
Les exemples contradictoires sont des entrées qui contiennent des informations conflictuelles, conçues pour tester la capacité du modèle à discerner et à gérer les incohérences. Par exemple, une entrée peut énoncer un fait puis le suivre avec une déclaration qui le contredit. Naviguer avec succès dans de tels exemples nécessite que le modèle ait une compréhension nuancée du contexte et la capacité d’identifier et de concilier les contradictions.

Déductions basées sur l’article et caractéristiques partagées avec ChatGPT :
Puisque Llama est similaire aux modèles GPT, nous pouvons déduire certains aspects de ses capacités à gérer des exemples contradictoires basés sur la performance générale des modèles similaires au GPT comme discuté dans l’article :

Compréhension du contexte : Comme ChatGPT, Llama pourrait être bon pour comprendre le contexte, ce qui est crucial pour identifier les contradictions. Cependant, la profondeur de cette compréhension peut varier en fonction de l’entraînement spécifique et du raffinement du modèle.

Gestion de l’ambiguïté : La capacité de Llama à gérer des déclarations ambiguës ou contradictoires dépendrait de la façon dont il a été formé pour reconnaître et traiter de telles informations. S’il est similaire à ChatGPT, il peut avoir une certaine capacité à détecter et à aborder les contradictions, mais peut ne pas toujours le faire avec précision.

Attaques adverses : Si Llama partage des caractéristiques avec ChatGPT, il pourrait être susceptible à certains types d’attaques adverses, y compris celles qui présentent des exemples contradictoires. L’efficacité de ces attaques dépendrait des nuances de l’entraînement de Llama et de sa capacité à discerner des informations authentiques d’entrées trompeuses.

En conclusion, bien que nous puissions spéculer sur les capacités de Llama basées sur sa similitude avec ChatGPT, la nature exacte de sa réponse à des exemples contradictoires dépendrait de détails spécifiques sur son entraînement et sa conception, qui ne sont pas couverts dans l’article fourni. Pour des informations précises, des tests directs sur Llama ou la consultation de ressources spécifiques à celui-ci seraient nécessaires.

Commentaire :

Ce prompt se révèle plus compliqué. En effet, les prompts précédents imposent à ChatGPT de ne pas inventer dès lors qu’il n’a pas l’information. Or, le cas de Llama n’est pas explicitement développé dans l’article. Notre contrainte fonctionne correctement puisque ChatGPT nous répond : « The model « Llama » is not mentioned in the scientific article. Therefore, I cannot provide an analysis from the article regarding Llama’s ability to give reliable answers when faced with contradictory examples. » Nous avons donc relaxé cette contrainte uniquement pour les informations relatives à Lama de manière à lui permettre de générer des informations et de réaliser des déductions simples s’il cela lui est nécessaire. La demande de démarrer sa réponse par une description de Llama permet de contrôler qu’il part sur des informations correctes.

ChatGPT au banc d’essai : traduction, synthèse et défis

ChatGPT au banc d’essai : traduction, synthèse et défis

Citation

L'auteur

Robert VISEUR

Copyright

Déclaration d'intérêts

Financements

Aperçu

Contenu

Contenu de la contribution

Thème #1 : créer un résumé

Thème #2 : créer un graphique

Thème #3 : extraire des informations fiables

Thème #3.a

Thème #3.b

Thème #3.c

Thème #3.d

Thème #3.e

Annexes

Date de publication

Catégorie

Collections

ORCID

Affiliation

Utilité

Rigueur

Impact

Clarté

Nb. d'évaluations

Nb. de commentaires

Commentaires

ChatGPT au banc d’essai : traduction, synthèse et défis

Citation

Citation

L'auteur

L'auteur

Robert VISEUR

Copyright

Copyright

Déclaration d'intérêts

Déclaration d'intérêts

Financements

Financements

Aperçu

Aperçu

Contenu

Contenu

Contenu de la contribution

Thème #1 : créer un résumé

Thème #2 : créer un graphique

Thème #3 : extraire des informations fiables

Thème #3.a

Thème #3.b

Thème #3.c

Thème #3.d

Thème #3.e

Annexes

Annexes

Métriques

Métadonnées

Date de publication

Catégorie

Collections

Auteurs et copyright

ORCID

Affiliation

Total

Utilité

Rigueur

Impact

Clarté

Nb. d'évaluations

Nb. de commentaires

Évaluations

Commentaires

Commentaires

Projets (1)