Aperçu

Ce document présente un exemple du format de soumission ainsi que le type de contenu à fournir par les candidats pour le prompt challenge organisé par Management & Datascience en novembre 2023.

Contenu

Challenge

1) Produire le résumé précis d’un document

L’url de l’IA générative utilisée

Source : conversation avec Bing, 05/11/2023 (www.bing.com)

Le prompt utilisé

Rédiges le résumé précis de l’article de Shen et al. (2023), intitulé « In chatgpt we trust? measuring and characterizing the reliability of chatgpt ».
Le résumé doit être en français et comporter 500 mots maximum. Il doit déboucher sur des recommandations concrètes.

Le meilleur résultat obtenu

Dans leur article intitulé « In chatgpt we trust? measuring and characterizing the reliability of chatgpt »¹, Shen et al. (2023) ont mené la première mesure à grande échelle de la fiabilité de ChatGPT dans le scénario de questions-réponses génériques¹. Ils ont soigneusement sélectionné un ensemble de 5 695 questions à travers dix ensembles de données et huit domaines¹.

Ils ont constaté que la fiabilité de ChatGPT varie selon les domaines, sous-performant particulièrement dans les questions de droit et de science¹. Ils ont également démontré que les rôles système, conçus à l’origine par OpenAI pour permettre aux utilisateurs de diriger le comportement de ChatGPT, peuvent affecter la fiabilité de ChatGPT de manière imperceptible².

De plus, ils ont montré que ChatGPT est vulnérable aux exemples adverses, et qu’un simple changement de caractère peut affecter négativement sa fiabilité dans certains cas². Ils estiment que leur étude fournit des informations précieuses sur la fiabilité de ChatGPT et souligne la nécessité de renforcer la fiabilité et la sécurité des grands modèles de langage².

En conclusion, Shen et al. recommandent une utilisation prudente de ChatGPT et d’autres modèles de langage similaires, en particulier dans les domaines où l’exactitude des informations est cruciale. Ils suggèrent également que des recherches supplémentaires soient menées pour améliorer la fiabilité de ces modèles, notamment en explorant des méthodes pour détecter et atténuer les effets des exemples adverses. Enfin, ils appellent à une plus grande transparence et à une réglementation plus stricte de l’utilisation des modèles de langage dans les applications grand public.

Les commentaires

Pour ce défi, notre tâche consistait à utiliser une IA générative pour produire un résumé précis et concis d’un article scientifique. Les articles scientifiques sont souvent remplis de jargon technique et présentent des concepts complexes. Il peut être difficile pour une IA de comprendre le contexte et l’importance de certaines informations. De plus, la capacité à distinguer les informations clés des détails secondaires est cruciale pour créer un bon résumé.

Pour améliorer et optimiser le prompt qui a permis de faire ce résumé, voici quelques suggestions :

Précision du sujet : Assurez-vous que le prompt est précis et spécifique au sujet de l’article. Par exemple, au lieu de demander un résumé général de l’article, demandez un résumé qui se concentre sur les principales conclusions de l’article ou sur une section spécifique.
Contexte : Fournissez autant de contexte que possible dans le prompt. Cela peut inclure des informations sur l’auteur, le domaine de recherche, le public cible, etc.
Format : Spécifiez le format souhaité pour le résumé. Par exemple, demandez un résumé structuré avec des sous-titres, ou un résumé en prose.
Longueur : Indiquez la longueur souhaitée pour le résumé. Cela peut aider à guider la quantité de détails à inclure.
Langue : Si le résumé doit être rédigé dans une langue spécifique, assurez-vous de le préciser dans le prompt.

L’un des avantages à utiliser Bing par rapport à d’autres outils d’IA génératives est qu’il est connecté à internet et qu’il fournit les sources utilisées.

(1) [2304.08979] In ChatGPT We Trust? Measuring and Characterizing the …. https://arxiv.org/abs/2304.08979.
(2) In ChatGPT We Trust? Measuring and Characterizing the Reliability of …. https://arxiv.org/pdf/2304.08979.pdf.
(3) Papers with Code – In ChatGPT We Trust? Measuring and Characterizing …. https://paperswithcode.com/paper/in-chatgpt-we-trust-measuring-and.
(4) undefined. https://doi.org/10.48550/arXiv.2304.08979.

2) Générer un graphique à partir d’un texte

L’url de l’IA générative utilisée

Le prompt utilisé

Le meilleur résultat obtenu (code et graphique)

Les commentaires

Description du prompt avec ses forces et faiblesses
Eléments d’évolution et d’optimisation
L’analyse avec d’autres résultats obtenus (comparaison avec d’autres outils d’IA et d’autres versions de prompt)

3) Extraire des informations fiables

a) Comment la fiabilité de ChatGPT varie-t-elle selon les domaines ?

L’url de l’IA générative utilisée

Le prompt utilisé

Le meilleur résultat obtenu

Les commentaires

Description du prompt avec ses forces et faiblesses
Eléments d’évolution et d’optimisation
L’analyse avec d’autres résultats obtenus (comparaison avec d’autres outils d’IA et d’autres versions de prompt)

b) Quel est l’impact des rôles du système sur l’exactitude de ChatGPT ?

L’url de l’IA générative utilisée

Le prompt utilisé

Le meilleur résultat obtenu

Les commentaires

Description du prompt avec ses forces et faiblesses
Eléments d’évolution et d’optimisation
L’analyse avec d’autres résultats obtenus (comparaison avec d’autres outils d’IA et d’autres versions de prompt)

c) Par ordre d’importance, quels sont les causes de défaillances des questions sans réponses ?

L’url de l’IA générative utilisée

Le prompt utilisé

Le meilleur résultat obtenu

Les commentaires

Description du prompt avec ses forces et faiblesses
Eléments d’évolution et d’optimisation
L’analyse avec d’autres résultats obtenus (comparaison avec d’autres outils d’IA et d’autres versions de prompt)

d) ChatGPT est-il vulnérable aux attaques adverses ?

L’url de l’IA générative utilisée

Le prompt utilisé

Le meilleur résultat obtenu

Les commentaires

Description du prompt avec ses forces et faiblesses
Eléments d’évolution et d’optimisation
L’analyse avec d’autres résultats obtenus (comparaison avec d’autres outils d’IA et d’autres versions de prompt)

e) Llama peut-il répondre de manière fiable face à des exemples contradictoires ?

L’url de l’IA générative utilisée

Le prompt utilisé

Le meilleur résultat obtenu

Les commentaires

Description du prompt avec ses forces et faiblesses
Eléments d’évolution et d’optimisation
L’analyse avec d’autres résultats obtenus (comparaison avec d’autres outils d’IA et d’autres versions de prompt)

Prompt Challenge : format des soumissions

Citation

Citation

L'auteur

L'auteur

Olivier Mamavi

Copyright

Copyright

Déclaration d'intérêts

Déclaration d'intérêts

Financements

Financements

Aperçu

Aperçu

Contenu

Contenu

Challenge

1) Produire le résumé précis d’un document

L’url de l’IA générative utilisée

Le prompt utilisé

Le meilleur résultat obtenu

Les commentaires

2) Générer un graphique à partir d’un texte

L’url de l’IA générative utilisée

Le prompt utilisé

Le meilleur résultat obtenu (code et graphique)

Les commentaires

3) Extraire des informations fiables

a) Comment la fiabilité de ChatGPT varie-t-elle selon les domaines ?

L’url de l’IA générative utilisée

Le prompt utilisé

Le meilleur résultat obtenu

Les commentaires

b) Quel est l’impact des rôles du système sur l’exactitude de ChatGPT ?

L’url de l’IA générative utilisée

Le prompt utilisé

Le meilleur résultat obtenu

Les commentaires

c) Par ordre d’importance, quels sont les causes de défaillances des questions sans réponses ?

L’url de l’IA générative utilisée

Le prompt utilisé

Le meilleur résultat obtenu

Les commentaires

d) ChatGPT est-il vulnérable aux attaques adverses ?

L’url de l’IA générative utilisée

Le prompt utilisé

Le meilleur résultat obtenu

Les commentaires

e) Llama peut-il répondre de manière fiable face à des exemples contradictoires ?

L’url de l’IA générative utilisée

Le prompt utilisé

Le meilleur résultat obtenu

Les commentaires

Métriques

Métadonnées

Date de publication

Catégorie

Format

Auteurs et copyright

ORCID

Affiliation

Total

Évaluations

Commentaires

Commentaires

Projets (1)

Discussions (1)