Prévoir les défauts de paiement de cartes de crédit
Challenge terminé

Contexte

En France comme à l’étranger, de plus en plus de consommateurs ont pris l’habitude d’utiliser des cartes de crédit pour effectuer notamment leurs achats de consommation (supermarché, dépenses de santé…). Les principaux établissements financiers l’ont bien compris puisque la concurrence entre eux passe notamment par l’augmentation du nombre de détenteurs de cartes bancaires, associées à une ligne de crédit revolving. Mais avec la crise, le taux de défaut sur les encours de prêts sur ces cartes de crédit a fortement augmenté.

Mission

Dans un système financier bien développé, la prévision du risque est un élément essentiel du bon fonctionnement des établissements bancaires. Pour évaluer le risque, ils utilisent des informations financières, telles que les états financiers des entreprises, les dossiers de transaction et de remboursement des clients…

Votre mission consiste à prévoir les défauts de paiement de cartes de crédit des clients d’une banque internationale.

Déroulement

Ce Data Challenge se déroulera en 3 phases :

  1. une phase d’apprentissage (entraînement)
  2. une phase de soumission (test)
  3. une phase de soutenance (pitch)

Les candidats doivent former des équipes de 2 à 3 membres.

Télécharger la notice de présentation du data challenge sur les défauts de paiement

Inscription

Pour participer au challenge, chaque candidat doit s’inscrire au préalable sur le site web de Management & Data Science , en indiquant un prénom, un nom, une adresse email et une institution d’affiliation (université, école de commerce, entreprise, etc.).

Calendrier

  • Démarrage de la compétition: 21 octobre 2019
  • Réception des livrables: 22 octobre 2019
  • Soutenance des résultats: 23 octobre 2019

Données

Les candidats ont accès à un jeu de données comprenant 24 attributs et  24.000 instances.

La description des variables est la suivante :

  • ID : identification de la ligne (ce n’est donc pas une variable ! Elle se trouve en première colonne du fichier)
  • La variable à prédire (Y = « DEF ») est une variable binaire qui correspond à un défaut de paiement (Oui = 1, Non = 0) ; elle se trouve en dernière colonne du fichier
  • Les variables explicatives (X = … ) sont les suivantes: 
    • X1 = « LIMIT_BAL »: montant du crédit donné (dollar NT): il comprend à la fois le crédit à la consommation individuel et le crédit supplémentaire à la famille.
    • X2 = « SEX » : sexe (1 = homme; 2 = femme).
    • X3 = « EDUCATION » : niveau d’éducation (1 = école supérieure; 2 = université; 3 = lycée; 4,5 …= autres).
    • X4 = « MARRIAGE »: Etat civil (1 = marié; 2 = célibataire; 3 = autres).
    • X5 = « AGE »: Age (année).
    • X6 – X11 = « PAY_1 … PAY_6 » : Historique des paiements passés. Nous avons suivi les enregistrements de paiement mensuel passés (d’avril à septembre 2005) comme suit:
      • X6 = l’état du remboursement en septembre 2005;
      • X7 = état de remboursement en août 2005;
      • . . .;
      • X11 = état de remboursement en avril 2005. L’échelle de mesure de l’état de remboursement est:  -2 : non utilisation du crédit ; -1 = payé dûment; 0 = paiement fin de mois en cours ; 1 = délai de paiement d’un mois; 2 = délai de paiement de deux mois; . . . 8 = délai de paiement de huit mois; 9 = retard de paiement de neuf mois et plus.
    • X12-X17 = «BILL_AMT1 …BILL_AMT_6 »: montant du relevé de facture (dollar NT).
      • X12 = montant du relevé de facture en septembre 2005;
      • X13 = montant du relevé de facture en août 2005; . . .
      • X17 = montant du relevé de facture en avril 2005.
    • X18-X23 = « PAY_AMT1 … PAY_AMT6 »: Montant du paiement précédent (dollar NT).
      • X18 = montant payé en septembre 2005;
      • X19 = montant payé en août 2005;
      •  . . .;
      • X23 = montant versé en avril 2005.

Fichiers

Les fichiers suivants sont remis aux candidats :

  • le fichier d’entrainement : training
    • comportant 24000 lignes, qui correspondent à l’historique de 24000 personnes débouchant ou non sur un défaut de paiement
    • comportant les colonnes : ID, X…, DEF
    • à partir duquel il faudra concevoir un modèle de prédiction f des défauts de paiement :  DEF = f(X…)
  • un fichier de test vierge : test
    • comportant 6000 lignes, correspondant à l’historique de 6000 autres personnes dont il faut « deviner » s’ils ont subi un défaut de paiement ou non.
    • comportant les colonnes : ID, X… mais aucune information dans une colonne DEF
  • un fichier de soumission qui devra être complété : soumission
    • comportant 6000 lignes avec les mêmes ID dans le même ordre que le fichier test
    • comportant 2 colonnes (ID et DEF), la colonne DEF étant vierge.
    • L’objectif est de livrer le fichier en ayant renseigné la colonne DEF (à savoir : défaut de paiement : 1 ou non : 0 pour les 6000 ID)

Livrables

A la fin de l’étape d’entraînement, les candidats soumettent leurs résultats (avant le 22 octobre à 20 heures)

Les contributions des participants doivent être déposées directement sur le formulaire en ligne du site de Management & Data Science, dans l’onglet contribution du menu latéral de la page du challenge.

Il s’agit d’une note concise décrivant :

    • La méthode et les étapes utilisées pour produire la soumission (outils utilisés, transformation des données, algorithmes utilisés)
    • Une analyse des données et des résultats
    • Des idées d’analyses ou de travaux complémentaires qui auraient pu être effectués si l’on avait disposé de plus de temps
    • Une conclusion rapide

En plus, les participants doivent rajouter, en pièce jointe, le fichier soumission avec les prévisions définitives (format .csv, UTF8, séparateur virgule, noms des colonnes : ID et DEF, dans le même ordre d’ID que le fichier test).

Évaluation

  • Critère principal d’évaluation ( 50 %)

A partir du fichier soumission  où les candidats auront remplacé les valeurs vierges par leurs prédictions (fichier qui contient l’identifiant de la transaction et la variable à prédire), les soumissions sont comparées aux valeurs réelles.

Plus les soumissions sont précises, plus les candidats obtiennent un score élevé.

La métrique d’évaluation principale sera l’accuracy : nombre de prédictions justes rapporté au nombre de cas de test (ici 6000) dans le jeu de test.

La précision sur les défauts de paiement permettra d’affiner l’évaluation : celle-ci est le nombre de défauts de paiement prédits correctement rapporté au nombre total de défauts proposés dans le jeu de données de test.

Une péréquation est ensuite réalisée pour obtenir un score et réaliser le classement du challenge entre les équipes.

  • Critère de notation complémentaire par rapport à la soumission ( 20 %)

La qualité du document d’accompagnement de la soumission sera évaluée suivant les critères suivants :

    • Mise en évidence que la méthode utilisée a été comprise
    • « Traçabilité » des étapes de la méthode utilisée :
      • Hypothèses et essais effectués, réorientation des travaux, tactiques et stratégies …
      • Etapes de traitement des données
      • Paramétrage de l’outil (et/ou des algorithmes)
    • Interprétation des résultats
    • Pertinence des perspectives futures proposées dans le document
  • Présentation finale (30 %)

A l’issue des soumissions, les équipes effectueront une présentation devant un jury pendant 8 minutes  (le « pitch »).

Les équipes ont le choix entre deux types de présentation : (a) présentation de leurs résultats ou (b) présentation d’un sujet de leur choix, connexe au chalenge et qui valorisera leur capacité d’analyse.

Les critères d’évaluation du pitch seront les critères ci-après.

  • Critères spécifiques au cas (a) – présentation des résultats :
    • pertinence de la méthode,
    • qualité d’interprétation des résultats.
  • Critères spécifiques au cas (b) – sujet au choix :
    • pertinence du sujet par rapport aux thèmes connexes au challenge (traitement massif de données, data science, intelligence artificielle : appliqués à la banque, aux finances, à l’assurance, aux risques ou aux fraudes).
    • Originalité du sujet ou complexité technique du sujet (difficulté informatique ou scientifique ou bancaire ou importance stratégique du sujet en finance)
  • Critères communs :
    • Qualité de l’introduction (concise, claire, attractive)
    • Qualité du développement (rigueur, qualité des illustrations, clarté des explications)
    • Qualité de la conclusion (concise, se rapportant clairement au problème posé, ouvrant des perspectives futures)
    • Qualité de la présentation : tenu du délai de 8 min, rythme général, passage de parole harmonieux entre les membres du groupe, attractivité de la présentation.

Le jury désignera le groupe vainqueur en fonction du classement au challenge, de la pertinence de la démarche et de la qualité de la présentation orale.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.