Prévoir les défauts de paiement de cartes de crédit #2

Modalités

Livrables

Pour participer au challenge, chaque candidat doit s’inscrire au préalable sur le site web de Management & Data Science, en indiquant un prénom, un nom, une adresse email et une institution d’affiliation (université, école de commerce, entreprise, etc.).

A la fin de l’étape d’entraînement, les candidats soumettent leurs résultats.

La première soumission comportera :

les noms, prénoms et affiliation de chaque membre du groupe
en pièce jointe, le fichier soumission avec les prévisions définitives (format .csv, UTF8, séparateur virgule, noms des colonnes).

La deuxième soumission comportera :

les noms, prénoms et affiliation de chaque membre du groupe
en pièce jointe, le script (en R ou Python) de votre programme commenté

Votre script doit être organisé de la façon suivante :

introduction
- objectifs
- présentation des outils et librairies utilisés
description
- importation des librairies
- importation des données
- tableau de présentation des données (nom des variables, typologie : quanti / quali, variable à prédire)
- tableau de synthèse des statistiques descriptives des variables quantitatives (effectif, moyenne, écart-type, étendue)
- tableau de synthèse des statistiques descriptives des variables qualitatives (fréquences)
exploration
- matrice de corrélation des variables quantitatives et heatmap
- comparer les variables qualitatives (test de khi)
- comparer des variables qualitatives et quantitatives (ANOVA)
préparation
- transformation des données
- échantillonnage (entraînement / évaluation)
- réduction des dimensions (PCA)
prédiction
- modèle d’arbre de décision
- modèle de forêt d’arbres
- modèle de régression logistique
- autres modèles
évaluation
- l’exactitude (accuracy)
- la précision
- analyse de la performance des différents modèles sous la forme d’un tableau de benchmark
profilage
- clustering selon le modèle k-means (avec k=3)
- typologie des clients
préconisations
- analyse de l’impact des différentes variables explicatives sur la variable à expliquer
- recommandations managériales et offres commerciales
conclusion
- contributions et apports
- limites et perspectives

Évaluation

1) les prévisions

A partir du fichier soumission où les candidats auront remplacé les valeurs vierges par leurs prédictions (fichier qui contient l’identifiant de la transaction et la variable à prédire), les soumissions sont comparées aux valeurs réelles.

Plus les soumissions sont précises, plus les candidats obtiennent un score élevé.

La métrique d’évaluation principale sera l’exactitude (accuracy), c’est-à-dire le nombre de prédictions justes rapporté au nombre de cas de test dans le jeu de test.

La précision sur les défauts de paiement permettra d’affiner l’évaluation : celle-ci est le nombre de défauts de paiement prédits correctement rapporté au nombre total de défauts proposés dans le jeu de données de test.

Une péréquation est ensuite réalisée pour obtenir un score et réaliser le classement du challenge entre les équipes.

2) Le script

La qualité du document d’accompagnement de la soumission sera évaluée suivant les critères suivants

Clarté et explication du script
Mise en évidence de la démarche
Reproductibilité de l’analyse
Interprétation des résultats
Pertinence des préconisations proposées

Données

Description

Les candidats ont accès à un jeu de données comprenant 24 attributs et 24.000 instances.

La description des variables est la suivante :

ID : identification de la ligne (ce n’est donc pas une variable ! Elle se trouve en première colonne du fichier)
La variable à prédire (Y = « DEF ») est une variable binaire qui correspond à un défaut de paiement (Oui = 1, Non = 0) ; elle se trouve en dernière colonne du fichier
Les variables explicatives (X = … ) sont les suivantes:

- X1 = « LIMIT_BAL »: montant du crédit donné (euros): il comprend à la fois le crédit à la consommation individuel et le crédit supplémentaire à la famille.
- X2 = « SEX » : sexe (1 = homme; 2 = femme).
- X3 = « EDUCATION » : niveau d’éducation (1 = école supérieure; 2 = université; 3 = lycée; 4,5 …= autres).
- X4 = « MARRIAGE »: Etat civil (1 = marié; 2 = célibataire; 3 = autres).
- X5 = « AGE »: Age (année).
- X6 – X11 = « PAY_1 … PAY_6 » : Historique des paiements passés. Nous avons suivi les enregistrements de paiement mensuel passés (d’avril à septembre 2005) comme suit:
  - X6 = l’état du remboursement en septembre 2005;
  - X7 = état de remboursement en août 2005;
  - . . .;
  - X11 = état de remboursement en avril 2005. L’échelle de mesure de l’état de remboursement est: -2 : non utilisation du crédit ; -1 = payé dûment; 0 = paiement fin de mois en cours ; 1 = délai de paiement d’un mois; 2 = délai de paiement de deux mois; . . . 8 = délai de paiement de huit mois; 9 = retard de paiement de neuf mois et plus.
- X12-X17 = «BILL_AMT1 …BILL_AMT_6 »: montant du relevé de facture (euros).
  - X12 = montant du relevé de facture en septembre 2005;
  - X13 = montant du relevé de facture en août 2005; . . .
  - X17 = montant du relevé de facture en avril 2005.
- X18-X23 = « PAY_AMT1 … PAY_AMT6 »: Montant du paiement précédent (euros).
  - X18 = montant payé en septembre 2005;
  - X19 = montant payé en août 2005;
  - . . .;
  - X23 = montant versé en avril 2005.

Fichiers

Les candidats ont accès aux fichiers suivants :

le fichier d’entrainement : Téléchargement
- comportant 24000 lignes, qui correspondent à l’historique de 24000 personnes débouchant ou non sur un défaut de paiement
- comportant les colonnes : ID, X…, DEF
- à partir duquel il faudra concevoir un modèle de prédiction f des défauts de paiement : DEF = f(X…)

le fichier d’évaluation vierge : Téléchargement
- comportant 6000 lignes, correspondant à l’historique de 6000 autres personnes dont il faut « deviner » s’ils ont subi un défaut de paiement ou non.
- comportant les colonnes : ID, X… mais aucune information dans une colonne DEF

le fichier de soumission qui devra être complété : Téléchargement
- comportant 6000 lignes avec les mêmes ID dans le même ordre que le fichier test
- comportant 2 colonnes (ID et DEF), la colonne DEF étant vierge.
- L’objectif est de livrer le fichier en ayant renseigné la colonne DEF (à savoir : défaut de paiement : 1 ou non : 0 pour les 6000 ID)

Prévoir les défauts de paiement de cartes de crédit #2

Prévoir les défauts de paiement de cartes de crédit #2

Déroulement

Citation

L'auteur

Olivier Mamavi

Copyright

Déclaration d'intérêts

Financements

Aperçu

Contenu

Contexte

Mission

Livrables

Évaluation

1) les prévisions

2) Le script

Description

Fichiers

Date de publication

Catégorie

ORCID

Affiliation

Contributeurs

Contributions créées

Contributions envoyées

Prévoir les défauts de paiement de cartes de crédit #2

Déroulement

Déroulement

Citation

Citation

L'auteur

L'auteur

Olivier Mamavi

Copyright

Copyright

Déclaration d'intérêts

Déclaration d'intérêts

Financements

Financements

Aperçu

Aperçu

Contenu

Contenu

Contexte

Mission

Livrables

Évaluation

1) les prévisions

2) Le script

Description

Fichiers

Métriques

Métadonnées

Date de publication

Catégorie

Organisateur(s)

Paris School of Business

ORCID

Affiliation

Outils (1)

Cours (2)

Total

Contributeurs

Contributions créées

Contributions envoyées

Contributions retenues