• Résumé

    A partir des données d'une banque internationale implantée à Paris (France), vous devrez identifier les clients qui auront des défauts de paiement de cartes de crédit et proposer une solution commerciale.

    Citation : Mamavi, O. (Mar 2024). Analyser les défauts de paiement de cartes de crédit #3. https://management-datascience.org/projects/27835/.
    L'auteur : 
    • Olivier Mamavi
       (omamavi@gmail.com) - Paris School of Business  - ORCID : https://orcid.org/0000-0002-6421-1048
    Copyright : © 2024 l'auteur. Publication sous licence Creative Commons CC BY-ND.
    Liens d'intérêts : Le ou les auteurs déclarent ne pas avoir connaissance de conflit d'intérêts impliqués par l'écriture de cet article.
    Financement : Le ou les auteurs déclarent ne pas avoir bénéficié de financement pour le travail mis en jeu par cet article.
    Objectifs

    Contexte

    En France comme à l’étranger, de plus en plus de consommateurs ont pris l’habitude d’utiliser des cartes de crédit pour effectuer leurs achats de consommation ou d’équipements. Les principaux établissements financiers l’ont bien compris puisque la concurrence entre eux passe notamment par l’augmentation du nombre de détenteurs de cartes bancaires, associées à une ligne de crédit revolving. Mais avec la crise, le taux de défaut sur les encours de prêts sur ces cartes de crédit a fortement augmenté.

    Mission

    Dans un système financier performant, le profilage des bons clients et la prévision du risque sont des éléments essentiels du bon fonctionnement des établissements bancaires.

    Votre mission consiste à :

    1. expliquer les causes des défauts de paiement de cartes de crédit.
    2. prédire les clients qui auront des défauts de paiement de cartes de crédit.
    3. regrouper les clients de la banque en 3 segments pertinents (clustering) avec les personas
    4. proposer pour chacun des segments une offre commerciale afin d’éviter les défauts bancaires des clients.

    Livrables

    Les candidats devront soumette sur la plateforme les 3 livrables suivants :

    1. le fichier soumission avec les prévisions définitives
    2. le script (en R ou Python) de votre programme commenté
    3. l’article qui présente votre segmentation et vos préconisations

    L’article (entre 1000 et 2 000 mots) devra respecter les consignes de rédaction de la revue Management & Datascience et comprendre :

    • une introduction qui rappelle la mission
    • une définition du clustering et ses principes
    • la démarche méthodologique appliquée et les algorithmes utilisés
    • les principaux résultats de la segmentation
    Segment Description (taille, …) Profil des clients
    • Les préconisations de l’offre commerciale pour chaque segment
    Segment Offre commerciale
    • une conclusion qui montre l’intérêt de votre contribution

     

    Modalités

    Évaluation

    1) les prévisions

    A partir du fichier soumission où les candidats auront remplacé les valeurs vierges par leurs prédictions (fichier qui contient l’identifiant de la transaction et la variable à prédire), les soumissions sont comparées aux valeurs réelles.

    Plus les soumissions sont précises, plus les candidats obtiennent un score élevé.

    La métrique d’évaluation principale sera l’exactitude (accuracy), c’est-à-dire le nombre de prédictions justes rapporté au nombre de cas de test dans le jeu de test.

    La précision sur les défauts de paiement permettra d’affiner l’évaluation : celle-ci est le nombre de défauts de paiement prédits correctement rapporté au nombre total de défauts proposés dans le jeu de données de test.

    Une péréquation est ensuite réalisée pour obtenir un score et réaliser le classement du challenge entre les équipes.

    2) Le script

    La qualité du document d’accompagnement de la soumission sera évaluée suivant les critères suivants

    • Clarté et explication du script
    • Mise en évidence de la démarche
    • Reproductibilité de l’analyse
    • Interprétation des résultats
    • Pertinence des préconisations proposées

    3) L’article

    Les articles seront évalués selon les 4 critères suivant :

    1. La pertinence: dans quelle mesure le Livrable répond à la mission ? (taille et homogénéité des segments proposés, estimation de la valeur potentielle du client, qualité du ciblage)
    2. La rigueur : les résultats proposés sont-ils valides ? (robustesse de la démarche)
    3. L’impact : quelle est la valeur de la contribution ? (augmentation des dépenses moyennes de la base client actuelle, pertinence du nouveau service de mobilité proposé)
    4. La clarté : la solution proposée est-elle intelligible, originale et facilement applicable ? (respect des consignes de rédaction, styles, illustrations, références)
    Données

    Description

    Les candidats ont accès à un jeu de données comprenant 24 attributs et  24.000 instances.

    La description des variables est la suivante :

    • ID : identification de la ligne (ce n’est donc pas une variable ! Elle se trouve en première colonne du fichier)
    • La variable à prédire (Y = « DEF ») est une variable binaire qui correspond à un défaut de paiement (Oui = 1, Non = 0) ; elle se trouve en dernière colonne du fichier
    • Les variables explicatives (X = … ) sont les suivantes:
      • X1 = « LIMIT_BAL »: montant du crédit donné (euros): il comprend à la fois le crédit à la consommation individuel et le crédit supplémentaire à la famille.
      • X2 = « SEX » : sexe (1 = homme; 2 = femme).
      • X3 = « EDUCATION » : niveau d’éducation (1 = école supérieure; 2 = université; 3 = lycée; 4,5 …= autres).
      • X4 = « MARRIAGE »: Etat civil (1 = marié; 2 = célibataire; 3 = autres).
      • X5 = « AGE »: Age (année).
      • X6 – X11 = « PAY_1 … PAY_6 » : Historique des paiements passés. Nous avons suivi les enregistrements de paiement mensuel passés (d’avril à septembre 2005) comme suit:
        • X6 = l’état du remboursement en septembre 2005;
        • X7 = état de remboursement en août 2005;
        • . . .;
        • X11 = état de remboursement en avril 2005. L’échelle de mesure de l’état de remboursement est:  -2 : non utilisation du crédit ; -1 = payé dûment; 0 = paiement fin de mois en cours ; 1 = délai de paiement d’un mois; 2 = délai de paiement de deux mois; . . . 8 = délai de paiement de huit mois; 9 = retard de paiement de neuf mois et plus.
      • X12-X17 = «BILL_AMT1 …BILL_AMT_6 »: montant du relevé de facture (euros).
        • X12 = montant du relevé de facture en septembre 2005;
        • X13 = montant du relevé de facture en août 2005; . . .
        • X17 = montant du relevé de facture en avril 2005.
      • X18-X23 = « PAY_AMT1 … PAY_AMT6 »: Montant du paiement précédent (euros).
        • X18 = montant payé en septembre 2005;
        • X19 = montant payé en août 2005;
        •  . . .;
        • X23 = montant versé en avril 2005.

    Fichiers

    Les candidats ont accès aux fichiers suivants :

    • le fichier d’entrainement : Téléchargement
      • comportant 24000 lignes, qui correspondent à l’historique de 24000 personnes débouchant ou non sur un défaut de paiement
      • comportant les colonnes : ID, X…, DEF
      • à partir duquel il faudra concevoir un modèle de prédiction f des défauts de paiement :  DEF = f(X…)
    • le fichier d’évaluation vierge : Téléchargement
      • comportant 6000 lignes, correspondant à l’historique de 6000 autres personnes dont il faut « deviner » s’ils ont subi un défaut de paiement ou non.
      • comportant les colonnes : ID, X… mais aucune information dans une colonne DEF
      • L’objectif est de livrer le fichier en ayant renseigné la colonne DEF (à savoir : défaut de paiement : 1 ou non : 0 pour les 6000 ID)
    • Service Externe
      BigML : Plateforme de Machine Learning sans programmation
  • 41 contributeurs  |  6 contributions envoyées