Citer
Imprimer
Partager

Comment une banque peut anticiper le défaut de paiement?

  • Résumé
    Les français utilisent de plus en plus les cartes de crédit. En octroyant ce type de service aux particuliers, les banques s’exposent à un risque de non-remboursement. Le data challenge édité par la plateforme Management & Data Science a eu pour objet d'aider une banque à répondre à la question suivante : comment anticiper les profils ayant le plus de probabilités de faire un défaut de paiement ?  Nous avons mobilisé un outil de machine learning (BigML) pour répondre à cette problématique.
    Citation : Hernandez, L., & Paez, E. (Mai 2020). Comment une banque peut anticiper le défaut de paiement?. Management et Datascience, 4(4). https://management-datascience.org/articles/13496/.
    Les auteurs : 
    • Lucie Hernandez
      - ICD Business School Toulouse
    • Esther Paez
      - ICD Business School Toulouse
    Copyright : © 2020 les auteurs. Publication sous licence Creative Commons CC BY-ND.
    Liens d'intérêts : 
    Financement : 
    Texte complet

    Introduction

    Dans le cadre d’un Data Challenge, nous avons été sollicitées afin de développer un modèle de prédiction de  défauts de paiement de carte de crédit pour une banque internationale.

    En effet, les paiements par carte bancaire à crédit sont de plus en plus fréquents en France. Ces cartes donnent accès à des sommes d’argent remboursables en plusieurs mensualités et permettant d’acheter plusieurs biens différents. Certaines options de remboursement permettent même de payer en différé les biens consommés. Ces offres séduisent un grand nombre de consommateurs, seulement, les risques d’endettement et d’impayés sont élevés.

    Les banques cherchent donc à éviter les mauvais payeurs afin d’optimiser leur business model. Pour éviter les défauts de paiement, elles doivent avoir une bonne maîtrise des profils des clients dits “à risque”.

    Notre mission a donc été de réaliser une étude de profilage en analysant une base de donnée de clients existants afin d’en déduire un algorithme capable de détecter les profils à risque. C’est grâce à la data science que nous avons tenté d’identifier les clients susceptibles d’avoir des défauts de paiement sur une base de données de 6000 profils.

    Pour illustrer notre démarche nous vous proposons une présentation des différentes étapes de notre démarche :

    • Présentation de la méthode
    • Analyse de nos résultats
    • Préconisations
    • Conclusion sur les bénéfices de la Data science dans le secteur bancaire

    Méthodes

    Afin de prévoir les clients avec un défaut de paiement, nous avons suivi différentes étapes et nous avons utilisé l’outil BigML, logiciel de Machine Learning accessible gratuitement  en ligne.

    Données

    Le jeu de données d’entraînement comprend 24 attributs et 24000 instances et présente des données de clients d’une banque ayant ou non des défauts de paiement. Le jeu de données comprenant les données clients et les défauts de paiement à prédire comporte 24 attributs et 6000 instances.

    Les attributs des deux fichiers comprennent diverses données qualitatives et quantitatives : l’ID répondant, l’âge,  le statut marital, le sexe, l’éducation, les montants de crédits (PAY), les montants de relevés de facture (BILL_AMT) et les montants des paiements précédents (PAY_AMT).

     Choix des typologies de variables

     Afin de débuter notre analyse de la manière la plus précise possible, nous avons procédé à une transformation des données. Tout d’abord, afin d’être bien reconnues et bien utilisées par les logiciels, ces données doivent être classées par typologie. Nous avons donc choisi d’appliquer des types à nos données.

    Ainsi, les données d’âge, de montants de crédits, les montants de relevés de facture et les montants des paiements précédents ont été classés comme données dites “numériques”. L’historique des paiements, le statut marital, le sexe, l’éducation, ont été classés comme “catégories” car ces données ne donnaient pas un nombre précis mais bien un classement des données dans diverses catégories.

    Nettoyage des données

    Par la suite, il a été important de nettoyer notre base de données. En effet, suite à des études préliminaires de ces données sur le logiciel Microsoft Excel, nous avons pu remarquer quelques données “aberrantes” qui auraient pu fausser notre modèle. Si nous prenons les exemples de l’attribut LIMIT_BAL, qui correspond au montant du crédit, nous avons remarqué qu’entre le montant 520 000 et le montant maximum 1 000 000, très peu d’instances étaient présentes. En effet, en gardant les données telles quelles dans notre étude, nous aurions pu fausser notre modèle car le logiciel aurait développé des réponses sur un nombre d’instances trop faibles. Nous avons donc choisi de réduire la variable LIMIT_BAL à un maximum de 520 000.

    Nous avons procédé de la même manière pour l’âge, en le réduisant de 22 à 60 ans et sur l’éducation, en ne gardant que les catégories 1, 2 et 3.

    Etude des variables

    Afin de trouver notre modèle final, nous avons débuté par une transformation de notre base de données en jeu de données pour pouvoir exploiter les informations.

    Nous avons ensuite étudié les différents liens entre les variables proposées grâce à l’outil de scatterplot de BigML. Nous avons alors pu faire une première sélection de variables qui semblaient significatives. Pour confirmer cette sélection, nous avons créé un premier arbre de décision sans toucher aux variables afin de confirmer les variables significatives pour le modèle dans le model summary report. Les variables correspondant à celles de l’outil scatterplot, nous avons procédé à une première sélection des 10 plus importantes.

    Nous avons recréé divers modèles en jouant avec ces variables afin d’obtenir les pourcentages les plus élevés en accuracy et précision.

    Pour étudier nos modèles, nous avons procédé à une séparation des données en 80/20.  80% des 24000 instances servent à entraîner la machine à trouver le meilleur modèle. Le modèle est ensuite testé sur 20% des données des 24000 instances afin de voir s’il fonctionne bien ou non.

    Filtrage des variables

    Afin d’affiner encore plus notre création de modèle, nous avons choisi de filtrer nos variables en ne gardant que les instances significatives importantes par catégorie ou tranche numérique (plus de 1000 instances). Après plusieurs essais, nous avons remarqué que ces filtres avaient un impact négatif sur nos pourcentages d’accuracy et précision. Nous avons donc décidé de repartir sur notre jeu de donnée initial sans tenir compte de ce dernier filtre.

     Modélisation

    Enfin, pour trouver notre modèle final, nous avons éliminé petit à petit chaque variable dans les 10 plus importantes sélectionnées plus tôt, en partant de la moins significatives aux plus significatives. Ainsi, nous avons pu atteindre un score maximum de 82% d’accuracy et de 76,7% de précision en ne conservant que deux variables : PAY 1 et PAY 2.

    Les données et modèles utilisés ont toujours été évalués grâce à un entraînement des données sur 19200 instances et un test des modèles sur 4800 instances. Notre modèle final est donc un arbre de décision basé sur 2 variables.

    Résultats

    Après notre présentation de la méthode et des outils employés, il convient de présenter les résultats de notre étude.

    Impact des variables

    Tout d’abord, il semble intéressant d’analyser notre summary report de notre arbre de décision initial créé à partir de toutes les variables du jeu de données :

     

    Ce premier modèle nous a permis de connaître les variables représentatives et leur degré d’importance dans le modèle. A partir de cette analyse nous avons conservé les 10 premières variables représentées sur le schéma ci-dessus.

    A partir de ce groupe de variables nous avons testé différents modèles en retirant au fur et à mesure des variables en partant des moins significatives aux plus significatives. De la sorte nous avons petit à petit augmenté l’accuracy et la précision de notre modèle pour terminer avec deux variables à 82% d’accuracy et 76,7% de précision.

    Modèle final

    Ce modèle ne comporte que deux variables, PAY_2 et PAY_1 qui représentent l’historique des paiements passés.

    Le modèle final est un arbre de décision (voir image ci-dessous) assez succinct.

    Ce nouvel arbre de décision réduit à ensuite été analysé grâce à l’outil summary report qui permet de visualiser le niveau d’influence des variables du modèle.

     

    Etudes des variables du modèles

     Les variables de notre modèle sont PAY_1 et PAY_2 et représentent l’historique des paiements.

    • PAY_1 représente l’état de remboursement au mois de Septembre 2005.
    • PAY_2 représente l’état de remboursement au mois d’Août 2005.

    Ces deux variables permettent donc (à 82% d’accuracy) de prédire les clients à défauts de paiements. Ce sont les variables qui sont ressorties comme les plus significatives lors de la création de notre modèle de prédiction via l’utilisation de l’arbre de prédiction.

    On observe que la variable la plus impactante du modèle est la variable PAY_2, à 65,44%. Dans la partie suivante nous détaillerons les profils clients susceptibles d’être en défaut de paiement en se basant sur les résultats de ce modèle.

    Évaluation du modèle

    Grâce à l’outil d’évaluation du logiciel BigML et grâce à une méthode d’échantillonnage (en 80% training et 20% test) de notre panel initial nous avons pu tester notre modèle sur un panel représentant 20% des 24000 répondants. Cette analyse nous a permis de constater que notre modèle est précis à 76,7% et obtient une accuracy de 82%.

    Limites des résultats et de l’étude

    Notre modèle final n’est basé uniquement sur deux variables et nous donne une accuracy de 82%. Nos premiers modèles à 10 variables étaient pourtant déjà à 81,8% d’accuracy. Il nous semble curieux que l’analyse soit plus précise en ne se basant uniquement que sur deux variables. Nous nous sommes questionnées sur ce point mais avons fait confiance à la machine après avoir vérifié plusieurs fois notre démarche. Notre précision globale est aussi plus importante mais il est vrai que se baser uniquement sur 2 variables pour une prédiction semble limité.

    Par ailleurs, notre modèle ne donnant qu’une accuracy de  82% ne permet pas d’identifier 100% des mauvais payeurs mais de s’en rapprocher fortement.

    Enfin, notre algorithme ne portant que sur des variables liées aux historiques des paiements, il ne permet pas d’analyser le profil de potentiels clients n’ayant jamais eu recours à un crédit bancaire.  Le risque pour les banques est donc limité mais toujours présent.

     Préconisations

    Voici différents profils clients ayant des risques de défauts de paiements, classés du plus probable au moins probable:

    • PROFIL 1 (9,01% des instances) : client ayant un délai de paiement de deux mois en septembre 2005
    • PROFIL 2 (8,58% des instances): client ayant un délai de paiement de deux mois en septembre 2015 et un crédit payé dûment en Août 2005
    • PROFIL 3 (8,37% des instances) : client ayant un délai de paiement de deux mois en septembre 2015 / et un crédit payé dûment en Août 2005 ou un délai de paiement de trois mois.
    • PROFIL 4 (8,33% des instances) : client ayant un délai de paiement de deux mois en septembre 2015  / et un crédit payé dûment en Août 2005 ou un délai de paiement de trois mois ou un délai de quatre mois
    • PROFIL 5 (5,37% des instances) : client ayant un délai de paiement de deux mois en septembre 2015 / et un crédit payé dûment en Août 2005 ou un délai de paiement de trois mois ou un délai de quatre mois ou un paiement fin de mois en cours
    • PROFIL 6 (2,96% des instances) : client ayant un délai de paiement de deux mois en septembre 2015  / et un paiement fin de mois en cours en Août 2005

    La banque pourra alors prendre en compte ces différents profils et refuser les crédits au personnes rentrant dans ces critères afin d’éviter des profils sujets aux défauts de paiement.

    La banque se doit d’intégrer la pratique de la datascience à sa procédure d’analyse des dossiers clients en procédant à des analyses régulières de profilage client.

    Si la banque procède à ces analyses régulières, elle pourra considérablement réduire ses risques de défauts de paiement.

    Conclusion

    L’utilisation de la data science dans le secteur bancaire est un outil précieux qui permet de prédire le comportement des clients et de pouvoir adapter les décisions stratégiques en fonctions du stockage, de l’analyse et de la valorisation des données consommateurs.

    En effet, à partir de l’étude des comportements d’un panel de clients et au moyen de statistiques, les banques sont en mesure de prédire le comportement de leurs nouveaux clients et en fonction d’adapter les offres qu’ils leurs proposent. Dans le cas de la prédiction des défauts de paiement, la data science est un enjeu majeur puisqu’une anticipation des mauvais payeurs va réellement permettre de pérenniser la santé financière des banques.

    Dans le cadre de notre étude, l’analyse des données nous a permis de connaître les profils clients et de repérer les variables ayant un impact significatif sur les défauts de paiement. L’algorithme obtenu va alors permettre dans le futur, de pouvoir éviter les profils à risque et d’aider à la prise de décision lors de l’étude d’un dossier client. Le scan client doit alors devenir automatique afin de prévenir les défauts de paiement.

    La data science est utilisée dans de nombreux secteurs et à différentes fins comme la fidélisation client, la recommandation de produits, la prévision d’achat, l’optimisation des prix de vente, etc. Les banques ont tout intérêt à intégrer la datascience dans leur pratiques afin d’optimiser leurs offre de services, leurs résultats généraux et leur prise de décisions.

     

    Crédits

    Crédit Photo : https://planthide.com/

  • Évaluation globale
    (Pas d'évaluation)

    (Il n'y a pas encore d'évaluation.)

    (Il n'y a pas encore de commentaire.)

    • Aucune ressource disponible.
    © 2024 - Management & Data Science. All rights reserved.