• Résumé

    En vous appuyant sur une méthode agile, votre mission consiste à organiser la qualité des données d’une marketplace d'e-commerce à partir de la plateforme de gouvernance de données Openmetadata.

    Citation : Mamavi, O. (Sep 2023). Organiser la qualité des données d’une marketplace d’e-commerce. https://management-datascience.org/projects/25002/.
    L'auteur : 
    • Olivier Mamavi
       (omamavi@gmail.com) - Paris School of Business  - ORCID : https://orcid.org/0000-0002-6421-1048
    Copyright : © 2023 l'auteur. Publication sous licence Creative Commons CC BY-ND.
    Liens d'intérêts : Le ou les auteurs déclarent ne pas avoir connaissance de conflit d'intérêts impliqués par l'écriture de cet article.
    Financement : Le ou les auteurs déclarent ne pas avoir bénéficié de financement pour le travail mis en jeu par cet article.
    Objectifs

    Contexte

    La qualité des données joue un rôle crucial dans la réussite de la transformation digitale d’une entreprise. C’est pourquoi une gouvernance des données solide met l’accent sur l’amélioration continue de la qualité des données en établissant des normes, des processus, des contrôles et des responsabilités pour surveiller, mesurer et améliorer la qualité des données au fil du temps. Une qualité de données élevée est fondamentale pour assurer la pertinence et la fiabilité des informations utilisées nécessaire à la prise de décisions.

    Mission

    Votre mission consiste à organiser la qualité des données d’une marketplace d’e-commerce à partir de la plateforme de gouvernance de données Openmetadata.

    Objectifs

    Les objectifs du projet sont les suivants :

    • LIVRABLE 1 : Le cahier des charges de la solution de qualité de données 
      • Identifier les bonnes pratiques de gestion de qualité des données
      • Concevez un carnet de produit (Backlog)
        • Définir des cas d’usage d’une solution de qualité de données (Userstories)
        • Décrire chaque fonctionnalité avec une estimation et une priorité
        • Définir la liste des fonctionnalités principales d’une solution de data quality.
    • LIVRABLE 2 : Le référentiel des données de la plateforme 
      • Construire un glossaire de l’activité de la plateforme
        • Présenter les parties prenantes de la plateforme
        • Présenter les tables de la base données
      • Définir le dictionnaire des données :
        • Inventorier les données (catalogue).
        • Localiser les données (cartographie).
    • LIVRABLE 3 : L’évaluation de la qualité des données 
      • Définir des indicateurs de qualité :
        • Identifier des KPI pour suivre la qualité des données au fil du temps.
      • Analyser les données :
        • Effectuez une analyse initiale des données pour identifier les lacunes, les incohérences et les erreurs.
        • Utilisez des outils d’analyse des données pour créer des profils de données détaillés, y compris des statistiques de qualité.
      • Contrôler la qualité des données :
        • Identifiez les problèmes de qualité de données spécifiques et priorisez-les en fonction de leur impact sur les objectifs du projet.
        • Standardisez les données en utilisant des formats cohérents et des référentiels si nécessaire.
        • Établissez des contrôles de qualité pour surveiller en continu la qualité des données.
    • LIVRABLE 4 : La gestion de la qualité de données 
      • Déployer votre solution de qualité de données sur la plateforme Openmetadata :
        • Identifiez les opportunités d’optimisation des processus de gestion des données.
        • Ajoutez des données manquantes ou améliorez la qualité des données existantes si nécessaire.
        • Définir les rôles et droits d’accès.
      • Clôturer le projet :
        • Évaluez le projet (Burndown chart),
        • Assurez-vous que les objectifs ont été atteints, et envisagez les prochaines étapes pour maintenir et améliorer la qualité des données.
      • Présenter votre solution :
        • Rédigez un article de synthèse sur la performance de l’amélioration des données
        • Communiquez les résultats aux parties prenantes.
    Modalités

    Démarche

    Le projet se déroulera selon la méthode agile SCRUM. Cette approche agile permet d’obtenir des résultats tangibles à chaque sprint tout en adaptant le projet en fonction des découvertes et des besoins changeants au fil du temps.

    Pour réussir la mission selon une approche agile, il faudra :

    • S’approprier le projet : Assemblez une équipe multidisciplinaire comprenant un Product Owner (PO), un Scrum Master (SM), un Data Steward (DS), des Data Analyst (DA).
    • Cadrer le projet : Définissez clairement les objectifs du projet d’amélioration des données, y compris les problèmes spécifiques à résoudre et les résultats attendus.
    • Constituer le périmètre du projet : Identifier les ressources (données, documents,…) et les outils (Trello, Gitea, OpenMetaData,…) pour pouvoir travailler correctement.
    • Planifiez les tâches, les livrables et les activités, en vous concentrant sur la collecte de données existantes et la compréhension des problèmes pour savoir quoi et quand développer durant le projet.
    • Préparer les évènements (cérémonies) :  le sprint meeting planning (planification du sprint), le daily Scrum (mêlée quotidienne), le sprint review (revue de sprint), le sprint retrospective (rétrospective de sprint).

    Livrables

    Vous devez soumettre 4 articles qui présentent les principaux livrables de votre projet. Il s’agit d’articles de 2000 mots maximum qui rendent compte de l’avancement du projet. Chaque article soumis (via la plateforme de Management & Datascience) doit comprendre les éléments suivants :

    • le titre de la contribution (10 mots maximum)
    • un résumé de 100 mots qui précise le contexte, les objectifs, la démarche, les livrables/résultats, l’originalité de la contribution et les mots clés).
    • une introduction présentant le contexte, la mission et les objectifs
    • la démarche et l’environnement du projet,
    • Les résultats obtenus et la présentation des livrables illustrés par des figures, des images, des vidéos ou des tableaux
    • les préconisations et les actions d’amélioration
    • Une conclusion avec un rappel des principales contributions
    • la liste des sources et des références bibliographiques.

    Evaluation

    Chaque article sera évalué selon les 4 critères suivant :

    • La pertinence: dans quelle mesure le livrable répond à la mission ?
    • La reproductibilité : les résultats proposés sont-ils reproductibles ?
    • L’impact : quelle est la valeur de la contribution ?
    • La clarté : la solution proposée est-elle intelligible et originale ?

    Les équipes feront une présentation orale de leurs résultats au jury pendant 10 minutes suivi de 5 minutes de questions. Le jury désignera le groupe vainqueur en fonction de la qualité du livrable et de la présentation orale.

    La meilleure contribution sera publiée dans la revue Management & Datascience.

    Données

    Vous avez accès à un jeu de données provenant de kaggle composé de plusieurs tables. Il s’agit de données commerciales publiques de la plus grande plateforme de e-commerce brésilienne Olist .On y retrouve les données de près de 100 milles commandes effectuées de 2016 à 2018, fragmentées en 8 grandes tables :

    • olist_orders_dataset : qui est la table de base contenant l’identifiant de la commande et du client, ainsi que les étapes de suivis de livraison.Téléchargement
    • olist_order_items_dataset : qui comprend les informations sur les produits achetés dans chaque commande. Téléchargement
    • olist_order_payments_dataset : regroupant les données liées au paiement de la commande.Téléchargement
    • olist_order_reviews_dataset : qui correspond aux données des commentaires et notes associés au traitement de la commande Téléchargement
    • olist_customers_dataset : qui comprend les informations d’identification des clients et leur localisation. Téléchargement
    • olist_geolocation_dataset: qui comprend les coordonnées géographiques (latitude et longitude) correspondant à chaque ville. Ce qui permet de situer les vendeurs et les clients sur une carte.Téléchargement
    • olist_products_dataset : qui correspond aux données détaillées sur le catalogue de produits de la plateforme. Téléchargement
    • olist_sellers_dataset : qui comprends les informations sur les vendeurs agréés de la plateforme. Téléchargement

    Les tables sont liables par les id des différentes entités manipulées suivant le diagramme suivant :

    On retrouve également la table olist_new_sellers_dataset provenant d’un dataset complémentaire ,regroupant les données des nouveaux vendeurs ayant été accrédités pour proposer leurs produits sur la plateforme durant la période de l’enquête. Téléchargement

     

    • Datalab Management & Datascience
      Service d'hébergement de projets Gitea
    • Service Externe
      https://omd.management-datascience.org/
    • Service Externe
      https://discord.gg/KSAEazt5
  • 45 contributeurs  |  11 contributions envoyées