Résumé
En vous appuyant sur une méthode agile, votre mission consiste à organiser la qualité des données d’une marketplace d'e-commerce à partir de la plateforme de gouvernance de données Openmetadata.
Citation : Mamavi, O. (Sep 2023). Organiser la qualité des données d’une marketplace d’e-commerce. https://management-datascience.org/projects/25002/. L'auteur : Copyright : © 2023 l'auteur. Publication sous licence Creative Commons CC BY-ND. Liens d'intérêts : Le ou les auteurs déclarent ne pas avoir connaissance de conflit d'intérêts impliqués par l'écriture de cet article. Financement : Le ou les auteurs déclarent ne pas avoir bénéficié de financement pour le travail mis en jeu par cet article. Objectifs
Contexte
La qualité des données joue un rôle crucial dans la réussite de la transformation digitale d’une entreprise. C’est pourquoi une gouvernance des données solide met l’accent sur l’amélioration continue de la qualité des données en établissant des normes, des processus, des contrôles et des responsabilités pour surveiller, mesurer et améliorer la qualité des données au fil du temps. Une qualité de données élevée est fondamentale pour assurer la pertinence et la fiabilité des informations utilisées nécessaire à la prise de décisions.
Mission
Votre mission consiste à organiser la qualité des données d’une marketplace d’e-commerce à partir de la plateforme de gouvernance de données Openmetadata.
Objectifs
Les objectifs du projet sont les suivants :
- LIVRABLE 1 : Cas d’usage de qualité de données
- Réaliser un cas d’usage de qualité de données :
- Décrivez le contexte, les acteurs, les objectifs, les évènements, les tâches prioritaires, les résultats obtenus.
- Identifier les bonnes pratiques de data quality.
- Réaliser un cas d’usage de qualité de données :
- LIVRABLE 2 : Le référentiel des données de la plateforme
- Définir le référentiel de données :
- Inventorier les données (catalogue).
- Localiser les données (cartographie);
- Gérer les rôles et droits d’accès;
- Construire un dictionnaire et un glossaire.
- Enrichir les données :
- Ajoutez des données manquantes ou améliorez la qualité des données existantes si nécessaire.
- Définir le référentiel de données :
- LIVRABLE 3 : L’évaluation de la qualité des données
- Analyser les données :
- Effectuez une analyse initiale des données pour identifier les lacunes, les incohérences et les erreurs.
- Profiler les données :
- Utilisez des outils d’analyse des données pour créer des profils de données détaillés, y compris des statistiques de qualité.
- Identifier des problèmes :
- Identifiez les problèmes de qualité de données spécifiques et priorisez-les en fonction de leur impact sur les objectifs du projet.
- Normaliser les données :
- Standardisez les données en utilisant des formats cohérents et des référentiels si nécessaire.
- Définir des indicateurs de qualité :
- Mettez en place des mécanismes de surveillance pour suivre la qualité des données au fil du temps.
- Contrôler la qualité des données :
- Établissez des contrôles de qualité pour surveiller en continu la qualité des données.
- Analyser les données :
- LIVRABLE 4 : La gestion de la qualité de données
- Optimiser les processus qualité à partir de la plateforme Openmetadata (release) :
- Identifiez les opportunités d’optimisation des processus de gestion des données.
- Clôturer le projet :
- Évaluez le projet (Burndown chart),
- Assurez-vous que les objectifs ont été atteints, et envisagez les prochaines étapes pour maintenir et améliorer la qualité des données.
- Présenter votre solution :
- Rédigez un article de synthèse sur la performance de l’amélioration des données
- Communiquez les résultats aux parties prenantes.
- Optimiser les processus qualité à partir de la plateforme Openmetadata (release) :
Modalités
Démarche
Le projet se déroulera selon la méthode agile SCRUM. Cette approche agile permet d’obtenir des résultats tangibles à chaque sprint tout en adaptant le projet en fonction des découvertes et des besoins changeants au fil du temps.
Pour réussir la mission selon une approche agile, il faudra :
- S’approprier le projet : Assemblez une équipe multidisciplinaire comprenant un Product Owner (PO), un Scrum Master (SM), un Data Steward (DS), des Data Analyst (DA).
- Cadrer le projet : Définissez clairement les objectifs du projet d’amélioration des données, y compris les problèmes spécifiques à résoudre et les résultats attendus.
- Constituer le périmètre du projet : Identifier les ressources (données, documents,…) et les outils (Trello, Gitea, OpenMetaData,…) pour pouvoir travailler correctement.
- Planifiez les tâches, les livrables et les activités, en vous concentrant sur la collecte de données existantes et la compréhension des problèmes pour savoir quoi et quand développer durant le projet.
- Préparer les évènements (cérémonies) : le sprint meeting planning (planification du sprint), le daily Scrum (mêlée quotidienne), le sprint review (revue de sprint), le sprint retrospective (rétrospective de sprint).
Livrables
Vous devez soumettre 4 articles qui présentent les principaux livrables de votre projet. Il s’agit d’articles de 2000 mots maximum qui rendent compte de l’avancement du projet. Chaque article soumis (via la plateforme de Management & Datascience) doit comprendre les éléments suivants :
- le titre de la contribution (10 mots maximum)
- un résumé de 100 mots qui précise le contexte, les objectifs, la démarche, les livrables/résultats, l’originalité de la contribution et les mots clés).
- une introduction présentant le contexte, la mission et les objectifs
- la démarche et l’environnement du projet,
- Les résultats obtenus et la présentation des livrables illustrés par des figures, des images, des vidéos ou des tableaux
- les préconisations et les actions d’amélioration
- Une conclusion avec un rappel des principales contributions
- la liste des sources et des références bibliographiques.
Evaluation
Chaque article sera évalué selon les 4 critères suivant :
- La pertinence: dans quelle mesure le livrable répond à la mission ?
- La reproductibilité : les résultats proposés sont-ils reproductibles ?
- L’impact : quelle est la valeur de la contribution ?
- La clarté : la solution proposée est-elle intelligible et originale ?
Les équipes feront une présentation orale de leurs résultats au jury pendant 10 minutes suivi de 5 minutes de questions. Le jury désignera le groupe vainqueur en fonction de la qualité du livrable et de la présentation orale.
La meilleure contribution sera publiée dans la revue Management & Datascience.
Données
Vous avez accès à un jeu de données provenant de kaggle composé de plusieurs tables. Il s’agit de données commerciales publiques de la plus grande plateforme de e-commerce brésilienne Olist .On y retrouve les données de près de 100 milles commandes effectuées de 2016 à 2018, fragmentées en 8 grandes tables :
- olist_orders_dataset : qui est la table de base contenant l’identifiant de la commande et du client, ainsi que les étapes de suivis de livraison.Téléchargement
- olist_order_items_dataset : qui comprend les informations sur les produits achetés dans chaque commande. Téléchargement
- olist_order_payments_dataset : regroupant les données liées au paiement de la commande.Téléchargement
- olist_order_reviews_dataset : qui correspond aux données des commentaires et notes associés au traitement de la commande Téléchargement
- olist_customers_dataset : qui comprend les informations d’identification des clients et leur localisation. Téléchargement
- olist_geolocation_dataset: qui comprend les coordonnées géographiques (latitude et longitude) correspondant à chaque ville. Ce qui permet de situer les vendeurs et les clients sur une carte.Téléchargement
- olist_products_dataset : qui correspond aux données détaillées sur le catalogue de produits de la plateforme. Téléchargement
- olist_sellers_dataset : qui comprends les informations sur les vendeurs agréés de la plateforme. Téléchargement
Les tables sont liables par les id des différentes entités manipulées suivant le diagramme suivant :
On retrouve également la table olist_new_sellers_dataset provenant d’un dataset complémentaire ,regroupant les données des nouveaux vendeurs ayant été accrédités pour proposer leurs produits sur la plateforme durant la période de l’enquête. Téléchargement
- LIVRABLE 1 : Cas d’usage de qualité de données
- Il n'y a encore aucune contribution.