Déroulement
Il y a 4 mois
Il y a 1 semaine
Dans 5 jours
Citation
L'auteur
Olivier Mamavi
(omamavi@gmail.com) - Paris School of Business - ORCID : https://orcid.org/0000-0002-6421-1048
Copyright
Déclaration d'intérêts
Financements
Aperçu
Contenu
Contexte
La qualité des données joue un rôle crucial dans la réussite de la transformation digitale d’une entreprise. C’est pourquoi une gouvernance des données solide met l’accent sur l’amélioration continue de la qualité des données en établissant des normes, des processus, des contrôles et des responsabilités pour surveiller, mesurer et améliorer la qualité des données au fil du temps. Une qualité de données élevée est fondamentale pour assurer la pertinence et la fiabilité des informations utilisées nécessaire à la prise de décisions.
Mission
En vous appuyant sur une méthode agile, votre mission consiste à organiser la qualité des données d’une plateforme web à partir d’une solution de gouvernance de données.
Objectifs
Les objectifs du projet sont les suivants :
- LIVRABLE 1 : Un cahier des charges d’une application de qualité de données
- Identifier les bonnes pratiques de gestion de qualité des données
- Concevez un carnet de produit (Backlog) avec une liste détaillée des fonctionnalités
- Définir des cas d’usage d’une solution de qualité de données (Userstories)
- LIVRABLE 2 : Un référentiel des données de la plateforme
- Définir les principaux mots clés de l’activité de la plateforme pour faciliter la collaboration des différentes parties prenantes (glossaire)
- Présenter les tables (dictionnaire)
- Inventorier les données (catalogue).
- Localiser les données (cartographie).
- LIVRABLE 3 : Une évaluation de la qualité des données
- Effectuez une analyse initiale des données pour identifier les problèmes, les lacunes, les incohérences et les erreurs du jeu de données.
- Définir des indicateurs de performances (KPI) pour surveiller en continu la qualité des données.
- Contrôler la qualité des données (tests)
- Ajoutez des données manquantes ou améliorez la qualité des données existantes si nécessaire.
- LIVRABLE 4 : Une application de gestion de la qualité de données
- Déployer votre solution de qualité de données sur la plateforme Openmetadata
- Evaluer et clôturer le projet à partir d’un Burndown chart
- Présenter votre projet à partir d’un article et d’un clip vidéo en formulant des préconisations managériales de data gouvernance
Démarche
Le projet se déroulera selon la méthode agile SCRUM. Cette approche agile permet d’obtenir des résultats tangibles à chaque sprint tout en adaptant le projet en fonction des découvertes et des besoins changeants au fil du temps.
Pour réussir la mission selon une approche agile, il faudra :
- S’approprier le projet : Assemblez une équipe multidisciplinaire comprenant un Product Owner (PO), un Scrum Master (SM), un Data Steward (DS), des Data Analyst (DA).
- Cadrer le projet : Définissez clairement les objectifs du projet d’amélioration des données, y compris les problèmes spécifiques à résoudre et les résultats attendus.
- Constituer le périmètre du projet : Identifier les ressources (données, documents,…) et les outils (Trello, Gitea, OpenMetaData,…) pour pouvoir travailler correctement.
- Planifiez les tâches, les livrables et les activités, en vous concentrant sur la collecte de données existantes et la compréhension des problèmes pour savoir quoi et quand développer durant le projet.
- Préparer les évènements (cérémonies) : le sprint meeting planning (planification du sprint), le daily Scrum (mêlée quotidienne), le sprint review (revue de sprint), le sprint retrospective (rétrospective de sprint).
Livrables
Vous devez soumettre un article de 2000 mots maximum qui présentent les principaux livrables de votre projet. L’article soumis (via la plateforme de Management & Datascience) doit comprendre les éléments suivants :
- le titre de la contribution (10 mots maximum)
- un résumé de 100 mots qui précise le contexte, les objectifs, la démarche, les livrables/résultats, l’originalité de la contribution et les mots clés).
- une introduction présentant le contexte, la mission et les objectifs
- l’environnement du projet (la plateforme, ses activités, les données)
- l’organisation du projet à partir de la méthode agile (la démarche, les acteurs et leurs rôles, les évènements, les outils utilisés, la planification des tâches)
- Les résultats obtenus avec la présentation des livrables illustrés par des figures, des images, des tableaux et la vidéo de démonstration
- les préconisations pour une meilleure gouvernance de la qualité des données
- Une conclusion (difficultés rencontrés, apports de la méthode agile, principales contributions)
- la liste des sources et des références bibliographiques
- les annexes : carnet de produit, sprint, burndown chart, dictionnaire, catalogue, cartographie, KPI, scipts, …
Evaluation
Chaque article sera évalué selon les 4 critères suivant :
- La pertinence: dans quelle mesure le livrable répond à la mission ?
- La reproductibilité : les résultats proposés sont-ils reproductibles ?
- L’impact : quelle est la valeur de la contribution ?
- La clarté : la solution proposée est-elle intelligible et originale ?
Les équipes feront une présentation orale de leurs résultats au jury pendant 10 minutes suivi de 5 minutes de questions. Le jury désignera le groupe vainqueur en fonction de la qualité du livrable et de la présentation orale.
La meilleure contribution sera publiée dans la revue Management & Datascience.
Présentation des données
Les données sont issues de la plateforme Management & Data Science.
L’ensemble des données est actuellement organisé autour de 17 jeux de données anonymisées. Le schéma ci-dessous fournit une description formelle de la structure du jeu de données. Il définit les tables, les champs (ou colonnes), les types de données, les clés et les relations entre les tables.
- Tables : Les tables sont les éléments de base d’une base de données relationnelle. Elles stockent des données sur un sujet particulier, comme les clients, les commandes ou les produits.
- Champs (colonnes) : Les champs sont les unités individuelles de stockage de données dans une table. Chaque champ a un nom et un type de données, qui spécifient le type d’informations qu’il peut stocker.
- Types de données : Les types de données définissent les types de valeurs qui peuvent être stockées dans un champ. Les types de données courants incluent les entiers, les chaînes de caractères, les dates et les heures, et les booléens.
- Clés : Les clés sont utilisées pour identifier de manière unique les enregistrements dans une table. La clé primaire est une clé unique qui identifie de manière définitive chaque enregistrement. Les clés étrangères sont utilisées pour référencer des enregistrements dans d’autres tables.
- Relations : Les relations définissent les liens entre les tables. Les deux types de relations les plus courants sont les relations un-à-un et les relations un-à-plusieurs. Une relation un-à-un indique qu’un enregistrement dans une table est associé à un seul enregistrement dans une autre table. Une relation un-à-plusieurs indique qu’un enregistrement dans une table est associé à plusieurs enregistrements dans une autre table.
Les archives des données sont stockées au format CSV et accessibles librement sur le dépôt suivant.
il ne peut pas avoir d'altmétriques.)