Contexte

La qualité des données joue un rôle crucial dans la réussite de la transformation digitale d’une entreprise. C’est pourquoi une gouvernance des données solide met l’accent sur l’amélioration continue de la qualité des données en établissant des normes, des processus, des contrôles et des responsabilités pour surveiller, mesurer et améliorer la qualité des données au fil du temps. Une qualité de données élevée est fondamentale pour assurer la pertinence et la fiabilité des informations utilisées nécessaire à la prise de décisions.

Mission

En vous appuyant sur une méthode agile, votre mission consiste à organiser la qualité des données d’une plateforme web à partir d’une solution de gouvernance de données.

Objectifs

Les objectifs du projet sont les suivants :

LIVRABLE 1 : Un cahier des charges d’une application de qualité de données
- Identifier les bonnes pratiques de gestion de qualité des données
- Concevez un carnet de produit (Backlog) avec une liste détaillée des fonctionnalités
- Définir des cas d’usage d’une solution de qualité de données (Userstories)

LIVRABLE 2 : Un référentiel des données de la plateforme
- Définir les principaux mots clés de l’activité de la plateforme pour faciliter la collaboration des différentes parties prenantes (glossaire)
- Présenter les tables (dictionnaire)
- Inventorier les données (catalogue).
- Localiser les données (cartographie).

LIVRABLE 3 : Une évaluation de la qualité des données
- Effectuez une analyse initiale des données pour identifier les problèmes, les lacunes, les incohérences et les erreurs du jeu de données.
- Définir des indicateurs de performances (KPI) pour surveiller en continu la qualité des données.
- Contrôler la qualité des données (tests)
- Ajoutez des données manquantes ou améliorez la qualité des données existantes si nécessaire.

LIVRABLE 4 : Une application de gestion de la qualité de données
- Déployer votre solution de qualité de données sur la plateforme Openmetadata
- Evaluer et clôturer le projet à partir d’un Burndown chart
- Présenter votre projet à partir d’un article et d’un clip vidéo en formulant des préconisations managériales de data gouvernance

Modalités

Démarche

Le projet se déroulera selon la méthode agile SCRUM. Cette approche agile permet d’obtenir des résultats tangibles à chaque sprint tout en adaptant le projet en fonction des découvertes et des besoins changeants au fil du temps.

Pour réussir la mission selon une approche agile, il faudra :

S’approprier le projet : Assemblez une équipe multidisciplinaire comprenant un Product Owner (PO), un Scrum Master (SM), un Data Steward (DS), des Data Analyst (DA).
Cadrer le projet : Définissez clairement les objectifs du projet d’amélioration des données, y compris les problèmes spécifiques à résoudre et les résultats attendus.
Constituer le périmètre du projet : Identifier les ressources (données, documents,…) et les outils (Trello, Gitea, OpenMetaData,…) pour pouvoir travailler correctement.
Planifiez les tâches, les livrables et les activités, en vous concentrant sur la collecte de données existantes et la compréhension des problèmes pour savoir quoi et quand développer durant le projet.
Préparer les évènements (cérémonies) : le sprint meeting planning (planification du sprint), le daily Scrum (mêlée quotidienne), le sprint review (revue de sprint), le sprint retrospective (rétrospective de sprint).

Livrables

Vous devez soumettre un article de 2000 mots maximum qui présentent les principaux livrables de votre projet. L’article soumis (via la plateforme de Management & Datascience) doit comprendre les éléments suivants :

le titre de la contribution (10 mots maximum)
un résumé de 100 mots qui précise le contexte, les objectifs, la démarche, les livrables/résultats, l’originalité de la contribution et les mots clés).
une introduction présentant le contexte, la mission et les objectifs
l’environnement du projet (la plateforme, ses activités, les données)
l’organisation du projet à partir de la méthode agile (la démarche, les acteurs et leurs rôles, les évènements, les outils utilisés, la planification des tâches)
Les résultats obtenus avec la présentation des livrables illustrés par des figures, des images, des tableaux et la vidéo de démonstration
les préconisations pour une meilleure gouvernance de la qualité des données
Une conclusion (difficultés rencontrés, apports de la méthode agile, principales contributions)
la liste des sources et des références bibliographiques
les annexes : carnet de produit, sprint, burndown chart, dictionnaire, catalogue, cartographie, KPI, scipts, …

Evaluation

Chaque article sera évalué selon les 4 critères suivant :

La pertinence: dans quelle mesure le livrable répond à la mission ?
La reproductibilité : les résultats proposés sont-ils reproductibles ?
L’impact : quelle est la valeur de la contribution ?
La clarté : la solution proposée est-elle intelligible et originale ?

Les équipes feront une présentation orale de leurs résultats au jury pendant 10 minutes suivi de 5 minutes de questions. Le jury désignera le groupe vainqueur en fonction de la qualité du livrable et de la présentation orale.

La meilleure contribution sera publiée dans la revue Management & Datascience.

Données

Présentation des données

Les données sont issues de la plateforme Management & Data Science.

L’ensemble des données est actuellement organisé autour de 17 jeux de données anonymisées. Le schéma ci-dessous fournit une description formelle de la structure du jeu de données. Il définit les tables, les champs (ou colonnes), les types de données, les clés et les relations entre les tables.

Tables : Les tables sont les éléments de base d’une base de données relationnelle. Elles stockent des données sur un sujet particulier, comme les clients, les commandes ou les produits.
Champs (colonnes) : Les champs sont les unités individuelles de stockage de données dans une table. Chaque champ a un nom et un type de données, qui spécifient le type d’informations qu’il peut stocker.
Types de données : Les types de données définissent les types de valeurs qui peuvent être stockées dans un champ. Les types de données courants incluent les entiers, les chaînes de caractères, les dates et les heures, et les booléens.
Clés : Les clés sont utilisées pour identifier de manière unique les enregistrements dans une table. La clé primaire est une clé unique qui identifie de manière définitive chaque enregistrement. Les clés étrangères sont utilisées pour référencer des enregistrements dans d’autres tables.
Relations : Les relations définissent les liens entre les tables. Les deux types de relations les plus courants sont les relations un-à-un et les relations un-à-plusieurs. Une relation un-à-un indique qu’un enregistrement dans une table est associé à un seul enregistrement dans une autre table. Une relation un-à-plusieurs indique qu’un enregistrement dans une table est associé à plusieurs enregistrements dans une autre table.

Les archives des données sont stockées au format CSV et accessibles librement sur le dépôt suivant.

Organiser la qualité des données d’une plateforme web

Organiser la qualité des données d’une plateforme web

Déroulement

Citation

L'auteur

Olivier Mamavi

Copyright

Déclaration d'intérêts

Financements

Aperçu

Contenu

Contexte

Mission

Objectifs

Démarche

Livrables

Evaluation

Présentation des données

Date de publication

Catégorie

ORCID

Affiliation

Contributeurs

Contributions créées

Contributions envoyées

Organiser la qualité des données d’une plateforme web

Déroulement

Déroulement

Citation

Citation

L'auteur

L'auteur

Olivier Mamavi

Copyright

Copyright

Déclaration d'intérêts

Déclaration d'intérêts

Financements

Financements

Aperçu

Aperçu

Contenu

Contenu

Contexte

Mission

Objectifs

Démarche

Livrables

Evaluation

Présentation des données

Métriques

Métadonnées

Date de publication

Catégorie

Organisateur(s)

Paris School of Business

ORCID

Affiliation

Outils (2)

Articles (2)

Cours (1)

Discussions (2)

Total

Contributeurs

Contributions créées

Contributions envoyées

Contributions retenues