• Résumé

    Votre mission consiste donc à construire une base de données relationnelle d’une marketplace d'e-commerce à partir de Postgre.

    Citation : ALFOCEA, A. (Août 2023). Construire la base de données d’une marketplace d’e-commerce. https://management-datascience.org/projects/24949/.
    L'auteur : 
    • Alexandre ALFOCEA
      - La Banque Postale
    Copyright : © 2023 l'auteur. Publication sous licence Creative Commons CC BY-ND.
    Liens d'intérêts : Le ou les auteurs déclarent ne pas avoir connaissance de conflit d'intérêts impliqués par l'écriture de cet article.
    Financement : Le ou les auteurs déclarent ne pas avoir bénéficié de financement pour le travail mis en jeu par cet article.
    Objectifs

    Contexte

    Depuis l’avènement de eBay et Amazon en 1995, le modèle de marketplace a connu une ascension fulgurante pour devenir aujourd’hui un pilier de l’écosystème du e-commerce. Fnac, Booking, Blablacar, Leboncoin sont des exemples de succès qui font parties de notre quotidien et qui démontrent à suffisance l’efficacité et la simplicité de ce modèle.  Basé sur la mise en relation de vendeurs (de biens ou de services) et d’acheteurs sur une plateforme numérique centralisée, ce système repose avant tout sur la richesse du catalogue proposé. Ainsi il est donc important pour les gestionnaires de marketplace d’avoir un suivi et une vision analytique des vendeurs pour optimiser les résultats commerciaux de la plateforme.

    Mission

    Pour assurer le pilotage par la donnée de la marketplace de e-commerce, il est primordial d’organiser les données pour monitorer les résultats et adapter la stratégie.

    Votre mission consiste donc à construire une base de données relationnelle à partir de Postgre.

    Tâches à réaliser

    Dans ce cadre de votre mission, vous devrez réaliser les tâches suivantes :

    1. Collecter les tables et les stocker
    2. Préparer les données (nettoyage, normalisation, transformation)
    3. Organiser l’architecture et schématiser les données
    4. Consolider les différentes tables par des jointures
    5. Exploiter les données
    6. Présenter la base de données

     

    Modalités

    Livrable


    Vous devez soumettre un « data paper » qui comprend deux parties :

    • une partie descriptive, c’est le data paper proprement dit. Cette partie explique le contexte d’obtention des données, les présente et en démontre la fiabilité.
    • la base de données qui a été construit et déposé dans le  datalab.

    La partie descriptive comprend les éléments suivants :

    • le titre de la contribution (10 mots maximum)
    • un résumé de 100 mots avec les mots clés
    • une introduction présentant l’arrière-plan de l’étude (contexte et enjeu généraux et spécifiques), les questions de recherche à l’origine de la collecte des données, et la plus-value de cette collecte (originalité, importance et potentiel d’utilisation en recherche),
    • la description des matériels et méthodes pour permettre de reproduire l’étude : sources des données, protocole expérimental, méthode d’échantillonnage, descripteurs physiques, procédures de contrôle qualité…
    • la description des données pour permettre de les réutiliser : structure, format, disponibilité, explication de données aberrantes…
    • des informations justifiant la fiabilité et la rigueur des données, si besoin accompagnées de figures et tableaux : validation de la procédure de collecte de données, analyses statistiques de l’erreur expérimentale, évaluation d’échantillons biologiques…
    • si besoin, conseils pour la réutilisation des données,
    • la liste des sources et des références bibliographiques,
    • les figures, tableaux, annexes, relatifs à la méthodologie, à la qualité des données, ou proposant une synthèse des données.

    Evaluation


    Le data paper sera évalué selon les 4 critères suivant :

    • La pertinence: dans quelle mesure le livrable répond à la mission ?
    • La reproductibilité : les résultats proposés sont-ils reproductibles ?
    • L’impact : quelle est la valeur de la contribution ?
    • La clarté : la solution proposée est-elle intelligible et originale ?

    Les participants feront une présentation orale de leurs résultats au jury pendant 10 minutes suivi de 5 minutes de questions. Le jury désignera le groupe vainqueur en fonction de la qualité du livrable et de la présentation orale.

    La meilleure contribution sera publiée dans la revue Management & Datascience.

    Données

    Les candidats ont accès à un jeu de données provenant de kaggle composé de plusieurs tables. Il s’agit de données commerciales publiques de la plus grande plateforme de e-commerce brésilienne Olist .On y retrouve les données de près de 100 milles commandes effectuées de 2016 à 2018, fragmentées en 8 grandes tables :

    • olist_orders_dataset : qui est la table de base contenant l’identifiant de la commande et du client, ainsi que les étapes de suivis de livraison.Téléchargement
    • olist_order_items_dataset : qui comprend les informations sur les produits achetés dans chaque commande. Téléchargement
    • olist_order_payments_dataset : regroupant les données liées au paiement de la commande.Téléchargement
    • olist_order_reviews_dataset : qui correspond aux données des commentaires et notes associés au traitement de la commande Téléchargement
    • olist_customers_dataset : qui comprend les informations d’identification des clients et leur localisation. Téléchargement
    • olist_geolocation_dataset: qui comprend les coordonnées géographiques (latitude et longitude) correspondant à chaque ville. Ce qui permet de situer les vendeurs et les clients sur une carte.Téléchargement
    • olist_products_dataset : qui correspond aux données détaillées sur le catalogue de produits de la plateforme. Téléchargement
    • olist_sellers_dataset : qui comprends les informations sur les vendeurs agréés de la plateforme. Téléchargement

    Les tables sont liables par les id des différentes entités manipulées suivant le diagramme suivant :

    On retrouve également la table olist_new_sellers_dataset provenant d’un dataset complémentaire ,regroupant les données des nouveaux vendeurs ayant été accrédités pour proposer leurs produits sur la plateforme durant la période de l’enquête. Téléchargement

     

    • Datalab Management & Datascience
      Console PostgreSQL
    • Datalab Management & Datascience
      Service d'hébergement de projets Gitea
    • Service Externe
      https://colab.google/
  • 10 contributeurs  |  3 contributions envoyées