Piloter la donnée pour prédire les marchés publics européens

Modalités

Déroulement

S’inscrire gratuitement au challenge
Accéder au datalab
Télécharger les données
Construire son modèle
Tester le résultat
Gagner un trophée

Soumission

A la fin de l’étape d’entraînement, les candidats soumettent (avant le 21 octobre 2020 à 15h00) leurs prévisions définitives à l’adresse suivante : challenge@management-datascience.org en mettant dans l’objet du email: Data challenge marchés publics

Le fichier à poster est le fichier dataChallenge_soumission_fausses où les candidats devront remplacer les valeurs fausses par leurs prédictions. Il s’agit d’un fichier de type CSV qui contient l’identifiant de la transaction (ID_AW) et les 3 variables à prédire (NUMBER_OFFERS ; AWARD_VALUE_EURO ; B_CONTRACTOR_SME).

Avant de soumettre leurs résultats, les candidats devront renommer le fichier de la façon suivante : EQUIPE.csv

Évaluation

Les soumissions sont comparées aux valeurs réelles. La métrique d’évaluation pour les variables AWARD_VALUE_EURO et NUMBER_OFFERS est l’erreur quadratique moyenne RMSE. Celui pour B_CONTRACTOR_SME est la précision.

Une péréquation est ensuite réalisée pour obtenir une évaluation et réaliser le classement. L’évaluation est un score global calculer à partir des 3 variables de réponse. Plus ce score est petit (de 0 à 1+), meilleure est la soumission. Le calcul pénalise les personnes qui commettent des erreurs sur les montants, mais amoindri l’impact des erreurs sur les très gros montants, ou sur les trop grands nombres de propositions.

Un jury a validé les résultats et désigné le vainqueur en fonction de la pertinence du modèle. Il était composé notamment des membres du comité éditorial de la revue, des représentants des sponsors et des partenaires.

Données

Le jeu de données utilisé pour ce challenge est issu de la commande publique de l’Union Européenne. Il s’agit des données ouvertes de l’attribution des marchés publics de 2009 à 2016 qui comprend près d’un million de transactions (nombre d’observations) et publié au Tender Electronic Daily (TED). Les données sont au format CSV et couvrent les marchés publics pour l’Espace économique européen, la Suisse et l’ancienne République yougoslave de Macédoine. Ces données incluent les champs les plus importants de l’avis d’attribution de marché. Une notice détaillée (en anglais) des données est fournie avec une description de chaque variable.

Les candidats ont accès à un jeu de données d’entraînement comprenant plus de 2 millions de transactions avec 19 variables explicatives (indépendantes) et 3 variables à prévoir (dépendantes). Les 3 variables à prédire sont : NUMBER_OFFERS, AWARD_VALUE_EURO, B_CONTRACTOR_SME.

Les fichiers suivant sont remis aux candidats :

le fichier d’entrainement : dataChallenge_training
le fichier de test avec des lignes à prédire, où les 3 colonnes de réponse ont des valeurs fausses (aléatoires) : dataChallenge_test_reponses_fausses
le fichier de soumission où les candidats devront remplacer les valeurs fausses par leurs prédictions : dataChallenge_soumission_fausses
une notice de description des variables (en anglais) : Notice des variables – Data Challenge 2018.pdf

Piloter la donnée pour prédire les marchés publics européens

Piloter la donnée pour prédire les marchés publics européens

Déroulement

Citation

L'auteur

Olivier Mamavi

Copyright

Déclaration d'intérêts

Financements

Aperçu

Contenu

Contexte

Objectifs

Déroulement

Soumission

Évaluation

Date de publication

Catégorie

ORCID

Affiliation

Contributeurs

Contributions créées

Contributions envoyées

Piloter la donnée pour prédire les marchés publics européens

Déroulement

Déroulement

Citation

Citation

L'auteur

L'auteur

Olivier Mamavi

Copyright

Copyright

Déclaration d'intérêts

Déclaration d'intérêts

Financements

Financements

Aperçu

Aperçu

Contenu

Contenu

Contexte

Objectifs

Déroulement

Soumission

Évaluation

Métriques

Métadonnées

Date de publication

Catégorie

Organisateur(s)

ORCID

Affiliation

Outils (1)

Articles (2)

Total

Contributeurs

Contributions créées

Contributions envoyées

Contributions retenues