Déroulement
Il y a 2 ans
Il y a 2 ans
Il y a 2 ans
Citation
Les auteurs
Olivier Mamavi
(omamavi@gmail.com) - Paris School of Business - ORCID : https://orcid.org/0000-0002-6421-1048Henri Laude
(henri.laude@ar-p.com) - Advanced Research Partners
Copyright
Déclaration d'intérêts
Financements
Aperçu
Contenu
Contexte
Le numérique (ordinateurs, data centers, réseaux…) représente aujourd’hui près de 10% de la consommation d’électricité et 5 % des émissions de gaz à effet de serre au niveau mondial (Diguet et al.,2019). Comme pour les autres secteurs de l’économie, les technologies de l’information vont devoir prendre en compte leur impact environnemental (Trid et al., 2019). La tendance à la surconsommation numérique n’est plus soutenable au regard de l’approvisionnement énergétique qu’elle requiert. Au-delà des discours, la sobriété numérique devient un impératif (Salas y Mélia, 2022).
La sobriété numérique désigne les changements de comportement qui permettent, notamment, une diminution des consommations d’énergie. La démarche consiste à concevoir des services numériques plus sobres et possédant une faible empreinte carbone. Une entreprise qui s’inscrit dans une démarche de sobriété numérique doit prendre en compte l’impact du stockage des données et des applications dans des serveurs distants. Elle doit également tenir compte des puissances de calcul nécessaire pour le traitement et l’exploitation des données.
Pour apporter une réponse concrète qui permet de réduire le coût énergétique et environnemental d’un projet data, Management & Datascience organise une compétition dans le cadre du salon Big Data World du 16 et 17 novembre à Paris.
Challenge
Vous devrez concevoir un modèle prédictif ayant la plus faible empreinte carbone.
L’objectif est de prédire la classification des attributs de nœuds d’un graphe de connaissance. un graphe est un ensemble d’entités reliées entre elles, composé de nœuds qui représentent les entités et d’arcs ou arêtes qui représentent les relations. Les relations ou arcs peuvent être enrichis par des attributs ou encore une valeur quantitative représentant le poids de la relation. Les graphes de connaissances sont très utilisés par les moteurs de recherche, les services de question-réponse en ligne, les assistants personnels intelligents ou les médias sociaux.
Dans le cadre de ce challenge, il faudra optimiser un modèle capable d’inférer le type d’un article en fonction des articles qui le citent ou qu’il cite. Vous devrez prendre en compte les termes employés respectivement par l’article et les articles liés par le réseau de citation. Il s’agit d’un problème de classification de documents représentés sous la forme d’un graphe.
La thématique fonctionnelle à traiter
Les graphes et les graphes de connaissance
La représentation des données sous forme de graphe est quasi universelle, elle permet de gérer des sémantiques de natures variées et complexes, comme les relations entre les individus dans les réseaux sociaux, la structure de molécules organiques, les grandes bases de connaissance, les relations spatiales et temporelles entre des objets et des individus en mouvement. On l’utilise pourtant aussi avec succès sur des données dont la structure naïve d’origine est relativement simple, comme les images, les données relationnelles, tabulaire, textuelles ou temporelles sur lesquelles il ne semble pas de prime abord naturel de les traduire en graphe. On peut par exemple exprimer une image au travers d’un graphe exprimant la proximité entre eux de chaque pixel de celle-ci.
Voici quelques textes à survoler si vous n’êtes pas à l’aise avec cette terminologie :
- Les graphes – Wikipedia
- Knowledge graph – stanford.edu
On comprend aisément que l’exploration de structures aussi riches et non régulières nécessite une puissance informatique importante si l’on ne prend pas garde à optimiser la représentation ce ces graphes et si nos choix algorithmiques sont trop naïfs.
La frugalité de l’IA utilisée dans un tel contexte représente donc un enjeux majeur.
C’est pourquoi nous vous proposons ce challenge, dont l’objet est de d’optimiser le rapport efficacité de prédiction versus consommation de puissance informatique lors du traitement d’un graphe.
Pour ce faire nous allons adresser un problème relativement simple à exprimer : la prévision de classification de nœuds d’un graphe.
Node prediction/ classification
L’idée est toute simple, du fait de la structure du graphe et des attributs de certains nœuds du graphe, on va essayer de prédire les attributs de nœuds où ceux-ci ne sont pas connus. Par exemple, dans l’article suivant on montre comment prédire le fait qu’un atome soit un carbone ou un hydrogène en fonction de sa position dans une molécule typique de la chimie organique.
Node classification using graph convolutional network – mathworks.com
Les modèles utilisés sont très variés, les GNN (Graph neural networks) étant souvent très prisés par les data scientists issus du deeplearning classique et qui pratiquent couramment les CNN (Convolutional Neural Network) qui sont au cœur des pratiques courantes actuelles. Leurs frameworks habituels que sont Tensorflow et Pytorch (et Keras) possèdent d’ailleurs d’excellentes capacités de traitement de graphes.
Notez que bien d’autres types de traitement peuvent être judicieux sur les graphes, comme par exemple la prédiction de lien, le fait de compléter des graphes partiels, divers calculs de proximité ou de topologie sur ces graphes …
Livrable
Pour vous aider, un programme de référence vous est fourni : cliquez ici
La structure du programme à livrer est le suivant :
- lecture des données,
- split aléatoire des données 50/50 en données train et test,
- création de votre structure de représentation des graphes train et test,
- démarrage d’un compteur de temps (timer),
- création et training de votre modèle,
- calcul de l’accuracy sur les tests et mise en mémoire des prédictions sur l’ensemble du graphe test,
- fin du comptage de temps,
- impression de 10 prédictions, comme sur dans le présent code avec les prédiction, mais aussi les probabilité des différentes classes,
- impression de l’accuracy et du temps passé en dernière ligne et dans le même format que celui produit dans le code de référence présenté plus bas.
Après avoir exécuté leur code dans le datalab, les candidats devront documenter le code pour qu’il soit compréhensible, puis soumettre le script sur la plateforme de Management & Datascience.
Evaluation
- l’accuracy après un split aléatoire 50/50 sur les données (calculée par le soumissionnaire)
- le temps de traitement (calculé par le soumissionnaire)
- la mémoire maximale utilisée (qui sera mesurée par nos soins)
Nous exécuterons votre code 10 fois et les moyennes de chacune de ces trois mesures seront calculées pour générer le classement technique de votre soumission.
Attention, une note sera également établie sur la qualité de votre code. Les critères d’évaluation de la qualité du code seront la clarté et la reproductibilité du script.
Prix
- Les finalistes seront inviter à présenter leurs résultats pendant le salon Big Data World Paris le 17 novembre 2022 à 10h30, lors d’une master class. Des experts scientifiques et professionnelles discuterons les résultats pour comprendre comment développer un projet data éco-responsable.
- Les vainqueurs recevront le trophée du meilleur datascientist 2022 pour l’environnement.
- Les vainqueurs bénéficieront d’une couverture médiatique (presse et réseaux sociaux) ainsi que la publication de leurs résultats au sein de la revue scientifique Management & Data Science
Références
- Diguet, C., Lopez, F., & Lefèvre, L. (2019). L’impact spatial et énergétique des data centers sur les territoires (Thèse de doctorat, ADEME, Direction Villes et territoires durables).
- McCallum, A. K., Nigam, K., Rennie, J., & Seymore, K. (2000). Automating the construction of internet portals with machine learning. Information Retrieval, 3(2), 127-163.
- Salas y Mélia, D. (2022). Les principaux enseignements du 6e rapport du groupe I du GIEC. Annales des Mines – Responsabilité et environnement, 106, 11-16. https://doi.org/10.3917/re1.106.0011
- Trid, S., Corbett, J., & Bouchard, L. (2019). Modèle théorique de projets de Green IS: une spécification des relations entre objectifs, compétences et culture environnementale. Systemes d’information management, 24(1), 7-45.
Participants
Ce data challenge est ouvert à tous, notamment :
- aux étudiants en cycle master d’écoles d’ingénieur, de commerce ou des universités
- aux chercheurs
- aux datascientists
Inscription
La participation au data challenge est gratuite.
Chaque candidat doit s’inscrire au préalable sur le site web de Management & Data Science , puis constituer une équipe avec des membres de la communauté déjà inscrits.
Le nombre de membres maximum par équipe est de trois (3) personnes.
Ce tutoriel vous explique comment s’inscrire au data challenge.
A l’issu de ce processus d’inscription vous recevrez par email votre login et mot de passe. Vous pourrez alors accéder à une infrastructure Jupyter Python/R/Tensorflow/Keras/Pytorch sur laquelle vous pourrez exécuter le programme à surpasser, puis mettre au point, tester et soumettre votre propre programme.
Datalab
Management & Datascience fourni à chaque équipe un espace de travail à utiliser obligatoirement au sein de son laboratoire de données.
Chaque équipe aura une console Jupyter avec python et R, Tensorflow et Pytorch plus conda et pip3, les tidyverse r, caret r, pycaret, statsmodels, base r, mlr r, fs r, r datatable, devtools pour r, reticulate r, dplyr r, stringr r, readr r, scikit-learn, numpy, scipy, pandas avec toutes leurs dépendances.
Jury
L’ensemble des propositions sera évalué et classé en fonction entre du rapport accuracy/sobriété et de la qualité du code fourni.
Les 2 meilleures propositions iront en finale. Les candidats finalistes présenteront leurs résultats devant un jury lors du salon Big Data World Paris le jeudi 17 novembre 2022 à 10h30 pendant 7 minutes.
Le jury désignera le vainqueur en classant les meilleures propositions.
Le jury est composé des membres suivants :
- Alexandre ALFOCEA, Consultant Data Science (LiveRamp)
- Henri LAUDE, Chief Data Scientist (Advanced Research Partners)
- Olivier MAMAVI, Professeur en Data Management (Paris School of Business)
- Joël TANKEU, Associate Solutions Architect (Amazon Web Services)
Contact
Pour tout renseignement, aide ou support, vous pouvez contacter notre équipe par email : challenge@management-datascience.org
Le jeu de données à utiliser pour ce challenge est celui présenté par Andrew McCallum et al. (2000) dans Automating the Construction of Internet Portals with Machine Learning (Automatisation de la construction de portails Internet avec l’apprentissage automatique).
Ce jeu de données comporte 3 fichiers :
- Readme : Téléchargement
- Cora.cites : Téléchargement
- Cora.content : Téléchargement
La version de Cora utilisée ici se compose de 2708 publications scientifiques (liées à l’IA) classées dans l’une de leurs sept classes (Case_Based,Genetic_Algorithms, Neural_Networks, Probabilistic_Methods,Reinforcement_Learning, Rule_Learning, Theory).
Le réseau de citations est composé de 5429 liens. Les nœuds représentent la publication (le “papier”) et les arêtes les relations de citation.
Chaque nœud a une structure prédéfinie avec 1433 dimensions (features) : chaque publication du jeu de données est décrite par un vecteur de mots à valeur 0/1 indiquant l’absence/la présence du mot correspondant dans le dictionnaire.
C’est un petit jeu de données qui sert souvent de benchmark pour divers problèmes traitant de graphes orientés non valués (i.e. pas de valeur, ni d’ailleurs d’attributs sur les liens).
L’idée générale de la classification proposée ici est que l’on peut inférer le type d’un article en fonction des articles qui le citent ou qu’il cite et des termes employés respectivement par l’article et les articles liés par ce réseau de citation.
Conditions générales
La participation au challenge implique pour tout participant l’acceptation entière et sans réserve des règles ci-dessous. Le non-respect dudit règlement entraîne l’annulation immédiate de la participation.
- L’inscription et la participation au challenge est entièrement gratuite et libre.
- L’inscription au challenge doit se faire de manière individuelle. Afin de participer au challenge le participant doit avoir créé un compte utilisateur sur le site de Management & Data Science, et renseigné de manière loyale et complète les informations requises, telles que le nom, prénom, adresse mail, etc.
- Les participants individuels peuvent choisir de former une équipe de deux (2) à trois (3) membres maximum pour soumettre leur livrable.
- Le fait, pour un participant ou une équipe, de ne pas déposer avant la date limite le livrable sur le site du challenge sera considéré comme un abandon de sa/leur part au challenge. Le participant ou l’équipe ne pourra en aucun cas réintégrer le challenge.
- Les contributions sont publiées sous une licence Creative Commons Attribution/Pas de modification.
- Chaque soumission sera notée et classée selon la métrique d’évaluation indiquée sur le site Web du concours. Le(s) gagnant(s) potentiel(s) seront avisés par courriel.
- Les données personnelles du participant font l’objet d’un traitement au sens de la réglementation sur la protection des données personnelles (Règlement (UE) 2016/679 du parlement européen et du conseil du 27 avril 2016 dit « RGPD ») pour lequel Management & Data Science définit les finalités et les moyens et est, à ce titre, responsable de ce traitement au sens du RGPD.
- Management & Data Science ne saurait être tenue responsable de toutes perturbations, à la fois sur le réseau internet ou des difficultés d’accès liées à un grand nombre de connectés ou de participants. Management & Data Science ne peut en aucune manière être tenue responsable des coupures de communication ou d’accès, des pertes de données, des virus informatiques ou de tout préjudice direct ou indirect quel qu’il soit, éventuellement subi par un participant avant pendant et après sa participation au challenge. En conséquence, les participants renoncent à tout recours contre Management & Data Science et ses préposés pour des dommages et/ou préjudices qu’ils pourraient subir dans le cadre du challenge.
il ne peut pas avoir d'altmétriques.)