#1 – Organiser un projet de data science

Définition de la Data Science

La data science vise à gérer – collecter, stocker, visualiser, croiser, analyser et valoriser – en temps réel des données massives, hétérogènes et déstructurées afin de produire une information opérationnalisable, une data-driven decision. En fait, il s’agit d’extraire des données pertinentes pour le contexte étudié, les smart data (données intelligentes) afin d’envisager une démarche de traitement et de production de connaissances plus efficace, notamment pour faire de la prédiction.

La data science se fonde sur des disciplines comme les statistiques, le data mining et les expertises métiers. Elle se distingue par l’étude systématique de l’organisation et de l’analyse des données ainsi que de la capacité de ces données à permettre des inférences.  Issue de la digitalisation du quotidien (« datafication du quotidien »), la data science est en somme une (r)évolution dans l’analyse, l’exploitation et la valorisation des données.

Principales étapes d’un projet de data science

La mise en place d’un projet de data science comprend notamment :

  • la récupération des données utiles à l’étude
  • le nettoyage des données pour les rendre exploitables 
  • une longue phase d’exploration des données afin de comprendre en profondeur l’articulation des données  la modélisation des données 
  • l’évaluation et interprétation des résultats 
  • la conclusion de l’étude : prise de décision ou déploiement en production du modèle 

Au sein de ce cycle, le « machine learning » désigne l’ensemble des méthodes de modélisation statistique à partir des données, et se situe bien au cœur du travail de data scientist. 

Intérêt de l’intelligence artificielle pour la data science

Le travail du data scientist qui utilise le machine learning consiste à sélectionner les bonnes données test, choisir et entraîner le bon algorithme en vérifiant grâce à l’analyse d’erreurs que le modèle devient de plus en plus performant et robuste. Si les performances s’améliorent lorsqu’on lui fournit les données d’entraînement, on dit alors que la machine “apprend“. 

Une fois le modèle correctement parametré sur les données d’entraînement, le data scientist peut ensuite le déployer afin qu’il traite de nouvelles données, pour accomplir la tâche spécifique poursuivie (prédiction, recommandation, décision…).

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.