Construire une base de données relationnelle

Partie 3
Chapitre 1 sur 5
Partie 3 – Explorer et préparer les données avec Python

Définition des modules python pour la préparation de données

Modules python pour la préparation de données

Exploration de données

Maintenant que nous avons exploré le code HTML de la page web, scrapé les informations dont nous avons besoin et que nous les avons téléchargées, il faut maintenant explorer ces données en profondeur. Explorer les données signifie analyser les corrélations, calculer des agrégats utiles, explorer la distribution, les types, visualiser à l’aide de graphiques, etc., bref, comprendre les données.

Préparation de données

La préparation de données… Ah la préparation de données.
Pour permettre une analyse efficace des données, il est parfois (je dirais plutôt souvent) nécessaire de nettoyer et transformer certaines données. Pour des domaines comme le Machine Learning, il est absolument nécessaire de transformer les données car certaines APIs comme Scikit-Learn ont besoin d’une structure spéciale de données, notamment pour les modèles prédictifs. Mais ce n’est pas un cours de Machine Learning alors je vais m’arrêter là.

La préparation de données ou preprocessing (littéralement pré-traitement), permet de réduire les erreurs lors des traitements, normalise les données pour tous les utilisateurs, permet une exploration optimisée, etc.

Nous parlons ici de deux notions essentielles dans les métiers de la data : la préparation et l’exploration de données. Comme vous l’avez compris, les deux domaines sont différents mais sont totalement liés. Pour analyser, il faut nettoyer, pour nettoyer, il faut analyser.

Dans cette partie du cours, nous verrons quelques méthodes simples d’exploration et de préparation de données à partir d’un dataset sur la qualité de l’air à Barcelone.

(source : https://www.kaggle.com/xvivancos/barcelona-data-sets?select=air_quality_Nov2017.csv).

 

Vous trouverez la liste des modules nécessaires ci-dessous. Nous n’allons pas rentrer dans les détails de chacun mais de nouveau, je vous invite à feuilleter les documentations pour approfondir votre compréhension.

#Pandas : manipulation de données et preprocessing
#Numpy : calculs scientifiques, matriciels
#Datetime : formatage et manipulation des dates/heures
#Matplotlib : outil de visualisation
#Seaborn : outil de visualisation avancé avec syntaxe simplifiée (basé sur Matplotlib)
#Dask : package avancé pour la manipulation de gros volumes de données (plus complexe que pandas) => optionnel

NB : pour tout module et méthode, tapez help(module.méthode) pour afficher la documentation et l’aide.

Exemple : help(pd.isna) affiche l’aide de la méthode ‘isna()’ du module ‘pandas’