Description des données

Lecture du fichier csv

Commençons par définir les chemins des fichiers csv à lire et créons notre dataframe :

– path.abspath() : renvoie le chemin abolu.
– path.join() : concatène plusieurs chemins.

BASE = os.path.abspath("<chemin du répertoire où lire les fichiers>")
air_quality_path = os.path.join(BASE,"air_quality_Nov2017.csv")

#source : https://www.kaggle.com/xvivancos/barcelona-data-sets?select=air_quality_Nov2017.csv

NB : pd.read_csv() : lit un fichier csv (comma-separated values) dans un dataframe.

air_quality = pd.read_csv(air_quality_path)

Description

Il est important pour nous, humains, de visualiser le dataframe. Je vous conseille donc de temps en temps (avant et après chaque modification du dataframe) de visualiser les premières lignes.

NB : pd.DataFrame.head(n) : sort les n premières lignes du dataframe. Par défaut, 5 lignes.

air_quality.head()

Colonnes

Lister les colonnes avec pd.DataFrame.columns.

air_quality.columns

Dimensionnalité du dataframe

pd.DataFrame.shape : renvoie un tuple des dimensions du dataframe (rows, columns).

air_quality.shape

Statistiques descriptives

pd.DataFrame.describe() : génère des statistiques descriptives du dataframe avec les colonnes numériques.

air_quality.describe()

Informations et types des colonnes

pd.DataFrame.info() : renvoie les informations concises du dataframe (colonnes, valeurs non-nulles, types, utilisation de la mémoire).

air_quality.info()

Types

pd.DataFrame.dtypes : renvoie uniquement les types des colonnes.

Valeurs manquantes

pd.DataFrame.isna().sum() : renvoie la somme des valeurs manquantes du dataframe par colonne.

– DataFrame.isna() : renvoie le dataframe avec les valeurs manquantes sous forme de booléen (True, False).
– DataFrame.sum() : renvoie la somme des valeurs demandées.

air_quality.isna().sum()