Préparation de données : grouper, filtrer, exporter

Groupby

– DataFrame.groupby() : modifie le dataframe pour calculer des agrégats en fonction de la valeur de groupement.
– DataFrame.agg() : calcule des agrégats à l’aide d’un dictionnaire {‘colonne’:’agrégat’}.
– DataFrame.sort_values() : trie les valeurs de sortie par la colonne spécifiée.

air_qua_station = air_quality.groupby('Station').agg({'Air Quality' : 'mean'}).sort_values(by = 'Air Quality', ascending=False
air_qua_station

 

Une autre méthode :

air_quality[['Station', 'Air Quality']].groupby('Station').mean().sort_values(by = 'Air Quality', ascending=False)

Filtrer un dataframe : lignes

a) pd.DataFrame.loc() : filtre le dataframe avec les arguments spécifiés [lignes, colonnes]

– DataFrame.set_index() : transforme la colonne spécifiée en indice.
– DataFrame.reset_index() : réinitialise les indices pour retrouver la forme d’origine.

air_quality.set_index('Station').loc["Barcelona - Ciutadella",:].reset_index().head()

NB : vous remarquerez ici que les indices ont été réinitialisés.

 

b) pd.DataFrame.query() : crée une requête à l’aide d’une expression booléenne pour filtrer le dataframe.

air_quality.query("Station == 'Barcelona - Ciutadella'").head()

 

c) pd.DataFrame[booléen] : cette méthode permet de filtrer un dataframe avec une expression booléenne.

air_quality[air_quality['Station'] == "Barcelona - Ciutadella"].head()

Filtrer un dataframe : colonnes

a) .loc[lignes,colonnes]

pd.DataFrame.loc() : filtre le dataframe avec les arguments spécifiés [lignes, colonnes].

air_quality.loc[:,['Station', 'Air Quality', 'O3 Quality']]

b) .iloc[indices_lignes,indices_colonnes]

pd.DataFrame.iloc() : filtre le dataframe avec les arguments spécifiés en indice [indices_lignes, indices_colonnes].

air_quality.iloc[:,[0,1,5]]

Exporter un fichier en csv

pd.DataFrame.to_csv() : écrit le contenu d’un dataframe dans un fichier csv.

air_quality.to_csv(path_or_buf=’<chemin/nom_du_fichier.csv>’, index = False, date_format='%Y-%m-%d')

NB : Il est possible de choisir le format des dates lors de l’export du fichier avec le paramètre ‘date_format’. ‘index = False’ exporte le fichier sans les indices.