Préparation de données : grouper, filtrer, exporter
Groupby
– DataFrame.groupby() : modifie le dataframe pour calculer des agrégats en fonction de la valeur de groupement.
– DataFrame.agg() : calcule des agrégats à l’aide d’un dictionnaire {‘colonne’:’agrégat’}.
– DataFrame.sort_values() : trie les valeurs de sortie par la colonne spécifiée.
air_qua_station = air_quality.groupby('Station').agg({'Air Quality' : 'mean'}).sort_values(by = 'Air Quality', ascending=False
air_qua_station
Une autre méthode :
air_quality[['Station', 'Air Quality']].groupby('Station').mean().sort_values(by = 'Air Quality', ascending=False)
Filtrer un dataframe : lignes
a) pd.DataFrame.loc() : filtre le dataframe avec les arguments spécifiés [lignes, colonnes]
– DataFrame.set_index() : transforme la colonne spécifiée en indice.
– DataFrame.reset_index() : réinitialise les indices pour retrouver la forme d’origine.
air_quality.set_index('Station').loc["Barcelona - Ciutadella",:].reset_index().head()
NB : vous remarquerez ici que les indices ont été réinitialisés.
b) pd.DataFrame.query() : crée une requête à l’aide d’une expression booléenne pour filtrer le dataframe.
air_quality.query("Station == 'Barcelona - Ciutadella'").head()
c) pd.DataFrame[booléen] : cette méthode permet de filtrer un dataframe avec une expression booléenne.
air_quality[air_quality['Station'] == "Barcelona - Ciutadella"].head()
Filtrer un dataframe : colonnes
a) .loc[lignes,colonnes]
pd.DataFrame.loc() : filtre le dataframe avec les arguments spécifiés [lignes, colonnes].
air_quality.loc[:,['Station', 'Air Quality', 'O3 Quality']]
b) .iloc[indices_lignes,indices_colonnes]
pd.DataFrame.iloc() : filtre le dataframe avec les arguments spécifiés en indice [indices_lignes, indices_colonnes].
air_quality.iloc[:,[0,1,5]]
Exporter un fichier en csv
pd.DataFrame.to_csv() : écrit le contenu d’un dataframe dans un fichier csv.
air_quality.to_csv(path_or_buf=’<chemin/nom_du_fichier.csv>’, index = False, date_format='%Y-%m-%d')
NB : Il est possible de choisir le format des dates lors de l’export du fichier avec le paramètre ‘date_format’. ‘index = False’ exporte le fichier sans les indices.