Le web scraping

Présentation

HTTP

Sur le Web, les clients, comme votre navigateur, communiquent avec les serveurs Web en envoyant des requêtes HTTP. Ce protocole HTTP contrôle la façon dont le client formule ses demandes et la façon dont le serveur y répond. Une réponse HTTP est un ensemble de lignes envoyées au navigateur par le serveur qui se compose généralement d’un en-tête et d’un corps.

Voici l’en-tête de la réponse obtenue si on tape Wikipédia dans Wikipédia :

Le web scraping est une technique qui permet de récupérer des données contenues sur le web de façon automatisée et de stocker ces informations dans des formats plus exploitables comme Excel ou csv.

La question est de savoir quelles données scraper et comment les scraper ?
Il existe beaucoup trop de données à scraper pour les expliquer ici (vous vous en doutez). Avant de récupérer tous les contenus de tous les sites présents sur le web, il est essentiel de comprendre quelles informations nous voulons récupérer et d’identifier les sources des données.

Dans ce cours nous nous focaliserons sur le web scraping avec Python via une requête HTTP afin d’automatiser le téléchargement de fichiers csv. Nous prendrons comme exemple une page web du site « data.gouv.fr » qui contient différents types d’informations et les liens téléchargeables qui nous intéressent.

Chapitre précédent Chapitre suivant

Construire une base de données relationnelle

Le web scraping

Présentation

HTTP

Table des matières

Partie 1 – Introduction aux bases de données relationnelles

Partie 2 – Collecter des données sur le web avec Python

Partie 3 – Explorer et préparer les données avec Python

Partie 4 – Organiser et schématiser les données avec SQL

Partie 5 – Exploiter et joindre des données avec SQL