Préparer les données
Nettoyage des données
Le nettoyage de données est l’opération de détection et de correction (ou suppression) d’erreurs présentes sur des données stockées dans le fichier. Le nettoyage comprend plusieurs opérations :
- Le traitement des valeurs manquantes ou aberrantes
- La correction des erreurs (syntaxes, sémantiques, formatages…)
- L’authentification des observations (création d’identifiant unique,…)
- Le dédoublonnage
Organisation des données
Pour pouvoir être manipulées et analysées de façon optimale, les données doivent être dans un seul fichier (Wickham, 2014 – Tidy data).
- chaque ligne correspond à une observation
- les colonnes expriment des informations sur l’événement, la personne, ou un critère reliant l’événement et la personne. Ce sont les variables.
- la dernière colonne est la variable que l’on souhaite prédire (Y), ce qui signifie que pour créer (on dit entraîner) le modèle cette colonne comporte toujours une valeur mesurée dans la réalité (ici la participation). Les autres variables sont les variables explicatives (X1, X2,Xn).
Échantillonnage des données
Dans une perspective d’analyse prédictive, le jeu de données (dataset) constitue une ressource précieuse. Il faut donc pouvoir l’utiliser à bon escient afin de pouvoir à la fois choisir un modèle et l’entraîner… mais aussi de pouvoir tester la qualité de ce modèle. Il faut donc échantillonner, c’est-à-dire ne récupérer qu’un petit pourcentage du dataset qui servira au travail de modélisation
Pour cela, il faut diviser les gros ensembles de données en 3:
- des données d’entraînement pour estimer les paramètres des modèles (70% du dataset)
- des données de validation pour évaluer l’impact de divers choix de modèles et hyper-paramètres (15% du dataset)
- des données de test (jamais utilisées pour autre chose) pour évaluer la généralisation ‘comme sur le terrain (15% du dataset)
ATTENTION : Si on ne sélectionne pas de manière bien distribuée, on augmente le biais et notre modèle devient moins représentatif de la réalité.