#3 – Préparer les données

Caractéristiques des données

On peut envisager deux grandes catégories de données:

  • Les données structurées : Ce sont les données que l’on peut facilement organiser par rangées et colonnes, et qui sont traditionnellement gérées dans des bases de données. Il s’agit notamment des données liées au fonctionnement habituel des entreprises et organisations (stocks, comptabilité, finances, ressources humaines, statistiques, études scientifiques, …)
  • Les données non structurées : Déjà présentes sous la forme de la production bureautique non organisée, ces données se multiplient de manière exponentielle et incontrôlable avec les plateformes de crowdsourcing, le mobile et l’Internet des objets. Par leur volume, leur vitesse d’acquisition et la variété de leurs formats, elles nécessitent de nouveaux outils pour leur stockage, leur traitement et leur analyse. C’est à leur développement que correspond la naissance du Big Data.

Transformation des données

  • Une donnée est l’enregistrement d’une observation, objet, fait destiné à être interprété par l’homme. La donnée est en générale objective (exemple : température=38°).
  • Une information est le signifiant attaché à la donnée ou à un ensemble de donnée par association. L’information est généralement subjective, définie selon un contexte (exemple : température=38° -> temps chaud).
  • Une connaissance est une information nouvelle, apprise par association d’informations de base, de règles, de raisonnement, d’expérience, d’expertise… (exemple : température=38° -> temps chaud, alors risque de déshydratation)

Organisation des données

  • L’organisation des données. Pour pouvoir être manipulées et analysées de façon optimale, les données doivent être dans un seul fichier (Wickham, 2014 – Tidy data).
    • chaque ligne correspond à une observation
    • les colonnes expriment des informations sur l’événement, la personne, ou un critère reliant l’événement et la personne. Ce sont les variables.
    • la dernière colonne est l’information que l’on souhaite prédire, ce qui signifie que pour créer (on dit entraîner) le modèle cette colonne comporte toujours une valeur mesurée dans la réalité (ici la participation)
  • Le nettoyage de données est l’opération de détection et de correction (ou suppression) d’erreurs présentes sur des données stockées dans le fichier. Le nettoyage comprend plusieurs opérations :
    • Le traitement des valeurs manquantes ou aberrantes
    • La correction des erreurs (syntaxes, sémantiques, formatages…)
    • L’authentification des observations (création d’identifiant unique,…)
    • Le dédoublonnage

Typologie des données

Il existe tout un ensemble de données à étudier et toutes ne s’étudient pas avec les mêmes outils et méthodes. Connaître les différents types de données est donc une phase essentielle avant de pouvoir les analyser.

Les données qualitatives

Les données qualitatives (appelées plus communément attribut) contiennent des valeurs qui expriment une qualité, un état, dont nous ne pouvons pas calculer de moyenne, de limite… Elles ne répondent ainsi pas à la question “combien” mais “est-ce que“. Leurs valeurs sont définies au préalable et peuvent être :

  • Une marque : Ford, Peugeot…
  • Une couleur : Bleu, noir…
  • Un jugement : Bon / pas bon, petit / grand…  

Les opérations arithmétiques que l’on peut réaliser sur ce type de variable sont relativement réduites et se limitent au comptage des effectifs par mode et au calcul des fréquences relatives. Statistiquement parlant, ces variables sont donc très complexes à traiter.

Les données et variables qualitatives peuvent se présenter sous deux formes deux différentes : la forme nominale ou la forme ordinale.

Les données quantitatives

Les données ou variables quantitatives contiennent des valeurs numériques faisant référence à une unité de mesure reconnue. Pour cette raison, elles sont quelques fois qualifiées de variables métriques. La taille, le poids, la surface, la distance, le revenu, l’âge, le chiffre d’affaire ou bien encore la population (dans le sens du nombre d’habitants) sont des variables quantitatives.

Toutes les opérations arithmétiques simples et complexes sont applicables aux variables quantitatives, du dénombrement (fréquences absolues) et autre calcul de pourcentage (fréquences relatives) en passant par la moyenne, la médiane et l’écart-type jusqu’à la modélisation numérique.

  • Exemple : le loyer d’un logement

Au-delà de la qualification d’un loyer (bon marché, correct, cher ou très cher) qui en fait alors une variable qualitative ordinale, le loyer demeure une variable mesurable objectivement selon une unité de mesure reconnue : le prix exprimé en euros par mois ou en euros par mois et par m2. On peut l’additionner, en calculer la moyenne et l’écart-type, en regrouper les valeurs pour former des classes et même le modéliser.

Plus complexe et surtout pouvant être traité avec un nombre conséquent d’outils mathématiques, ces données peuvent être classifiées en 2 sous-groupes : variables discrètes ou continues.

Transformation de données qualitatives en données quantitatives

Certains traitements et analyses sur des données et variables qualitatives nécessitent voire exigent que ces dernières présentent une forme « pseudo quantitative » en lieu et place de leur forme « nominale ». C’est notamment le cas lorsqu’il s’agit d’utiliser des variables qualitatives dans un traitement multivarié ou simplement lorsque l’on désire les rendre manipulables et compatibles avec des logiciels statistiques.

Exemple pour une variable qualitative ordinale

La variable qualitative ordinale « moral des ménages français » propose les cinq modalités suivantes: Très bon, Bon, Moyen, Mauvais et Très mauvais. L’encodage numérique de la variable doit se faire en respectant son caractère ordinal initial. Ce faisant, on obtient le codage suivant :  5 = Très bon  4 = Bon  3 = Moyen  2 = Mauvais  1 = Très mauvais

Exemple pour une variable qualitative nominale

La variable qualitative nominale « sexe » propose les deux modalités suivantes: Masculin et Féminin. Dans ce cas, l’encodage numérique n’a aucune hiérarchie à respecter mais doit seulement reproduire la distinction entre modalités. On peut ainsi indifféremment écrire :  1 = Masculin  2 = Féminin

Échantillonnage des données

Dans une perspective d’analyse prédictive, le jeu de données (dataset) constitue une ressource précieuse. Il faut donc pouvoir l’utiliser à bon escient afin de pouvoir à la fois choisir un modèle et l’entraîner… mais aussi de pouvoir tester la qualité de ce modèle. Il faut donc échantillonner, c’est-à-dire ne récupérer qu’un petit pourcentage du dataset qui servira au travail de modélisation

Pour cela, il faut diviser les gros ensembles de données en 3:

  1. des données d’entraînement pour estimer les paramètres des modèles  (70% du dataset)
  2. des données de validation pour évaluer l’impact de divers choix de modèles et hyper-paramètres (15% du dataset)
  3. des données de test (jamais utilisées pour autre chose) pour évaluer la généralisation ‘comme sur le terrain (15% du dataset)

ATTENTION : Si on ne sélectionne pas de manière bien distribuée, on augmente le biais et notre modèle devient moins représentatif de la réalité.

User Review
0 (0 votes)

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.