Collecter les données

Source de données

Il existe différentes sources de données. Avec les nouvelles technologies de l’information, on assiste à une croissance exponentielle des informations.

Caractéristiques des données

On peut envisager deux grandes catégories de données:

Les données structurées : Ce sont les données que l’on peut facilement organiser par rangées et colonnes, et qui sont traditionnellement gérées dans des bases de données. Il s’agit notamment des données liées au fonctionnement habituel des entreprises et organisations (stocks, comptabilité, finances, ressources humaines, statistiques, études scientifiques, …)

Les données non structurées : Déjà présentes sous la forme de la production bureautique non organisée, ces données se multiplient de manière exponentielle et incontrôlable avec les plateformes de crowdsourcing, le mobile et l’Internet des objets. Par leur volume, leur vitesse d’acquisition et la variété de leurs formats, elles nécessitent de nouveaux outils pour leur stockage, leur traitement et leur analyse. C’est à leur développement que correspond la naissance du Big Data.

Typologie des données

Il existe tout un ensemble de données à étudier et toutes ne s’étudient pas avec les mêmes outils et méthodes. Connaître les différents types de données est donc une phase essentielle avant de pouvoir les analyser.

Les données qualitatives

Les données qualitatives (appelées plus communément attribut) contiennent des valeurs qui expriment une qualité, un état, dont nous ne pouvons pas calculer de moyenne, de limite… Elles ne répondent ainsi pas à la question “combien” mais “est-ce que“. Leurs valeurs sont définies au préalable et peuvent être :

-Une marque : Ford, Peugeot…

-Une couleur : Bleu, noir…

-Un jugement : Bon / pas bon, petit / grand…

Les opérations arithmétiques que l’on peut réaliser sur ce type de variable sont relativement réduites et se limitent au comptage des effectifs par mode et au calcul des fréquences relatives. Statistiquement parlant, ces variables sont donc très complexes à traiter.

Les données et variables qualitatives peuvent se présenter sous deux formes deux différentes : la forme nominale ou la forme ordinale.

Les données quantitatives

Les données ou variables quantitatives contiennent des valeurs numériques faisant référence à une unité de mesure reconnue. Pour cette raison, elles sont quelques fois qualifiées de variables métriques. La taille, le poids, la surface, la distance, le revenu, l’âge, le chiffre d’affaire ou bien encore la population (dans le sens du nombre d’habitants) sont des variables quantitatives.

Toutes les opérations arithmétiques simples et complexes sont applicables aux variables quantitatives, du dénombrement (fréquences absolues) et autre calcul de pourcentage (fréquences relatives) en passant par la moyenne, la médiane et l’écart-type jusqu’à la modélisation numérique.

  • Exemple : le loyer d’un logement

Au-delà de la qualification d’un loyer (bon marché, correct, cher ou très cher) qui en fait alors une variable qualitative ordinale, le loyer demeure une variable mesurable objectivement selon une unité de mesure reconnue : le prix exprimé en euros par mois ou en euros par mois et par m2. On peut l’additionner, en calculer la moyenne et l’écart-type, en regrouper les valeurs pour former des classes et même le modéliser.

Plus complexe et surtout pouvant être traité avec un nombre conséquent d’outils mathématiques, ces données peuvent être classifiées en 2 sous-groupes : variables discrètes ou continues.

Transformation de données qualitatives en données quantitatives

Certains traitements et analyses sur des données et variables qualitatives nécessitent voire exigent que ces dernières présentent une forme « pseudo quantitative » en lieu et place de leur forme « nominale ». C’est notamment le cas lorsqu’il s’agit d’utiliser des variables qualitatives dans un traitement multivarié ou simplement lorsque l’on désire les rendre manipulables et compatibles avec des logiciels statistiques.

Exemple pour une variable qualitative ordinale

La variable qualitative ordinale « moral des ménages français » propose les cinq modalités suivantes: Très bon, Bon, Moyen, Mauvais et Très mauvais. L’encodage numérique de la variable doit se faire en respectant son caractère ordinal initial. Ce faisant, on obtient le codage suivant :  5 = Très bon  4 = Bon  3 = Moyen  2 = Mauvais  1 = Très mauvais

Exemple pour une variable qualitative nominale

La variable qualitative nominale « sexe » propose les deux modalités suivantes: Masculin et Féminin. Dans ce cas, l’encodage numérique n’a aucune hiérarchie à respecter mais doit seulement reproduire la distinction entre modalités. On peut ainsi indifféremment écrire :  1 = Masculin  2 = Féminin

Transformation de données quantitatives en données qualitatives

  • Une donnée est l’enregistrement d’une observation, objet, fait destiné à être interprété par l’homme. La donnée est en générale objective (exemple : température=38°).
  • Une information est le signifiant attaché à la donnée ou à un ensemble de donnée par association. L’information est généralement subjective, définie selon un contexte (exemple : température=38° -> temps chaud).
  • Une connaissance est une information nouvelle, apprise par association d’informations de base, de règles, de raisonnement, d’expérience, d’expertise… (exemple : température=38° -> temps chaud, alors risque de déshydratation)