Collecter les données
Source de données
Il existe différentes sources de données. Avec les nouvelles technologies de l’information, on assiste à une croissance exponentielle des informations.
Caractéristiques des données
On peut envisager deux grandes catégories de données:
Les données structurées : Ce sont les données que l’on peut facilement organiser par rangées et colonnes, et qui sont traditionnellement gérées dans des bases de données. Il s’agit notamment des données liées au fonctionnement habituel des entreprises et organisations (stocks, comptabilité, finances, ressources humaines, statistiques, études scientifiques, …)
Les données non structurées : Déjà présentes sous la forme de la production bureautique non organisée, ces données se multiplient de manière exponentielle et incontrôlable avec les plateformes de crowdsourcing, le mobile et l’Internet des objets. Par leur volume, leur vitesse d’acquisition et la variété de leurs formats, elles nécessitent de nouveaux outils pour leur stockage, leur traitement et leur analyse. C’est à leur développement que correspond la naissance du Big Data.
Typologie des données
Il existe tout un ensemble de données à étudier et toutes ne s’étudient pas avec les mêmes outils et méthodes. Connaître les différents types de données est donc une phase essentielle avant de pouvoir les analyser.
Les données qualitatives
Les données qualitatives (appelées plus communément attribut) contiennent des valeurs qui expriment une qualité, un état, dont nous ne pouvons pas calculer de moyenne, de limite… Elles ne répondent ainsi pas à la question “combien” mais “est-ce que“. Leurs valeurs sont définies au préalable et peuvent être :
-Une marque : Ford, Peugeot…
-Une couleur : Bleu, noir…
-Un jugement : Bon / pas bon, petit / grand…
Les opérations arithmétiques que l’on peut réaliser sur ce type de variable sont relativement réduites et se limitent au comptage des effectifs par mode et au calcul des fréquences relatives. Statistiquement parlant, ces variables sont donc très complexes à traiter.
Les données et variables qualitatives peuvent se présenter sous deux formes deux différentes : la forme nominale ou la forme ordinale.
Les données quantitatives
Les données ou variables quantitatives contiennent des valeurs numériques faisant référence à une unité de mesure reconnue. Pour cette raison, elles sont quelques fois qualifiées de variables métriques. La taille, le poids, la surface, la distance, le revenu, l’âge, le chiffre d’affaire ou bien encore la population (dans le sens du nombre d’habitants) sont des variables quantitatives.
Toutes les opérations arithmétiques simples et complexes sont applicables aux variables quantitatives, du dénombrement (fréquences absolues) et autre calcul de pourcentage (fréquences relatives) en passant par la moyenne, la médiane et l’écart-type jusqu’à la modélisation numérique.
- Exemple : le loyer d’un logement
Au-delà de la qualification d’un loyer (bon marché, correct, cher ou très cher) qui en fait alors une variable qualitative ordinale, le loyer demeure une variable mesurable objectivement selon une unité de mesure reconnue : le prix exprimé en euros par mois ou en euros par mois et par m2. On peut l’additionner, en calculer la moyenne et l’écart-type, en regrouper les valeurs pour former des classes et même le modéliser.
Plus complexe et surtout pouvant être traité avec un nombre conséquent d’outils mathématiques, ces données peuvent être classifiées en 2 sous-groupes : variables discrètes ou continues.
Transformation de données qualitatives en données quantitatives
Certains traitements et analyses sur des données et variables qualitatives nécessitent voire exigent que ces dernières présentent une forme « pseudo quantitative » en lieu et place de leur forme « nominale ». C’est notamment le cas lorsqu’il s’agit d’utiliser des variables qualitatives dans un traitement multivarié ou simplement lorsque l’on désire les rendre manipulables et compatibles avec des logiciels statistiques.
Exemple pour une variable qualitative ordinale
La variable qualitative ordinale « moral des ménages français » propose les cinq modalités suivantes: Très bon, Bon, Moyen, Mauvais et Très mauvais. L’encodage numérique de la variable doit se faire en respectant son caractère ordinal initial. Ce faisant, on obtient le codage suivant : 5 = Très bon 4 = Bon 3 = Moyen 2 = Mauvais 1 = Très mauvais
Exemple pour une variable qualitative nominale
La variable qualitative nominale « sexe » propose les deux modalités suivantes: Masculin et Féminin. Dans ce cas, l’encodage numérique n’a aucune hiérarchie à respecter mais doit seulement reproduire la distinction entre modalités. On peut ainsi indifféremment écrire : 1 = Masculin 2 = Féminin
Transformation de données quantitatives en données qualitatives
- Une donnée est l’enregistrement d’une observation, objet, fait destiné à être interprété par l’homme. La donnée est en générale objective (exemple : température=38°).
- Une information est le signifiant attaché à la donnée ou à un ensemble de donnée par association. L’information est généralement subjective, définie selon un contexte (exemple : température=38° -> temps chaud).
- Une connaissance est une information nouvelle, apprise par association d’informations de base, de règles, de raisonnement, d’expérience, d’expertise… (exemple : température=38° -> temps chaud, alors risque de déshydratation)