#4 – Explorer les données

Introduction à la statistique

  • La statistique a pour objet de recueillir des observations portant sur des sujets présentant une certaine propriété et de traduire ces observations par des nombres qui permettent d’avoir des renseignements sur cette propriété.
  • On appelle population un ensemble d’éléments homogènes auxquels on s’intéresse. Par exemple, les étudiants d’une classe, les contribuables français, les ménages lillois . . .
  • Les éléments de la population sont appelés les individus ou unités statistiques.
  • Des observations concernant un thème particulier ont été effectuées sur ces individus. La série de ces observations forme ce que l’on appelle une variable statistique.
  • Lorsque le caractère étudié est exprimable directement par un nombre, l’énumération des nombres exprimant la valeur de ce caractère pour chaque membre de la population étudiée est une série statistique quantitative.

Éléments de statistique descriptive

Le but de la statistique descriptive est de structurer et de représenter l’information contenue dans les données pour mieux les analyser.

  • La différence entre la plus grande valeur et la plus petite valeur du caractère effectivement obtenue est l’étendue (noté e).
  • Le nombre de membres de la population étudiée est l’effectif total.
  • La fréquence d’une valeur (ou d’une classe) est le rapport de l’effectif de cette valeur (ou de cette classe) par l’effectif total.
  • Le mode, désigné par Mo est la valeur de la variable statistique la plus fréquente.
  • La médiane, désignée par Me, est la valeur de la variable telle qu’il y ait autant d’observations, en dessous d’elle qu’au-dessus ou, ce qui revient au même, la valeur correspondant à 50% des observations.
  • La moyenne de la série se note m. Elle exprime la grandeur qu’aurait chacun des membres de l’ensemble s’ils étaient tous identiques sans changer la dimension globale de l’ensemble.
  • Le tri à plat restitue la distribution des différentes réponses obtenues à une question unique dans le cadre d’un questionnaire d’étude. 
  • Le tri croisé est le croisement de résultats obtenus sur deux ou plusieurs questions d’un questionnaire.
  • la corrélation entre deux ou plusieurs variables aléatoires correspond à l’intensité de la liaison qui peut exister entre ces variables.

Représentation graphique

La représentation graphique est une synthèse de l’information qui fait apparaitre la forme globale de la distribution des données. Le choix du type de graphe dépend de la nature des variables. Un graphique comprend trois parties:

  • Un Titre : il doit être identique à celui du tableau dont il est issu.
  • Des coordonnées : Axe s : les modalités de la variable sur l’axe (x) et les effectifs (ni) ou les fréquences (%) sur l’axe des (y).
  • Des échelles (souvent arithmétiques), la valeur 0 au point de rencontre des 2 axes

Les Histogrammes

C’est un graphique servant à représenter les distributions des fréquences. Il est constitué d’un ensemble de rectangles adjacents, dont chacune des bases coïncide avec un intervalle de classe et chacune des surfaces mesure la fréquence de la classe correspondante.

Les polygones de fréquences

C’est une représentation graphique de la variable quantitative continue. Le polygone est obtenu à partir de l’histogramme en rejoignant le point milieu du sommet de chaque rectangle au milieu du sommet du rectangle adjacent.

Diagramme en camembert ou en cercle

Le principe du graphe consiste à diviser un cercle en secteurs proportionnels aux fréquences des classes en partant de la position « Midi » pour disposer dans le sens horaire les secteurs représentants les classes.

Relation entre les variables

La corrélation

Pour savoir s’il existe une relation entre deux caractères, on établit un diagramme de corrélation, c’est à dire un diagramme croisant les modalités de X et de Y. Chaque élément i est représenté par le point de coordonnées (Xi,Yi). L’ensemble des points forme un nuage de points dont la forme permet de caractériser la relation à l’aide de trois critères : l’intensité de la relation, la forme de la relation et le sens de la relation.

Deux événements (appelons les X et Y) sont corrélés si l’on observe une dépendance, une relation entre les deux. Par exemple, le nombre de cheveux d’un homme a tendance à diminuer avec l’âge : âge et nombre de cheveux sont donc corrélés.

La régression

Une variable X est la cause la variable Y si les valeurs passées de X ont un impact statistique sur la valeur actuelle ou future de Y. On peut écrire :
X (t) = a + bY (t-1)

Une erreur de raisonnement courante consiste à dire : « X et Y sont corrélés, donc X cause Y ». On confond alors corrélation et causalité car en réalité, il se pourrait aussi que Y cause X, ou bien que X et Y aient une cause commune Z, ou encore que X et Y soient accidentellement liés mais n’aient aucun lien de causalité.

La relation de causalité peut donc être estimée par un modèle de régression dans lequel une variable expliquée est fonction d’une ou plusieurs autres variables explicatives. La régression est donc un ensemble de méthodes statistiques très utilisées pour analyser la relation d’une variable par rapport à une ou plusieurs autres. On distingue plusieurs types de modèles de régression : linéaire, multiple, polynomiale, logistique…

En statistiques un modèle de régression linéaire est un modèle qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. Il existe aussi de nombreuses méthodes pour estimer ce modèle. On peut, par exemple, estimer le modèle par la méthode des moindres carrés, par le maximum de vraisemblance ou encore par inférence bayésienne.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.