Prédire à partir de la régression linéaire
Une variable X est la cause la variable Y si les valeurs passées de X ont un impact statistique sur la valeur actuelle ou future de Y. On peut écrire :
X (t) = a + bY (t-1)
Une erreur de raisonnement courante consiste à dire : « X et Y sont corrélés, donc X cause Y ». On confond alors corrélation et causalité car en réalité, il se pourrait aussi que Y cause X, ou bien que X et Y aient une cause commune Z, ou encore que X et Y soient accidentellement liés mais n’aient aucun lien de causalité.
La relation de causalité peut donc être estimée par un modèle de régression dans lequel une variable expliquée est fonction d’une ou plusieurs autres variables explicatives. La régression est donc un ensemble de méthodes statistiques très utilisées pour analyser la relation d’une variable par rapport à une ou plusieurs autres. On distingue plusieurs types de modèles de régression : linéaire, multiple, polynomiale, logistique…
En statistiques un modèle de régression linéaire est un modèle qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. Il existe aussi de nombreuses méthodes pour estimer ce modèle. On peut, par exemple, estimer le modèle par la méthode des moindres carrés, par le maximum de vraisemblance ou encore par inférence bayésienne.