Trouver un modèle
L’analyse prédictive
A la différence de l’analyse causale qui cherche à trouver les facteurs explicatif du phénomène étudié, l’analyse prédictive consiste à utiliser des données, des algorithmes statistiques et des techniques de machine learning pour anticiper de probables résultats futurs en fonction des données historiques. L’objectif est d’extrapoler à partir des événements survenus pour mieux prévoir les événements futurs.
Les données historiques sont généralement utilisées pour créer un modèle mathématique permettant de capturer les tendances importantes. Ce modèle prédictif est ensuite utilisé sur les données actives pour prévoir ce qui va se produire, ou encore pour suggérer des mesures à prendre afin d’optimiser les résultats.
Définition des modèles
Un modèle est une représentation simplifiée de la réalité qui peut être formulée par une équation et pouvant être illustré au travers d’une courbe ou d’un schéma. Un modèle sert à comprendre, expliquer ou prédire un phénomène ou une réalité.
Un modèle est dit déterministe lorsqu’il décrit un phénomène parfaitement connu, sans aucun aléa, partant d’un état initial vers un seul état final. Exemple de formulation :
Y = f(X)
Un modèle est dit stochastique lorsque lorsqu’il décrit un phénomène inconnu ou complexe, avec des aléas, intégrant le hasard, partant d’un état initial vers plusieurs états finaux. Pour encapsuler la stochasticité, on part d’une loi déterministe auquel on ajoute les aléas résiduels (bruits). Exemple de formulation :
Y = f(X) + Ԑ
L’estimation des paramètres d’un modèle
Un modèle comporte plusieurs éléments: une fonction, des variables d’entrée et des paramètres.
Un paramètre est une valeur numérique qui n’est pas calculé par le modèle et qui n’est pas une variable d’entrée mesurée ou observée.
Estimer les paramètre d’un modèle consiste à approcher les valeurs des paramètres à partir de données expérimentales et/ou d’informations issues de l’expertise. C’est important car les performances d’un modèle vont dépendre de la méthode utilisée pour estimer les paramètres.
L’apprentissage statistique consiste à faire qu’une machine apprenne en faisant évoluer les paramètres automatiquement en fonction des données mise à sa disposition.
Prédiction vs. Prévision
Une prédiction repose sur une loi mathématique qui permet de déterminer l’apparition de façon certaine d’un événement (exemple : la rotation des planètes autour de la terre). C’est donc inférer l’inconnue Y en fonction de X en connaissant le lien entre X et Y tel que
Y = f(X)
Une prévision repose sur une loi de probabilité qui permet de calculer l’occurrence d’un événement (par exemple ; la météo). Il s’agit donc de calculer la probabilité en fonction d’événements précédents tel que
P(Yt+1) = f(Yt, Yt-1, … Yt-n)