#5 – Trouver un modèle

Définition des modèles

Un modèle est une représentation simplifiée de la réalité qui peut être formulée par une équation et pouvant être illustré au travers d’une courbe ou d’un schéma. Un modèle sert à comprendre, expliquer ou prédire un phénomène ou une réalité.

Un modèle est dit déterministe lorsqu’il décrit un phénomène parfaitement connu, sans aucun aléa, partant d’un état initial vers un seul état final.
Exemple de formulation : Y = f(X)

Un modèle est dit stochastique lorsque lorsqu’il décrit un phénomène inconnu ou complexe, avec des aléas, intégrant le hasard, partant d’un état initial vers plusieurs états finaux. Pour encapsuler la stochasticité, on part d’une loi déterministe auquel on ajoute les aléas résiduels (bruits).
Exemple de formulation : Y = f(X) + Ԑ

Prédiction vs. Prévision

Une prédiction repose sur une loi mathématique qui permet de déterminer l’apparition de façon certaine d’un événement (exemple : la rotation des planètes autour de la terre). C’est donc inférer l’inconnue Y en fonction de X en connaissant le lien entre X et Y tel que

Y = f(X)

Une prévision repose sur une loi de probabilité qui permet de calculer l’occurrence d’un événement (par exemple ; la météo). Il s’agit donc de calculer la probabilité en fonction d’événements précédents tel que

P(Yt+1) = f(Yt, Yt-1, … Yt-n)

Apprentissage automatique

L’analyse des données massives consistent en grande partie à détecter des corrélations entre des variables plutôt que de trouver des relations de causes à effet. Le but des techniques d’apprentissage est de chercher la valeur d’un variable en fonction d’autres variables.

L’apprentissage automatique ou apprentissage statistique (machine learning en anglais), champ d’étude de l’intelligence artificielle, concerne la conception, l’analyse, le développement et l’implémentation de méthodes permettant à une machine (au sens large) d’évoluer par un processus systématique, et ainsi de remplir des tâches difficiles ou impossibles à remplir par des moyens algorithmiques plus classiques.  L’analyse peut concerner des graphes, arbres, ou courbes au même titre que de simples nombres.

Le Machine Learning (ML) est un ensemble : d’outils statistiques, d’algorithmes informatiques et d’outils informatiques qui permettent d’automatiser la construction d’une fonction de prédiction à partir d’un ensemble d’observations (l’ensemble d’apprentissage).

L’objectif du Machine Learning est de trouver des corrélations. En fait, l’objectif n’est pas de trouver des causes en examinant une chronologie (comme dans une démarche scientifique), mais d’identifier des corrélations pertinentes entre les variables prédictives des observations et les variables cibles. En effet, rien n’impose qu’une variable prédictive soit la cause d’un phénomène décrit par une variable cible.

Le machine learning permet donc de trouver un modèle (stochastique ou déterministe) du phénomène à l’origine des données. C’est à dire qu’on considère que chaque donnée observée est l’expression d’une variable aléatoire générée par une distribution de probabilité.

En apprentissage automatique, on distingue 2 grandes familles d’algorithmes d’apprentissage : apprentissage supervisé vs. apprentissage non-supervisé.

En apprentissage supervisé, vous allez récupérer des données dites annotées de leur sorties pour entraîner le modèle, c’est à dire que vous leur avez déjà associé un label ou une classe cible et vous voulez que l’algorithme devienne capable de la prédire sur de nouvelles données non annotées une fois entraîné.

En apprentissage non-supervisé, les données d’entrées ne sont pas annotées. L’algorithme d’entraînement s’applique dans ce cas à trouver seul les similarités et distinctions au sein de ces données, et à regrouper ensemble celles qui partagent des caractéristiques communes.

Chaque famille d’algorithme correspond également à un type de données et de problèmes. Ainsi, on considère que les problèmes de prédiction d’une variable continue (un nombre) sont des problèmes de régression tandis que les problèmes de prédiction d’une variable discrète (une catégorie) sont des problèmes de classification.

User Review
0 (0 votes)

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.