#6 – Sélectionner un algorithme

Critères pour sélectionner un algorithme d’apprentissage afin de faire une prédiction

Un bon modèle de machine learning, c’est un modèle qui généralise. La généralisation, c’est la capacité d’un modèle à faire des prédictions non seulement sur les données que vous avez utilisées pour le construire, mais surtout sur de nouvelles données : c’est bien pour ça que l’on parle d’apprentissage ! De bonnes performances sur le jeu d’entraînement ne garantissent pas que le modèle sera capable de généraliser. Alors, on cherche à développer un modèle qui soit suffisamment complexe pour bien capturer la nature des données (et éviter ainsi le sous-apprentissage), mais suffisamment simple pour éviter le sur-apprentissage.

Toutefois, voilà ci-dessous quelques critères qui permettent de sélectionner un algorithme d’apprentissage :

  • la taille, la qualité et de la nature du jeu de données
  • la nature des données à prédire
  • la précision de la prédiction attendue
  • la durée d’apprentissage
  • le nombre de paramètres pour configurer l’algorithme
  • la linéarité du modèle

Quelques algorithmes de prédiction

Exemple d’un modèle d’apprentissage supervisé pour trouver des règles

Un arbre de décision est un outil d’aide à la décision représentant un ensemble de choix sous la forme graphique d’un arbre. Les différentes décisions possibles sont situées aux extrémités des branches (les « feuilles » de l’arbre), et sont atteints en fonction de décisions prises à chaque étape.

Les arbres de décision sont utilisés dans des domaines d’aide à la décision (par exemple l’informatique décisionnelle) ou l’exploration de données. Ils décrivent comment répartir une population d’individus (clients d’une entreprise, utilisateurs d’un réseau social, …) en groupes homogènes selon un ensemble de variables discriminantes (âge, temps passé sur un site Web, catégorie socio-professionnelle, …) et en fonction d’un objectif fixé (aussi appelé « variable d’intérêt » ou « variable de sortie » ; par exemple : chiffre d’affaires, probabilité de cliquer sur une publicité, …).

Par exemple, l’arbre de décision ci-dessous (tiré de l’ouvrage de Quilan) illustre le cas où l’on cherche à prédire le comportement de sportifs (la variable à prédire Jouer prenant l’une des deux valeurs « oui » ou « non ») en fonction de données météorologiques (Ensoleillement, Température, Humidité ou Vent), appelées variables prédictives.

Chaque nœud de l’arbre décrit la distribution de la variable Jouer à prédire. Dans le cas du premier nœud, la racine de l’arbre, nous constatons qu’il y a 14 observations dans notre fichier : 9 cas où une partie a eu lieu (Jouer = oui) et 5 où aucune partie n’a eu lieu (Jouer= non). Ce premier nœud a plusieurs fils construits en utilisant la variable Ensoleillement : le plus à gauche (Ensoleillement = Soleil) comporte 5 observations, le suivant (Ensoleillement = couvert) en comporte 4, et ainsi de suite. La suite de décisions continue jusqu’à ce que, dans l’idéal, les observations dans un nœud soient toutes « oui » ou toutes « non ». On dit alors que le nœud est homogène.

Le processus de décision s’arrête aux feuilles de l’arbre. Dans l’arbre ci-dessus, toutes les feuilles sont homogènes, c’est-à-dire que les variables prédictives utilisées permettent de prédire complètement (sur ce fichier de données) si une partie va avoir lieu ou non. (Notons qu’il serait possible de construire l’arbre selon un ordre différent des variables de météo, par exemple en considérant l’humidité plutôt que l’ensoleillement à la première décision). L’arbre se lit intuitivement de haut en bas, ce qui se traduit en termes de règles logiques sans perte d’informations : par exemple, la feuille la plus à gauche se lit : « si ensoleillement = soleil et humidité < 77,5 % alors jouer = oui ».

Exemple d’un modèle d’apprentissage non supervisé pour découvrir des catégories

Le clustering ou partitionnement des données vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l’on définit en introduisant des mesures et classes de distance entre objets.

Le partitionnement de données est une méthode de classification non supervisée (différente de la classification supervisée où les données d’apprentissage sont déjà étiquetées), et donc parfois dénommée comme telle. Il existe de multiples méthodes de partitionnement des données, parmi lesquelles : les méthodes basées centroïdes telles que les algorithmes des k-moyennes ou k-médoïdes ; les méthodes de regroupement hiérarchique ; Des algorithmes de maximisation de l’espérance (EM) ; …

User Review
0 (0 votes)

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.