Principes de l’apprentissage non supervisé

Contrairement à l’apprentissage supervisé, l’apprentissage non supervisé (Unsupervised Learning) est utilisé pour tirer des conclusions et trouver des tendances à partir de données d’entrée sans étiquettes (ou labels). Il s’agit donc de découvrir les structures sous-jacentes à ces données non étiquetées. Puisque les données ne sont pas étiquetées, il est impossible à l’algorithme de calculer de façon certaine un score de réussite. Cette méthode est utilisée quand notre Dataset ne contient pas d’exemples qui indiquent ce que l’on cherche.

Fondements

L’apprentissage non supervisé repose sur des techniques qui cherchent à décomposer un ensemble d’individus en plusieurs sous ensembles les plus homogènes possibles. Les méthodes sont très nombreuses; par exemple : les méthodes de partitionnement, de hiérarchisation, de similarité,… Mais toutes sont basées sur une mesure de distance ou similarité entre classes.

La qualité d’un clustering est difficile à évaluer : les « bons clusters » ne sont pas connus. On peut utiliser différents critères d’évaluation, notamment:

  • le jugement d’un expert ou évaluation par un utilisateur
  • utiliser des données étiquetées si elles existent
  • la comparaison avec une segmentation de référence

 

Cas d’usage

L’objectif de l’apprentissage non supervisé est trouver des modèles descriptifs qui permettent de mieux
connaître ses données, de découvrir des informations cachées dans la masse des données. Les questions d’apprentissage non supervisé, sont:

  • Comment trouvez-vous la structure sous-jacente d’un ensemble de données ?
  • Comment les résumez et les regroupez le plus utilement ?
  • Comment représentez efficacement les données dans un format compressé ?

Il existe de nombreuses applications d’apprentissage non supervisé, par exemple pour:

  • segmentation en marketing
  • analyse et traitement du langage
  • système de recommandation

Principaux modèles

Les principaux algorithmes d’apprentissage non supervisé sont pour:

  • regrouper les donnés dans des clusters (Clustering),
  • réduire la dimension de données en analysant les principaux composants (PCA)
  • analyser les relations entre les variables afin de détecter des associations (Association)
  • détecter des anomalies

Chaque algorithme a ses limites et fonctionne pour un certain type de données. La qualité du résultat de clustering dépend des connaissances apriori de l’utilisateur, de l’algorithme, de la fonction de distance, de l’application …