Principes de l’apprentissage non supervisé

Contrairement à l’apprentissage supervisé, l’apprentissage non supervisé (Unsupervised Learning) est utilisé pour tirer des conclusions et trouver des tendances à partir de données d’entrée sans étiquettes (ou labels). Il s’agit donc de découvrir les structures sous-jacentes à ces données non étiquetées. Puisque les données ne sont pas étiquetées, il est impossible à l’algorithme de calculer de façon certaine un score de réussite. Cette méthode est utilisée quand notre Dataset ne contient pas d’exemples qui indiquent ce que l’on cherche.

Fondements

L’apprentissage non supervisé repose sur des techniques qui cherchent à décomposer un ensemble d’individus en plusieurs sous ensembles les plus homogènes possibles. Les méthodes sont très nombreuses; par exemple : les méthodes de partitionnement, de hiérarchisation, de similarité,… Mais toutes sont basées sur une mesure de distance ou similarité entre classes.

La qualité d’un clustering est difficile à évaluer : les « bons clusters » ne sont pas connus. On peut utiliser différents critères d’évaluation, notamment:

le jugement d’un expert ou évaluation par un utilisateur
utiliser des données étiquetées si elles existent
la comparaison avec une segmentation de référence
…

Cas d’usage

L’objectif de l’apprentissage non supervisé est trouver des modèles descriptifs qui permettent de mieux
connaître ses données, de découvrir des informations cachées dans la masse des données. Les questions d’apprentissage non supervisé, sont:

Comment trouvez-vous la structure sous-jacente d’un ensemble de données ?
Comment les résumez et les regroupez le plus utilement ?
Comment représentez efficacement les données dans un format compressé ?

Il existe de nombreuses applications d’apprentissage non supervisé, par exemple pour:

segmentation en marketing
analyse et traitement du langage
système de recommandation

Principaux modèles

Les principaux algorithmes d’apprentissage non supervisé sont pour:

regrouper les donnés dans des clusters (Clustering),
réduire la dimension de données en analysant les principaux composants (PCA)
analyser les relations entre les variables afin de détecter des associations (Association)
détecter des anomalies

Chaque algorithme a ses limites et fonctionne pour un certain type de données. La qualité du résultat de clustering dépend des connaissances apriori de l’utilisateur, de l’algorithme, de la fonction de distance, de l’application …

Chapitre précédent Chapitre suivant

Datascience pour les managers

Principes de l’apprentissage non supervisé

Fondements

Cas d’usage

Principaux modèles

Table des matières

Partie 1 – Comprendre la data science

Partie 2 – Déployer un projet de data science

Partie 3 – L’apprentissage supervisé (Supervised Learning)

Partie 4 – L’apprentissage non supervisé (Unsupervised Learning)

Partie 5 – Pour aller plus loin…