Datascience pour les managers

Partie 4
Chapitre 2 sur 4
Partie 4 – L’apprentissage non supervisé (Unsupervised Learning)

Réduire les dimensions (PCA)

Principe

La réduction des dimensions est un processus qui consiste à prendre des données dans un espace de grande dimension, et à les remplacer par des données dans un espace de plus petite dimension.

Réduire la dimensionalité des données, c’est-à-dire le nombre de variables utilisées pour les représenter, permet :

  • de faciliter la visualisation des données ;
  • de réduire les coûts de calcul, de stockage et d’acquisition des données ;
  • d’améliorer l’apprentissage en construisant des modèles moins complexes, en éliminant les variables non pertinentes qui pourraient fausser les prédictions et enfin en réduisant le problème du fléau de la dimensionalité.

Démarche

Pour réduire la dimension, on peut agir sur deux leviers :

  1. Supprimer des dimensions (ou descripteurs),
  2. Combiner les variables afin d’obtenir un plus petit nombre de nouvelles variables plus expressives et/ou moins redondantes.

La méthode la plus utilisé pour réduire les dimensions est l’ACP (Analyse en composantes principales ou PCA en anglais) et ses variantes. Le but d’une analyse en composantes principales est de trouver une nouvelle base orthonormée dans laquelle représenter nos données, telle que la variance des données selon ces nouveaux axes soit maximisée.

Comment faire une ACP avec BigML ?

  • créer un jeu d’entrainement et de test des données
  • faire une ACP et créer un nouveau jeu de données avec les nouvelles composantes principales
  • créer un programme de projection pour le jeu de test
  • modéliser le jeu d’entrainement avec les composantes principales
  • évaluer le modèle avec la projection du jeu de test

A voir : BigML Fall 2018 Webinar – Principal Component Analysis (PCA)