Modéliser les données du Titanic avec BigML

Configurer le modèle

Vous pouvez choisir de configurer votre modèle prédictif manuellement ou de laisser BigML faire le travail lui-même grâce à ses fonctionnalités “1 clic”.

L’historique des requêtes réalisée sur un jeu de données apparaît ici:

Apprentissage supervisé

Par défaut, BigML représente le modèle prédictif sous la forme d’un arbre de décision.

Vous pouvez également choisir une visualisation sunburst et interagir avec celle-ci (sunburst intégré ci-dessous). La seule différence avec l’arbre de décision est qu’il commence par le centre plutôt que par le haut.

Apprentissage non supervisé

L’analyse de cluster est une tâche d’apprentissage automatique non supervisée qui partitionne un ensemble de données et regroupe les instances similaires. Il sépare un ensemble d’instances en un certain nombre de groupes afin que les instances du même groupe, appelées cluster, se ressemblent davantage que celles d’autres groupes. L’analyse de cluster ne nécessite pas l’utilisation de données précédemment étiquetées. Pour cette raison, il entre dans la catégorie des apprentissages non supervisés. Cette tâche est couramment utilisée pour la segmentation du marché et des clients, la gestion de portefeuille et la création de nouvelles fonctionnalités à partir de vos données, tout en comprenant sa structure sous-jacente.

Les clusters BigML peuvent être construits à l’aide de deux algorithmes d’apprentissage non supervisés:

  • K-means : vous devrez spécifier le nombre de grappes (k) à l’avance.
  • G-means : l’algorithme apprend automatiquement le nombre de clusters différents en prenant de manière itérative les groupes de clusters existants et en vérifiant si le voisinage du cluster apparaît gaussien dans sa distribution.

On obtient une vue avec des centroïdes.