Prédictions avec BigML

Machine Learning as a Service

L’utilisation de techniques de machine learning (ML) est de plus en plus répandue dans divers secteurs d’activité. L’exploitation de ces techniques nécessite cependant une expertise rarement disponible dans les entreprises.

Récemment, des solutions de machine learning as a service (MLaaS) sont apparues. Ces services promettent une utilisation plus simple et plus rapide d’algorithmes de machine learning tout en débarrassant l’utilisateur de la nécessité de configurer et gérer l’environnement matériel et logiciel nécessaire à leur mise en œuvre.

Présentation de BigML

BigML est une solution MLaaS qui propose une interface Web permettant la spécification des algorithmes à utiliser et la visualisation des résultats obtenus. La solution fournit une plate-forme facile à utiliser pour développer des modèles d’apprentissage automatique. L’avantage de cette solution c’est que l’utilisateur n’a pas besoin d’une connaissance approfondie des techniques d’apprentissage automatique pour tirer le meilleur parti de BigML.

Grâce à l’API REST de BigML, il permet d’effectuer différentes tâches telles que la détection d’anomalies, la prévision de séries chronologiques et la création d’applications qui effectuent des analyses prédictives en temps réel.

Avec BigML, vous pouvez déployer vos modèles sur site ou dans le cloud, ce qui vous permet de sélectionner le type d’environnement nécessaire pour exécuter vos modèles d’apprentissage automatique. Fidèle à leur promesse, BigML simplifie réellement “l’apprentissage automatique” pour tout le monde “.

Ci-dessous la vue d’ensembles des principales fonctions:

  • Sources : base de données originale
  • Datasets = données
  • Supervised ­| Unpervised | prevision = Modélisation
  • Tasks = actions et tâches réalisées
  • WhizzML = scriprts & librairies (programmes exécutés ou installés)

Démarrer avec BigML

  • S’inscrire sur www.bigml.com pour créer un compte
  • Se connecter avec son compte
  • Créer une source de données en important le fichier de données au format CSV

Maintenant, le CSV est répertorié en tant que source et peut être utilisé dans BigML. Cliquez dessus pour voir ce qui a été importé.

  • Créer un nouveau projet et lui attribuer un nom
  • Transformer la source en jeu de données (configure datasets) 

  • Consulter et exporter les statistiques descriptives du jeu de données (type de variables, observations, valeurs manquantes, distribution)

  • Configurer le jeu de données en définissant la/les variables cibles à prédire. La dernière ligne est définie par défaut comme objectif (icône en forme de croix). Le but est ce que nous voulons prédire. BigML appelle cela le champ objectif . Si votre dernière ligne n’est pas l’objectif que vous souhaitez modifier, placez votre souris sur la ligne souhaitée. Une icône apparaîtra pour que vous puissiez apporter les modifications.

  • Filtrer le jeu de données pour éliminer les valeurs extrêmes ou aberrantes

 

Modéliser avec BigML

Vous pouvez choisir de configurer votre modèle prédictif manuellement ou de laisser BigML faire le travail lui-même grâce à ses fonctionnalités “1 clic”.

Apprentissage supervisé

Par défaut, BigML représente le modèle prédictif sous la forme d’un arbre de décision.

Vous pouvez également choisir une visualisation sunburst et interagir avec celle-ci (sunburst intégré ci-dessous). La seule différence avec l’arbre de décision est qu’il commence par le centre plutôt que par le haut.

Apprentissage non supervisé

L’analyse de cluster est une tâche d’apprentissage automatique non supervisée qui partitionne un ensemble de données et regroupe les instances similaires. Il sépare un ensemble d’instances en un certain nombre de groupes afin que les instances du même groupe, appelées cluster, se ressemblent davantage que celles d’autres groupes. L’analyse de cluster ne nécessite pas l’utilisation de données précédemment étiquetées. Pour cette raison, il entre dans la catégorie des apprentissages non supervisés. Cette tâche est couramment utilisée pour la segmentation du marché et des clients, la gestion de portefeuille et la création de nouvelles fonctionnalités à partir de vos données, tout en comprenant sa structure sous-jacente.

Les clusters BigML peuvent être construits à l’aide de deux algorithmes d’apprentissage non supervisés:

  • K-means : vous devrez spécifier le nombre de grappes (k) à l’avance. 
  • G-means : l’algorithme apprend automatiquement le nombre de clusters différents en prenant de manière itérative les groupes de clusters existants et en vérifiant si le voisinage du cluster apparaît gaussien dans sa distribution.

Prédictions

Maintenant que vous avez votre modèle, vous pouvez entrer les attributs et obtenir une prévision. 

Evaluer un modèle

Avoir un modèle prédictif est bon, évaluer sa précision est meilleur. Pour évaluer le modèle, nous allons diviser le jeu de données que nous avons utilisé en 2 parties.

  • La première partie, appelée ensemble de données d’apprentissage , représente 80% de l’ensemble de données d’origine et sera utilisée pour créer un modèle d’apprentissage , exactement comme nous venons de le faire auparavant avec l’ensemble de données d’origine.
  • La deuxième partie s’appelle le jeu de données de test , elle représente les 20% restants du jeu de données d’origine.
  • Nous effectuons ensuite une évaluation dans laquelle le modèle (construit à partir de l’ensemble d’apprentissage) sera utilisé pour établir des prédictions sur les entrées de l’ensemble d’essai, et ces prévisions seront comparées aux résultats de l’ensemble d’essai.

Toutes ces étapes peuvent être facilement réalisées dans BigML, voici comment.

Nous avons créé avec succès un jeu de données de test et un modèle à partir du jeu de données d’apprentissage . Nous demandons maintenant à BigML d’utiliser ces deux méthodes pour évaluer le modèle et évaluer sa précision.

Vous devez aller sous l’onglet “Evaluations”, voir ci-dessous.

Comme illustré dans la capture d’écran suivante, vous sélectionnez le modèle à gauche et le jeude données test à droite.

L’évaluation du modèle est présentée comme une référence entre le modèle et deux bases: les prévisions de valeur moyenne et les prédictions aléatoires. En vert, nous savons que BigML a surperformé les lignes de base. Vous pouvez comparer les résultats pour voir de combien. La méthode R au carré montre les performances du modèle par rapport à la moyenne.

Pour aller plus loin

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.