Préparer les données du Titanic avec BigML
Nettoyer le jeu de données
Vous pouvez éliminer les valeurs extrêmes ou aberrantes.
Transformer votre jeu de données
Vous pouvez modifier votre jeu de données:
- ajouter des champs
- agréger des colonnes
- faire des jointures de jeu de données
- calculer des moyennes
- changer l’ordre des instances
- supprimer les doublons
Définir votre variable cible
Vous pouvez définir la/les variables cibles à prédire.
La dernière ligne est définie par défaut comme objectif (icône en forme de croix). Le but est ce que nous voulons prédire. BigML appelle cela le champ objectif. Si votre dernière ligne n’est pas l’objectif que vous souhaitez modifier, placez votre souris sur la ligne souhaitée. Une icône apparaîtra pour que vous puissiez apporter les modifications.
Configurer les variables du modèle
Pour configurer les variables qui seront utilisées dans le modèle, vous devez sélectionner un jeu de données puis allez sur la fenêtre des configurations des modèles.
Vous pouvez sélectionner les variables qui seront prises en compte dans votre modèle. Les options avancées vous permettent également de mieux paramétrer votre modèle.
Créer un nouveau jeu de données
Vous devez créer un nouveau jeu de données à chaque vous le modifié ou le transformé.
Créer un échantillon de test des données
Afin de mesurer la pertinence de vos modèles, il faut diviser vos données en 2:
- des données d’entraînement pour estimer les paramètres des modèles (80% du dataset)
- des données de test pour évaluer l’impact de divers choix de modèles et hyper-paramètres (20% du dataset)
Pour cela, vous devez définir le pourcentage, donner des noms à vos échantillons et créer le jeu de données.
BigML va créer 2 Dataset :
- un « xxx|Trainig 80% », qui servira à entraîner les algorithmes
- un « xxx|Test 20% », qui servira à tester les algorithmes