Créer un échantillon de test des données du Titanic avec BigML

Afin de mesurer la pertinence de vos modèles, il faut diviser vos données en 2:

  • des données d’entraînement pour estimer les paramètres des modèles  (80% du dataset)
  • des données de test pour évaluer l’impact de divers choix de modèles et hyper-paramètres (20% du dataset)

Pour cela, vous devez définir le pourcentage, donner des noms à vos échantillons et créer le jeu de données.

 

BigML va créer 2 Dataset :

  • un “xxx|Trainig 80%”, qui servira à entraîner les algorithmes
  • un “xxx|Test 20%”, qui servira à tester les algorithmes