Collecter les données du Titanic dans BigML

Source des données

Les données du challenge Titanic sont disponibles en ligne sur le site de Kaggle : https://www.kaggle.com/c/titanic

Présentation des données

Le challenge propose de télécharger deux fichiers CSV: train.csv et test.csv. Le fichier train.csv contient les données qui permettront la construction de l’algorithme d’apprentissage. Le fichier test.csv contient les données sur lesquelles l’algorithme sera testé. Chaque passager possède un identifiant unique allant de 1 à 891 pour le fichier train.csv et de 892 à 1309 pour le fichier test.csv. Ces fichiers ne contiennent pas de données sur les membres de l’équipage, ce qui explique l’écart avec le nombre de personnes présentes à bord.

Vous disposez donc de 3 jeux de données.

Un jeu de données d’entrainement de 891 lignes est fourni (train.csv), au format csv (comma separated values), il comporte 12 colonnes :

PassengerId (identifiant passager)
Survived (0 : décédé, 1 : a survécu)
Pclass (classe, de 1 à 3)
Name (Nom, prénom et titre)
Sex (male/female)
Age (en années)
SibSp (nombre de frère, soeur, beau-frère, belle soeur, mari ou femme à bord)
Parch (nombre de parents et d’enfants à bord)
Ticket (numéro du ticket)
Fare (prix du ticket. Le prix est indiqué en £ et pour un seul achat et peut correspondre à plusieurs tickets)
Cabin (numéro de cabine)
Embarked (port d’emarquement : C – Cherbourg, S – Southampton, Q = Queenstown)

Un jeu de test de 418 lignes est fourni (test.csv), il comporte 11 colonnes, les mêmes que pour le jeu d’entrainement sans la colonne « Survived » évidemment puisque c’est celle qu’il faut deviner.

Les données de soumission. Le résultat de la prédiction est à fournir au format csv aussi, comportant 418 lignes (pour les 418 passagers du jeu de test) et deux colonnes : PassengerId (identifiant passager) Survived (0 : décédé, 1 : a survécu)