Le Challenge du Titanic

Le contexte

Le naufrage du Titanic est l’un des plus célèbres de l’histoire. Le 15 avril 1912, lors de son voyage inaugural, le Titanic a sombré après être entré en collision avec un iceberg, tuant 1502 passagers et membres d’équipage sur 2224. Cette tragédie a choqué la communauté internationale et conduit à de meilleures règles de sécurité pour les navires.

L’une des raisons pour lesquelles le naufrage a causé tant de morts est qu’il n’y avait pas assez de canots de sauvetage pour les passagers et l’équipage. Survivre au naufrage ou non comporte une certaine proportion de chance, certains groupes de personnes étaient plus susceptibles de survivre que d’autres, comme les femmes, les enfants et les classes supérieures.

Objectif du challenge

L’une des raisons de ce désastre était le manque de canots de sauvetage. Les survivants doivent leur salut à la chance mais pas seulement, les femmes et les enfants ont été sauvés en premier par exemple.

Dans ce challenge il faut justement analyser quelles catégories de personnes ont survécu, et appliquer cette analyse à un jeu de test (liste de passagers sans information de survie).

Formulation du problème

La prévision des survivants du Titanic est un problème qu’on peut traiter via des outils d’intelligence artificielle, notamment ceux d’apprentissage statistique supervisé et plus particulièrement les modèles de classifications.

Source des données

Les données du challenge Titanic sont disponibles en ligne sur le site de Kaggle (https://www.kaggle.com/c/titanic)

Présentation des données

Le challenge propose de télécharger deux fichiers CSV: train.csv et test.csv. Le fichier train.csv contient les données qui permettront la construction de l’algorithme d’apprentissage. Le fichier test.csv contient les données sur lesquelles l’algorithme sera testé. Chaque passager possède un identifiant unique allant de 1 à 891 pour le fichier train.csv et de 892 à 1309 pour le fichier test.csv. Ces fichiers ne contiennent pas de données sur les membres de l’équipage, ce qui explique l’écart avec le nombre de personnes présentes à bord.

Vous disposez donc de 3 jeux de données.

Un jeu de données d’entrainement de 891 lignes est fourni (train.csv), au format csv (comma separated values), il comporte 12 colonnes :

  • PassengerId (identifiant passager)
  • Survived (0 : décédé, 1 : a survécu)
  • Pclass (classe, de 1 à 3)
  • Name (Nom, prénom et titre)
  • Sex (male/female)
  • Age (en années)
  • SibSp (nombre de frère, soeur, beau-frère, belle soeur, mari ou femme à bord)
  • Parch (nombre de parents et d’enfants à bord)
  • Ticket (numéro du ticket)
  • Fare (prix du ticket. Le prix est indiqué en £ et pour un seul achat et peut correspondre à plusieurs tickets)
  • Cabin (numéro de cabine)
  • Embarked (port d’emarquement : C – Cherbourg, S – Southampton, Q = Queenstown)

Un jeu de test de 418 lignes est fourni (test.csv), il comporte 11 colonnes, les mêmes que pour le jeu d’entrainement sans la colonne “Survived” évidemment puisque c’est celle qu’il faut deviner.

Les données de soumission. Le résultat de la prédiction est à fournir au format csv aussi, comportant 418 lignes (pour les 418 passagers du jeu de test) et deux colonnes : PassengerId (identifiant passager) Survived (0 : décédé, 1 : a survécu)