Optimiser la performance du modèle de prédiction des survivants du Titanic avec BigML

Comment améliorer la performance de son modèle?

Contrôler la qualité des données

  • Vérifier si BigML a bien défini la nature des données
  • Nettoyer les données de la base, suppression des lignes de données inutiles/erronées

Gérer les données manquantes

  • Vérification des données manquante. En effet, plusieurs données sont manquantes, par exemple : remplacement NA par la valeur la plus commune “S” pour Embarked
  • Remplacement NA par la valeur médiane Pclass=3
  • Remplacement NA par la valeur médiane par Title

Transformer les variables

  • Réduire l’échelle des variables catégorielles
  • Transformer des variables numériques en variables catégoriels (par exemple l’âge)
  • La majorité des titres est répartie sur 4 modalités : « Miss », « Mrs », « Master », « Mr ». Nous observons aussi qu’il y’a 14 modalités avec 1 à 8 passagers, il faut les regrouper : par exemple:
    • Regroupement des titres féminins
    • Regroupement des titres royaux
    • Regroupement des titres officiers

Créer de nouvelles variables pour aider les algorithmes

  • Les données renseignés dans la variable Name sont de la forme Moran, Mr. James – soit ‘Nom, Titre. Prénom’ . On décompose donc la variable en 3 nouvelles variables: Surname,Title et Fstname.
  • Créer une nouvelle variable pour Child (From Age), couper en 2 la variable Age :
    • Child < 18 ans
    • Adult >= 18 ans

Choisir les variables les plus pertinentes

  • Identifier la variables qui ont le plus d’impacts et ne pas prendre en compte les autres variables dans le modèle (sumuray report avec le modèle Random Forest)

Comparer et sélectionner les outils de prédictions (modèle) les plus adaptés

Tester différents modèles et faire une benchmark des performances

  • Arbre de décision
  • Random Forest
  • Regression logistique
  • Réseaux de neurones