Partie 2 – Actions pour prédire les survivants du Titanic
Optimiser la performance du modèle de prédiction des survivants du Titanic avec BigML
Comment améliorer la performance de son modèle?
Contrôler la qualité des données
- Vérifier si BigML a bien défini la nature des données
- Nettoyer les données de la base, suppression des lignes de données inutiles/erronées
Gérer les données manquantes
- Vérification des données manquante. En effet, plusieurs données sont manquantes, par exemple : remplacement NA par la valeur la plus commune « S » pour Embarked
- Remplacement NA par la valeur médiane Pclass=3
- Remplacement NA par la valeur médiane par Title
Transformer les variables
- Réduire l’échelle des variables catégorielles
- Transformer des variables numériques en variables catégoriels (par exemple l’âge)
- La majorité des titres est répartie sur 4 modalités : « Miss », « Mrs », « Master », « Mr ». Nous observons aussi qu’il y’a 14 modalités avec 1 à 8 passagers, il faut les regrouper : par exemple:
- Regroupement des titres féminins
- Regroupement des titres royaux
- Regroupement des titres officiers
Créer de nouvelles variables pour aider les algorithmes
- Les données renseignés dans la variable
Name
sont de la formeMoran, Mr. James
– soit ‘Nom, Titre. Prénom’ . On décompose donc la variable en 3 nouvelles variables:Surname
,Title
etFstname
. - Créer une nouvelle variable pour Child (From Age), couper en 2 la variable Age :
- Child < 18 ans
- Adult >= 18 ans
Choisir les variables les plus pertinentes
- Identifier la variables qui ont le plus d’impacts et ne pas prendre en compte les autres variables dans le modèle (sumuray report avec le modèle Random Forest)
Comparer et sélectionner les outils de prédictions (modèle) les plus adaptés
Tester différents modèles et faire une benchmark des performances
- Arbre de décision
- Random Forest
- Regression logistique
- Réseaux de neurones
- …