Citation
L'auteur
Phuong NGUYEN
(ngthianhphuong@gmail.com) - Paris School of Business
Copyright
Déclaration d'intérêts
Financements
Aperçu
Contenu
Introduction
Le RPM ou revenu par mille représente le revenu généré par la publicité sur mille vues d’une page web. C’est un indice couramment utilisé par les éditeurs en ligne pour mesurer l’efficacité de la publicité.
La prédiction du RPM se réalise dans un souci d’optimisation de performance et d’augmentation du chiffre d’affaires. Ce processus produit des informations quantifiées et objectives afin de favoriser une meilleure prise de décision. Dans cette logique, les managers des régies publicitaires s’appuient sur les prévisions du RPM pour identifier rapidement les risques comme les opportunités et ajuster continuellement leurs actions. Comprendre comment les revenus fluctuent permet également de savoir si la vente est sur la bonne voie pour attendre les objectifs commerciaux.
Ces dernières années, la publicité digitale a considérablement évolué avec l’arrivée du programmatique, le système d’enchère de vente et d’achat automatique des espaces publicitaires. La prévision du RPM serait un support efficace au pilotage du programmatique, où le prix proposé peut être ajusté.
L’objectif de cette analyse est de construire et de comparer des modèles de régression permettant, à partir des RPM journaliers d’un site web, de prédire les RPM journaliers futurs. En nous appuyant sur une revue de l’état de l’art centrés sur les problématiques similaires, nous présentons la démarche et les outils méthodologiques ainsi que les résultats obtenus.
Etat de l’art
Etant donné que le contenu et l’audience des sites web de Prisma Média sont stables, nous prenons en compte principalement les tendances et les saisonnalités pour l’analyse prédictive. Les démarches réalisées tournent autour de l’analyse d’une série chronologique afin d’expliquer les variations saisonnières et de prédire les valeurs futures.
Dans les entreprises, les méthodes de prévision de vente ou de revenus sont couramment utilisées pour mieux gérer la production et orienter sa politique commerciale. Suwanvijit et al. (2009) ont développé un modèle de prédiction de la vente des boissons à bulles dans le Sud de la Thaïlande en combinant les méthodes de Lee Carter et Holt-Winters tout en appliquant la saisonnalité.
Dans la recherche scientifique, Li et Moore (2008) ont présenté une analyse de tendance et de saisonnalité du nombre de pages vues des sites web. Ils ont également appliqué la méthode de Holt-Winters pour faire des prédictions à court terme. Dans une autre étude, Loganathan et al. (2010) ont utilisé le modèle SARIMA pour générer les prévisions de demandes touristiques malaysiennes en se basant sur les variations saisonnières.
Prévoir les cours d’actions est une des tâches les plus difficiles pour de nombreux chercheurs. Dans une étude publiée en 2015, Roondiwala et al. ont présenté des modèles sur la base de l’apprentissage profond (RNN et LSTM) afin de prédire les indices du marché boursier indien (NIFTY 50).
Cette revue de littérature nous a permis de sélectionner les trois méthodes les plus utilisées dans la prédiction des séries temporelles en fonction de la saisonnalité :
- Le lissage exponentiel de Holt-Winters
- Le modèle ARIMA (moyennes mobiles intégrées saisonnières et auto-régressives)
- Le réseau de neurone récurrent à mémoire court et long terme (LSTM).
Méthodologie
Pour mener à bien l’analyse prédictive, nous avons procédé à une préparation des données puis une analyse exploratoire afin d’identifier les hyperparamètres des modèles de prédiction.
Données brutes
La base de donnée utilisée dans cette analyse est collectée du Data Warehouse de Prisma Média. Elle contient 4 colonnes : Date, Site (nom du site web), Revenu, Pages Vues. Le RPM, en euro, a été calculé à partir du revenu publicitaire et le nombre de pages vues journalier.
Préparation des données
La régie publicitaire de Prisma Média gère une vingtaine de sites web dont certains sont en cours de perfectionnement et ainsi génèrent peu de revenus. Pour que le travail apporte ses valeurs managériales, nous limitons le champ de l’étude à 12 sites qui représentent plus de 99% des revenus publicitaires de Prisma Média : Business Insider, Ça m’intéresse, Capital, Ce soir TV, Cuisine actuelle, Femme actuelle, Gala, Géo, Néon, Télé 2 semaine, Télé-loisirs et Voici.
Un contrôle de la qualité des données nous a permis de détecter des valeurs manquantes dans les colonnes de Revenue ou de Pages Vues, ce qui reflète un problème dans la remontée des données des sources brutes vers le Data Warehouse. Nous les avons imputées par la moyenne des 7 jours précédents.
Le jeu de données est divisé en deux parties : partie d’entraînement et partie de validation. Les modèles de prédiction sont entraînés sur le jeu d’entraînement qui contient des données du 1er avril 2020 au 30 septembre 2020. Ils seront par la suite vérifiés sur la période de validation (octobre 2020). Le jeu d’entraînement compte donc 2196 lignes, réparti sur 12 sites, soit 183 lignes par site et le jeu de validation 31 lignes par site.
Analyse exploratoire des données
Afin d’avoir un meilleur aperçu des données, nous avons calculé la moyenne et l’écart-type du RPM, partitionné par site. La moyenne indique la tendance centrale de l’ensemble de données, alors que l’écart-type mesure la dispersion des données autour de la moyenne et permet éventuellement de détecter les valeurs aberrantes.
La moyenne se trouve dans la fourchette de 2€ à 5€, ce qui correspond bien à la réalité. L’écart-type, quant à lui, est très varié d’un site à un autre. Le site avec l’écart-type le plus faible est Cuisine actuelle, cela signifie qu’il y a une forte concentration des points de données autour de la moyenne. Les sites avec l’écart-type les plus élevés sont Business Insider, suivi de Néon. Ceci traduit l’étendu large des valeurs autour de la moyenne.
La plupart de nos 12 séries temporelles présentent, sur certaines périodes, une saisonnalité hebdomadaire : le RPM augmente le week-end et baisse en début de la semaine. Cependant, nous observons des pics de valeurs irréguliers sur d’autres périodes, notamment d’avril à juin où les points de données ne semblent suivre aucun cycle de saisonnalité.
De même, nous notons que sur certaines périodes, les variations saisonnières sont à peu près constantes, alors que sur d’autres, elles changent proportionnellement avec le temps.
Cette analyse exploratoire des données nous permet de définir certains hyperparamètres clés des modèles prédictifs. Ainsi, pour le lissage exponentiel de Holt et Winters, nous décidons d’appliquer plusieurs variantes en fonction de la saisonnalité et les variations saisonnières observées. La stationnarité des séries dans le modèle d’ARIMA étant une condition primordiale, la saisonnalité hebdomadaire nous permet de déterminer la périodicité de la série (s=7) dans la désaisonnalisation. De même, les variations saisonnières multiplicatives nous impliquent à travailler sur les séries logarithmisées. Enfin, le choix de la taille de la fenêtre glissante dans le réseau de neurone LSTM est conduit par la saisonnalité. Nous utilisons 7 points de données pour prédire le suivant.
Résultats
Les trois modèles de prédiction, une fois entraînés, sont ensuite utilisés pour produire des prédictions sur le jeu de validation. Nous mesurons le critère d’information d’Akaike (AIC), qui indique la qualité d’ajustement d’un modèle statistique en prenant en compte sa complexité. Afin d’évaluer la précision de la prédiction, nous utilisons la RMSE (ou l’erreur quadratique moyenne) qui indique l’amplitude des écarts au carré entre la prédiction et la valeur réelle. Les modèles avec un faible AIC et RMSE sont privilégiés.
En terme d’AIC, il est évident que le réseau de neurone LSTM n’est pas comparable au lissage exponentiel ou l’ARIMA, vu son nombre de paramètres qui s’élève jusqu’à 120.000.
Le tableau ci-dessous montre l’erreur quadratique moyenne calculé sur le jeu de données de validation des trois modèles. Nous surlignons en vert la cellule qui contient la RMSE la plus faible, ce qui traduit la meilleure exactitude.
Site | Holt-Winters | ARIMA | LSTM |
Business insider | 0,182 | 0,819 | 0,647 |
Ça m’intéresse | 3,725 | 1,757 | 1,254 |
Capital | 2,043 | 1,316 | 1,017 |
Ce soir TV | 1,303 | 0,384 | 0,295 |
Cuisine actuelle | 0,580 | 0,394 | 0,332 |
Femme actuelle | 1,844 | 0,882 | 0,658 |
Gala | 1,542 | 0,772 | 0,569 |
Géo | 1,747 | 1,366 | 1,216 |
Néon | 6,617 | 2,94 | 1,259 |
Télé 2 semaines | 0,997 | 0,866 | 0,343 |
Télé loisirs | 2,213 | 0,774 | 0,651 |
Voici | 0,628 | 0,653 | 0,616 |
Tableau : Comparaison des trois modèles en terme de RMSE
Nous pouvons voir que le réseau de neurone donne la meilleure précision pour toutes les séries, sauf Business Insider où le modèle de lissage exponentiel de Holt-Winters est le plus performant.
Discussion
Pour cette problématique de régression, le réseau de neurone LSTM semble répondre le mieux à nos attentes. La sous-performance dans le cas de Business Insider pourrait être expliquée par des pics de valeurs anormaux et par la forte dispersion des données autour de la moyenne.
Les recherches récentes ont démontré que l’application du réseau de neurone apporte de meilleurs résultats, dans plusieurs cas, que les méthodes de Holt-Winters ou de ARIMA. Les résultats de notre analyse semblent être en accord avec cette conclusion.
Cependant, notre étude présente des limites. D’une part, la période d’étude est d’avril 2020 à octobre 2020, or certains cycles saisonniers ne sont visibles qu’à partir d’un an. Nous n’avons peut-être pas pris en compte certaines saisonnalités non identifiables dans le jeu de donnée disponible. De plus, il existe d’autres éléments qui ont une certaine influence sur le revenu publicitaire comme les jours fériés, les jours de vacances scolaires, la veille des fêtes, etc… Une exploitation de ces variables pourrait améliorer la performance de nos modèles prédictifs.
D’autre part, les données de RPM de cette analyse ne contiennent pas de granularité plus fine que « site ». En réalité, le RPM d’un site est plus élevé sur ordinateur que sur téléphone mobile. De même, nous avons regroupé toutes les modes de vente, alors qu’en pratique, la vente hors programmatique présente des caractéristiques bien différentes du programmatique. Des analyses plus détaillées dans ces sens pourraient être intéressantes pour la prise de décision au sein de Prisma Média.
Par ailleurs, il n’est pas toujours évident d’interpréter la décision d’un réseau de neurone car ce dernier détecte des propriétés non visibles à un être humain dans les données, ainsi ajuste ses paramètres. Sa mise en production est un autre défi car cela exige les machines de calculs puissantes. Au contraire, les méthodes de lissage exponentiel et de ARIMA sont aujourd’hui intégrées dans plusieurs outils de business intelligence et peuvent être déployées avec facilité.
Conclusion
L’objectif de notre étude était d’appliquer les méthodes de machine learning afin de prédire le revenu publicitaire par mille des sites de Prisma Média. Le réseau de neurones récurrents semble être le plus précis compte tenu du plus faible écart entre la valeur réelle et la valeur prédite.
Cette analyse a apporté une approche analytique à la prédiction des revenus publicitaires, applicable non seulement à Prisma Média mais n’importe quel éditeur en ligne. A l’issue de cette analyse, des recherches supplémentaires pourront également être menées afin de mieux comprendre la problématique.
Un tel modèle de prédiction permet à l’équipe de Revenue Management de mieux piloter la performance publicitaire et d’adapter rapidement ses plans d’actions. Un faible revenu attendu pourrait impliquer une baisse du prix plancher des enchères afin de réduire les pertes de diffusion et de chiffre d’affaires. Il serait envisageable à terme de mettre en place un processus automatique pour ajuster les prix en fonction des prédictions. Par ailleurs, ce modèle de prédiction serait un support efficace aux activités d’acquisition d’audience payante et aux prospections commerciales.
La publicité digitale, principale source de revenus des éditeurs de presse, est en mutation permanente. Elle devient plus qualitative, interactive et personnalisée grâce à l’exploitation des données de plus en plus abondantes. Dans ce contexte, l’analyse prédictive du revenu publicitaire contribue de manière significative au pilotage d’activité et aux gains d’efficacité.
Alors que la concurrence entre tous types de contenus en ligne est de plus en plus accrue, les données sont devenues la matière indispensable dans la conduite des stratégies des éditeurs de presse. Cette mutation les exige à mettre en place les moyens et les ressources nécessaires afin de collecter et comprendre les données liées leurs activités et de se laisser conduits par ces dernières (ou être « data-driven »).
Bibliographie
- Box, G. et Jenkins, G. (1970). Time Series Analysis: Forecasting and Control. San Francisco: Holden-Day, 575.
- Hochreiter, S., et Schidhuber, J. (1997). Long Short-term memory. Neural Computation, 9(8), 1735-1780.
- Holt, C.C. (1957). Forecasting seasonals and trends by exponentially weighted averages. ONR Memorandum, Carnegie Institute of Technology, Pittsburgh, 52.
- Li, J., et Moore, A. W. (2008). Forecasting Web Page Views: Methods and Observations. Journal of Machine Learning Research, 9, 2217-2250.
- Loganathan, N., et Ibrahim, Y. (2010). Forecasting international tourism demand in Malaysia using Box Jenkins SARIMA application. South Asian Journal of Tourism and Heritage, 3(2), 50-60.
- Suwanvijit, W. ; Lumley, T. ; Choonpradub, C., et McNeil, N. (2011). Long-Term Sales Forecasting Using Lee-Carter and Holt-Winters Methods. Journal of Applied Business Research (JABR), 27(1).
- Winters, P.R. (1960). Forecasting sales by exponentially weighted moving averages. Management Science, 6, 324-342.