Citation
L'auteur
Clotilde CORON
(coron.iae@univ-paris1.fr) - IAE Paris - Université Paris 1 Panthéon Sorbonne
Copyright
Déclaration d'intérêts
Financements
Aperçu
Contenu
Introduction
La notion de « Big Data » est devenue courante. Elle renvoie dans le langage commun à la fois à des caractéristiques des données (volume, mise à jour en temps réel…) et à des manières d’utiliser ces données. Peu à peu, cette notion de Big Data irrigue toutes les sphères et fonctions des organisations, entre autres le marketing, et, plus récemment, la GRH (Gestion des ressources humaines : gestion du personnel au sens large, incluant par exemple le recrutement, l’évaluation, la promotion, la mobilité des salariés).
Ainsi, la presse généraliste et spécialisée s’intéresse de façon croissante à ce que l’utilisation des Big Data, ou données massives, change dans des domaines très variés. Une recherche Europresse renvoie ainsi 55 518 résultats pour les mots-clés « Big Data » sur l’année 2017, contre seulement 21 dix ans auparavant, en 2007. De la même façon, alors que sur l’année 2007, on trouve 780 références pour les mots-clés « algorithme » ou « algorithm », on en trouve 119 477 pour 2017. La notion d’algorithme renvoie dans son acception première à l’automatisation d’une suite d’opérations statistiques ou informatiques, mais elle est devenue dans le cadre de l’émergence du Big Data une sorte de mot-valise renvoyant à toutes les opérations nécessaires pour produire du sens à partir des données.
La notion de Big Data renvoie tout d’abord à l’idée d’un important volume de données. Cependant, en 2001, une définition du Big Data a été donnée par un rapport de Gartner. Il définit trois caractéristiques majeures : le volume de données (nécessitant des serveurs de calcul spécifiques), la mise à jour des données en temps réel, et la variété de ces données en matière de sources et de degré de structuration (très grossièrement, une donnée structurée est une donnée qui peut entrer dans un tableur classique ; une donnée non structurée est une donnée qui ne peut être rangée dans un tableur classique, ex : texte, vidéo, image, son…). On constate que cette définition liminaire revient essentiellement à caractériser les données mobilisées, mais s’intéresse peu à la manière de les mobiliser, ou aux effets de ces données sur les pratiques, disciplines, ou même sur la vie quotidienne. Cependant, comme nous le verrons, d’autres définitions s’intéressent plus à la manière d’utiliser les données ou aux méthodes mobilisées.
En mobilisant ces différentes définitions, et donc en s’extrayant de la focalisation sur le volume de données, nous pouvons trouver quelques exemples de dispositifs Big Data introduits dans la GRH. Cependant, la littérature sur le Big Data en RH est actuellement extrêmement réduite. Nous pouvons donc nous demander dans quelle mesure ces dispositifs visent à modifier les pratiques de GRH, sachant qu’historiquement, cette fonction a utilisé les données essentiellement dans une visée descriptive et analytique.
Après une revue de littérature consacrée au Big Data et aux notions de dispositifs et de pratiques de GRH, nous présenterons les dispositifs étudiés et finirons en répondant à la question : les dispositifs de Big Data orientent entre autres les pratiques de GRH vers une plus grande personnalisation et une posture de prédiction. Cela vient modifier en profondeur une fonction RH historiquement segmentée (et non personnalisée) et mobilisant les données plutôt à des fins de description ou de compréhension du passé.
Le Big Data en RH : définitions, dispositifs et pratiques
Après avoir tenté de mieux cerner la notion de « Big Data » au moyen de plusieurs définitions, nous dressons le portrait rapide de l’utilisation des données en RH. Enfin, nous rappelons les éléments-clés autour des notions de dispositifs et de pratiques de management.
Comme nous l’avons vu, Gartner a fourni une première définition du Big Data en 2001, reprise dans de nombreux travaux académiques, même récents (Raguseo, 2018). Depuis, des chercheurs et praticiens en ont proposé de nouvelles. Ainsi, Mayer-Schönberger & Cukier (2014) se penchent plutôt sur ce que le Big Data permet de faire et donc sur ce qu’il modifie dans la recherche, le marketing ou même la vie quotidienne. Ils donnent ainsi des exemples d’applications montrant à la fois à quel point le Big Data représente une réelle nouveauté dans bien des domaines, mais aussi à quel point il peut irriguer une variété de champs. Par ailleurs, ils identifient aussi certaines caractéristiques propres aux méthodologies mobilisées dans le Big Data. Notamment, ils pointent le primat de la corrélation sur la causalité, mais aussi la tendance croissante aux modèles de recherche inductifs et non plus hypothético-déductifs. Kitchin (2014) s’engage dans la même voie, en soulignant que le Big Data introduit une nouvelle épistémologie, centrée sur la corrélation et la démarche inductive (« data-driven »), au détriment de la démarche hypothético-déductive. De leur côté, des auteurs comme Cardon (2015) ou O’Neil (2016) s’intéressent aux algorithmes, qui renvoient eux aussi à la manière d’utiliser les données. Ils soulignent ainsi les risques inhérents à la mobilisation d’algorithmes construits par des êtres humains, qui y diffusent leurs propres biais et stéréotypes, et qui de plus ont l’inconvénient de rester pour la majorité des individus des « boîtes noires » dont les mécanismes ne sont pas compréhensibles.
Les Ressources humaines disposent d’un grand nombre de données sur les salariés. Cependant, pendant longtemps ces données n’ont été utilisées qu’à des fins de reporting descriptif. Ainsi, en 1977, la loi sur le bilan social a imposé aux entreprises de produire un rapport annuel sur les effectifs, et elle a été suivie depuis par d’autres lois instituant d’autres types de reporting en RH. Par exemple, plus récemment, les grandes entreprises ont dû mettre à disposition des représentants du personnel une base de données rassemblant des informations sur les grandes orientations économiques et sociales de l’entreprise.
L’arrivée du Big Data dans le marketing ou les services web a coïncidé en RH avec l’émergence d’une nouvelle tendance, appelée « Analytique RH » (Angrave, Charlwood, Kirkpatrick, Lawrence & Stuart, 2016; Marler & Boudreau, 2017; Huselid, 2018). L’analytique RH est présenté comme une manière plus sophistiquée de mobiliser des données, notamment en utilisant des méthodes statistiques plus complexes (régressions multiples par exemple), mais surtout en visant un objectif différent. Il ne s’agit en effet plus de fournir un reporting uniquement descriptif et finalement peu utilisé par les entreprises, mais bien de mobiliser les données pour mieux comprendre un phénomène, dans une optique d’amélioration de la prise de décision. Cela correspond donc à une approche d’« evidence-based management » (Pfeffer & Sutton, 2006 ; Rousseau, 2006), c’est-à-dire de management fondé sur les preuves, ici les données.
Les travaux académiques portant sur l’Analytique RH restent à ce stade très frileux sur la notion de Big Data. Plus précisément, certains l’abordent en lien avec l’Analytique RH (Angrave et al., 2016), ou même l’incluent dans l’Analytique RH, mais ne se risquent pas à donner des exemples sur l’utilisation du Big Data en RH. D’autres travaux appellent à une réflexion sur l’utilisation du Big Data dans le management et en RH (George, Haas & Pentland, 2014).
Pourtant, certains exemples issus d’une simple recherche Google « Big Data RH » peuvent effectivement correspondre, du moins en partie, à la notion de Big Data. Ainsi, les systèmes automatisés de sélection dans le cadre du recrutement mobilisent des données non structurées, sont fondés le plus souvent sur une approche inductive, et utilisent une approche algorithmique (nécessaire pour l’automatisation). Les dispositifs de gestion des risques RH (par exemple, prédiction des démissions pour pouvoir anticiper en proposant une augmentation de salaire ou une évolution professionnelle à un salarié susceptible de démissionner) mobilisent quant à eux un volume important de données. Des entreprises comme Clustree suggèrent de mobiliser toutes les données publiques issues des réseaux sociaux comme LinkedIn pour pouvoir améliorer l’appariement entre les postes vacants et les salariés de l’entreprise : ce type de dispositif conjugue un grand volume de données, des données non structurées, la mobilisation de sources de données externes, et la constitution d’algorithmes pour l’appariement.
Cependant, il est difficile de savoir si ces différents dispositifs introduisent de réelles nouveautés au sein de la GRH.
Pour préciser cette interrogation, nous mobilisons la distinction entre dispositifs de GRH et pratiques de GRH.
La notion de dispositifs de gestion ou de GRH a été abondamment traitée dans la littérature académique (De Vaujany, 2006 ; Boussard, 2009). Elle renvoie à un ensemble organisé d’éléments ayant une finalité de gestion. Dans d’autres travaux, la notion d’outils de gestion est privilégiée (Chiapello & Gilbert, 2012; Ghaffari, Misset, Pavis & Ponnet, 2013), comme plus englobante que celle de dispositif.
Quoi qu’il en soit, il convient de distinguer les dispositifs, qui sont pensés par des concepteurs et doivent ensuite être appropriés, des pratiques, qui résultent de l’appropriation (souvent incomplète ou détournée) du dispositif par les acteurs locaux (De Vaujany, 2006). Le dispositif, qui vise à modifier des pratiques, y parvient dans une certaine mesure, même dans les cas d’appropriation incomplète.
En mobilisant cette distinction entre dispositifs et pratiques de GRH, nous tenterons donc de répondre à la question suivante : dans quelle mesure les dispositifs de Big Data visent-ils à modifier les pratiques de GRH ? Cela nécessite de s’intéresser aux buts (intériorisés ou non par les acteurs locaux) des dispositifs de Big Data RH en matière de pratiques de GRH.
Matériau mobilisé
Pour répondre à cette question, nous avons étudié trois dispositifs de mobilisation des données en GRH menés en France au sein d’une grande entreprise internationale. Nous avons combiné de l’observation participante et des entretiens.
Dispositif 1 (Absentéisme) : Le premier dispositif consiste en une étude quantitative sur l’absentéisme. Cette étude, menée en 2016 et 2017 sur l’ensemble des salariés en CDI, mobilise deux sources de données : des données issues du système d’information RH (données administratives et professionnelles sur les salariés) et des données d’épidémiologie fournies par des sources institutionnelles externes. À partir de ces données, et en mobilisant des techniques d’analyse géométrique des données et d’économétrie, l’étude a permis d’identifier six profils d’absentéisme, puis d’identifier des déterminants de l’absentéisme. Cela vise notamment à donner à l’entreprise des clés pour agir en faveur d’une diminution de l’absentéisme.
Dispositif 2 (CV) : Le second dispositif consiste en un algorithme de pré-sélection de CV. Les algorithmes de ce type donnent lieu à de nombreux exemples et commentaires dans la presse professionnelle. En l’occurrence, cet algorithme, construit à partir d’un ensemble de 1 000 offres et 10 000 CV, mobilise deux sources de données : les offres et les CV reçus. À partir d’une analyse sémantique, l’algorithme aboutit à des critères de rapprochement des CV et des offres, et attribue un score de pertinence (c’est-à-dire de proximité avec l’offre) à chaque CV.
Dispositif 3 (Formations) : Enfin, le troisième dispositif consiste en un système automatisé de suggestions de formations. L’algorithme conçu à cet effet mobilise trois sources de données, recueillies et concaténées pour plus de 1 700 salariés volontaires : historique de formation, données RH (domaine de métier, situation de management ou pas…), données issues du réseau social interne (relations, communautés suivies…). À partir de ces données, l’algorithme construit des critères de rapprochement entre les individus et les formations, et parvient donc à suggérer des formations aux individus.
Finalement, alors que le dispositif Absentéisme entre clairement dans la définition de l’Analytique RH puisqu’il s’agit de mieux comprendre un phénomène pour améliorer la prise de décision, le positionnement des dispositifs CV et Formations peut se rapprocher de la notion de Big Data. En effet, ils mobilisent des sources de données variées, dont des données non structurées, nécessitent la mise en place d’algorithmes visant l’automatisation, et se fondent sur une approche inductive, puisque les critères de sélection des CV ou d’appariement entre les individus et les formations ne sont pas déterminés ex ante. C’est pourquoi nous avons porté une attention particulière à ce qui pouvait, d’une part différencier les objectifs de modification des pratiques de GRH des dispositifs CV et Formations et du dispositif Absentéisme, d’autre part réunir les objectifs des dispositifs CV et Formations.
Pour cela, nous avons mobilisé deux types de matériaux.
Nous avons tout d’abord réalisé de l’observation participante. Nous avons en effet travaillé dans cette entreprise pendant 20 mois, durant lesquels nous avons mené en tant que chef de projet le dispositif Formations, et participé en tant que statisticienne au dispositif Absentéisme. Cette expérience nous a permis de recueillir des informations sur les dispositifs, de comprendre comment les individus travaillaient et se coordonnaient, d’identifier les freins et les résistances, mais également, et c’est ce qui nous intéresse le plus, de mieux appréhender les objectifs assignés aux différents dispositifs en matière de modification des pratiques de GRH.
Nous avons ensuite complété ce matériau par dix entretiens semi-directifs, effectués avec le chef de projet du dispositif CV, un data scientist ayant travaillé sur le dispositif Formations, mais également d’autres personnes utilisant des chiffres et des données en RH. Encore une fois, l’objectif de ce recueil supplémentaire de matériaux consistait à identifier les arguments apportés pour justifier de l’objectif de tel ou tel dispositif. Notre analyse s’est également concentrée sur ce qui pouvait séparer les dispositifs CV et Formations du dispositif Absentéisme et d’autres dispositifs mobilisant des données en RH.
Principaux résultats : objectifs de personnalisation et prédiction
Ces matériaux nous permettent de dégager au moins deux objectifs de modifications des pratiques de GRH propres aux dispositifs CV et Formations, et qui sont absents du dispositif Absentéisme ou des dispositifs connus de reporting ou d’Analytique RH : personnalisation et prédiction.
Le premier objectif de modification se fonde sur la notion de personnalisation. Les acteurs (data scientists et sponsors des dispositifs) estiment en effet qu’en mobilisant des données, et surtout un grand nombre de données, on peut parvenir jusqu’à une forme de prise en compte personnalisée des salariés. Dans les dispositifs CV et Formations, la quantification est vue et présentée comme un moyen de revenir à l’individu, voire de mieux prendre en compte son individualité. Ainsi, dans l’algorithme de pré-sélection de CV, chaque CV est « lu » par l’algorithme, et sûrement lu plus attentivement par l’algorithme que par un être humain, au sens où la machine est capable de prendre en compte tous les mots inscrits sur un CV en un laps de temps beaucoup plus court qu’un être humain. Dans le dispositif Formations, la notion de personnalisation apparaît dès la description initiale du dispositif : envoyer des suggestions « personnalisées » de formations aux salariés. Ici encore, les données et les opérations effectuées à partir des données visent l’individu. On s’éloigne de la notion de segmentation, courante en RH comme en marketing, et qui est visible dans le dispositif Absentéisme dont la première étape a consisté à créer des profils d’absentéisme. Théoriquement, l’algorithme de suggestions de formations pourrait en effet conduire à envoyer des ensembles de suggestions uniques pour chaque salarié.
Cette notion de personnalisation vient expliquer plusieurs caractéristiques des dispositifs CV et Formations, qui se rapprochent des caractéristiques mentionnées par le rapport de Gartner au sujet du Big Data. Ainsi, le souhait de récupérer le plus de données possible peut être justifié par le fait que, plus il y a de données, plus la personnalisation sera précise (caractéristique : volume de données). Ensuite, la mobilisation de données non structurées est essentielle, notamment dans le cas du dispositif CV, car les données non structurées comme le texte des CV apportent une information brute beaucoup plus précise que des données structurées (caractéristique : mobilisation de données structurées et non structurées). Enfin, la mise à jour des données en temps réel est importante aussi pour prendre en compte les évolutions individuelles de la façon la plus précise possible (caractéristique : mise à jour des données en temps réel).
Il est frappant de constater que cet objectif se pose totalement en rupture avec ce qui a habituellement cours dans les opérations de quantification. En effet, la science statistique s’est pendant longtemps posée en opposition à une approche individuelle, au cas par cas. Au contraire, avec les notions de moyenne, de catégorisation, ou de grands nombres (Desrosières, 1993), la statistique se présentait comme une science des groupes et de la généralisation. Dans les dispositifs CV et Formations, la statistique est mobilisée au service d’un objectif inverse, celui de revenir à l’individu, et de prendre en compte au mieux ses caractéristiques personnelles.
Enfin, cet objectif de modification est totalement absent du dispositif Absentéisme, et il va même totalement à l’encontre de celui-ci. En effet, ce dispositif vise à dégager les grands déterminants de l’absentéisme sur des groupes d’individus. Il a ainsi pour objectif de formuler des lois générales, vérifiées en moyenne mais pas forcément pour chaque individu pris isolément. Il se situe donc à l’opposé d’une logique de personnalisation.
Le second objectif de modification vise la notion de prédiction. Ainsi, pour l’algorithme de pré-sélection de CV, les acteurs expliquent que l’algorithme peut « prédire » qui sera le meilleur candidat pour un poste donné. Et en effet, présélectionner un CV revient à prédire la qualité de chaque candidature. Quant au dispositif Formations, suggérer des formations revient à prédire quelle formation intéressera le plus tel ou tel salarié. Qui plus est, la mesure de la pertinence des algorithmes concernés dépend fortement de la qualité de la prédiction. Par exemple, dans le dispositif Formations, il a été convenu de mesurer le pourcentage de formations suggérées effectivement suivies par les salariés.
Cet objectif explique lui aussi certaines caractéristiques des dispositifs, notamment l’utilisation d’un grand volume de données (la quantité de données permettant d’améliorer la précision de la prédiction) et de données non structurées (plus précises également). Comme on l’a vu, ces caractéristiques se rapprochent de celles énoncées par Gartner à propos du Big Data.
Cet objectif paraît aussi relativement nouveau et en opposition aux discours historiques sur la statistique, longtemps présentée comme une science visant à comprendre des phénomènes passés ou présents (Desrosières, 2008a, 2008b). Cependant, la notion mertonienne de prophétie auto-réalisatrice vient nuancer celle de prédiction. En effet, dans les dispositifs CV et Formations, l’algorithme produit une prédiction qui vient elle-même influer sur le réel et le comportement des individus, contribuant à faire advenir la réalité qu’elle prédit. Ainsi, en attribuant un score élevé aux CV identifiés comme les plus proches de l’offre, l’algorithme contribue à les faire sélectionner par le chargé de recrutement. De la même façon, en suggérant à un salarié les formations identifiées comme les plus à même de l’intéresser, l’algorithme incite le salarié à effectivement suivre ces formations. L’approche prédictive se rapproche donc d’une prophétie auto-réalisatrice.
Enfin, il faut souligner que cette notion de prédiction est également tout à fait étrangère aux objectifs du dispositif Absentéisme. En effet, ce dispositif d’étude de l’absentéisme vise à comprendre un phénomène, l’absentéisme, à partir de données passées, mais ne s’intéresse pas du tout à une forme de prédiction de l’absentéisme. Cela a même été plusieurs fois rappelé pour limiter les comparaisons entre ce dispositif et un autre dispositif, mené dans une autre entreprise qui avait abondamment communiqué dessus, visant à prédire l’absentéisme.
Discussion et conclusion : dans quelle mesure les dispositifs de Big Data visent-ils à modifier les pratiques de GRH ?
On constate donc que les dispositifs CV et Formations donnent lieu à des objectifs de modification des pratiques de GRH absents du dispositif Absentéisme ou d’autres utilisations des données en RH. Ces objectifs renvoient d’une part à la personnalisation, d’autre part à la prédiction. Or, ces objectifs tendent à se rapprocher des discours actuels, professionnels et académiques, sur le Big Data. Ainsi, la notion de personnalisation est omniprésente dans les discours autour de l’utilisation des algorithmes de Amazon, Netflix, YouTube, qui permettent de suggérer des contenus personnalisés aux clients. Cardon (2015) étudie ainsi ces algorithmes de personnalisation et leurs dangers potentiels. De la même façon, la notion de prédiction connaît un engouement lié de la même façon à ces algorithmes censés prédire les goûts et comportements des consommateurs.
Ces objectifs correspondent d’une part à un réel changement dans l’utilisation plus générale des outils et méthodes statistiques et des données. En effet, la personnalisation va à l’encontre du positionnement historique de la statistique comme science des groupes et des grands nombres, et la prédiction vient contredire la vision d’une science centrée sur la compréhension des phénomènes passés et présents. Ils correspondent d’autre part à une modification structurelle de la GRH. En effet, ils mettent en avant des objectifs jusqu’alors inconnus, voire antinomiques de l’activité de la fonction RH : personnalisation et prédiction des comportements individuels.
Même si l’introduction du Big Data reste semble-t-il encore peu avancée en GRH, en raison notamment des contraintes liées à la protection des données personnelles mais aussi au coût des dispositifs (stockage des données et développement des algorithmes), on peut formuler l’hypothèse que les progrès de la GRH dans ce domaine conduiront donc à un réel renouvellement de la fonction. Cela nécessite alors de s’interroger sur la performance de ces dispositifs, et sur les rôles respectifs des data scientists et des acteurs de la GRH dans cette évolution.
Bibliographie
Angrave, D., Charlwood, A., Kirkpatrick, I., Lawrence, M., & Stuart, M. (2016). HR and analytics: why HR is set to fail the big data challenge. Human Resource Management Journal, 26(1), 1‑11. https://doi.org/10.1111/1748-8583.12090
Boussard, V. (2009). L’incontournable évaluation des performances individuelles : entre l’invention d’un modèle idéologique et la diffusion de dispositifs pratiques. Nouvelle revue de psychosociologie, 2(8), 37‑52. https://doi.org/10.3917/nrp.008.0037
Cardon, D. (2015). À quoi rêvent les algorithmes : nos vies à l’heure des big data. Paris: Seuil.
Chiapello, È., & Gilbert, P. (2012). Les outils de gestion : producteurs ou régulateurs de la violence psychique au travail ? Le travail humain, 75(1), 1‑18. https://doi.org/10.3917/th.751.0001
De Vaujany, F.-X. (2006). Pour une théorie de l’appropriation des outils de gestion : vers un dépassement de l’opposition conception-usage. Management & Avenir, 3(9), 109‑126. https://doi.org/10.3917/mav.009.0109
Desrosières, A. (1993). La Politique des grands nombres. Histoire de la raison statistique (2e éd.). Paris : La Découverte.
Desrosières, A. (2008a). I. Pour une sociologie historique de la quantification. L’Argument statistique I. Paris : Presses des Mines.
Desrosières, A. (2008b). II. Gouverner par les nombres. L’argument statistique II. Paris : Presses des Mines.
George, G., Haas, M. R., & Pentland, A. (2014). Big Data and Management. Academy of Management Journal, 57(2), 321‑326. https://doi.org/10.5465/amj.2014.4002
Ghaffari, S., Misset, S., Pavis, F., & Ponnet, M. (2013). Généalogies des outils de gestion. Introduction. Travail et emploi, (133), 5‑12.
Huselid, M. A. (2018). The science and practice of workforce analytics: Introduction to the HRM special issue. Human Resource Management, 57(3), 679‑684. https://doi.org/10.1002/hrm.21916
Kitchin, R. (2014). Big Data, new epistemologies and paradigm shifts. Big Data & Society, 1‑12. https://doi.org/10.1177/2053951714528481
Marler, J. H., & Boudreau, J. W. (2017). An evidence-based review of HR Analytics. The International Journal of Human Resource Management, 28(1), 3‑26. https://doi.org/10.1080/09585192.2016.1244699
Mayer-Schönberger, V., & Cukier, K. (2014). Big data : la révolution des données est en marche. Paris: Robert Laffont.
O’Neil, C. (2016). Weapons of math destruction: how big data increases inequality and threatens democracy (First edition). New York: Crown.
Pfeffer, J., & Sutton, R. I. (2006). Evidence-Based Management. Harvard Business Review, 63‑74.
Raguseo, E. (2018). Big data technologies: An empirical investigation on their adoption, benefits and risks for companies. International Journal of Information Management, 38(1), 187‑195. https://doi.org/10.1016/j.ijinfomgt.2017.07.008
Rousseau, D. M. (2006). Is there such a thing as « evidence-based management »? Academy of Management Review, 31(2), 256‑269. https://doi.org/10.5465/AMR.2006.20208679