Culture data – lingua franca


Auteur:

  • Christophe Benavent – Professeur des Universités, Université Paris Nanterre

On peut disserter à l’infini  sur le bigdata, l’IA, le ML, le NLP, la technologie, les algorithmes, célébrer ou condamner l’accumulation des découvertes, des techniques, et l’explosion des outils,  on ratera le fait que la culture des données ne vient pas tant de leur surabondance que d’une langue partagée : une lingua franca, dont Thomas Wieder* rappelle une définition:

Un jargon qu’on parle sur la mer Méditerranée, composé de français, d’italien, d’espagnol et d’autres langues, qui s’entend par tous les matelots et marchands de quelque nation qu’ils soient.

Python et r sont désormais les deux grands pidgins qui couvrent la planète et permettent aux informaticiens, statisticiens, biostatisticiens, économètres, psychomètres, ingénieurs, data scientists de nouvelles espèces, mathématiciens, géographes, automaticiens, linguistes, roboticiens et on en oublie, d’échanger et de partager des procédures, des solutions, des algorithmes, du code, des données, un savoir qui en dépit de son explicitation est souvent implicite.

Il en résulte aujourd’hui une formidable accumulation d’outils, de techniques et  de modèles pour manipuler les données. Prenons l’exemple de r et de ses 20000 packages, rappelons que 28 millions de développeurs utilisent github, les stalkoverflows qui répondent à toutes les questions qu’on peut se poser. Sans compter les concours, celui de kagle a joué un rôle déclencheur en 2008, Ce sont des communautés qui sont regroupées et disposent  de ressources importantes et interopérables. On a sans doute le gisement d’une immense créativité.

On ne négligera pas le fait qu’au cours des dix dernières années l’offre de données croît aussi de manière exponentielle. Il s’agit des séries chronologiques maintenues par les instituts de statistiques et les grands organismes économiques, des bases de données telles que l’ESS, du gisement des textes publiés sur le net : avis de consommateurs, conversations dans les réseaux sociaux, articles des journaux factiva, rapports d’activités des entreprises, 

Voilà qui représente aussi un défi pour les sciences de gestion. Aller au-delà de modèle lisrel, accéder aux données même de l’organisation, traiter le discours à grandes échelles va devenir un impératif. Dans les revues on voit apparaître ce mouvement par exemple en comportement du consommateur avec (Humphreys et Wang 2018), pour l’analyse des marques (Shirdastian, Laroche, et Richard 2019)  ou dans le champs organisationnel (Kobayashi et al. 2018) et naturellement celui des systèmes d’informations (Johnson, Gray, et Sarker 2019), (Churchill 1979)

Le but de cette rubrique est donc de contribuer à cette circulation de la lingua franca des datas sciences, et de mettre en lumière des modèles originaux, et les savoir-faire. Chaque note sera donc centrée sur une technique, appliquée à des cas concrets, elle donnera le code et chaque fois que ce sera possible,  les données, pour assurer la réplicabilité des exemples. L’écriture pédagogique et les références clés.

Les propositions sont bienvenues, en r ou en python, l’originalité est revendiquée, elle sont à adresser à christophe.benavent@gmail.com.


*Thomas Wieder, « Lingua Franca. Histoire d’une langue métisse en Méditerranée, de Jocelyne Dakhlia : l’esperanto disparu» [archive], le Monde, le 20 novembre 2011, consulté le 13 avril 2014.


Références

  • Humphreys, Ashlee, et Rebecca Jen-Hui Wang. 2018. « Automated Text Analysis for Consumer Research ». Édité par Eileen Fischer et Linda Price. Journal of Consumer Research 44 (6): 1274–1306. https://doi.org/10.1093/jcr/ucx104.
  • Johnson, Steven L., Peter Gray, et Suprateek Sarker. 2019. « Revisiting IS Research Practice in the Era of Big Data ». Information and Organization 29 (1): 41‑56. https://doi.org/10.1016/j.infoandorg.2019.01.001.
  • Kobayashi, Vladimer B., Stefan T. Mol, Hannah A. Berkers, Gábor Kismihók, et Deanne N. Den Hartog. 2018. « Text Mining in Organizational Research ». Organizational Research Methods 21 (3): 733‑65. https://doi.org/10.1177/1094428117722619.
  • Shirdastian, Hamid, Michel Laroche, et Marie-Odile Richard. 2019. « Using Big Data Analytics to Study Brand Authenticity Sentiments: The Case of Starbucks on Twitter ». International Journal of Information Management 48 (octobre): 291‑307. https://doi.org/10.1016/j.ijinfomgt.2017.09.007.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.