Big data et football : comment jongler avec les données ?

Didier Calcei, Groupe ESC Troyes – UGEI

L’usage des statistiques et données dans le sport a été fortement popularisé par le livre Moneyball : The Art of Winning an Unfair Game de Michael Lewis – non traduit en français, il a été adapté au cinéma sous le titre Le stratège.

Il retrace l’utilisation par Billy Beane, directeur général de l’équipe de baseball des Athletics d’Oakland, des données pour en faire une équipe compétitive. Ne disposant pas d’un budget comparable à ceux d’autres franchises de la Ligue américaine, les Athletics d’Oakland ont recruté des joueurs sur la base de statistiques d’évaluation de la performance offensive (puis dans un second temps défensive) des joueurs différentes des statistiques traditionnellement utilisées par les franchises de baseball. Grâce à cette méthode, les Athletics d’Oakland ont réussi à obtenir un avantage concurrentiel mais uniquement temporaire dans la mesure où d’autres équipes copièrent par la suite la méthode déployée par Billy Beane.

Née dès les années 1960, cette utilisation de nouvelles données et statistiques sera labellisée sous le terme de sabermétrie – venant de l’acronyme SABR qui signifie « Society for American Baseball Research ». Dans « The Sabermetric Manifesto », Bill James, historien américain du baseball et grand promoteur de la sabermétrie, la définit comme « la recherche de la connaissance objective sur le baseball ».

Sans créer l’équivalent de la sabermétrie, d’autres sports d’invasion comme le basket-ball, le hockey-sur-glace ou le football américain ont progressivement utilisé les données et les statistiques pour non seulement évaluer la performance des joueurs mais également les recruter. Globalement – et à l’exception notable des expériences de Valeri Lobanovski qui avait développé une approche proto-scientifique du football avec le Dynamo Kiev et l’équipe d’Ukraine –, le football est longtemps resté hermétique à l’usage des statistiques et des données.

Le foot allergique aux statistiques ?

Pour faire simple, et contrairement aux sports estampillés parfois comme US, le football ne se prêterait pas à l’usage des statistiques, ne serait pas un sport de statistiques. Ancien défenseur de l’Olympique de Marseille, désormais consultant, Éric Di Meco considère ainsi que « Le football n’est pas un sport de statistiques. Les statistiques tuent le jeu parce que les joueurs pensent plus aux statistiques qu’à la performance collective. C’est ce que l’on met sur le terrain qui est plus important que le nombre de passes ou la possession ». Même si les raisons sont différentes, les débats sur l’assistance vidéo à l’arbitrage (la VAR) résonnent avec l’utilisation des statistiques dans le football. Pour certains observateurs du football, cette technique dénaturerait le football qui n’est pas un sport de séquences mais un sport de continuité.

Cette idée a été remise en question par plusieurs phénomènes pour contribuer à une datafication du football comme la qualifie Gautier Stranget dans Le football est une science (in)exacte. Désormais, les clubs, les médias et le grand public disposent et se servent des données et des statistiques.

Le plus souvent, elles sont fournies par des sociétés comme Opta Sports ou STATS dont les clients sont tout autant les équipes, les ligues, les médias ou les sociétés technologiques. Du côté des clubs, certains d’entre eux, parfois dans des situations comparables à celle des Athletics d’Oakland, font une utilisation importante des données et statistiques qui sont au cœur de leur stratégie.

Le cas du TSG Hoffenheim est ainsi caractéristique de l’entrée du football dans l’âge des données. Ce club, propriété de Dietmar Hopp, également co-fondateur de la société SAP SE, bénéficie de l’aide financière de son propriétaire et de la mise à disposition d’outils développés par SAP SE. Comme l’écrit Gautier Stranget, le TSG Hoffenheim est ainsi devenu le « club laboratoire de l’innovation footbalistique ».

Deux autres clubs, le club anglais du FC Brentford et le club danois du FC Midtjylland, constituent également des laboratoires et sont entrées dans l’âge des données. Leur point commun est la présence dans l’organigramme des deux clubs de Matthew Benham et de Rasmus Ankersen. Le premier est le propriétaire de deux sociétés évoluant dans le domaine des paris sportifs, Smartodds qui fournit des statistiques aux parieurs professionnels, et Matchbook, un bookmaker. Le second est un ancien joueur du FC Midtjylland ayant évolué vers le coaching, entrepreneur et auteur à succès dans le domaine de la performance – sa présence dans les deux clubs lui permet ainsi de tester certaines de ses théories comme le Gold Mine Effect. À la suite de ces précurseurs, des clubs comme Manchester City, Liverpool, le Real Madrid, le PSG et d’autres clubs historiques ont basculé dans l’âge des données et recruté des analystes et responsables de la performance et autres statisticiens.

Trouver les statistiques pertinentes

Pendant le match Corée du Sud – Allemagne de la Coupe du Monde 2018, le taux de possession de la Mannschaft a été de 74 % ; avec 26 %, l’équipe de Corée du Sud est devenue l’équipe ayant gagné un match de Coupe du Monde avec la plus faible possession de la balle.

Lors du match Russie – Espagne, cette dernière a battu le nombre de passes réussies – 1029 sur 1137 soit 92 % contre 204 sur 284 soit 72 % – mais, au final, l’équipe de Russie a gagné – l’équipe d’Espagne a mis 1 but sur 9 tirs cadrés et 15 tirs au total tandis que celle de Russie a mis 1 but sur 1 tir cadré et 3 tirs au total.

Pour le dire autrement la possession stérile a été battue par le froid réalisme. Plus généralement, toutes les données et statistiques disponibles et présentées par les médias ou les sociétés d’analyses ne sont pas pertinentes.

Dans les années 1990, la Française des jeux avait comme slogan pour une de ses publicités « 100 % des gagnants ont tenté leur chance ». Cette statistique ne sert pas à grand-chose évidemment et montre que les statistiques et les données doivent être prises avec précaution. Dans le cas des deux matchs de la Coupe du Monde 2018 cités, les statistiques doivent être contextualisées et croisées avec d’autres statistiques et données pour produire du sens. Pour prendre un autre exemple, le nombre de tacles réussis par un défenseur peut être interprété comme une bonne performance de ce défenseur. Mais une autre lecture de cette statistique serait d’en déduire un mauvais positionnement de ce défenseur, ce qui le pousserait à tacler davantage.

Un problème supplémentaire avec les statistiques et les données est que certaines actions de jeu ne sont pas analysées et interprétées de la même façon selon les championnats et/ou les organismes de données. Prenons le cas de la passe décisive : pour OPTA, elle est définie comme « la dernière passe ou le centre-tir amenant le destinataire de la passe à marquer ». Dans certains championnats l’action amenant un pénalty lorsqu’il est transformé est considéré comme une passe décisive (cas de la Bundesliga) ou pas (cas de la Ligue 1 Conforama). Ainsi, le flou entourant la définition et l’interprétation de la passe décisive conduit même à se demander même si les passes décisives existent.

Une nouvelle statitstique : l’« expected goal »

Actuellement, une des statistiques en vue est celle des « expected goals ». Un expected goal, ou xG, correspond au « nombre de buts qu’un joueur ou une équipe aurait dû marquer – ou encaisser – selon les probabilités sur une période donnée, qu’il s’agisse d’un match ou d’une saison ».

Les xG peuvent être utilisés de deux manières : d’une part, c’est une mesure objective de la performance d’un joueur ou d’une équipe, et, d’autre part, c’est un outil de prédiction. Pour l’année 2017, en se basant sur les données fournies par Opta et dans le cadre des cinq grands championnats européens, Harry Kane (Tottenham) a une différence entre les buts marqués et les xG de +12,2 (36 contre 23,8) tandis que pour Karim Benzema cette différence de – 5,9 (9 contre 14,9).

Sur cette base, il est possible de conclure que Karim Benzema est moins performant que Harry Kane. Pour autant, il faudrait croiser avec d’autres statistiques et données par exemple les « expected assists » ou les courses à haute intensité (celles au-delà de 21km/h), ces dernières étant plus pertinentes que le nombre de kilomètres parcourus.

De même que certains entraîneurs révolutionnaires ont transformé le jeu, les statistiques et les données modifient la façon de regarder le football et le football lui-même. Sur le premier point, les statistiques et données sont utilisées par les médias pour modifier l’expérience des spectateurs.

Cela se traduit par des commentaires d’après-match qui ne sont pas nécessairement pertinents et intéressants – a fortiori, lorsque des statistiques comme les xG, les expected assists ou les courses à haute intensité ne sont pas utilisées. Le football en lui-même est transformé par l’utilisation des données et statistiques.

Lors du match de championnat de Ligue 1 Conforama entre le PSG et Lyon du 17 septembre 2017, une vive discussion entre Neymar et Cavani, pour savoir lequel allait tirer le penalty, avait suscité de nombreux commentaires. Une raison de ce différent est très certainement la présence dans le contrat des deux joueurs d’une prime en fonction du nombre de buts inscrits. Désormais, les équipes utilisent de plus en plus les données et les statistiques pour établir les contrats de leurs joueurs, ce qui peut les pousser à transformer leur jeu pour obtenir de telles primes. Par ailleurs, l’utilisation des statistiques et des données par le FC Brentford a conduit l’équipe à privilégier les coups de pied arrêtés et les joueurs de cette équipe suivent un « ensemble d’exercices pédagogiques afin de tenter d’établir un style de jeu propre aux phases arrêtés » comme le souligne Gautier Stranget.

Dans un sport collectif comme le football, l’individualisation est déjà pointée du doigt lors des récompenses, distinctions et autres prix individuels. Le risque des statistiques, et notamment celles individuelles, est d’amplifier ce phénomène comme le souligne Les Cahiers du Football :

« Cette logique d’exhibition plus que de compétition a partie liée avec l’extrême starification des tout meilleurs joueurs. Ce sont leurs exploits individuels, instantanément propagés sur les réseaux, que l’on va célébrer avant tout – en même temps que leur capacité à faire la différence à eux seuls. Il est significatif que, pour glorifier ces stars, deux vecteurs principaux soient employés : ces séquences vidéo de leurs actions et la litanie des statistiques individuelles que débitent les sites spécialisés – et qui semblent toujours signifier de nouveaux records. On en oublie à quel point ils bénéficient, contrairement à leurs devanciers, de l’exceptionnelle qualité des effectifs au sein desquels ils évoluent et qui offrent des conditions d’expressions idéales – renforçant ainsi leur “statut”. »

On retrouve ici le point de vue exprimé par Éric Di Meco. Ce sont bien deux visions du football qui sont en jeu ici : elles se retrouvent (et se combinent parfois) dans des oppositions entre l’efficacité et la beauté, entre le football business et le football populaire ou encore entre le driblling et le passing game.

The ConversationDans un livre majeur, Le football, ombre et lumière, le romancier, essayiste, nouvelliste et journaliste uruguayen, Eduardo Galleano, écrivait que « L’histoire du football est un voyage triste, du plaisir au devoir. À mesure que le sport s’est transformé en industrie, il a banni la beauté qui naît de la joie de jouer pour jouer. En ce monde de fin de siècle, le football professionnel condamne ce qui est inutile, et est inutile ce qui n’est pas rentable. Il ne permet à personne cette folie qui pousse l’homme à redevenir enfant un instant, en jouant comme un enfant joue avec un ballon de baudruche et comme un chat avec une pelote de laine : danseur qui évolue avec une balle aussi légère que la baudruche qui s’envole et que la pelote qui roule, jouant sans savoir qu’il joue, sans raison, sans chronomètre et sans arbitre ». En fonction de la façon dont les statistiques et les données seront utilisées, le risque existe que l’inutile et le non-rentable disparaisse du football.

Didier Calcei, Professeur associé en Innovation & Entrepreneuriat, Groupe ESC Troyes – UGEI

La version originale de cet article a été publiée sur The Conversation.

%d blogueurs aiment cette page :