Citation
L'auteur
Morgan Sweeney
- Université Paris Dauphine
Copyright
Déclaration d'intérêts
Financements
Aperçu
Contenu
L’algorithme est-il plus performant que l’Homme ? Les logiciels dénommés, avec un peu trop d’emphase, de « justice prédictive » permettent aux professionnels du droit d’effectuer une analyse et un traitement statistique des décisions de justice dans un contexte ou devant une juridiction donnée, de connaître le montant moyen alloué, etc. Ces informations peuvent par exemple servir un avocat dans le conseil prodigué à un client ou à un assureur pour évaluer le préjudice d’un assuré. Sans nul doute les applications de « justice prédictive » permettent de compulser et d’exploiter un très grand nombre de décisions de justice. Elles permettent en quelques secondes de donner une « photographie » raisonnée et ordonnée du contentieux sur toute la France, ce qui prendrait des années à un humain pour obtenir le même résultat.
Encore faut-il que les résultats donnés par le l’application soient pertinents. Une étude menée en 2013 sur le contentieux de la discrimination ( E. Serverin et F. Guiomard, 2013) a montré qu’en raison d’une grande variété d’expressions utilisées par les juges, beaucoup de décisions, bien qu’elles continssent les mots-clés recherchés, ne relevaient pas in fine du contentieux de la discrimination. Par exemple les juges vont utiliser le terme de « discrimination », dans un langage soutenu, comme synonyme de différence, sans que celle-ci soit un enjeu du litige à trancher Le logiciel de justice prédictive, Prédictice, que nous avions à notre disposition pouvait-il opérer automatiquement cette sélection des arrêts pertinents pour l’étude du contentieux de la discrimination ? L’algorithme peut-il de manière fine distinguer les arrêts qui concernent la discrimination relative à la « race »[1] de ceux relatifs à la discrimination syndicale et à l’égalité homme/femme ? Du point de vue du droit, il est primordial de bien distinguer chaque motif et le contentieux qui lui est propre : les règles de droit varient dans leurs contenus selon les motifs. Pour ne prendre qu’une différence notable, il est interdit en France de faire des statistiques « ethno-raciales », alors que les statistiques sont l’instrument privilégié pour la révélation des discriminations en raison du genre, obligeant les employeurs à faire des statistiques annuelles des rémunérations comparées entre les femmes et hommes de l’entreprise. Dans cette perspective, nous avons donc analysé les 10 premières décisions, présentées dans l’ordre de « pertinence » par le logiciel, dans le cadre de chacune des quatre recherches effectuées par mots-clés.
Méthodologie
La méthodologie employée consiste à se placer dans la situation du professionnel du droit, utilisateur du logiciel de « justice prédictive » et d’en interroger les résultats. La plateforme permet de traiter les résultats de deux manières : de manière classique, il donne d’abord le résultat brut de toutes les décisions contenant les mots clés, classés par « date » ou « pertinence » – ces résultats peuvent être affinés par juridiction, date, et en matière sociale par le niveau de salaire, etc. ; ensuite les résultats peuvent de manière souple et fort utile être affinés par chefs de demande, ce qui permet de regrouper les décisions qui portent sur la même demande et d’obtenir les taux de succès, la moyenne des dommages et intérêts obtenus, etc.. L’algorithme repose sur le Natural Language Processing qui, sur des masses de décisions, permet d’identifier les éléments fondamentaux et récurrents pour aboutir à une classification des décisions.
La mise à l’épreuve du logiciel de « justice prédictive » est rudimentaire : il s’est agi d’interroger l’algorithme avec les mots clés qui combinent les termes « discrimination » et un motif discriminatoire particulier (« race », « sexe » et « syndicale ») et une quatrième recherche portant sur « égalité », « homme » et « femme ». Nous nous sommes placés dans la situation d’un utilisateur qui cherche à s’informer sur le contentieux propre à un motif discriminatoire particulier. Nous avons choisi ces trois catégories de discriminations parce que dans le cadre de l’étude de 2013 il est apparu que le contentieux attaché au motif de la race était très résiduel, alors que les arrêts relatifs au sexe et à l’engagement syndical étaient les plus nombreux, donc plus intéressants à exploiter statistiquement.
Afin de mieux apprécier la pertinence des résultats fournis par l’algorithme, nous avons décidé de les confronter à l’étude précitée d’E. Serverin et F. Guiomard. Dès lors, l’interrogation dans le logiciel porte sur le même cadre temporel (2007-2010) et dans le même espace (toutes les cours d’appel de France). Fort de l’étude de 2013, nous savons qu’il existe beaucoup de faux positifs dans les recherches par mots clés : soit que les décisions concernent en vérité un autre motif discriminatoire que celui recherché, soit que la décision ne relève pas du tout du contentieux de la discrimination (les juges utilisent alors « discrimination » dans le sens de « différent »). Il s’agit donc de vérifier la fiabilité du logiciel et de vérifier qu’il est capable de trier et surtout d’exclure les décisions où les occurrences des mots clés apparaissent, mais qui ne relèvent pas sur le fond des questions de discrimination. Nous avons alors systématiquement lu et analysé les dix premières décisions fournies par le logiciel par ordre de « pertinence » pour chacune des quatre interrogations, afin de vérifier que les arrêts prononcés relèvent bien de la recherche effectuée – lecture en tant qu’expert-juriste, c’est-à-dire utilisateur habituel de ce logiciel. Les résultats de ce dépouillement sont donnés dans le tableau de pertinence ci-dessous.
À la lecture, le résultat est assez décevant :
Tableau de pertinence des 10 premières décisions | ||
Motif discriminatoire | Nombre d’arrêts pertinents parmi les 10 premiers | Nombre d’arrêts non pertinents parmi les 10 premiers |
Race | 0 | 10 |
Sexe | 5 | 5 |
Egalité homme femme | 10 | 0 |
Syndicat | 9 | 1 |
L’analyse détaillée de l’ensemble de ces décisions de justice appelle des commentaires de l’usager-juriste que nous sommes, qui permettent d’apporter de premières explications aux échecs du logiciel de justice prédictive. Celui-ci n’a en définitive pas permis une sélection pertinente des décisions – ce qui fausse nécessairement toute analyse statistique fondée sur cette sélection. Reprenons chacun des motifs discriminatoires analysés, chacun illustrant une limite particulière de l’algorithme.
La discrimination en raison de la prétendue race
Il est frappant de remarquer qu’aucune des dix premières décisions pour le motif « race » ne relève de ce contentieux – la majorité relève en fait de la discrimination syndicale. En outre, ces décisions sont mises en avant alors qu’il n’existe dans neuf décisions sur dix qu’une unique occurrence du terme « race ». Généralement, cette occurrence intervient dans la citation in extenso de l’article L.1132-1 du Code du travail et de la longue liste des motifs discriminatoires, parmi lesquels « la race ». Dans une décision en particulier, le terme « race » apparaît en référence aux « races chevalines » – décision qui concerne le PMU. Lorsque le logiciel analyse le texte et qu’il repère un mot clé, ici la « race », il va retenir l’arrêt comme pertinent pour la recherche, alors que la citation n’est qu’ornementale et n’entre pas en réalité dans le périmètre de recherche. Le logiciel est en fait incapable d’identifier la « qualité » de l’occurrence du terme : ornementale ou pertinente.
Le résultat pourrait-il être influencé alors par le nombre d’occurrences du terme « discrimination » dans le texte de l’arrêt d’appel ? Là encore, cette explication ne tient pas, car si la première décision mise en avant par le logiciel compte le plus grand nombre d’occurrences de ce mot-clé (21), le troisième n’en compte que deux – bien moins que les huit autres décisions, quel que soit leur classement (la cinquième décision compte 17 occurrences, la sixième 3 et la huitième 14…). Manifestement, l’algorithme utilise d’autres critères de classement, qui dans tous les cas échouent à mettre en avant les décisions qui relèvent réellement du contentieux de la discrimination raciale.
La discrimination en raison du sexe ou l’égalité homme-femme
Les résultats sur le contentieux de l’égalité entre les hommes et les femmes exposent d’autres limites du logiciel, qui en faussent les résultats. Nous avons fait le choix de faire deux recherches distinctes : la première qui porte sur « discrimination » associée à « sexe » et la seconde sur « égalité », avec les termes « femme » et « homme ». Les juges utilisent souvent alternativement les deux expressions – qui concernent pourtant la même question de droit.
Aucune des dix premières décisions présentées par « pertinence » n’est commune dans les deux recherches. Plus étonnant encore, les trois premiers résultats, par ordre de pertinence, de la recherche « discrimination – sexe » sont les mêmes que la recherche « discrimination – race », dans le même ordre ! La quatrième décision relevée par le logiciel expose une autre difficulté : le juge justifie l’avantage légal en faveur des salariés à temps partiel, généralement des femmes, comme une modalité de lutte contre les discriminations en raison du sexe. Cette assertion n’a aucune incidence sur la solution du litige et procède d’une volonté didactique du juge. Il n’est pas pertinent.
Les résultats de la recherche sur « égalité » avec les termes « femme » et « homme » sont pertinents : c’est le seul cas où les dix premières décisions sont bien en rapport direct avec la recherche. Ces dix (en vérité douze) premiers arrêts sont du même jour et de la même juridiction : le 28 juillet 2009 par la cour d’appel de Versailles. Il s’agit en réalité de la contestation par des salariés masculins de leur exclusion du dispositif, réservé à l’époque aux seules femmes, de départ anticipé à la retraite dans le statut spécial de l’industrie électrique et gazière. Cette situation attire l’attention sur le traitement par le logiciel des actions de groupe en matière de discrimination au travail, possibles depuis 2016[2]. En effet, dans le cadre d’une action de groupe les juges ne rendront qu’une seule décision de justice qui concernera une multitude de victimes d’une même discrimination. Son caractère unique la rend beaucoup moins identifiable aux « yeux » du logiciel[3]. Ceci révèle un biais du traitement par le logiciel : les statistiques sont fondées sur le nombre d’arrêts et non celui de victimes.
La différence de résultat entre les recherches « discrimination-sexe » et « égalité-femme-homme » est inquiétante, car il s’agit de la même question de droit : savoir si une femme ou un homme est défavorisé en raison de son sexe. L’algorithme les distingue, car les mots-clés sont différents, alors qu’un locuteur français peut spontanément les tenir comme équivalents.
La discrimination syndicale : réflexions autour d’une décision hors sujet
À propos de la discrimination syndicale, neuf des dix premières décisions relèvent bien du contentieux visé. La sixième décision dans l’ordre des résultats est la seule non pertinente – elle concerne la prise en charge des frais de transport des représentants du personnel. L’expression exacte « discrimination syndicale » n’apparaît qu’une seule fois dans l’arrêt. À la lecture de cette décision, la discrimination syndicale, qui n’est pas dans le débat juridique de l’affaire, est utilisée pour expliciter le sens d’un autre dispositif juridique, par opposition. Cet usage rhétorique montre que les logiciels de « justice prédictive » ne comprennent pas les textes comme un humain le ferait et ne sont pas à même d’identifier la fonction de certaines incises, qui peuvent les induire en erreur.
La « discrimination salariale » : une habitude langagière impropre
Le logiciel de « justice prédictive » utilisé a la particularité de proposer une « analyse » des décisions par chef de demande, c’est-à-dire en fonction des prétentions et/ou moyens de droit invoqués par les parties. Une telle approche permet de mieux épouser la réalité du contentieux et de prendre en compte ce qui est le plus fréquemment demandé, en droit, au regard des mots clés recherchés. D’autres logiciels de « justice prédictive » sont plus rigides et imposent de passer par des mots clés prédéfinis par l’éditeur du logiciel, ce qui donne moins de liberté à l’utilisateur dans ses recherches.
Pour chacune des recherches effectuées, le seul chef de demande récurrent est « discrimination salariale », qui apparaît systématiquement dans les trois premiers chefs de demandes mis en avant par le logiciel. Néanmoins, selon les motifs, les arrêts concernant la « discrimination salariale » peuvent être fort réduits : pour le motif « race », il n’y a que 4 décisions – pour la discrimination syndicale, il n’y en a que 41 pour 480 décisions… Surtout, l’expression est impropre juridiquement. En effet, une discrimination se rapporte nécessairement à un motif (sexe, âge, orientation sexuelle, etc.). Le salaire est simplement un champ dans lequel la discrimination peut se déployer : la défaveur dont souffre la victime d’une discrimination peut concerner un élément du salaire, mais cela peut être également dans le bénéfice d’un congé, etc. L’expression de « discrimination salariale » est impropre, car elle ne permet pas d’identifier le motif auquel la discrimination se rapporte, ce qui est le cœur de la question juridique. Les juges n’utilisent pas les mêmes méthodes et les mêmes moyens pour identifier une discrimination sexuelle ou une discrimination en raison de la nationalité… parce que le régime juridique varie selon les motifs et non selon la nature de l’avantage. Il apparaît que l’expression est utilisée soit par le salarié qui ne vise aucun motif discriminatoire en particulier et se plaint simplement d’être moins bien traité que d’autres salariés sans pouvoir identifier un motif discriminatoire, soit par les juges qui utilisent le terme de « discrimination » comme synonyme de « différence » – il s’agit alors d’une rupture d’égalité de traitement et non d’une discrimination. Dans tous les cas, ces décisions ne relèvent pas, à strictement parler, du contentieux de la discrimination. Il est significatif qu’un chef de demande qui ne devrait pas juridiquement exister soit pourtant l’un des plus usités. Les résultats du logiciel sont révélateurs d’un usage langagier en décalage avec la rigueur de la grammaire du raisonnement juridique. On peut regretter que le logiciel, peu ou prou, mette en avant un usage apocryphe.
En définitive les occurrences de mots clés qui piègent l’algorithme sont nombreux :
- L’occurrence dans la citation d’un article d’un Code, mais dont le litige porte sur une autre partie de cet article ;
- L’équivalence fonctionnelle entre deux expressions langagières qui sont tenus pour différentes par le logiciel ;
- Une référence didactique qui sert aux juges pour expliquer un autre dispositif juridique ;
- Une pratique langagière impropre sur le plan du droit.
De manière générale, ces exemples montrent les limites qui existent encore aujourd’hui pour les algorithmes de Natural Language Processing : les ambigüités sémantiques, l’utilisation rare de certains mots ou formulations, le contexte et la fonction d’une expression dans un texte donné. Cette dernière limite est dommageable dans l’étude des décisions de justice, car les professionnels du droit recherchent l’usage juridique des mots, comme celui de la discrimination attachée à un motif particulier, et non l’usage de ce même mot dans le langage courant. Tant que l’algorithme ne sera pas en mesure de lire et comprendre un texte et de pouvoir resituer une expression dans son contexte et sa finalité (juridique, rhétorique, didactique, etc.), il ne sera pas en mesure de trier de manière pertinente les décisions de justice et d’éviter ces différents « pièges ».
[1] Le droit français ne reconnaît pas et interdit les catégorisations des humains au travers des supposées « races ». Ce n’est que depuis 2016 que le législateur préfère l’expression « prétendue race » à celle de « race ».
[2] Loi n° 2016-1547 du 18 novembre 2016 de modernisation de la justice du XXIe siècle.
[3] Selon l’étude de 2013 (p.74), 30.3% des décisions relatives à l’égalité homme-femme concernaient ce contentieux particulier !
Bibliographie
Chatudeau O. et Garnerie L., (2017). « Délivrer un résultat en un temps moindre, c’est aussi cela la valeur ajoutée ! », Gazette du palais, 24/01/2017, p.9.
Dondero B., (2017), « Justice prédictive : la fin de l’aléa judiciaire ? », Recueil Dalloz, p.532.
Cadiet, L., (2017). « L’accès à la justice – Réflexions sur la justice à l’épreuve des mutations contemporaines de l’accès à la justice », Recueil Dalloz, p.522.
Garapon, A. (2017. « Les enjeux de la justice prédictive », Semaine juridique – édition générale, p. 31.
Iwens D. (2017). « La justice prédictive, nouvel allié des professionnels du droit ? », Gazette du palais, 3/01/2017, p.5.
Kirat, Th., Sweeney, M., (2019). Comparaison d’applications de “justice prédictive » : le cas du contentieux de l’indemnisation du licenciement abusif, 2012-2016. Prédictice, Dalloz-jurisprudence chiffrée et JurisData Analytics. Semaine juridique – édition générale – supplément n°44-45 – 28 oct. 2019, p. 53-58.
Lévy-Vehel, J., (2019). Présentation du fonctionnement d’outils numériques existants d’analyse mathématique du droit in Godefroy, L., Lebaron, F., Lévy-Vehel, J. (dir.), Comment le numérique transforme le droit et la justice vers de nouveaux usages et un bouleversement de la prise de décision. Anticiper les évolutions pour les accompagner et les maîtriser, Rapport final de recherche n° 16-42 : Mission de recherche Droit et Justice, 2019, p. 7-37.
Serverin, E., Guiomard, F. (dir.). (2013). Des revendications des salariés en matière de discrimination et d’égalité – Les enseignements d’un échantillon d’arrêts extrait de la base JURICA (2007-2010), http://www.gip-recherche-justice.fr/publication/des-revendications-des-salaris-en-matire-de-discrimination-et-dgalit-les-enseignements-dun-chantillon-darrts-extrait-de-la-base-jurica-2007-2010/.
Serverin, E., (2002). « Quels faits sociaux pour une science empirique du Droit ? », Droit et Société, n° 50, p. 59.
Supiot, A. (2015). La gouvernance par les nombres. Cours au Collège de France (2012-2014), Paris, Fayard, Coll. « Poids et Mesures du Monde ».
Zambrano G. (2015). Précédents et prédictions jurisprudentielles à l’ère des big data : parier sur le résultat (probable) d’un procès, <hal-01496098>.