Contribution

6 avril 2020

Covid-19. Un étonnant décret créant une nouvelle base de données en pleine urgence sanitaire

Par

Travailler au futur

Un tout nouveau décret nommé « Datajust », en français « Données justes », permet dorénavant le traitement automatisé de données à caractère personnel. Antoine Bon, avocat au barreau de Strasbourg, membre du Syndicat des avocats de France, a bien voulu nous livrer son analyse. Et Mélanie Métivier, avocate au barreau de Clermont- Ferrand, également membre du Syndicat des avocats de France, sa réaction.

Décret n° 2020-356 du 27 mars 2020 portant création d’un traitement automatisé de données à caractère personnel dénommé « DataJust »

Par Antoine Bon, avocat au barreau de Strasbourg.

L’urgence sanitaire à laquelle le pays fait face, outre son impact humain et social a donné lieu à un bouleversement juridique et institutionnel mettant entre les mains du gouvernement l’ensemble des pouvoirs pour le temps de la crise et instaurant des restrictions inédites aux libertés publiques.

Il est tout à fait étonnant, en ce moment historique, de lire la publication au Journal Officiel du 29 mars 2020 d’un décret du Premier Ministre portant création d’un traitement de données à caractère personnel dénommé « DataJust ». Ce qui n’a pas manqué de créer un certain émoi jusqu’au sein de la profession d’avocats.

Ce projet est l’un des avatars d’une grande initiative lancée par le Président de la République en 2016 et montée en puissance en 2018 et 2019, le Groupement d’Intérêt général, structure finançant l’association de chercheurs privés aux projets du gouvernement.

Le projet DataJust semble avoir vu le jour en 2017, à l’occasion du Projet de réforme de la Responsabilité Civile et répond à deux objectifs : d’une part trouver une solution à l’absence problématique de référence objective consensuelle en matière d’évaluation du préjudice corporel qui aboutit à des disparités de traitement selon les juridictions appelées à statuer et, d’autre part, à l’obsession gouvernementale pour la dématérialisation et l’automatisation des processus dans une quête effrénée de gain de productivité au sein de son administration (produire plus avec moins de personnel).

Si les différents acteurs de la chaîne judiciaire, dont les avocats, arrivaient à s’accommoder, bon gré mal gré, de l’absence de référentiel objectif par la connaissance directe de l’activité et de la jurisprudence des juridictions ; la situation actuelle apparait de plus en plus problématique au fur et à mesure du développement par le secteur privé (dont des avocats ou d’anciens magistrats encouragés à réorienter leurs activités vers des domaines plus rentables) d’outils de traitement informatiques permettant de dégager des tendances statistiques et probabilistes d’un niveau de pertinence jamais connu auparavant.

Ces outils procèdent par analyse de quantités gigantesques de jugements, échappant aux capacités humaines de traitement. Ils sont développés par des sociétés privées qui gardent jalousement le secret des traitements effectués et des processus leur permettant de produire ces résultats.

L’accès à ces outils (qui peut présenter un coût hors de proportion avec les ressources d’un intervenant isolé) donne à leurs utilisateurs un avantage comparatif important dans le processus de détermination de la valeur économique du préjudice subi par la victime.

On ne peut que saluer la volonté de l’État de ne pas dépendre de ces solutions techniques et de travailler à la construction d’un outil indépendant, ayant vocation à devenir une référence objective face à la prolifération des initiatives privées et opaques.

Au delà, on ne peut qu’espérer que cet outil de référence sera suffisamment transparent pour permettre aux intervenants de la chaîne judiciaire du préjudice corporel d’en comprendre le fonctionnement et de pouvoir le soumettre à un examen critique permettant d’évaluer sa pertinence au regard de chaque cas particulier.

On notera cependant que cette transparence ne fait, pour l’heure, pas l’objet d’engagement concret du gouvernement comme la mise à disposition publique des sources de l’algorithme, ce qui est, pour le moins, regrettable. Il est difficile d’imaginer que l’État mette en place un outil de chiffrage automatisé dont le mécanisme ne serait pas ouvert à la vérification de tous.

Techniquement, la construction d’un algorithme complexe de traitement massif de données passe par l’auto-amélioration du processus de traitement par « entrainement ».

Pour résumer, les processus qui concourent à ce qu’on appelle communément « l’intelligence artificielle » ne consistent pas, comme dans l’algorithmie « classique » à appliquer une série de traitements prédéterminés à des données entrées pour obtenir des données en sortie, mais à automatiser l’intégration de la pertinence des résultats obtenus en sortie pour modifier le traitement des données suivantes.

Chaque traitement de donnée effectué par le programme informatique va légèrement modifier le traitement suivant en intégrant la pertinence du résultat précédent.

Ainsi l’algorithme nourri d’assez d’exemples de jugements associant des données d’entrée (les données du litige) à des données de sortie (le montant alloué à la victime sur les postes de préjudice) va, à force d’essais, pouvoir « deviner » le résultat de sortie le plus probable correspondant à une ou plusieurs données entrées.

L’algorithme ne pourra cependant pas justifier son résultat par une formule de corrélation algébrique entre la donnée d’entrée et la donnée de sortie. Le résultat qu’elle fournira ne reposera que sur la probabilité dégagée par les milliards d’opération de test qui auront été effectués préalablement par l’algorithme.

Un humain se trouvera donc dans l’incapacité de retracer le chemin logique qu’a suivi la machine pour aboutir au résultat. Il pourra par contre vérifier que ce résultat est cohérent par rapport aux jugements déjà rendus en le comparant à des tests aléatoire sur la base fournie.

C’est ainsi qu’une machine peut battre un champion d’échec ou de go, sans que l’on puisse savoir pourquoi elle a considéré que tel coup était meilleur qu’un autre pour arriver à la victoire.

Le paradigme prédictif en matière de traitement de données judiciaire est que si le processus fonctionne sur les données comprises dans la base des données passées, il a de grande probabilités de fonctionner également sur les décisions futures dès lors que les conditions déterminant le jugement demeurent constantes (c’est à dire l’hypothèse d’un droit constant sur une période suffisamment longue).

Construire une machine de ce type nécessite donc une phase d’apprentissage au cours de laquelle le processus mécanique va procéder à des milliards de tests afin de sélectionner les processus de tests pertinents.

C’est cette phase d’apprentissage de l’algorithme que souhaite mettre en œuvre le gouvernement et que le décret en cause encadre.

Dans le cas du projet Datajust, l’outil est censé produire un programme qui permettrait d’indiquer des valeurs probables de postes de préjudices alloués par le juge en fonction des données fournies à la justice par les parties.

Ces valeurs seront considérées tout à la fois comme le reflet statistique de l’activité judiciaire passée et la projection probable de celle à venir.

Ce décret constitue donc une étape liminaire du long travail qui devra être mené avant d’aboutir à un outil à la fois pertinent, fonctionnel et respectueux de la protection des données personnelles.

Le décret n’aborde par les modalités de fonctionnement de l’algorithme lui-même (notamment le processus d’identification et de numérisation des critères d’entrée), encore moins de son utilisation finale (dont la question de la valeur normative des informations produites). Il ne fait qu’encadrer la constitution de la base de données sur laquelle s’exercera le processus d’apprentissage de l’algorithme.

On est encore loin de l’instauration d’un barème d’indemnisation des préjudices corporels.

La mise en application concrète du RGPD à un algorithme complexe de traitement massif de données

Ce Décret mérite cependant une certaine attention car il constitue une première tentative d’encadrement concret de la mise en œuvre de tels traitements algorithmiques par les normes protectrices de données personnelles.

Les finalités du traitement

L’article 1 du Décret autorise le Garde des sceaux à mettre en œuvre un traitement automatisé de données à caractère personnel ayant pour finalité le développement d’un algorithme « devant servir » à :

1° réaliser des études rétrospectives et prospectives en matière en « matière de responsabilité civile ou administrative » ;

2° Elaborer un barème de référence indicatif d’indemnisation des préjudices corporels ;

3° Informer les parties pour les aider à évaluer le montant des indemnisations à laquelle elles peuvent prétendre pour favoriser les règlements amiables ;

4° Informer les juges appelés à statuer sur des demandes d’indemnisation de préjudice corporel.

Le décret entend préciser les conditions permettant à ces traitements d’être conformes aux dispositions de la réglementation européenne sur la protection des données à caractère personnel, récemment introduite dans le droit national.

Cela permet, à tout le moins, d’éclairer les objectifs que le gouvernement vise avec le développement de cet algorithme de traitement des données judiciaires.

Il veut à la fois en faire un outil d’analyse de l’action judiciaire et de prospective pour les services de l’État, mais encore, et surtout, à établir un barème de référence pour les intervenants du processus d’indemnisation des préjudices corporels.

Le gouvernement espère que la pertinence de l’algorithme et sa reconnaissance institutionnelle inciteront les parties impliquées dans ces processus à éviter de mobiliser les moyens du système judiciaire pour les résoudre.

Ce premier article a donc le mérite, par la déclaration des finalités du traitement, de mettre en lumière son objectif essentiellement budgétaire de diminution du coût de l’intervention étatique dans l’encadrement de l’indemnisation des préjudices corporels.

La déclaration des données personnelles concernées

L’article 2, respectant au plus près l’esprit de la réglementation RGPD vient encadrer et définir quels jugements qui seront intégrés dans la base de travail de l’algorithme et les données personnelles qui y seront traitées.

On notera une légère confusion du gouvernement entre la définition des données pouvant constituer la base elle-même (certains jugements expurgés de certaines mentions) et les données personnelles de cette base qui pourront être utilisées par l’algorithme.

Sous cette réserve, il est remarquable que le gouvernement prenne le soin de définir, avant toute mise en œuvre des traitements, les informations que les responsables de traitement de données doivent faire figurer dans le registre prévu à l’article 30 du RGPD, qui n’en impose pourtant pas la publicité.

La base de donnée destinée à entraîner l’algorithme Datajust est constituée de l’assemblage des bases de données judiciaires et administratives existantes (limitée à 3 années de jurisprudence). Ces bases sont elle-même constituées des jugements publics occultés des noms et prénoms des personnes physiques ainsi que de « tout élément permettant d’identifier les parties, les tiers, magistrats et les membres du greffe » lorsque cette divulgation est de nature à porter atteinte à la sécurité ou au respect de leur vie privée ou leur entourage.

On pourrait penser ainsi qu’il n’y aurait pas besoin d’un acte réglementaire supplémentaire pour faire travailler un algorithme sur une base constituée de la réunion de ces deux sources.

L’avis rendu par la CNIL sur le projet de décret expose pourtant très pédagogiquement les enjeux de protection de la vie privée que pose le traitement massif des informations contenues dans un si grand nombre de jugements¹.

Il faut saluer la pédagogie et le sérieux de l’analyse de la commission sur les gardes-fous nécessaires au traitement massif de ces données, surtout lorsque ce traitement est destiné à nourrir l’apprentissage de processus mécaniques visant à produire la norme judiciaire de référence. Encore plus lorsque l’on sait la finesse de recherche que peuvent atteindre ces algorithmes.

L’introuvable droit d’information, d’accès et de rectification aux données traitées

On voit cependant aux dispositions finales de ce décret les problématiques posées par l’ampleur des garanties prévues par le RGPD lorsqu’on essaie de les appliquer à un ensemble de décisions judiciaires rassemblant des millions de données personnelles.

Ainsi, un des droits garantis par le RGPD est le droit d’information des personnes dont les données sont traitées de leurs droits à l’égard du responsable du traitement².

Le gouvernement se trouve ainsi dans l’obligation de rendre largement inapplicable ce droits en dispensant l’État d’informer individuellement l’ensemble des personnes (tous ceux dont une donnée personnelle figure dans la base de données).

Le gouvernement n’a cependant pas repris la recommandation faite par la CNIL que le décret prévoit une information générale délivrée par le Ministère et notait l’engagement pris de délivrer une information spécifique aux mineurs.

Par ailleurs, il serait prévu que les greffes informent les justiciables des traitements qui pourraient être faits des données personnelles qui figureront dans le jugement.

On ne peut que regretter que ni la recommandation de la CNIL, ni l’engagement rappelé par l’avis n’aient été repris expressément par le décret.

A défaut de les voir mises en place, on peut douter que le traitement envisagé soit considéré conforme aux dispositions de l’article 14-5-b du RGPD dès lors que la CNIL a identifié dans son avis des mesures appropriées pour protéger ce droit et qu’elles ne seraient pas mises en œuvre.

¹ On ne peut que regretter que seule une version pdf très mal dégrossie soit disponible sur le serveur légifrance.
²RGPD – articles 12 13 14

Ce que révèle le Décret de l’écart entre l’idéal réglementaire et la réalité

Quoiqu’il en soit, ce décret est surtout l’occasion de poser la question de l’application des nécessaires garde-fou qui y sont prévus en dehors des services de l’Etat.

En effet, à suivre l’avis de la CNIL et la procédure suivie par le gouvernement, la réglementation RGPD a vocation à s’appliquer de la même manière aux traitements utilisés par l’ensemble des éditeurs qui développent des solutions de recherche sur les bases de données jurisprudentielles.

Au delà de l’encadrement des données elle-même, le processus d’apprentissage, puis de fourniture de résultats à partir d’un algorithme stabilisé font partie des traitements qu’il conviendrait que chaque éditeur puisse exposer clairement et loyalement aux personnes dont les données sont traitées.

Cela risque d’être difficile dans un secteur ou le secret de fabrication des algorithmes constitue une grande part de la valeur de marché des solutions proposées.

Ainsi la méthode de développement choisie pour la base de donnée Datajust, illustre assez bien le fossé entre les exigences de protection mises en place dans notre réglementation et la réalité de ce que le secteur économique en respecte de lui-même.

Le respect de la protection des données personnel, pour essentiel qu’il soit à la protection de la vie privée, engendre ainsi des contraintes fortes sur la production des services algorithmiques.

A défaut d’imposer les même contraintes aux solutions produites par le marché privé, la solution que tente de bâtir le gouvernement se heurtera à la concurrence faussée du marché privée qui risque d’habituer les acteurs à l’utilisation de produits bien moins respectueux de la protection des données personnelles.

On peut légitimement craindre que certaines contraintes techniques posées par le décret rende illusoire que le projet DataJust aboutisse à un algorithme aux performances comparables à ce qu’est déjà capable de produire le secteur privé.

On peut ainsi se demande ainsi à quel objectif répond la limitation à 3 années de jurisprudence pour constituer la base d’apprentissage de l’algorithme. En pratique elle va grandement limiter la pertinence des résultats.

De même, s’il est louable de ne faire travailler l’algorithme que sur un corpus de textes limité par ses finalités, définir cette limite par une phrase aussi floue que « les seuls contentieux portant sur l’indemnisation des préjudices corporels » sans renvoyer à une référence formelle est aussi absurde que la limitation de la licence JSON interdisant son utilisation pour faire le mal…

Le respect du texte adopté nécessiterait que chaque décision des bases jurisprudentielles judiciaires et administratives soient analysées pour déterminer si elle relève ou non d’un contentieux de ce type, ce qui devrait soit relever d’une analyse humaine, soit d’un processus de tri algorithmique qu’il aurait été pertinent de préciser dans le cadre du décret…

Le gouvernement apprend à marcher en tombant, il lui revient de rapidement compléter son dispositif afin d’engager la seconde étape : celle de l’évaluation du fonctionnement de l’algorithme, de la définition des catégories de données et surtout des biais de traitement identifiés, comme le rappelle la CNIL dans son avis.

On le voit, le processus est encore très long d’ici à ce que soit réunies les conditions de la création d’un barème indicatif de préjudice corporel ou d’un accès à des simulations individualisées sur la base de ces algorithmes.

C’est néanmoins le seul chemin possible pour en garder le contrôle collectif dans le cadre de la régulation institutionnelle actuelle.

La longueur et la difficulté du chemin devrait inciter le gouvernement, au lieu de brûler les étapes en publiant son décret en pleine urgence sanitaire, à se donner les moyens de contrôler les opérateurs privés qui procèdent à des traitements obéissant aux mêmes finalités.

A force de laisser ce fossé se creuser, il ne sera pas surprenant d’entendre une ritournelle familière qui comparera les pauvres résultats du processus de construction publique, corseté de pesanteurs réglementaires et le dynamique secteur privé fournisseur d’outils plus efficaces et moins chers…

« Le recours à l’intelligence artificielle ne soulage pas les professionnels de justice, il les dépossède d’une partie de leur travail »

Par Mélanie Métivier, avocate au barreau de Clermont- Ferrand

Le décret n° 2020-356 du 27 mars 2020 autorise le Ministre de la justice à mettre en œuvre, pour une durée de deux ans, un traitement automatisé de données à caractère personnel, dénommé « DataJust », ayant pour finalités :

le développement d’un algorithme destiné à permettre l’évaluation rétrospective et prospective des politiques publiques en matière de responsabilité civile et administrative,

l’élaboration d’un référentiel indicatif d’indemnisation des préjudices corporels,

l’information des parties et l’aide à l’évaluation du montant de l’indemnisation à laquelle les victimes peuvent prétendre afin de favoriser un règlement amiable des litiges,

l’information ou la documentation des juges appelés à statuer sur des demandes d’indemnisation des préjudices corporels.

L’algorithme sera créé sur la base de décisions de Justice rendues en appel entre le 1^er janvier 2017 et le 31 décembre 2019 par les juridictions administratives et les formations civiles des juridictions judiciaires dans les seuls contentieux portant sur l’indemnisation des préjudices corporels.

Il sera créé à partir de trois années de jurisprudence de cours d’appel, sans prendre en considération ni les décisions adoptées par les juridictions de première instance qui n’ont pas fait l’objet d’un appel, ni les décisions plus anciennes, ni les affaires portées en cassation.

En l’état, il est incertain que l’algorithme à venir suffise à constituer une indication valable pour les parties et les Juges et encore plus incertain qu’il permette l’évaluation et la prospection des politiques publiques en matière de responsabilité civile et administrative. Mais plus tard, ces insuffisances seront probablement corrigées.

Au lieu de mettre le doigt dans l’engrenage de la justice prédictive, nos dirigeants auraient pu s’atteler à améliorer l’accès de tous aux sources du droit et notamment aux décisions juridictionnelles en application de l’article L.10 du code de justice administrative, « les jugements sont mis à la disposition du public à titre gratuit sous forme électronique ». Actuellement, plusieurs sociétés privées monnayent une banque de données bien plus fournie que les sites institutionnels comme Légifrance, alors même que les jugements devraient être disponibles gratuitement. Un effort de l’État pour l’accès au Droit aurait fait œuvre de service public.

A la place, le décret du 27 mars 2020 prépare la transformation de l’institution judiciaire au recours généralisé à l’intelligence artificielle pour le traitement des litiges, qui instaurera une Justice plus efficace, plus rapide et moins chère, appelée de ses vœux par le député LREM Sacha Houl i OULIE qui a déclaré au mois de février 2020 : « Pourquoi le nombre d’avocats va baisser ? Parce que précisément, la profession va profondément évoluer (…) Ce que l’on fait aujourd’hui en contentieux de masse n’existera plus parce que les algorithmes le font bien mieux que les avocats ».

Obnubilés par le souci de l’économie et du gain de temps, les gouvernants se dispensent d’interrogations morales sur les conséquences à long terme de l’utilisation des algorithmes, notamment en termes de lien social, et sur la destruction de milliers d’emplois qu’elle engendrera sans doute.

Le recours l’intelligence artificielle ne soulage pas les professionnels de justice de tâches pénibles et ingrates ; au contraire, il les dépossède d’une partie importante et intéressante de leur travail de recherche et les soumet à une concurrence contre laquelle ils ne pourront pas lutter.

L’algorithme dépossède aussi le Juge de son pouvoir d’appréciation et lui retire in fine toute utilité puisque le barème d’indemnisation établi a priori sera sûrement rendu obligatoire après avoir été facultatif, comme l’a été le barème instauré pour la réparation du licenciement sans cause réelle et sérieuse.

Considérant les liens existants entre les compagnies d’assurance et des personnalités politiques de premier plan et les résultats de la mise en application du barème dit « Macron », il est permis de craindre pour l’avenir une baisse généralisée des montants accordés aux victimes en réparation de leurs préjudices.

Lorsque les résultats de l’intelligence artificielle auront surpassé en tout les produits du travail humain, que ferons-nous ?

Travailler au futur

Contribution

Covid-19. Un étonnant décret créant une nouvelle base de données en pleine urgence sanitaire

« Le recours à l’intelligence artificielle ne soulage pas les professionnels de justice, il les dépossède d’une partie de leur travail »

Article

55% des Français pour la retraite à 60 ans

Article

Au sommaire de Travailler au futur n°9

Revue

AU SOMMAIRE DE TRAVAILLER AU FUTUR N°8

SUIVEZ-NOUS

« Le recours à l’intelligence artificielle ne soulage pas les professionnels de justice, il les dépossède d’une partie de leur travail »

Article

55% des Français pour la retraite à 60 ans

Article

Au sommaire de Travailler au futur n°9

Revue

AU SOMMAIRE DE TRAVAILLER AU FUTUR N°8

Travailler au futur s'engage pour le respect de vos données personnelles.