Publication de l’avis de l’EDPB du 17 décembre 2024 sur le traitement des données personnelles dans le contexte des modèles d’IA
Le Comité européen à la protection des données (European Data Protection Board – EDPB) a été saisi, le 4 septembre 2024, par l’Autorité irlandaise de protection des données personnelles, d’une demande d’avis sur le fondement de l’article 64, § 2, du RGPD, concernant le traitement des données personnelles dans le cadre des phases de développement et de déploiement des modèles d’IA.
L’EDPB, après avoir consulté les parties prenantes le 5 novembre 2024, a rendu un avis le 17 décembre 2024, répondant précisément aux quatre questions suivantes : quand et comment un modèle d’IA peut être considéré comme « anonyme » ? ; comment les responsables du traitement peuvent démontrer le bien-fondé de l’intérêt légitime comme base juridique dans les phases de développement et de déploiement d’un modèle d’IA ? ; et quelles sont les conséquences du traitement illicite de données à caractère personnel dans la phase de développement d’un modèle d’IA sur le traitement ou l’exploitation ultérieurs du modèle d’IA ?
Les solutions formulées par l’EDPB ont pour mission de rendre compatibles – parfois au forceps – les modèles d’IA et les règles du RGPD qui n’ont pas du tout été pensées à l’origine pour ces modèles. Pour ce faire, l’EDPB trace dans cet avis les grandes lignes de ce qui pourrait s’analyser comme une future mutation du RGPD, afin de permettre une mise en compatibilité, néanmoins sous conditions, des règles du RGPD avec les modèles d’IA. À cet effet, l’EDPB préserve le caractère très large de la demande d’avis formulée par l’Autorité irlandaise sur la notion même de modèle d’IA, tout en omettant totalement le lien naturel avec le concept de « modèle d’IA à usage général » consacré par l’AI Act et retient ensuite une approche casuistique, proposant ainsi aux autorités nationales de protection des données des vingt-sept États membres d’étudier au cas par cas chaque modèle d’IA particulier, tout en offrant à ces autorités pour chacune des quatre questions posées par l’Autorité irlandaise, un ensemble de recommandations et de critères indicatifs permettant d’orienter leurs réponses, recommandations et critères qui ne sont pas exempts d’un certain nombre de glissements sémantiques, de généralisation contra legem et de cloisonnement, voire de contradictions internes.
Questions implicites relatives à la définition du modèle d’IA et du cycle de vie du modèle d’IA : silence de l’EDPB sur les modèles d’IA à usage général consacrés par l’AI Act
Avant de répondre aux quatre questions présentes dans la requête de l’Autorité irlandaise, l’EDPB fait le choix de répondre à deux questions préalables et implicites, mais néanmoins centrales : qu’est-ce qu’un modèle d’IA ?, qu’est-ce que le cycle de vie d’un modèle d’IA ?
Relativement à la première question préalable, l’EDPB rappelle que le concept du modèle d’IA n’est pas défini dans les articles de l’AI Act, et ce, contrairement au système d’IA (RGPD, art. 3, § 1)1. L’EDPB, à aucun moment, n’évoque les sous-espèces et sous-sous-espèces du modèle d’IA, le modèle d’IA à usage général (AI Act, art. 3, § 63)2 et le modèle d’IA à usage général qui présent des risques systémiques (AI Act, art. 33, § 6 et 51 s4.) qui reçoivent pourtant une définition et un régime dans l’AI Act. L’EDPB se contente de citer le considérant 97 de l’AI Act qui précise incidemment que le modèle d’IA est la brique centrale du système d’IA, système qui ne peut néanmoins fonctionner sur la base de cette seule brique, ayant besoin d’autres briques complémentaires, au premier rang desquelles une interface utilisateur. Le modèle d’IA restant donc un concept partiellement non cerné par l’AI Act, l’EDPB choisit de se concentrer sur le champ matériel de sa saisine, tel que défini dans la demande d’avis formulée par l’Autorité irlandaise.
Pour ce faire, en prenant appui sur ladite requête, l’EDPB relève que l’avis a vocation à concerner « les modèles d’IA s’analysant en le produit de mécanismes d’apprentissage appliqués à un jeu de données d’apprentissage, dans le contexte de l’intelligence artificielle, du machine learning, du deep learning ou d’autres contextes de traitement connexes ». En outre, l’avis à vocation à s’appliquer « aux modèles d’IA qui sont destinés à subir un apprentissage, un fine-tuning et/ou un développement complémentaire, ainsi qu’aux modèles d’IA qui ne le sont pas ». Cet avis précise finalement qu’il ne concernera, et ce, logiquement au regard du RGPD, que les modèles qui ont appris sur des jeux de données d’apprentissage comprenant des données personnelles.
Relativement à la seconde question préalable sur le cycle de vie du modèle, l’EDPB note que la demande fait référence au « cycle de vie » des modèles d’IA, ainsi qu’à diverses étapes concernant, entre autres, la « création », le « développement », la « formation », la « mise à jour », le « réglage fin-fine tuning », l’« exploitation » ou la « post-formation » des modèles d’IA. Aux fins de répondre à la demande de l’Autorité irlandaise, l’EDPB considère qu’il est important de rationaliser la catégorisation des étapes susceptibles de se produire. Par conséquent, l’EDPB fait référence à la « phase de développement » et à la « phase de déploiement ». Le développement d’un modèle d’IA couvre toutes les étapes précédant le déploiement du modèle d’IA et comprend, entre autres, le développement du code, la collecte des données personnelles d’entraînement, le prétraitement des données personnelles d’entraînement et l’entraînement. Le déploiement d’un modèle d’IA couvre toutes les étapes relatives à l’utilisation d’un modèle d’IA et peut inclure toutes les opérations menées après la phase de développement. Cette distinction n’est pas sans rappeler les concepts présents dans l’AI Act, qui différencie les « fournisseurs (développeurs) » des systèmes et des modèles d’IA à l’article 3, § 3, de l’AI Act et les « déployeurs » des systèmes et des modèles d’IA à l’article 3, § 4, du même règlement.
En d’autres termes, ces deux précisions préalables signifient implicitement que l’avis concerne, au titre de son champ d’application matériel, dès lors que ces modèles ont appris sur des jeux de données incluant des données à caractère personnel, les phases de développement, puis de déploiement :
- non seulement des modèles d’IA à usage spécial non réglementés par l’AI Act : par exemple des modèles entraînés, durant la phase de développement, uniquement sur des données de santé, en vue de devenir, en phase de déploiement, la brique centrale d’un système d’IA à visée de diagnostic médical ;
- mais également les modèles d’IA à usage général de l’article 3, § 63, de l’AI Act et, sa sous-espèce, les modèles d’IA à usage général présentant des risques systémiques des articles 51 et suivants de l’AI Act : par exemple les grands modèles de langage ou Large Langage Models – LLM –, entrainés en phase de développement, sur de très grandes masses de données personnelles et non personnelles, comme l’ensemble des données accessibles sur les réseaux sociaux, voire la totalité des données accessibles sur internet obtenues par web scraping5, en vue de devenir, en phase de déploiement, la brique technique principale de systèmes d’IA générative à usage général – de type Chat GPT, Copilot, Gemini, Grok… Ces systèmes d’IA générative à usage général, incluant un modèle d’IA, peuvent à leur tour devenir, par un système de poupées russes, la brique centrale de systèmes d’IA à usage spécial, comme un système d’IA dédié uniquement à la production d’actes juridiques, à la suite d’un apprentissage complémentaire sur des bases de données juridiques spécialisées.
Néanmoins, l’EDPB ne tire ensuite aucune conséquence de l’inclusion implicite du modèle d’IA à usage général et du modèle d’IA à usage général présentant des risques systémiques, tant au stade de leurs phases de développement, que de déploiement, au sein de la catégorie du modèle d’IA qu’il retient au titre des solutions proposées aux quatre questions posées. Nous verrons tout particulièrement l’impact de cette omission à l’occasion de la réponse aux deuxièmes et troisièmes questions posées par l’Autorité irlandaise.
Pour le reste, le maître mot de l’EDPB est d’approcher de manière casuistique les modèles d’IA. Cette approche consiste pour l’EDPB à proposer aux autorités nationales de protection des données d’étudier au cas par cas chaque modèle d’IA particulier, et leur offrant, pour chaque question posée par l’Autorité irlandaise, un ensemble de recommandations et de critères indicatifs permettant d’orienter leurs réponses particulières, recommandations et critères qui traduisent des glissements sémantiques, des interprétations contra legem ou qui sont parfois contradictoires entre eux.
Première question, « Quand et comment un modèle d’IA peut être considéré comme anonyme ? » : glissement de l’anonymisation des données vers l’anonymat du modèle
La première question explicite de l’Autorité irlandaise a pour objet de déterminer, si le modèle, une fois développé, est anonyme et ne « régurgite » plus – terme employé par les informaticiens – les données personnelles sur la base desquelles il a appris. Le double enjeu de cette première question est de taille.
En premier lieu, la démonstration de l’anonymat du modèle permet de créer une barrière étanche entre la phase de développement du modèle, sur la base d’un ensemble de données personnelles, et la phase de déploiement du modèle. En d’autres termes, en cas de reconnaissance de l’anonymat du modèle, il sera considéré que les données initialement traitées lors de la phase d’apprentissage, n’auront plus vocation à être traitées durant la phase de déploiement. Seules les données personnelles utilisées comme entrées (prompts, contexte, inputs), lors de la phase de déploiement du système créé sur la base d’un modèle, feront l’objet d’un traitement et imposeront l’application du RGPD. À l’inverse, si le modèle n’est pas considéré comme anonyme, toutes les données ayant servi lors de la phase d’apprentissage, seront réutilisées et retraitées à chaque fois que le modèle est déployé dans un système d’IA et précisément, à chaque fois, qu’un prompt (une entrée, un contexte…) est formulé en vue d’en déduire, d’en inférer un résultat. Ce qui devrait déclencher la mise en jeu du RGPD, à propos des données initialement utilisées lors de la phase d’apprentissage du modèle, à chaque nouveau traitement de celles-ci, à l’occasion de l’utilisation, en phase de déploiement, du système incluant le modèle…
En second lieu, la création d’une barrière étanche entre la phase de développement du modèle, sur la base d’un jeu de données personnelles, et la phase de déploiement du modèle, pourrait être intéressante pour les responsables de traitement en cas d’illicéité du traitement des données lors de la phase d’apprentissage du modèle, car elle pourrait permettre qu’une phase d’apprentissage ayant violé le RGPD soit « blanchie » par l’anonymisation du modèle, en vue de son déploiement (ce sera d’ailleurs l’objet de la 4e question posée à l’EDPB).
Pour répondre à cette première question, l’EDPB est forcé d’opérer un premier glissement sémantique, car pour la première fois, il ne doit plus s’interroger sur l’anonymisation des données au sein d’une base ou d’un ensemble de données, mais il doit apprécier l’anonymat d’un modèle d’IA, entendu comme un tout complexe « constitué d’une combinaison de plusieurs éléments, dont, en particulier, une structure de données (par ex., une arborescence, dans le cas d’arbres de décision, une paire [vecteur, scalaire] dans le cas d’une régression logistique, un ensemble d’unités et de liens, pour un réseau de neurones, etc.), et des paramètres peuplant ces structures, déterminés lors d’une phase d’apprentissage »6.
L’EDPB, face à la complexité du modèle, considère tout d’abord que, « même lorsqu’un modèle d’IA n’a pas été intentionnellement conçu pour produire des informations relatives à une personne physique identifiée ou identifiable à partir des données d’apprentissage, les informations de l’ensemble de données d’apprentissage, y compris les données à caractère personnel, peuvent toujours rester « absorbées » dans les paramètres du modèle, c’est-à-dire représentées par des objets mathématiques. Elles peuvent différer des points de données d’entraînement originaux, mais peuvent toujours conserver les informations originales de ces données, qui peuvent en fin de compte être extraites ou obtenues d’une autre manière, directement ou indirectement, à partir du modèle ».
L’EDPB en déduit donc, en étirant les concepts et les solutions présents dans son avis de 2014 sur les techniques d’anonymisation des données personnelles7, que les allégations d’anonymat d’un modèle d’IA doivent être évaluées au cas par cas par les autorités de protection des données compétentes. Pour mener à bien cette évaluation, l’EDPB considère précisément que, pour qu’un modèle d’IA soit considéré comme anonyme, il faut, en utilisant des moyens raisonnables, que (i) la probabilité d’extraction directe (y compris probabiliste) de données à caractère personnel concernant des personnes dont les données à caractère personnel ont été utilisées pour former le modèle, ainsi que (ii) la probabilité d’obtenir, intentionnellement ou non, de telles données à caractère personnel à partir de requêtes, soient insignifiantes pour toute personne concernée.
Si ce caractère insignifiant n’est pas caractérisé, par défaut, les autorités nationales auront vocation à mettre en œuvre une évaluation approfondie de la probabilité d’identification pour parvenir à une conclusion sur leur éventuelle nature anonyme. Cette probabilité aura vocation à être évaluée en tenant compte de « tous les moyens raisonnablement susceptibles d’être utilisés » par le responsable du traitement ou une autre personne, et devrait également tenir compte de la (ré)utilisation ou de la divulgation involontaire du modèle.
À cet égard, l’avis fournit une liste non normative et non exhaustive des méthodes qui peuvent être utilisées par les responsables de traitement pour démontrer l’anonymat et qui peuvent donc être prises en compte par les autorités nationales lorsqu’elles évaluent l’affirmation d’anonymat d’un responsable de traitement. Cela couvre, par exemple, les approches adoptées par les responsables du traitement, au cours de la phase de développement, pour empêcher ou minimiser la collecte des données à caractère personnel utilisées pour la formation, pour réduire leur potentielle identification, pour empêcher leur extraction ou pour fournir la preuve de la résistance du modèle aux attaques au regard des techniques d’attaques consacrées par le dernier état de l’art.
L’EDPB note finalement que si une autorité n’est pas en mesure de confirmer, après avoir évalué la demande d’anonymat, y compris à la lumière de la documentation transmise, que des mesures efficaces ont été prises pour rendre le modèle d’IA anonyme, l’autorité aura vocation à considérer que le responsable de traitement a manqué à ses obligations de responsabilité en vertu de l’article 5, § 2, du RGPD. Par conséquent, la conformité avec d’autres dispositions du RGPD aura également vocation à être examinée, examen dont le contenu ressort justement des questions 2 à 4 posées à l’EDPB par l’Autorité irlandaise.
Deuxième et troisième questions, « Comment les responsables du traitement peuvent démontrer le bien-fondé de l’intérêt légitime comme base juridique dans les phases de développement et de déploiement d’un modèle d’IA ? » : généralisation contra legem des « attentes raisonnables » du titulaire des données personnelles et mise à l’écart du régime des modèles d’IA à usage général présentant des risques systémiques
Ces deuxième et troisième questions sont les plus cruciales, tout particulièrement la seconde question sur la phase de développement du modèle. En effet, depuis un mouvement initié tant par l’EDPB8, que par la Cour de justice9, un vent de défaveur à l’égard du traitement des données personnelles des usagers des réseaux sociaux en vue de leur envoyer de la publicité ciblée, a abouti non seulement à exclure pour ce traitement les bases légales du contrat de l’article 6, § 1, b et de l’intérêt légitime de l’article 6, § 1, f, du RGPD, mais également à ouvrir un abîme de questions sur la possibilité d’offrir à ces usagers une alternative entre consentir au traitement des données aux fins d’envoi de publicité ciblée au sens de l’article 6, § 1, a, du RGPD ou de payer un prix pour accéder au service de réseau social au sens de la directive (UE) 2019/770 du 20 mai 2019 sur les contrats de fourniture de services numériques.
La question se pose dans des termes un peu différents dans le cadre du développement de modèles d’IA sur la base de données personnelles. Le paiement d’un prix n’a le plus souvent pas de sens dès lors que le développeur du modèle n’est pas en relation contractuelle avec le titulaire des données, celles-ci étant collectées le plus souvent, mais pas seulement, par web scraping sur la totalité de l’internet. Le vrai problème est que l’absence de relation entre le développeur du modèle et le titulaire des données disqualifie la base légale du contrat de l’article 6, § 1, b, du RGPD et que la massification de la collecte rend matériellement impossible le recueil du consentement de l’article 6, § 1, a, du RGPD. Ne reste donc plus, potentiellement, que la base légale de l’intérêt légitime de l’article 6, § 1, f, du RGPD…
Les réponses de l’EDPB aux deuxième et troisième questions posées par l’Autorité irlandaise, dans une logique de mise en compatibilité, sous conditions, des règles du RGPD avec les modèles d’IA, concentrent, ce faisant, les mutations les plus importantes de l’interprétation du RGPD. Ces mutations consistent à la fois en une généralisation contra legem des règles du RGPD et en une mise à l’écart de l’impact sur le RGPD du régime des modèles d’IA à usage général présent au sein de l’AI Act pour consacrer, sous conditions, la validité de la base légale de l’intérêt légitime. Ces mutations concernent précisément la troisième condition de validité de la base légale de l’intérêt légitime, appelée « test de mise en balance » des intérêts du responsable de traitement et de ses partenaires avec les intérêts et droits fondamentaux du titulaire des données personnelles.
Avant d’envisager ces mutations, présentons les trois conditions de validité de la base légale de l’intérêt légitime rappelées par l’EDPB dans son avis, en se fondant sur ses lignes directrices récentes sur le sujet10, à savoir (1) identifier l’intérêt légitime poursuivi par le responsable du traitement ou un tiers ; (2) analyser la nécessité du traitement aux fins du ou des intérêts légitimes poursuivis (également appelé « test de nécessité ») ; et (3) évaluer que les intérêts ou les libertés et droits fondamentaux des personnes concernées ne prévalent pas sur le ou les intérêts légitimes (également appelé « test de mise en balance des intérêts »).
En ce qui concerne la première condition (la licéité en soi de l’intérêt), l’avis rappelle qu’un intérêt peut être considéré comme légitime si les trois critères cumulatifs suivants sont remplis : l’intérêt (a) est licite ; (b) est formulé de manière claire et précise ; et (c) est réel et actuel.
En ce qui concerne la deuxième condition (le test de nécessité), l’avis rappelle que l’évaluation de la nécessité implique d’examiner : (a) si l’activité de traitement permettra la poursuite de l’intérêt légitime ; et (b) s’il n’existe pas de moyen moins intrusif de poursuivre cet intérêt.
En ce qui concerne la troisième condition (le test de mise en balance des intérêts), l’avis précise que ce test doit être effectué, non seulement, en tenant compte des circonstances spécifiques de chaque cas, mais également en étudiant spécialement quatre points : (a) les intérêts et les droits et libertés fondamentaux du titulaire des données ; (b) l’impact du traitement des données personnelles, en phase de développement et en phase de déploiement du modèle, sur le titulaire des données ; (c) les attentes raisonnables du titulaire des données ; (d) la possibilité de prendre des mesures d’atténuation en présence d’une balance des intérêts défavorable au titulaire des données.
Ainsi qu’évoquée, cette troisième condition, ainsi que trois de ces quatre sous-conditions, concentrent les mutations les plus profondes de l’interprétation du RGPD.
Tout d’abord, le point a) relatif aux intérêts et aux droits et libertés fondamentaux du titulaire des données rappelle certes en quoi pourraient consister ces intérêts et droits au sens de la Charte relative aux droits fondamentaux de l’Union européenne et en quoi ces intérêts (intérêt à conserver le contrôle de ses propres données, intérêts financiers…) et droits (liberté d’expression, droit au travail, droit à la santé mentale, droit à l’éducation…) pourraient être impactés, tant négativement, que positivement, par les modèles d’IA utilisant les données de leurs titulaires.
Néanmoins, l’avis de l’EDPB, dans le prolongement des constats opérés relativement à la notion même de modèle d’IA, omet totalement d’articuler la question des intérêts et des droits fondamentaux du titulaire des données, avec le régime de l’une des sous-espèces de la notion de modèles, les modèles d’IA à usage général présentant des risques systémiques réglementés aux articles 51 et suivants de l’AI Act. En effet, l’article 56 de l’AI Act impose à la Commission européenne, représentée par son Bureau de l’intelligence artificielle, la rédaction d’un code des bonnes pratiques afin de préciser les obligations des fournisseurs de modèles d’IA à usage général (AI Act, art. 53) et de modèles d’IA à usage général présentant un risque systémique (AI Act, art. 55) d’ici le 2 mai 2025. Au titre des articles 55 et 56 de l’AI Act, ce code des bonnes pratiques doit contenir une taxinomie des risques systémiques attachés aux modèles d’IA à usage général. Or, dans les première et deuxième versions de ce projet de code datant respectivement du 14 novembre 2024 et du 19 décembre 2024, apparaît une liste de risques systémiques, propres à malmener grandement les intérêts et les droits fondamentaux des titulaires de données. En effet, au titre de cette taxinomie, ils apparaissent comme risques systémiques11 :
- risque de cyberattaques sophistiquées à grande échelle liées aux cybercapacités offensives des IA ;
- risque d’attaques chimiques, biologiques, radiologiques et nucléaires par des IA ;
- risque de manipulation malveillante des humains à grande échelle par des IA (manipulations électorales, atteintes aux droits fondamentaux…) ;
- risque de discrimination illégale à grande échelle par des systèmes d’IA prenant des décisions automatisées à enjeux élevés ;
- risque de perte de contrôle des IA par l’humain…
Comment la mise en balance des intérêts des fournisseurs de modèles d’IA à usage général présentant des risques systémiques avec les intérêts et droits fondamentaux des titulaires de données personnelles pourrait-elle être une balance favorable aux intérêts des titulaires de données au regard d’une telle taxinomie des risques systémiques ? De quelle nature pourraient être des mesures d’atténuation effectives, telles que préconisées dans le d) de ce test, au regard d’une telle taxinomie des risques systémiques ?
L’EDPB a malheureusement conservé le silence sur ces points pourtant cruciaux.
Ensuite, dans le point c) du test de la mise en balance des intérêts, relatif aux « attentes raisonnables » du titulaire des données, l’EDPB procède à une généralisation contra legem du considérant 47 du RGPD sur les attentes raisonnables. En effet, aux termes de ce considérant 47, le concept d’attente raisonnable du titulaire des données n’est pris en compte que si le titulaire de données et le responsable de traitement sont « en relation » : « Les intérêts légitimes d’un responsable du traitement, y compris ceux d’un responsable du traitement à qui les données à caractère personnel peuvent être communiquées, ou d’un tiers peuvent constituer une base juridique pour le traitement, à moins que les intérêts ou les libertés et droits fondamentaux de la personne concernée ne prévalent, compte tenu des attentes raisonnables des personnes concernées fondées sur leur relation avec le responsable du traitement ». La condition préalable de l’existence de relations entre responsable de traitement et titulaire des données, pour mobiliser le critère des attentes raisonnables, explique la raison pour laquelle la jurisprudence de la Cour de justice a appliqué ce concept des « attentes raisonnables » en présence de relations juridiques contractuelles entre le responsable de traitement et le titulaire des données. Ainsi par exemple, dans l’arrêt Meta c/ Bundeskartellamt du 4 juillet 202312, la Cour de justice a pu considérer qu’un usager de réseau social ne pouvait pas raisonnablement s’attendre à ce que ses données collectées sur le réseau soient utilisées, soit pour lui envoyer de la publicité ciblée, soit dans l’objectif d’amélioration du service. Ce raisonnement avait abouti à exclure la validité de la base légale de l’intérêt légitime pour la collecte des données des usagers du réseau social ayant pour finalité l’envoi de la publicité ciblée ou l’amélioration du service (qui peut au passage consister en le développement de modèles et de systèmes d’IA).
Or, dans l’avis de l’EDPB (§§ 93 et 94), la condition de l’existence préalable de relations devient indifférente, tout particulièrement au stade du développement du modèle, dès lors que le fournisseur du modèle n’est que très rarement en relation juridique avec les titulaires des données personnelles sur la base desquelles le modèle a appris (les données étant le plus souvent collectées par web scraping).
Cette généralisation contra legem de « l’attente raisonnable » vient parasiter et concurrencer le concept d’« intérêts et droits et libertés fondamentaux » du titulaire de données dans les hypothèses où il était normalement le seul concept applicable, c’est-à-dire dans l’hypothèse où il n’y avait pas de relation entre le responsable de traitement et le titulaire de données.
Cette concurrence, voire cette substitution, est loin d’être anodine.
En effet, une attente raisonnable, même appréciée in abstracto, peut être variable dans le temps, et voir son degré d’exigence baisser au gré de l’évolution de la prise de conscience par le public, de l’usage qui est fait de ses données dans le cadre de l’apprentissage des modèles d’IA ou dans celui du déploiement de ces mêmes modèles.
À l’inverse, l’atteinte aux intérêts et droits fondamentaux du titulaire des données sera toujours appréciée de même manière dans le temps et ne sera pas dépendante d’une quelconque prise de conscience par les titulaires des droits de la manière dont leurs données sont traitées.
Il convient, à cet égard, de souligner que même si l’EDPB énonce au § 92 : « si l’omission d’informations peut contribuer à ce que les personnes concernées ne s’attendent pas à un certain traitement, le simple respect des exigences de transparence énoncées dans le RGPD n’est pas suffisant en soi pour considérer que les personnes concernées peuvent raisonnablement s’attendre à un certain traitement », il propose ensuite, au § 103, au titre des mesures d’atténuation en cas de test de mise en balance des intérêts défavorable aux intérêts et droits du titulaire des données,… des « mesures de transparence » relatives à la phase de développement des modèles, de type :
- « Publication de communications publiques et facilement accessibles qui vont au-delà des informations requises au titre de l’article 13 ou 14 du RGPD, par exemple en fournissant des détails supplémentaires sur les critères de collecte et tous les ensembles de données utilisés » ;
- « Autres formes d’information des personnes concernées, par exemple : campagnes médiatiques pour informer les personnes concernées, campagne d’information par courrier électronique…, et rapports annuels de transparence sur une base volontaire ».
De manière générale, la liste non normative et non exhaustive de mesures d’atténuation proposées par l’EDPB (pt d) du test), qu’elles soient techniques ou juridiques, en cas de test de mise en balance des intérêts défavorable aux intérêts du titulaire des données traduit implicitement un vent de faveur à l’égard des modèles d’IA, en leur permettant de « sauver » la validité de la base légale de l’intérêt légitime.
Néanmoins, ainsi que d’ores et déjà évoqué, le concept des « mesures d’atténuation » apparaît comme un concept qui devrait être rigoureusement interrogé, en présence d’un modèle d’IA à usage général présentant un risque systémique au sens de ceux, très alarmants, listés dans le projet de code des bonnes pratiques des IA à usage général suscité. Il est, à cet égard, regrettable que l’EDPB n’ait pas pris spécifiquement position sur la nature et le principe même de la possibilité de mesures d’atténuation tendant à préserver la validité de la base légale de l’intérêt légitime en présence de modèles d’IA à usage général présentant des risques systémiques au sens de l’article 51 de l’AI Act.
Quatrième question, « Quelles sont les conséquences du traitement illicite de données à caractère personnel dans la phase de développement d’un modèle d’IA sur le traitement ou l’exploitation ultérieurs du modèle d’IA ? » : consécration d’une frontière entre licéité du modèle et licéité de l’intérêt légitime
La quatrième question posée est directement en lien avec la première question posée par l’Autorité irlandaise.
En ce qui concerne la quatrième question, l’avis rappelle de manière générale que les autorités nationales de protection disposent d’un pouvoir discrétionnaire pour évaluer la ou les infractions possibles et choisir les mesures appropriées, nécessaires et proportionnées, en tenant compte des circonstances de chaque cas. L’avis examine ensuite trois scénarios.
Dans le premier scénario, les données à caractère personnel sont conservées dans le modèle d’IA (ce qui signifie que le modèle ne peut pas être considéré comme anonyme, comme indiqué dans la 1re question) et sont traitées ultérieurement par le même responsable du traitement (par ex., dans le cadre du déploiement du modèle). L’avis précise que la question de savoir si les phases de développement et de déploiement impliquent des finalités distinctes (constituant ainsi des activités de traitement distinctes) et la mesure dans laquelle l’absence de base juridique pour l’activité de traitement initiale a une incidence sur la licéité du traitement ultérieur doivent être évaluées au cas par cas, en fonction du contexte de l’affaire.
Dans le scénario 2, les données à caractère personnel sont conservées dans le modèle et traitées par un autre responsable du traitement dans le cadre du déploiement du modèle. À cet égard, l’avis indique que les autorités de contrôle doivent tenir compte du fait que le responsable du traitement qui déploie le modèle a procédé à une évaluation appropriée, dans le cadre de ses obligations de rendre compte du respect de l’article 5, § 1, a (principe de licéité, loyauté et transparence du traitement des données), et de l’article 6 du RGPD (bases légales de traitement), afin de s’assurer que le modèle d’IA n’a pas été mis au point en traitant illégalement des données à caractère personnel. Cette évaluation devrait tenir compte, par exemple, de la source des données à caractère personnel et de la question de savoir si le traitement effectué au cours de la phase de développement a fait l’objet d’une constatation d’infraction, en particulier si celle-ci a été établie par une autorité de protection des données ou un tribunal, et devrait être plus ou moins détaillée en fonction des risques soulevés par le traitement effectué au cours de la phase de déploiement.
Dans le scénario 3, un responsable de traitement traite illégalement des données à caractère personnel pour développer le modèle d’IA, puis assure leur anonymisation, avant que le même responsable de traitement ou un autre responsable de traitement ne procède à un autre traitement de données à caractère personnel dans le cadre du déploiement. À cet égard, l’avis indique que s’il peut être démontré que l’exploitation ultérieure du modèle d’IA n’implique pas le traitement de données à caractère personnel, l’EDPB considère que le RGPD ne s’applique pas. Par conséquent, l’illégalité du traitement initial ne devrait pas avoir d’incidence sur l’exploitation ultérieure du modèle. En outre, l’EDPB considère que, lorsque les responsables du traitement traitent ultérieurement des données à caractère personnel collectées au cours de la phase de déploiement, après que le modèle a été rendu anonyme, le RGPD s’applique à ces opérations de traitement. Dans ces cas, l’avis considère qu’en ce qui concerne le RGPD, la légalité du traitement effectué au cours de la phase de déploiement ne devrait pas être affectée par l’illégalité du traitement initial.
La partition stricte entre la phase de développement du modèle et sa phase de déploiement, dans les trois scénarios, pose interrogation dès lors que l’illégalité de la phase de développement du modèle, au particulier en raison d’une violation du RGPD – mais l’on pourrait également penser à une violation des règles du droit de la propriété intellectuelle – ne semble pas avoir d’impact systématique (scénarii 1 et 2), voire pas d’impact du tout (scénario 3), sur la phase de déploiement du modèle.
Une question se pose néanmoins : à l’occasion de la réponse aux deuxième et troisième questions posées par l’Autorité irlandaise, l’EDPB a rappelé la première condition pour pouvoir caractériser un intérêt légitime au sens de l’article 6, § 1, f, du RGPD, à savoir que l’intérêt doit être licite en soi. Comment un modèle d’IA qui a été développé en violant le RGPD, ou d’autres règles juridiques, pourrait valablement offrir, au stade de la phase de déploiement, un « intérêt licite en soi » qui permette au déployeur du modèle de se prévaloir valablement de la base légale de l’intérêt légitime au sens de l’article 6, § 1, f, du RGPD ? Si l’on fait un parallèle avec le monde matériel, ceci revient à se poser une question du type : comment une statue réalisée entièrement en cocaïne, mais recouverte d’une fine couche d’or, pourrait être valablement vendue dans le commerce ?
C’est peut-être pour cette raison que l’Autorité de protection des données personnelles italienne a rendu le 20 décembre 2024 une première décision de sanction à l’encontre de la société Open AI qui a développé, puis déployé, non seulement un grand modèle de langage à usage général, mais également un système d’IA à usage général ayant pour brique principale ce modèle, à savoir l’IA générative ChatGPT, en énonçant que Open AI avait agi « sans identifier au préalable une base juridique » au sens de l’article 6 du RGPD et avait « violé le principe de transparence » ainsi que « l’obligation d’information des utilisateurs » au sens des articles 12 et suivants du RGPD.
1. « Système d’IA, un système automatisé qui est conçu pour fonctionner à différents niveaux d’autonomie et peut faire preuve d’une capacité d’adaptation après son déploiement, et qui, pour des objectifs explicites ou implicites, déduit, à partir des entrées qu’il reçoit, la manière de générer des sorties telles que des prédictions, du contenu, des recommandations ou des décisions qui peuvent influencer les environnements physiques ou virtuels ».
2. « Modèle d’IA à usage général, un modèle d’IA, y compris lorsque ce modèle d’IA est entraîné à l’aide d’un grand nombre de données utilisant l’auto-supervision à grande échelle, qui présente une généralité significative et est capable d’exécuter de manière compétente un large éventail de tâches distinctes, indépendamment de la manière dont le modèle est mis sur le marché, et qui peut être intégré dans une variété de systèmes ou d’applications en aval, à l’exception des modèles d’IA utilisés pour des activités de recherche, de développement ou de prototypage avant leur mise sur le marché ».
3. « Risque systémique, un risque spécifique aux capacités à fort impact des modèles d’IA à usage général, ayant une incidence significative sur le marché de l’Union en raison de leur portée ou d’effets négatifs réels ou raisonnablement prévisibles sur la santé publique, la sûreté, la sécurité publique, les droits fondamentaux ou la société dans son ensemble, pouvant être propagé à grande échelle tout au long de la chaîne de valeur ».
4. Un modèle d’IA à usage général est classé comme modèle d’IA à usage général présentant un risque systémique s’il remplit l’une des conditions suivantes : a) il dispose de capacités à fort impact évaluées sur la base de méthodologies et d’outils techniques appropriés, y compris des indicateurs et des critères de référence ; b) sur la base d’une décision de la Commission, d’office ou à la suite d’une alerte qualifiée du groupe scientifique, il possède des capacités ou un impact équivalents à ceux énoncés au point a), compte tenu des critères définis à l’annexe XIII ».
5. Selon l’EDPB, ce sont des techniques de collecte d’informations à partir de sources en ligne accessibles au public. Les informations extraites, par ex., de services tels que les organes de presse, les médias sociaux, les forums de discussion et les sites web personnels, peuvent contenir des données à caractère personnel.
6. J.-M. Deltorn, Quelle(s) protection(s) pour les modèles d’inférence, Cahiers Droit, Sciences & Technologies, 7/2017, p. 127 s.
7. WP29, Opinion 05/2014 on Anonymisation Techniques, 10 avr. 2014.
8. CEPD, Avis 08/2024 sur la validité du consentement dans le cadre des modèles « consentir ou payer » mis en place par les grandes plateformes en ligne.
9. CJUE 4 juill. 2023, Meta c/ Bundeskartellamt, aff. C-252/21, AJDA 2023. 1542, chron. P. Bonneville, C. Gänser et A. Iljic
; D. 2023. 1313
; Dalloz IP/IT 2024. 45, obs. A. Lecourt
; RTD eur. 2023. 754, obs. L. Idot
.
10. EDPB, Guidelines 1/2024 on processing of personal data based on Article 6(1)(f) GDPR, 9 oct. 2024.
11. Il est important de préciser que cette taxinomie, pour le moins alarmiste, s’appuie sur les mises en garde du titulaire du Prix d’informatique Alan Turing 2018, Joshua Bengio, membre du comité en charge de la rédaction du code des bonnes pratiques des IA à usage général, mais également des titulaires des prix Nobel de physique 2024, John Hopfield, (lemonde.fr, 9 oct. 2024) et prix Nobel d’économie 2024, Daron Acemoglu (lemonde.fr, 27 déc. 2024).
12. CJUE 4 juill. 2023, aff. C-252/21, préc., §§ 112 et 123 ; v. égal., CJUE 11 déc. 2019, Asociaţia de Proprietari bloc M5A-ScaraA, aff. C-708/18, § 58, D. 2019. 2409
; ibid. 2020. 1262, obs. W. Maxwell et C. Zolynski
; Dalloz IP/IT 2020. 262, obs. C. Galichet
; 4 oct. 2024, Koninklijke Nederlandse Lawn Tennisbond, aff. C-621/22, § 55.
© Lefebvre Dalloz