Rapport du groupe de travail du Comité européen de la protection des données consacré à ChatGPT : quelle compatibilité avec le RGPD ?

01.07.2024

Le groupe de travail créé par le Comité européen de la protection des données, consacré spécifiquement à ChatGPT, a rendu public le 23 mai 2024 un premier rapport permettant de comprendre les enjeux de cet outil d’intelligence artificielle pour la protection des données, les difficultés en la matière et les solutions envisageables pour se conformer aux exigences du RGPD.

Suite à des litiges avec la société Meta, chargée notamment des services Facebook et OpenAI, le Comité européen de la protection des données (ci-après, l’EDPB) a créé le 13 avril 2023 une « task force » spécifique quant à l’application des dispositions du règlement général sur la protection des données (ci-après, le RGPD) à ChatGPT, créée par OpenAI (EDPB, Le comité européen de la protection des données règle le litige concernant les transferts de données par Meta et crée une task force consacrée à ChatGPT, 13 avr. 2023). L’essor rapide de ce service d’intelligence artificielle conversationnelle et générative, dans l’ensemble de la société, justifie cette coopération entre les autorités nationales de contrôle et l’échange d’informations avec, en toile de fond, la nécessité d’identifier les difficultés et de trouver des solutions coordonnées entre chaque État membre pour faire appliquer le règlement. Pour cela, un questionnaire utilisé par les autorités nationales de contrôle – annexé au document commenté – a servi de base aux échanges : OpenAI a notamment pu expliquer les mesures mises en place, selon lui, pour respecter les principes relatifs au traitement de données personnelles.

Dans son rapport rendu le 23 mai 2024, l’EDPB insiste sur la nécessité pour ce type de service de respecter le RGPD en ce qu’un nombre considérable de données – incluant des données personnelles – sont utilisées pour entraîner et utiliser les algorithmes : elle mentionne à ce titre le principe de responsabilité résultant de l’article 5(2) du texte, incombant aux responsables de traitement et souligne que « l’impossibilité technique ne saurait être invoquée pour justifier le non-respect de ces exigences », particulièrement au regard du principe de protection by design des données.

Les résultats des enquêtes conduites par les autorités nationales de contrôle ne sont pas encore définitifs, mais le document permet d’entrevoir les principales difficultés rencontrées pour concilier ChatGPT et RGPD au regard des principes cardinaux du texte européen.

Principe de licéité

Le Comité souligne les risques particuliers que font peser, à l’égard des droits fondamentaux des individus, les premières étapes du traitement des données personnelles opérées par OpenAI que sont la collecte des données, leur pré-traitement et l’entraînement de l’outil. En effet, le web scraping, qui consiste à extraire de manière automatique des données sur un site web, est utilisé pour entraîner ChatGPT, alors même que certaines de ces données peuvent appartenir à la catégorie des données sensibles. Le Comité conseille ainsi à OpenAI de filtrer la collecte de ce type de données, car l’entreprise ne saurait invoquer l’exception de l’article 9(2), tenant au fait que la personne concernée a rendu ces données publiques, du seul fait que celles-ci sont publiquement accessibles, pour rendre le traitement licite.

Celle-ci invoque également l’article 6(1)(f) comme fondement légal, c’est-à-dire la nécessité du traitement pour des intérêts légitimes. Toutefois, l’EDPB rappelle qu’une balance doit être opérée avec les droits et libertés fondamentaux de la personne concernée et estime que « les attentes raisonnables des personnes concernées devraient être prises en compte dans cette évaluation ». À ce titre, il invite à la mise en place de garanties qui permettrait à OpenAI de se conformer à cette disposition du texte, telles que l’anonymisation ou la suppression des données collectées avant l’étape d’entraînement, ou encore l’exclusion de certaines catégories de données de la collecte. De plus, le comité estime que les personnes concernées par des données utilisées pour entraîner ChatGPT devraient être expressément informées de cette finalité, cet élément pesant dans la balance des intérêts fixée par l’article 6(1)(f).

Principe de loyauté

Le principe de loyauté de l’article 5(1)(a) est mis en lumière par le comité qui rappelle qu’il s’agit d’« un principe fondamental [overarching] qui exige que les données à caractère personnel ne soient pas traitées de manière injustement préjudiciable, illégalement discriminatoire, inattendue ou trompeuse pour la personne concernée ». Dès lors, le risque en matière de protection des données ne devrait pas échoir à cette dernière : la responsabilité incombe à ChatGPT si les données personnelles entrées par un individu sont partagées pour répondre à une question distincte. Le Comité souligne, certes, que OpenAI a présenté des mesures pour prendre en compte ces difficultés mais que leur examen est en cours par les autorités nationales de contrôle : leur efficacité au regard du principe de loyauté ne saurait donc – pour l’instant – pouvoir être affirmée.

Principe de transparence

S’agissant du principe de transparence, l’EDPB admet qu’une information personnelle à chaque personne concernée par une collecte de ses données personnes est impossible en raison de leur nombre. L’exception au droit à l’information prévue par l’article 14(5)(b) est donc applicable, sous réserve que l’ensemble des exigences de cette disposition soient respectées, notamment la nécessité pour le responsable de traitement de prendre « des mesures appropriées pour protéger les droits et libertés ainsi que les intérêts légitimes de la personne concernée, y compris en rendant les informations publiquement disponibles » (Le comité renvoie ici à un document du groupe de travail « Article 29 » sur le principe de transparence, Article 29 working party, Guidelines on transparency under regulation 2016/679).

Principe de pertinence

Au regard du principe de pertinence, le Comité invite à distinguer entre, d’une part, les données d’entrée (input) qui incluent les données collectées par le biais du web scraping ou les données fournies par l’utilisateur et, d’autre part, les données de sortie (output) qui englobent les résultats obtenus après utilisation de ChatGPT.

Le principe d’exactitude des données doit être respecté, bien que les résultats générés par cet outil puissent être biaisés ou inventés : l’objectif du traitement des données, dans le cadre de ChatGPT, n’est en effet pas de procurer des informations nécessairement exactes mais simplement d’entraîner l’algorithme. Aussi le responsable de traitement doit-il informer les utilisateurs du niveau de fiabilité limité du contenu généré. À ce stade, le Comité conclut que les mesures prises par OpenAI sont insuffisantes pour respecter le principe de pertinence qui sous-tend celui d’exactitude des données.

Il convient de noter qu’aucune proposition de solution n’est offerte, ce qui interroge quant à la compatibilité totale de ChatGPT avec le RGPD au regard de ce principe. Il semble que son fonctionnement même ne puisse parvenir à atteindre l’objectif d’exactitude des données et que la seule manière de se conformer au règlement est d’effacer ou de rectifier « sans tarder » les données, conformément à l’article 5(1)(d).

Droits de la personne concernée

L’EDPB insiste enfin sur la nécessité de permettre à la personne concernée d’exercer ses droits de façon aisée et accessible. Il salue les avancées en la matière d’OpenAI qui mentionne des informations sur l’exercice de ces droits dans sa politique de confidentialité ainsi que permet un contact par mail et le réglage de certains paramétrages. Toutefois, elle l’invite à davantage d’efforts et souligne, notamment, la difficulté pour l’utilisateur de ChatGPT d’user de son droit de rectification dans certains cas. Elle conclut en rappelant la nécessité pour le responsable de traitement qu’est OpenAI de mettre en place des mesures appropriées pour la protection des données et d’intégrer des garde-fous, à la fois lors de la détermination des moyens du traitement et au moment du traitement lui-même.

À retenir

Globalement, il résulte de ce rapport que ChatGPT n’est pas per se incompatible avec la protection des données au sens du RGPD mais qu’un effort doit être fourni par OpenAI afin de se conformer aux exigences du texte, au regard de la gravité des atteintes susceptibles d’être portées aux droits des personnes concernées. Des sanctions à son égard, prononcées par les autorités nationales de contrôle, ne tarderont pas à être rendues publiques, ce qui devrait encourager la société à la mise en place de davantage de mesures protectrices.

EDPB, Rapport Chat GPT et protection des données (en anglais)