IA et RGPD : les premières recommandations de la CNIL

30.04.2024

À l’issue d’une consultation publique, la CNIL a publié ses premières recommandations sur le développement des systèmes d’intelligence artificielle (IA). Elles doivent aider les professionnels à concilier innovation et respect des droits des personnes pour le développement innovant et responsable de leurs systèmes d’IA.

La CNIL se positionne de façon très active dans le domaine de l’IA. Elle le rappelle encore dans le rapport annuel 2023 (publié le 23 avr. 2024) en indiquant que depuis deux ans elle s’attache à clarifier de façon concrète l’application du règlement général sur la protection des données (RGPD) dans le cas des traitements de données personnelles reposant sur des systèmes d’IA (Rapp., p. 66). Elle a lancé un plan IA en mai 2023 et s’est dotée d’un service dédié à l’IA constitué d’analystes, de juristes et d’ingénieurs. Il doit permettre de clarifier le cadre juridique applicable aux systèmes d’IA. L’objectif de permettre l’émergence d’acteurs français et européen dans le domaine de l’IA est clairement affiché.

Cet activisme intervient alors que le rapport du comité sur l’IA générative publié le 14 mars 2024 se montre plutôt critique sur le rôle de la CNIL : il évoque des contraintes excessives pour l’accès et l’utilisation des données personnelles, contient différentes réserves quant à l’application du RGPD aux systèmes d’IA et invite à transformer la CNIL pour favoriser le développement de l’IA. Le projet de loi de simplification administrative, présenté le 24 avril en Conseil des ministres, prévoit d’ailleurs de modifier le mandat de la CNIL pour qu’elle prenne en compte les enjeux d’innovation. Elle devrait « promouvoir dans le cadre de ses missions, la juste prise en compte des enjeux d’innovation associés aux traitements des données à caractère personnel ». Le Conseil d’État néanmoins a, dans son avis sur le projet de loi que le gouvernement a choisi de rendre public, estimé que cette disposition imprécise et « redondante » est dépourvue de normativité. Il est vrai que le Conseil a déjà plaidé en faveur de la reconnaissance du rôle de la CNIL dans le cadre de la régulation de l’IA, sans considérer que cette reconnaissance nécessite la modification dans les missions de la CNIL (Intelligence artificielle et action publique : construire la confiance, servir la performance, étude adoptée le 31 mars 2022).

Pour clarifier le cadre juridique, la CNIL a adopté ses premières recommandations sur la régulation de l’IA par le biais du RGPD. Elles ont été publiées le 8 avril 2024. Elles se veulent pédagogiques et prennent la forme de sept fiches pratiques précisant la manière dont le RGPD s’applique au développement de l’IA. Les questions nombreuses trouvent ici un début de réponse, à commencer par l’applicabilité même du RGPD aux systèmes d’IA dès leur conception.

Avec ces recommandations, la CNIL anticipe l’application du règlement européen sur l’IA (adopté par le Parlement en mars 2024, il doit encore l’être par le Conseil) en précisant qu’il doit s’articuler avec le RGPD. Elle se présente comme l’autorité de régulation compétente en matière d’IA et affirme que le RGPD n’empêche pas l’innovation en ce domaine : il est selon elle parfaitement possible de développer des systèmes d’IA en dépit du fait que ce développement implique un ou, plus vraisemblablement encore, plusieurs traitements de données personnelles devant être conformes au RGPD.

Les recommandations concernent le développement des systèmes d’IA et non le déploiement. Il est précisé que le développement comprend la conception du système, la constitution de la base de données et l’apprentissage alors que le déploiement comprend le calibrage et l’utilisation. Le point est important à l’heure où certains estiment que la focale de la régulation doit être placée sur les utilisations des systèmes plutôt que sur leur développement.

Les recommandations visent différents systèmes d’IA qu’elles énumèrent : les systèmes fondés sur l’apprentissage automatique (machine learning), les systèmes dont l’usage opérationnel est défini dès la phase de développement et les systèmes à usage général qui pourront être utilisés pour nourrir différentes applications (general purpose AI ), les systèmes dont l’apprentissage est réalisé « une fois pour toutes » ou de façon continue, par exemple en utilisant des données d’utilisation pour son amélioration. La CNIL préconise que les développeurs de ces systèmes d’IA suivent une démarche qui se décompose en sept étapes : définir la finalité du système d’IA ; qualifier les acteurs pour identifier leur responsabilité ; trouver la base légale du traitement ; s’assurer de la possibilité de réutilisation des données personnelles ; minimiser les données ; définir la durée de conservation des données et réaliser une analyse d’impact. Sans surprise, cette liste rappelle les principes applicables à tout traitement de données personnelles. Les recommandations ont pour objet de préciser comment ils peuvent être mis en œuvre dans le cadre du développement des systèmes d’IA.

La définition de la finalité du système d’IA est un préalable. Elle est essentielle pour identifier les données pertinentes et conduit à limiter le nombre de données stockées. La CNIL prend différents exemples pour aller à l’encontre de l’idée que l’entraînement d’IA peut être inattendu rendant impossible la définition préalable de la finalité du système. Il paraît notamment possible de donner une finalité relativement générale (par ex., recherche scientifique) et de la préciser au fur et à mesure.

Pour la définition des responsabilités, il faut préciser qui agit en qualité de responsables de traitement, qui agit en qualité de sous-traitants et le cas échéant, conclure un contrat de sous-traitance. Comme le futur règlement sur l’IA utilise d’autres notions (fournisseur de système d’IA, importateurs, distributeurs et utilisateurs ou « déployeurs »), la CNIL s’efforce de donner différents exemples pour savoir s’il faut les qualifier de responsables de traitement ou de sous-traitants.

Concernant la base légale, il est rappelé que le RGPD en donne une liste exhaustive qui en comprend six possibilités : le consentement, le respect d’une obligation légale, l’exécution d’un contrat, l’exécution d’une mission d’intérêt public, la sauvegarde des intérêts vitaux, la poursuite d’un intérêt légitime. La CNIL, pragmatique, met en avant celle relative à la poursuite d’un intérêt légitime mais insiste sur la nécessité de ne pas porter une « atteinte disproportionnée » à la vie privée des personnes concernées.

Pour la réutilisation des données, qui est consubstantielle de la plupart des systèmes d’IA, il est distingué selon que le fournisseur de système d’IA réutilise des données qu’il a lui-même déjà collectées (il doit alors s’assurer du respect du principe de finalité et il est précisé que la réutilisation dans un objectif de production de statistiques ou de recherche scientifique est présumée compatible avec l’objectif initial), qu’il réutilise des données en open source ou acquises auprès d’un tiers (il doit alors s’assurer de la licéité de la source).

Le principe de minimisation est susceptible d’être le poil à gratter du développement des systèmes d’IA. La CNIL affirme qu’il n’interdit pas d’entraîner un algorithme avec des volumes très importants de données, mais qu’il implique de cibler les données personnelles utiles au développement du système et de mettre en œuvre les moyens techniques pour ne collecter que celles-ci. Elle recommande d’établir une documentation des données utilisées pour assurer leur traçabilité. Elle propose d’ores et déjà un modèle de documentation.

À propos de la durée de conservation, la CNIL indique qu’il est possible de retenir une durée longue dans la mesure où cela est nécessaire pour les audits et la mesure de certains biais. Elle insiste dans cette hypothèse sur l’adoption de mesures de sécurité renforcées.

Enfin, concernant l’analyse d’impact sur la protection des données pour cartographier et évaluer les risques d’un traitement sur la protection des données personnelles, celle-ci est recommandée pour réduire les risques. Elle est considérée comme nécessaire pour le développement des systèmes d’IA à haut risque. La CNIL propose différents outils pour faciliter la réalisation de cette analyse d’impact. Elle énumère les risques à cartographier et les mesures à prendre.

D’autres recommandations sont à venir. Elles concerneront notamment la récupération de données sur internet ; la mobilisation de l’intérêt légitime comme base légale, l’exercice des droits d’accès, de rectification et d’effacement ; le recours ou non à des licences ouvertes.