Obligations de transparence sur les données d’entraînement du RIA : retour sur le rapport de mission du CSPLA
Le 11 décembre 2024, le rapport de la mission relative à la mise en œuvre des obligations de transparence sur les données d’entraînement prévues par le règlement sur l’intelligence artificielle a été publié. La mission vise donc à clarifier les règles entourant la nécessité de prévoir une politique interne de conformité et l’obligation d’élaboration et de mise à disposition du public d’un résumé suffisamment détaillé du contenu utilisé pour entraîner le modèle d’IA à usage général.
En mars 2024, un rapport préconisant plusieurs recommandations vis-à-vis de l’intelligence artificielle (IA) fut remis au gouvernement par la Commission de l’intelligence artificielle (Commission de l’IA, 25 recommandations pour l’IA en France, 13 mars 2024). À la suite de cela, le Conseil supérieur de la propriété littéraire et artistique (ci-après CSPLA) a confié, en avril 2024, deux missions relatives à l’IA et au secteur créatif (v. à ce sujet, Avril 2024 – Le CSPLA lance une mission relative à la mise en œuvre du règlement européen établissant des règles harmonisées sur l’intelligence artificielle, 17 avr. 2024).
La première mission, objet de cette étude, présidée par Alexandra Bensamoun, professeur des universités, et avec l’appui de Lionel Ferreira, maître des requêtes au Conseil d’État, et le soutien de Frédéric Pascal, professeur des universités, vise à expertiser la portée de l’obligation de transparence prévue par le règlement européen sur l’intelligence artificielle (Règl. [UE] 2024/1689, 13 juin 2024, JOUE 12 juill., ci-après RIA). Pour cela, il s’agit notamment d’établir la liste des informations paraissant devoir nécessairement être communiquées, selon les secteurs culturels concernés, pour permettre aux auteurs et aux titulaires de droits voisins d’exercer leurs droits (CSPLA, Rapport de mission relative à la mise en œuvre du règlement européen établissant des règles harmonisées sur l’intelligence artificielle (« template »), 11 déc. 2024, ci-après le rapport).
La seconde mission, présidée par Alexandra Bensamoun et Joëlle Farchy, économiste et professeur des universités, vise quant à elle à examiner les mécanismes juridiques envisageables pour garantir la juste rémunération des ayants droit et l’effectivité de leurs droits lors de l’utilisation des œuvres par les fournisseurs d’IA. La mission vise également à analyser les enjeux économiques sous-jacents à l’accès aux données protégées par des droits de propriété littéraire et artistique.
C’est dans ce contexte que le rapport de la mission relative à la mise en œuvre du RIA a été publié le 11 décembre 2024, proposant notamment un modèle de « résumé détaillé » du contenu utilisé pour l’entraînement des modèles à usage général.
Contexte de la mission
Cette mission vise donc à clarifier la portée de la nouvelle disposition prévue par le RIA. En effet, en son article 53, 1, c et d, le règlement prévoit certaines obligations de transparence spécifique.
Le règlement choisit en effet d’imposer certaines exigences supplémentaires pour les modèles d’IA à usage général (RIA, art. 51 à 56). Il distingue par ailleurs deux types de modèle d’IA à usage général : les modèles d’IA à usage général et les modèles d’IA à usage général systémique (J. Sénéchal, L’AI Act dans sa version finale – provisoire –, une hydre à trois têtes, Dalloz actualité, 11 mars 2024).
Tous les modèles d’IA à usage général sont donc soumis à certaines obligations prescrites par les articles 53, de transparence renforcée. Ainsi, il est prévu une obligation de mettre en place une politique interne de conformité permettant de respecter les réservations de droits (ou opt-out) exprimées conformément à l’article 4, § 3, de la directive (UE) 2019/790 du 17 avril 2019 (RIA, art. 53, § 1, c). Une obligation d’élaboration et de mise à disposition du public d’un résumé suffisamment détaillé du contenu utilisé pour entraîner le modèle d’IA à usage général, conformément à un modèle fourni par le Bureau de l’IA, est également présente (RIA, art. 53, § 1, d ; v. égal., à ce propos, E. Migliore, Le règlement sur l’intelligence artificielle enfin publié ! Retour sur les dispositions principales, Dalloz actualité, 25 sept. 2024).
Ces obligations suscitent cependant plusieurs interrogations, par exemple tenant au périmètre des fournisseurs concernés par cette obligation, le niveau de précision des informations à fournir attendu, l’articulation entre le secret des affaires et la transparence ou encore sur la forme de la divulgation imposée. Le rapport permet ainsi de répondre à ces interrogations en proposant un modèle.
En parallèle, l’Union européenne travaille également sur ces questions, avec notamment la publication en novembre dernier du premier projet de code de bonnes pratiques sur l’IA à usage général, rédigé par une sélection d’experts indépendants. Ce projet aborde la question de la transparence et du droit d’auteur dans son groupe de travail 1 et détaille certaines propositions aux pages 14 et 15, notamment pour l’obligation prévue à l’article 53, § 1, c, du RIA (v. à ce sujet, Commission européenne, First Draft of the General-Purpose AI Code of Practice published, written by independent experts, 14 nov. 2024).
Contenu de la mission
La mission commence par un état des lieux, en rappelant l’importance des données dans la chaîne de valeur de l’IA. En effet, comme cela a largement été expliqué, les grands modèles ont besoin de grandes quantités de données pour leur entraînement. La qualité des données, notamment humaines, est essentielle pour obtenir un modèle performant. Certaines études démontrent que l’entraînement sur des données synthétiques conduit à l’effondrement du modèle (v. à ce sujet, I. Shumailov, Z. Shmaylov, Y. Zhao, N. Papernot, R. Anderson et Y. Gal, AI models collapse when trained on recursively generated data, Nature, 24 juill. 2024).
Ces données humaines produites par le secteur créatif peuvent être des données soumises à certains droits, notamment le droit d’auteur et dont l’utilisation sans accord pourrait constituer une violation. C’est dans ce contexte que cette obligation de transparence intervient.
De plus, on remarque que l’on se retrouve dans une situation complexe où différentes problématiques s’entrecroisent : le besoin de données de qualité augmente mais les sources de données humaines s’amenuisent (v. à ce sujet, D. Milmo, Elon Musk says all human data for AI training « exhausted », The Guardian, 9 janv. 2025). Les mécanismes d’encadrement de l’utilisation des données mis en place par différents textes européens, tels que le règlement sur la protection des données à caractère personnel et la directive relative au droit d’auteur dans le marché unique numérique, semblent de surcroît mal adaptés à ce nouvel environnement.
Cela conduit à une situation d’insécurité juridique, inconfortable, pour les parties impliquées, entravant l’exercice des droits et l’innovation.
Observations de la mission sur les obligations
La mission vise à apporter de la clarté et détaille ainsi plusieurs observations concernant les nouvelles obligations créées.
Des obligations indissociables
Après lecture des obligations de transparence présentes à l’article 53 du RIA, il peut sembler instinctif de déduire que deux obligations « à traiter en silo » sont créées, à savoir la rédaction d’un résumé suffisamment détaillé (v. à ce propos, RIA, art. 53, 1, d) et la présence d’une politique interne de respect des droits (v. à ce propos, RIA, art. 53, 1, c). Il s’agirait ici de deux obligations indépendantes.
Toutefois, la mission considère que ces obligations sont indissociables l’une de l’autre. Tout d’abord, il apparaît que dans le First Draft of the General-Purpose AI Code of Practice, évoqué précédemment, les deux points sont traités conjointement. Il s’agit pour la mission d’une obligation « autonome de conformité à la racine […] laquelle n’est effective que si la question de la politique de conformité et celle du résumé suffisamment détaillé sont traitées conjointement » (Rapport, p. 20 ; v. égal. les consid. 107 et 108 du RIA). Bien qu’il ne soit pas indiqué que la politique de conformité interne doive être mise à la disposition du public, « la pertinence des informations du résumé suffisamment détaillé s’apprécie nécessairement à la lumière des mesures mises en œuvre par le fournisseur pour se conformer à ses obligations en droit d’auteur » (Rapport, p. 21).
Un modèle de résumé devant intégrer des éléments relatifs à la conformité
La mission explicite également que les éléments principaux de la politique de conformité doivent être mis à disposition du public dans le résumé, et ce même si cela n’est pas demandé par le texte.
Le rapport s’attache à préciser l’articulation entre les informations à dévoiler et la protection du secret des affaires. Les informations publiques ne doivent pas porter atteinte au secret des affaires, le degré de détail du résumé devant s’apprécier au regard de cet objectif. Par exemple, la mission note que la protection du secret des affaires n’empêche pas de fournir une liste d’URL, notamment lors de l’utilisation du Common Crawl. Il n’est d’ailleurs pas exclu de lister les contenus protégés utilisés pour l’entraînement dans le modèle, bien que le Bureau de l’IA ne soit pas tenu de vérifier son exhaustivité ou sa licéité.
En somme, il ressort du rapport de la mission que le modèle de résumé détaillé public doit, selon elle, révéler les informations utilisées, c’est-à-dire les sources de données collectées pour l’entraînement, mais non la « recette » utilisée, c’est-à-dire les instructions de préparation. Il faut que les titulaires de droits puissent identifier si leurs œuvres ont été utilisées, et même si cela implique de manipuler de nombreuses données, sans détailler comment lesdites données ont été utilisées.
Le modèle proposé par la mission
Après ces observations, la mission édicte donc des lignes directrices pour le modèle de résumé (Rapport, p. 28 à 29 et p. 30 à 32 pour le modèle du résumé).
Premièrement, la mission insiste sur le fait que le modèle doive être « « être simple et utile » pour permettre au fournisseur d’IA d’élaborer son résumé.
Deuxièmement, les principaux éléments de la politique de conformité doivent être accessibles préalablement, notamment pour les données collectées directement telles que les prompts fournis par les utilisateurs.
Troisièmement, la mission aborde les informations relatives aux contenus utilisés pour l’entraînement en différenciant le degré de détails en fonction du degré de « fiabilité des sources ».
Tout d’abord, des exigences de transparence « générale », plus légères, sont évoquées pour certains types de contenus. Cela concerne les contenus libres de droits tels que les contenus tombés dans le domaine public ou sous licence libre. Cela s’étend également aux contenus objets d’arrangements contractuels, pour préserver le secret des affaires, en précisant toutefois qu’il est possible d’exiger de préciser si ces accords existent, sans en dévoiler la teneur.
Concernant les autres contenus, c’est-à-dire les contenus qui ne sont pas libres de droits ou qui nécessitent une autorisation d’utilisation, la mission préconise de fournir des informations plus détaillées, dont les métadonnées associées et les identifiants doivent être intégrés. La mission considère également qu’il est « indispensable de fournir une liste d’URLs précisant notamment les dates de moissonnage » (Rapport, p. 29). Les entreprises ne pourront arguer d’obstacles techniques puisqu’elles sont habituées et en capacité de manipuler de grandes quantités de données. La mission traite également la question des jeux de données contenant à la fois du contenu libre de droit et ces « autres contenus ». Dans ce cas, l’exigence la plus haute de transparence s’applique.
Enfin, le modèle de résumé doit contenir des informations contextuelles importantes tel que le point de contact chez le fournisseur d’IA émetteur ou l’existence d’accords commerciaux ou partenariaux, si cela s’applique.
CSPLA, Rapport de la mission relative à la mise en œuvre du RIA, 11 déc. 2024
© Lefebvre Dalloz