Proposition de loi visant à encadrer l’intelligence artificielle par le droit d’auteur : une initiative louable mais perfectible

Le 12 septembre 2023, une nouvelle proposition de loi visant à encadrer l’intelligence artificielle par le droit d’auteur a été déposée. Cette dernière propose de compléter le code de la propriété intellectuelle pour permettre aux artistes une meilleure prise en compte de leurs droits face au développement des IA génératives. Si cette initiative est louable, les ajouts proposés par les députés se heurtent à certaines difficultés, notamment sur le plan technique.

Le 12 septembre dernier, une nouvelle proposition de loi visant à encadrer l’intelligence artificielle (IA) par le droit d’auteur a été déposée par huit députés, portée notamment par Guillaume Vuilletet (Proposition de loi n° 1630 visant à encadrer l’intelligence artificielle par le droit d’auteur). Le texte vise à « compléter » le code de la propriété intellectuelle pour offrir une meilleure protection et rémunération aux artistes. La philosophie derrière cette proposition de loi est de protéger les artistes face au développement de l’intelligence artificielle, qui bouleverse le marché traditionnel de l’art. En effet, il est argué par de nombreux artistes et syndicats que le développement des systèmes d’intelligence artificielle générative notamment, a bouleversé leur modèle économique (v. à ce propos, S. Le Cam et F. Maupomé, Un argumentaire pour une meilleure régulation des IA, II. Impacts économiques, p. 15).

Pour ce faire, la proposition vise à mieux protéger les artistes et assurer une meilleure rémunération de leur travail, notamment lorsque les œuvres générées ont pu l’être grâce au travail d’artistes sur lequel l’IA se serait entraînée. Cette proposition s’inscrit dans la lignée du « principe humaniste qui gouverne le droit d’auteur français » et a pour dessein « d’inciter les systèmes d’IA à respecter le droit d’auteur et à favoriser la création, renforçant ainsi l’exception culturelle française ». Si l’intention des députés est louable, la proposition de loi est pour l’heure empreinte de certains défauts qui la rende en l’état inapplicable aux technologies que sont les systèmes d’IA.

Apports de la proposition de loi

La proposition de loi comporte quatre articles.

L’article 1er propose de compléter l’article L. 131‑3 du code de la propriété intellectuelle par un alinéa disposant que « l’intégration par un logiciel d’intelligence artificielle d’œuvres de l’esprit protégées par le droit d’auteur dans son système et a fortiori leur exploitation est soumise aux dispositions générales du présent code et donc à autorisation des auteurs ou ayants droit ».

L’article 2 quant à lui évoque plusieurs points. Tout d’abord, il propose de compléter l’article L. 321‑2 du code de la propriété intellectuelle pour préciser la titularité des droits d’œuvres générées par un système d’IA sans intervention humaine directe. Dans cette situation, la titularité des droits appartient aux « auteurs ou ayants droit des œuvres qui ont permis de concevoir ladite œuvre artificielle ».

Également, il propose de prévoir la gestion des droits sur les œuvres générées par une IA par des sociétés d’auteurs ou autres organismes de gestion collective.

L’article 3 modifierait l’article L. 121‑2 du code de la propriété intellectuelle par l’ajout d’un alinéa créant un système d’étiquetage, en imposant d’apposer la mention « œuvre générée par IA » pour les œuvres générées par un système d’IA, ainsi que « d’insérer le nom des auteurs des œuvres ayant permis d’aboutir à une telle œuvre ».

Enfin, l’article 4 modifierait également l’article L. 121‑2 du code de la propriété intellectuelle et propose la création d’une « taxation » au bénéfice de l’organisme chargé de la gestion collective, lorsque des œuvres de l’esprit sont générées par « un dispositif d’intelligence artificielle à partir d’œuvres dont l’origine demeure incertaine ». La taxation sera à la charge de la société exploitant le système d’IA pour générer l’œuvre. Le taux et l’assiette seront précisés par un décret.

Si certaines de ces propositions peuvent sembler cohérentes pour améliorer la situation des titulaires de droit, d’autres au contraire sont bien plus irréalistes et risquent d’être inapplicables de par la nature même des systèmes d’IA.

Une place importante donnée aux organismes de gestion collective

La proposition de loi prévoit de donner une place importante aux organismes de gestion collective, et cela à deux instances. Tout d’abord pour la gestion des droits sur les œuvres générées par un système d’IA mais également pour la gestion d’une taxation créée lorsque des œuvres de l’esprit sont générées par « un dispositif d’intelligence artificielle à partir d’œuvres dont l’origine demeure incertaine ».

Cette initiative fait par ailleurs écho aux recommandations formulées par la Société des auteurs et compositeurs dramatiques (SACD) quelque temps auparavant, laquelle souhaite un système fondé sur « l’octroi d’une licence d’autorisation des œuvres par un organisme de gestion collective, en contrepartie d’un pourcentage des recettes générées par les opérateurs d’intelligence artificielle » (Pour une intelligence artificielle au service de la création, des auteurs et respectueuse de leurs droits, SACD, 31 août 2023). Elle déclarait que « par sa capacité à gérer des informations multiples et complexes et à assurer une juste répartition entre les auteurs, la gestion collective offre en effet le meilleur outil pour permettre le développement des modèles d’intelligence artificielle dans un cadre respectueux des droits des auteurs et en leur assurant le versement de leur juste droit à rémunération conformément aux dispositions légales ».

L’étiquetage des contenus générés par des systèmes d’IA

Une autre des créations de la proposition de loi est d’imposer l’apposition de la mention « œuvre générée par IA » pour les œuvres générées par un système d’IA. Ce système d’étiquetage des contenus rappelle l’article 52, § 2, du projet de règlement sur l’IA (ou AI Act), qui impose un système d’étiquetage aux utilisateurs « […] d’un système d’IA qui génère ou manipule du texte, des contenus audio ou visuels pouvant être perçus à tort comme authentiques ou véridiques et représentant des personnes semblant tenir des propos qu’elles n’ont pas tenus ou commettre des actes qu’elles n’ont pas commis […]. » (art. 52, § 2, Règlement sur l’IA - Textes adoptés par le Parlement européen, Parlement européen 14 juin 2023).

On peut, par ailleurs, retrouver des initiatives similaires dans d’autres domaines comme la mention « photographie retouchée » sur certains contenus (CSP, art. R. 2133-5 ) ou plus récemment, la mention « images virtuelles » en cas d’utilisation d’une production de tous procédés d’intelligence artificielle visant à représenter un visage ou une silhouette sur les sur les contenus des influenceurs (Loi n° 2023-451 du 9 juin 2023 visant à encadrer l’influence commerciale et à lutter contre les dérives des influenceurs sur les réseaux sociaux, art. 5). Ce mécanisme d’étiquetage commence d’ores et déjà à être mis en œuvre sur certains réseaux sociaux, comme TikTok qui a ajouté une option pour signaler les contenus générés par l’IA (v. à ce propos, New labels for disclosing AI-generated content, TikTok, 19 sept. 2023).

Une proposition de loi inadaptée techniquement

De façon plus générale, le principal écueil de cette proposition de loi est qu’elle contient plusieurs dispositions qui sont techniquement compliquées à mettre en œuvre, voire impossibles pour l’heure. En effet, la proposition évoque notamment « d’insérer le nom des auteurs des œuvres ayant permis d’aboutir à une telle œuvre » et d’attribuer la titularité des droits aux « auteurs ou ayants droit des œuvres qui ont permis de concevoir ladite œuvre artificielle » lorsque l’œuvre a été générée par un système d’IA sans intervention humaine. Elle prévoit également la taxation sur les créations d’IA à partir d’œuvres dont l’origine est incertaine.

Le premier problème pratique qui se pose est de savoir comment retrouver dans le produit issu d’un modèle génératif l’information incluse dans l’œuvre utilisée lors de l’entraînement. Autrement dit, la métadonnée associée à une donnée (i.e., le nom de l’auteur d’une œuvre) pourra-t-elle résister aux transformations successives en œuvre tout au long de la chaîne algorithmique et pouvoir être mesurée in fine dans l’objet généré ? En pratique, au stade actuel de la recherche, l’insertion d’un tel filigrane ne résistera pas à cette série de « décompositions-recompositions » en œuvre dans un procédé d’apprentissage automatique (J.-M. Deltorn, Droit d’auteur et créations des algorithmes d’apprentissage, Propr. intell. 2016, n° 58, p. 4).

D’autres options seraient donc à envisager. Une alternative, dès lors que l’on a accès au corpus de données d’entraînement (ou dataset), serait de retrouver les œuvres qui ont été incluses et utilisées dans les données d’entraînement. Or, hormis certains cas où le dataset est public (comme par exemple, le dataset LAION-5B), il existe une certaine opacité qui ne permet pas de retracer avec précision les œuvres contenues dans les données d’entraînement si ces dernières ne sont pas accessibles.

Concernant la taxation, elle risquerait de trouver application dans de nombreuses instances, la traçabilité des œuvres utilisées dans le dataset étant particulièrement compliquée en l’absence de transparence.

Par exemple, les demandes liées au droit d’auteur qui ont pu prospérer aux États-Unis concernant certains datasets visaient des datasets publics comme le démontre l’affaire Books3 (v. à ce propos, Anti-Piracy Group Takes Massive AI Training Dataset ’Books3′ Offline, Kyle Barr, Gizmodo, 18 août 2023). Ainsi, en l’absence de transparence sur les données utilisées, il est compliqué d’avoir techniquement la capacité de pouvoir déterminer quelles œuvres ont été utilisées pour générer une œuvre (sauf certains cas, par ex. la mémorisation, v. à ce propos, Extracting Training Data from Diffusion Models, arXiv, 30 janv. 2023).

Un autre problème technique sera de savoir dans quelle proportion un élément original d’une œuvre, présente dans les données d’entraînement, est identifiable dans le résultat final. Cela semble déterminant pour se conformer aux demandes des députés, notamment en ce qui concerne la titularité des droits et de l’insertion des noms des auteurs. En effet, s’il n’est pas possible de déterminer dans quelle proportion un élément original d’une œuvre présente dans les données d’entraînement est identifiable dans une œuvre générée par un système d’IA, cela signifie-t-il que la totalité des artistes dont une œuvre est présente dans les données d’entraînement peut prétendre à la titularité des droits et à faire insérer leur nom ? Cela peut mener à des situations insensées, notamment lorsque l’on sait que les datasets sont composés d’énormément de données. À titre d’exemple, le dataset LAION-5B contient 5,85 milliards de données.

En tout état de cause, cela ne saurait signifier que ces dispositions s’appliqueront lorsque l’on peut reconnaître le « style » d’un artiste dans le produit final. Le style n’étant en effet pas protégé par le droit d’auteur.

Par ces dispositions, cette proposition de loi souligne donc plusieurs problématiques rendant l’IA difficile à réguler.

Vers un éclatement législatif au niveau des États membres ?

Une autre problématique que pose cette proposition de loi est le potentiel éclatement législatif au niveau de l’Union européenne que cela pourrait créer, renforçant l’illisibilité des règles applicables. En effet, si chaque État membre adoptait une proposition de loi, il est possible que des positions diverses soient observées, chaque État membre adoptant des règles en accord avec sa vision.

D’autant plus que des prémices de régulation sur les thématiques d’IA et de propriété intellectuelle sont observées au niveau européen, avec l’ajout de l’article 28b, 4 (c) dans le règlement sur l’intelligence artificielle, disposant que « […] les fournisseurs de systèmes d’IA à finalité générale utilisés dans des systèmes d’IA destinés spécifiquement à générer, avec différents niveaux d’autonomie, des contenus tels que des textes, des images, des contenus audio ou des vidéos complexes (« IA générative ») et les fournisseurs spécialisés dans la transformation d’un système d’IA à finalité générale en un système d’IA générative : […] c) documentent et mettent à la disposition du public un résumé suffisamment détaillé de l’utilisation des données d’entraînement protégées par la législation sur le droit d’auteur, sans préjudice de la législation de l’Union ou nationale en matière de droit d’auteur. » (Règlement sur l’IA - Textes adoptés par le Parlement, Parlement européen, 14 juin 2023).

Bien que cet ajout soulève lui aussi certaines questions, par exemple la notion de « résumé » détaillé, en particulier dans le cas de grands modèles de fondations formés sur des milliards de données, cela peut être perçu comme un pas en avant pour proposer un meilleur encadrement des systèmes d’IA génératives par rapport au droit d’auteur.

En somme, voilà une proposition de loi au tout début d’un long processus parlementaire à suivre, et qui pourrait mener à de vifs débats.

 

© Lefebvre Dalloz