L’entraînement des IA et le respect du droit : retour sur le rapport d’information du Sénat

La mission d’information, confiée aux sénateurs Agnès Evren, Laure Darcos et Pierre Ouzoulias, avait pour objet d’analyser les liens entre l’intelligence artificielle (IA) et la création artistique. Ses travaux ont donné lieu au rapport dédié à l’entraînement des IA et au respect du droit, présenté le 9 juillet 2025 devant la Commission de la culture, de l’éducation, de la communication et du sport du Sénat. Ce rapport interroge la manière d’appliquer et de faire appliquer les règles relatives au droit d’auteur dans l’environnement de l’IA.

 

L’affaire n’est pas passée inaperçue dans le milieu du doublage et des jeux vidéo : la voix française de Lara Croft aurait été modifiée via l’intelligence artificielle dans certains passages du dernier opus jeu. Ainsi, l’actrice Françoise Cadol n’y aurait pas consenti et donc, a fortiori, ne serait pas rémunérée pour cette exploitation. 

Cette affaire pourrait paraître anecdotique si elle n’était pas l’archétype des difficultés relevées au sein du rapport d’information du Sénat sur l’IA et la création artistique. En effet, ce rapport envisage et anticipe – dans une excellente clarté pédagogique – les difficultés que vont éprouver les acteurs de la création artistique à l’occasion de l’exploitation de l’IA au sein du processus de création artistique.

Rappelons que par l’expression « acteurs » il est entendu non seulement les acteurs au sens des artistes-interprètes mais également les auteurs, les producteurs, les éditeurs, les techniciens, les musiciens et plus généralement, tous les métiers nécessaires à la création artistique par opposition aux opérateurs qui vont englober les fournisseurs et les déployeurs d’IA. En ce sens, nous oserons qualifier de données-œuvres les œuvres collectées et utilisées en tant que données au sein d’une IA.

La question posée par le rapport est de savoir si l’exploitation des données par l’IA permet de respecter les droits des acteurs de la création artistique.

À première vue, tout sachant serait tenté d’avancer qu’à partir du moment où la donnée est captée par un système d’IA, il est pratiquement impossible de déterminer à quel niveau cette donnée a été traitée pour entraîner l’IA et, éventuellement, fournir un résultat.

En ce sens, le rapport tente, par une analogie savoureuse avec les recettes de cuisine inspirée du professeur Alexandra Bensamoun (A. Bensamoun, Rapport sur la mise en œuvre du règlement européen établissant des règles harmonisées sur l’IA du 11 déc. 2024), d’expliquer que lorsqu’une donnée est utilisée, elle peut être traitée de différentes manières selon le modèle, l’entraînement et l’objectif, de sorte que le résultat ne montre pas nécessairement que ladite donnée ait été utilisée.

On comprend alors rapidement que ce fonctionnement remet en cause notre conception des modèles juridiques d’exploitation des œuvres via le droit d’auteur et les droits voisins.

Pour concilier droit et technique, le rapport propose un cadre de fonctionnement, lequel est expliqué via neuf propositions dont l’idée principale est de réaffirmer et garantir le droit à rémunération des ayants droit culturels pour l’utilisation de leurs contenus par les fournisseurs d’IA.

Pour les identifier, nous regrouperons ces propositions en deux thématiques principales, à savoir le fondement juridique de l’exploitation des données-œuvres et les modalités de rémunération issues de cette exploitation. 

Sur les propositions de contrôle des fondements d’exploitation des données

Nul ne l’ignore désormais : une IA a besoin d’une grande quantité de données pour fonctionner. La première question qui se pose alors est de savoir comment et où collecter les données qui vont entraîner cette IA.

Comme le rappelle le rapport et au-delà d’accords particuliers avec des banques de données, les entraîneurs sont venus directement scraper internet pour chercher un maximum de données (le web scraping est une technique de moissonnage de données en récupérant toutes les données disponibles sur une source, en l’occurrence, le world wide web). Le problème évident de cette technique est, à l’instar d’un chalutier aux filets profonds, qu’elle implique la collecte de toutes les données disponibles techniquement, peu importe leur statut juridique, ce qui pose nécessairement la question de la disponibilité des données-œuvres.

Évidemment, le problème est ici le fondement de la collecte. Comment justifier que la collecte de données est licite – et donc que les données sont légitimement exploitables – quand on se dispense de rechercher la disponibilité juridique des données-œuvres ?

Le rapport soulève alors la malice des entraîneurs qui se prévalent du fair use aux États-Unis et de l’exception dite « TDM » (text and data mining) au sein de l’Union pour justifier – a posteriori – cette méthode peu éthique de collecte de données (Dir. [UE] 2019/790, 17 avr. 2019, art. 4).

Rappelons que ces deux exceptions ont été créées pour que des personnes aient accès aux données protégées dans un objectif pédagogique, de recherche scientifique et d’enseignement. Aussi, le législateur européen avait-il bien prévu au sein du Règlement relatif à l’IA (Règl. [UE] 2024/1689 du Parl. UE et du Conseil du 13 juin 2024, Dalloz actualité, 25 sept. 2024, obs. E. Migliore ;  établissant des règles harmonisées concernant l’IA, ci-après « RIA ») que les opérateurs devaient obtenir l’autorisation des titulaires de droits afin d’extraire et d’exploiter les données (RIA, consid. 105 et 106).

Aussi, le rapport souligne bien que les opérateurs ne semblent respecter ni la loi américaine ni les règlements européens quand ils exploitent des données sans discrimination via du scraping, notamment en excipant du fait qu’une application stricte de ces dispositifs seraient soit trop difficiles à mettre en œuvre, soit trop coûteuse, mais bien souvent les deux en même temps.

Pour soutenir cette thèse, les opérateurs opposent la difficulté de valoriser une donnée qu’elle soit une valeur d’échange ou une valeur d’usage.

Toutefois, du point de vue du législateur, il est légitime de s’interroger sur des modèles économiques qui reposent en partie sur la violation du droit de propriété et la spoliation des actifs d’autrui tout en précisant que d’un point de vue collectif l’apport de chaque donnée-œuvre est essentiel (notons qu’il en faudrait parfois moins pour connecter cette réalité physique et juridique de l’IA à la théorie des biens collectifs et aux services publics).

Pour compenser ce déséquilibre (désordre ?) économique, les rapporteurs prévoient habilement des obligations sur les deux parties. Au préalable, il faut solder le passé en parvenant à un règlement financier pour les usages passés des contenus culturels, afin de compenser les ayants droit culturels et sécuriser juridiquement les fournisseurs d’IA.

Ensuite, le rapport veut d’une part inciter les auteurs à constituer des bases de données larges et de qualité, facilement exploitables par les fournisseurs, assorties de conditions d’utilisation précisément définies. Ces bases de données devront indexer les données-œuvres via la mise place d’un système technique permettant d’identifier les contenus. L’objectif est donc de présenter des bases de données propres, référencées, étiquetées et prêtes à l’emploi.

D’autre part, le rapport recommande que les opérateurs d’IA garantissent la transparence complète des données utilisées par les fournisseurs d’IA.

Afin d’inciter les opérateurs, le rapport propose également de créer les conditions d’un réel avantage comparatif pour les fournisseurs d’IA vertueux qui sauront nouer les meilleurs accords avec les ayants droit culturels.

Il est compris que, comme un aveu de faiblesse, le rapport propose un compromis qui obligerait les auteurs à s’adapter aux opérateurs d’IA pour que leurs données soient prêtes à être consommées dans des conditions techniques qui seront vraisemblablement imposées par les opérateurs.

À la discussion sur le fondement de la collecte et de la licéité de l’exploitation des données-œuvres s’ajoute le débat sur les montants et les modalités de rémunération, lequel ne manque pas non plus de susciter de nombreuses interrogations.

 Sur les propositions de rémunération des créateurs

Il a été vu supra que les fournisseurs d’IA excipaient de la faible valeur d’une donnée-œuvre pour se voir octroyer, in fine, une dispense d’autorisation des ayants droit pour exploiter leurs données. Cette hypothèse est clairement exclue tant par l’Union européenne que par les États-Unis, dans la mesure où elle conduirait, au-delà de s’asseoir sur le droit de propriété, à une sorte de féodalité fondée sur la maîtrise technologique.

Cette dimension est toutefois capitale dans la discussion qui s’ouvre sur les modalités de rémunération car, du point de vue des fournisseurs pourquoi et comment rémunérer des ayants-droits pour des créations dont l’utilité unitaire est epsilonesque dans l’entrainement de l’IA ?

Pour le pourquoi, il est aisé de comprendre que même les fournisseurs, jaloux de leurs algorithmes, ne puissent pas effectivement prétendre que le droit de propriété n’existe pas sur les créations immatérielles. Donc, le fondement du droit d’auteur est utile et même cardinal dans les motifs de la rémunération. Une approche très américaine se contenterait ici de dire : parce que c’est la loi.

Quant au comment, il s’agit là du véritable débat. Ici, le rapport comprend qu’une rémunération effective n’est garantie qu’à la condition de garantir l’identification des œuvres d’une part – ce qui est loin d’être le cas aujourd’hui – et de contrôler leur utilisation d’autre part. L’indexation permettrait alors l’identification. Ainsi, fidèle au modèle de rémunération proportionnelle, le rapport propose de définir des modalités de rémunération qui soient fonction des flux de revenus générés par les fournisseurs et déployeurs d’IA.

Sur ce point, le rapport propose que la rémunération soit corrélée par exemple « au chiffre d’affaires du secteur de la tech – fournisseurs comme déployeurs d’IA ». Dans ce cas, ce serait le résultat qui enclencherait la rémunération, sans qu’il soit très bien compris comment individualiser la rémunération de chaque auteur.

De prime abord, cette proposition paraît obscure tant le chiffre d’affaires n’est généralement pas la référence utile pour la rémunération des créateurs et qu’il n’est pas non plus l’indicateur le plus pertinent – surtout dans la tech – d’une société bénéficiaire.

Toutefois, c’était sans compter un réflexe taxatif qui vise à tirer profit des revenus générés par le marché de l’IA pour promouvoir la diversité de la création culturelle et le pluralisme de la presse. En d’autres termes, afin d’éviter toute difficulté dans les modalités de rémunération, les opérateurs seront taxés sur le chiffre d’affaires. La somme est redistribuée ensuite, sur le modèle du CNC, aux acteurs de la diversité culturelle.

Il est toutefois possible de demeurer perplexe sur les modalités de mise en œuvre d’une telle taxe dans la mesure où elle aurait tendance à créer un déséquilibre entre les acteurs qui n’auraient pas contribué à même hauteur du résultat.

À ce titre, on peut émettre l’hypothèse qu’une telle taxe pourrait être utilisée comme levier de négociation pour forcer les acteurs à constituer des bases de données-œuvres identifiables et les opérateurs à s’approvisionner uniquement auprès de ces fournisseurs.

Enfin, si on considère que les auteurs seraient soumis à des obligations de création de bases de données-œuvres et d’implémentation de mesures techniques pour ne recevoir en contrepartie qu’une portion de leur rémunération passée au tamis des « frais de gestion », on comprend que le respect du droit de propriété n’est pas la priorité mais qu’il s’agit plutôt de rustiner en concédant la collectivisation de l’exploitation des œuvres.

Par conséquent, ce système pourrait charger les auteurs de l’organisation d’une exploitation de la donnée-œuvre sans véritable contrepartie tout en y facilitant l’accès – sans bourse déliée – aux opérateurs d’IA.

 

Sénat, Rapport d’information sur l’intelligence artificielle et la création, 9 juill. 2025

par Romain Waïss-Moreau, Avocat associé

© Lefebvre Dalloz