Analyse du projet de loi américain sur la divulgation des données d’entraînement des IA génératives

En plein cœur de débats judiciaires toujours plus nombreux aux États-Unis, intervient la proposition de loi « Generative AI Copyright Disclosure Act of 2024 » qui pourrait fortement impacter la régulation des modèles d’intelligence artificielle générative. Cette proposition de loi obligerait les entreprises à divulguer les données d’entraînement de leurs modèles d’intelligence artificielle générative, y compris ceux déjà mis sur le marché. Certaines de ses dispositions ambitieuses pourraient résonner au-delà des frontières américaines. L’analyse ci-dessous explore les dispositions de cette proposition de loi, son impact potentiel sur les pratiques industrielles et les enjeux concurrentiels mondiaux.

Au beau milieu d’affaires judiciaires toujours plus nombreuses outre-Atlantique, qui mettent en cause les modalités d’entraînement des modèles d’intelligence artificielle générative (IAG), une proposition de loi intitulée « Generative AI Copyright Disclosure Act of 2024 » a été introduite le 9 avril dernier devant le Congrès américain.

En 2024, l’étau se resserre autour des entreprises qui développent des systèmes d’IAG concernant la violation des droits sur les contenus peuplant les bases de données d’entraînement des IA. En décembre dernier, la plainte du New York Times à l’encontre d’OpenAI et Microsoft pour violation du copyright a marqué un point de bascule qui a été suivi de réactions en chaîne.

Quelques semaines après la plainte du New York Times, OpenAI a conclu plusieurs partenariats avec de grands groupes de presse dans plusieurs pays (not. avec Axel Springer en Allemagne, Financial Times en Angleterre et Le Monde en France) afin de pouvoir puiser licitement dans leurs ressources et ainsi améliorer la qualité des réponses de son modèle d’IAG, ChatGPT.

L’entreprise OpenAI vient même d’annoncer qu’elle travaille sur le développement d’un outil appelé « Media Manager », en collaboration avec « les ayants droit et les régulateurs » et dont l’ambition est d’établir une norme de transparence et de respect des droits des créateurs dans l’industrie des IAG d’ici 2025.

Dans la sphère judiciaire, plusieurs affaires en cours pourraient, à l’instar de la plainte du New York Times à l’encontre d’OpenAI et de Microsoft, impacter les lois actuelles et futures sur la propriété intellectuelle à l’ère des IAG. Parmi ces affaires, celle qui oppose plusieurs artistes à Midjourney, Stability AI et DeviantArt vient de connaître un rebondissement, puisque le juge californien a donné son aval le 7 mai dernier pour entamer la procédure de divulgation (discovery en anglais). Cette procédure permettra notamment d’investiguer les modalités techniques de l’entraînement des IAG et de déterminer si des actes contrefaisants peuvent être caractérisés.

Il convient néanmoins de noter que si la querelle judiciaire au sujet des données d’entraînement des IAG agite particulièrement les États-Unis en ce moment, l’actualité judiciaire à ce sujet au sein de l’Union européenne est beaucoup plus calme. La directive DSM de 2019 qui a instauré une exception pour fouille de textes et de données en faveur des systèmes d’IA n’y est pas pour rien. Le débat concernant l’application de cette exception pour fouilles de textes et de données dans le contexte de l’entraînement des IAG pourrait néanmoins s’animer prochainement, en réaction aux solutions légales et jurisprudentielles qui seront adoptées outre-Atlantique.

La proposition de loi américaine dont nous vous soumettons l’analyse pourrait susciter des réactions au sein de l’Union européenne, dans la mesure où ses ambitions concernant la transparence des bases de données d’entraînement des IAG semblent, a priori, plus abouties que celles récemment adoptées à l’échelle européenne.

Analyse des dispositions de la proposition de loi

L’ambition du projet de loi « Generative AI Copyright Disclosure Act » est d’assurer la transparence des bases de données d’entraînement des IAG. Ainsi, le projet de loi prévoit que toute personne qui crée ou modifie un ensemble de données destinées à entraîner une IAG devra adresser au Bureau américain du copyright (United States Copyright Office) le détail des données qui constituent la base d’entraînement du modèle d’IAG, préalablement à la mise sur le marché de ce dernier.

Le détail des données doit être fourni sous la forme d’un « résumé suffisamment détaillé » ou bien d’une URL pour les bases de données librement accessibles en ligne. Cette formulation n’est pas sans rappeler celle du règlement sur l’intelligence artificielle adoptée le 21 mai dernier par le Parlement européen, qui évoque lui aussi un « résumé suffisamment détaillé du contenu utilisé pour entraîner le modèle d’IA à usage général » (art. 53 de la version finale du règl. européen établissant des règles harmonisées concernant l’IA).

À l’instar du règlement européen sur l’intelligence artificielle qui prévoit qu’un modèle de « résumé suffisamment détaillé » est communiqué par le Bureau européen de l’IA, le projet de loi américain prévoit que le Bureau américain du copyright communiquera des lignes directrices pour la mise en œuvre des obligations de divulgation des données d’entraînement des modèles d’IAG.

Le projet de loi veut contraindre les entreprises qui développent des modèles d’IAG à fournir le détail des bases de données d’entraînement a minima trente jours avant la mise sur le marché desdits modèles. Encore plus sévère, la proposition de loi prévoit que ce délai de trente jours pour fournir le détail des données d’entraînement sera applicable rétroactivement à toutes les entreprises ayant déjà mis sur le marché un ou des modèles d’IAG. Dans leur cas, le délai de trente jours aura pour point de départ le jour de l’entrée en vigueur de la loi. En cas de manquement aux dispositions du projet de loi, des pénalités d’au moins 5 000 dollars par manquement sont prévues.

Aux termes du projet de loi, une fois le détail des données d’entraînement des modèles d’IAG collecté, le Bureau américain du copyright serait chargé de tenir un registre en ligne répertoriant les résumés détaillés des données d’entraînement communiquées par les entreprises visées par l’obligation de divulgation.

Il convient de noter que le projet de loi définit les modèles d’IAG comme des « produits ou services logiciels conçus pour être utilisés par les consommateurs », cette définition semble exclure les modèles d’IAG conçus pour être distribués entre professionnels. Les prochains développements nous confirmeront si cette exclusion est intentionnelle. En outre, dans l’hypothèse de la modification d’une base de données d’entraînement, il est précisé que la modification doit être « significative » ; à ce stade, il est difficile d’envisager les implications techniques de ce terme et des précisions seront sans doute nécessaires.

Enfin, bien que ce projet de loi vise à assurer une transparence des données qui permettent l’entraînement des IAG dans le but d’assurer une meilleure protection des auteurs, il convient d’observer que le projet de loi ne prévoit aucune restriction d’usage des données, ni compensation, ni droit d’opt-out pour les auteurs.

Généralisation de l’exigence de divulgation des données d’entraînement

Cette proposition de loi américaine semble clairement inspirée par les dispositions du règlement européen sur l’intelligence artificielle qui a été définitivement adopté le 21 mai dernier. Mais à y regarder de plus près, si la disposition imposant aux entreprises qui mettent sur le marché des modèles d’IAG de fournir un « résumé suffisamment détaillé » de leurs données d’entraînement selon un modèle qui pourrait être fourni par le Bureau américain du copyright est similaire à celle du règlement européen, les ressemblances semblent s’arrêter là.

En l’état, le projet de loi américain semble aller plus loin que le règlement européen sur l’intelligence artificielle en matière de divulgation des données d’entraînement des modèles d’IAG. Tout d’abord parce que l’autorité qui serait chargée de recevoir le détail des bases de données d’entraînement des modèles d’IAG et de contrôler le respect des obligations de divulgation serait le Bureau américain du copyright. Cela tient certes au fait que le mécanisme du copyright implique l’existence d’un Bureau d’enregistrement, contrairement au droit d’auteur, mais cela laisser présager un contrôle du respect des lois sur le copyright. La solution qui a été retenue par le règlement européen sur l’intelligence artificielle prévoit la communication d’un résumé suffisamment détaillé des données d’entraînement des modèles d’IAG au Bureau européen de l’IA, à qui il incombera de vérifier le respect de l’obligation de divulgation des données, mais pas la vérification du respect des dispositions relatives au droit d’auteur (consid. 108 de la version finale de règlement européen établissant des règles harmonisées concernant l’IA).

En outre, le projet de loi américain prend soin de distinguer les opérations d’entraînement des modèles d’IAG des opérations de modification des bases de données d’entraînement des modèles d’IAG. Les entreprises qui entraînent les modèles ne sont parfois pas les mêmes que celles qui modifient les données d’entraînement. Si les entreprises qui entraînent des modèles d’IAG sont principalement responsables du choix des données et du processus d’entraînement, celles qui modifient des bases de données d’entraînement (en changeant la nature ou la qualité des données) e sont également de l’intégrité des données. En distinguant ces deux types d’activités, la loi américaine pourrait s’appliquer à un plus grand nombre d’acteurs. Au sein du règlement européen sur l’intelligence artificielle, l’obligation de divulgation des données d’entraînement s’applique aux « fournisseurs » qui sont définis comme « toute personne (…) qui développe ou fait développer un système d’IA ou un modèle d’IA à usage général et le met sur le marché ou met le système d’IA en service sous son propre nom ou sa propre marque, à titre onéreux ou gratuit » (art. 3, 3), de la version finale de règlement européen établissant des règles harmonisées concernant l’IA).

En tout état de cause, une telle proposition de loi aux États-Unis semble pointer vers une adoption inéluctable d’obligations de divulgation des données d’entraînement des modèles d’IAG, afin d’éviter des procès à répétition dans lesquels la question de la preuve de l’entraînement licite des modèles d’IAG ne cesse de se poser.

Enfin, une des principales différences de cette proposition de loi par rapport au règlement européen sur l’intelligence artificielle est la disposition relative à l’effet rétroactif que pourrait avoir cette loi. Cette disposition s’intéresse explicitement à l’épineuse question du sort des milliards de données déjà utilisées pour l’entraînement des modèles d’IAG à ce jour.

Gestion des données d’entraînement déjà utilisées

Le projet de loi américain s’intéresse donc directement au sort des milliards de données déjà utilisées pour l’entraînement des modèles d’IAG qui ont été mis à disposition du public depuis fin 2022. En disposant que les entreprises ayant entraîné ou modifié la base de données d’un modèle d’IAG déjà mis à disposition du public auront trente jours à compter de l’entrée en vigueur de la loi pour se mettre en conformité avec celle-ci, le pavé est jeté dans la mare.

Reste à envisager la mise en œuvre technique d’une telle obligation, notamment au regard des méthodes de « machine unlearning » qui visent à permettre aux modèles d’IAG d’oublier des données d’entraînement spécifiques sans compromettre leur performance globale et qui sont encore au stade de l’étude. Les rares articles qui traitent du sujet actuellement expriment tous la difficulté technique (pour ne pas dire quasi impossibilité) d’obtenir un « désapprentissage exact » des systèmes d’IA, simplement en retirant des données de leur base d’entraînement (pour approfondir, voir lien suivant).

En dépit des difficultés techniques qui entourent le « machine unlearning », cette disposition du projet de loi a le mérite d’attirer l’attention sur la gestion des données déjà utilisées pour l’entraînement des modèles d’IAG. Sans doute, l’analyse des impacts concurrentiels de l’entraînement des modèles d’IAG par la Federal Trade Commission, communiquée le 29 juin 2023 n’y est pas pour rien. Cette analyse fait état des avantages concurrentiels injustes dont ont profité les entreprises qui ont entraîné leurs modèles d’IAG sur de vastes quantités de données, souvent au mépris des lois. Les bases de données d’entraînement des IAG massives ainsi créées peuvent constituer des barrières d’accès pour de nouvelles entreprises et limiter la concurrence. La Federal Trade Commission préconise donc une régulation spécifique afin de rétablir une concurrence loyale.

Enfin, outre les données d’entraînement déjà utilisées, la course aux données « fraîches » est cruciale pour le développement des modèles d’IAG, car les données actuelles et pertinentes améliorent la précision et la pertinence des modèles d’IAG. Actuellement, les entreprises investissent massivement dans l’acquisition et l’actualisation de leurs bases de données d’entraînement, afin de maintenir leur avantage compétitif. Si les recherches scientifiques venaient à démontrer qu’il est impossible de gérer efficacement l’effacement des données d’entraînement déjà utilisées, la gestion des données d’entraînement « fraîches » est plus que jamais pertinente dans le cadre de la régulation des modèles d’IAG. 

 

© Lefebvre Dalloz