Intelligence artificielle générative : entre adoption d’un règlement européen et nouvelle action américaine contre la violation massive du copyright du New York Times

16.02.2024

Alors que le projet de règlement sur l’intelligence artificielle connaissait une avancée importante, avec un accord du Parlement et du Conseil de l’Union sur cette « législation sur l’IA », telle que proposée par la Commission en avril 2021 (COM [2021] 206 final), amendée par le Parlement, le 9 décembre 2023, une nouvelle plainte contre les acteurs essentiels de l’IA générative que sont OpenAI et Microsoft saisissait les juges américains pour contrefaçon massive des droits d’auteur du New York Times. C’est à l’aune des dispositions du règlement, tel que « validé » par les vingt-sept États membres (version de la présidence belge du 26 janv. 2024), après des mois d’opposition française et allemande, il y a quelques jours, le 2 février dernier, que nous revenons sur cette plainte américaine.

Soutenant notamment que « l’apprentissage » des modèles GPT implique des reproductions non autorisées de plusieurs milliers d’œuvres protégées, et que les « productions » de l’IA générative constituent parfois des reproductions à l’identique des articles du New York Times ou des œuvres dérivées, alors que des licences pouvaient être obtenues, le New York Times sollicite des dommages et intérêts et une injonction interdisant la poursuite de la contrefaçon à grande échelle par OpenAI et Microsoft.

Bien entendu l’intelligence artificielle (IA) et les nombreuses questions soulevées, en droit d’auteur notamment, par son développement et utilisation, sont sur toutes les lèvres. Plus d’une centaine d’articles, en français et dans la doctrine anglophone traitent de ces différentes interrogations et de plus en plus s’intéressent à la question de savoir si les systèmes algorithmiques d’intelligence artificielle générative supposent et conduisent à des actes soumis à autorisation, actes de reproduction ou de représentation de certaines œuvres protégées par le droit d’auteur ou, outre-Atlantique, par le copyright, et, si tel est le cas, sur la question de savoir si l’usage réalisé est susceptible de relever d’exceptions. Si aux États-Unis on s’interroge sur l’application de l’exception de fair use, dans l’Union européenne, c’est essentiellement sur l’application de l’exception de fouilles de textes et de données, que la doctrine se concentre. Le règlement, dans ses dernières versions, n’envisage d’ailleurs explicitement que cette exception et paraît clairement en admettre l’application aux bases d’apprentissage et de spécialisation des systèmes d’intelligence artificielle, en exigeant des fournisseurs qu’ils respectent notamment l’opt-out choisi par les titulaires de droits d’auteur (consid. 60 f, 60 i et 60 j).

De nombreuses actions collectives ont été initiées contre OpenAI, à propos de ChatGPT (en plus de celle qui nous retient, celles de Sancton v. OpenAI Inc. et al, 21 nov. 2023, de Authors Guild et al v. OpenAI Inc. et al, 19 sept. 2023, de Chabon v. OpenAI, Inc., 8 sept. 2023, de OpenAI, Inc. v. Open Artificial Intelligence, Inc., 4 août 2023, de Doe 3 et al v. GitHub, Inc. et al, 10 nov. 2022, de Doe 1 t al v. GitHub, Inc. et al, 3 nov. 2022, de T. et al v. OpenAI LP et al, 5 sept. 2023, de Walters v. OpenAI LLC, 4 juil. 2023, de Silverman, et al v. OpenAI Inc., 7 juil. 2023, de Tremblay v. OpenAI Inc., 28 juin 2023, et de PM et al v. OpenAI LP et al, 28 juin 2023). D’autres actions concernent également des sociétés impliquées dans le développement et la mise à disposition d’autres intelligences artificielles génératives – l’expression est aujourd’hui celle communément usitée – et notamment de Midjourney ou du grand modèle linguistique Meta AI.

La plainte du New York Times contre OpenAI est la 12^e action contre cet acteur essentiel du développement des différentes versions de ChatGPT et la seconde mettant en cause la société Microsoft du fait de son implication dans ce développement et dans la commercialisation de produits dérivés de l’IA générative.

En effet, le 21 novembre, à l’initiative de M. Sancton, une « demande » pour une action collective contre ces deux sociétés était déposée devant la District Court Southern District of New York (US District Court Southern District of New York, 21 nov. 2023, Sancton v. OpenAI Inc. et al., n° 23-cv-10211-UA). À l’origine de cette action sans doute, la réponse de ChatGPT au demandeur : « Oui, le livre de J. Sancton (..) est inclus dans mes données d’entraînement » (§ 66). La plainte du New York Times – de 69 pages –, comme ce recours, sont bien plus précis et détaillés s’agissant du fonctionnement de l’IA, des actes argués réalisés par OpenAI et Microsoft que les précédents recours.

Le New York Times s’est particulièrement attaché à répondre à une exigence essentielle : la preuve des actes soumis par principe à autorisation. On relèvera d’ailleurs que les décisions des juges fédéraux déjà intervenues aux États-Unis s’agissant d’actions contre les fournisseurs de systèmes d’intelligence artificielle génératifs, pour des faits allégués de collecte, de stockage d’œuvres et de production d’œuvres dérivées, répondent à des incidents de procédures, sans mettre fin à ces dernières : les demandes formulées ont en effet été considérées, à raison, imprécises ou manquant de preuve suffisante des faits allégués. Dans ces deux procédures, les juges fédéraux ont, par voie d’ordonnance, accordé aux demanderesses l’autorisation de modifier leur assignation afin de leur permettre de clarifier leurs arguments (District Court, California, 30 oct. 2023, Andersen v. Stability AI Ltd., n° 23-cv-00201, Dalloz actualité, 10 nov. 2023, obs. B. Jeulin ; 20 nov. 2023, Richard Kadrey et al. v. META Platforms Inc., n° 23-cv-03417-VC).

Après avoir rappelé l’histoire du journal et l’importance d’une presse de qualité pour le débat démocratique, la plainte du New York Times évoque l’histoire d’OpenAI. Elle souligne que l’intention de départ, altruiste, des sociétés OpenAI (ci-après nommées collectivement OpenAI), avec une politique d’open-source, a disparu très vite pour une finalité lucrative, une politique du secret, et une association avec Microsoft. La clarification de ce contexte est louable. Elle permet de mettre en lumière le but lucratif des activités de ces sociétés. D’ailleurs, selon l’agence Reuters, OpenAI espérait réaliser en 2023 un chiffre d’affaires de 200 millions de dollars et d’un milliard en 2014 – et le New York Times précise dans ses écritures qu’OpenAI génère 80 millions par mois et serait sur le point de dépasser le billion pour l’année à venir.

La plainte du New York Times explicite les rapports entre OpenAI et Microsoft, qui non seulement est le principal investisseur d’OpenAI (pour 13 billions de dollars, § 74) mais, depuis 2019, est intimement impliqué dans l’entraînement, le développement et la commercialisation des produits GPT d’OpenAI ou associés (§ 66). Le New York Times souligne le fait que Microsoft est le seul fournisseur de cloud computing d’OpenAI et rapporte notamment les propos d’une de ses représentantes, M^me Nadella, indiquant que Microsoft construit l’infrastructure pour entraîner les modèles d’apprentissage d’OpenAI. Le New York Times précise la collaboration d’OpenAI et Microsoft concernant le moteur de recherche Bing, lequel, pour résumer et simplifier, associe un chatbot (que l’on pourrait presque traduire d’assistant virtuel de conversation…) d’IA générative basée sur GPT 4. La plainte souligne que cette collaboration dans la création et la commercialisation des modèles GPT ou de produits « reposant » sur la technologie GPT d’OpenAI, relève d’un écosystème et d’un modèle d’affaires fondés sur une contrefaçon massive (la plainte ne concerne pas seulement les atteintes au copyright, mais c’est cet aspect qui me retiendra à titre principal).

Le New York Times insiste, pour justifier son action, sur le fait que le journalisme indépendant – à l’existence duquel il a contribué depuis plus de 170 ans – est vital à la démocratie. L’utilisation illégale des contenus protégés du New York Times (parmi d’autres articles d’autres journaux mais qui sont moins exploités que ceux du New York Times par les défendantes) pour créer des produits d’intelligence artificielle générative menace son rôle et donc le débat démocratique. Au travers de Bing Chat de Microsoft et ChatGPT d’OpenAI, les défendantes profitent des investissements massifs du New York Times pour porter un journalisme indépendant et de qualité, usent des articles protégés et enregistrés par le journal pour créer et exploiter des produits de substitution, sans autorisation.

Le New York Times formule plusieurs demandes sur des fondements différents.

La première en contrefaçon primaire ou « directe » (17 U.S.C., § 106). Il reproche en effet à OpenAI d’avoir construit des bases ou ensembles de données d’apprentissage, contenant des copies des œuvres sur lesquelles le New York Times dispose d’un copyright. Il allègue ainsi qu’OpenAI et Microsoft réalisent des actes de contrefaçon en stockant, traitant et reproduisant les « datasets d’apprentissage » composées notamment des œuvres du New York Times pour « entraîner » les modèles GPT. La contrefaçon est également caractérisée selon le New York Times à raison de la diffusion des contenus générés par IA (Chat GPT et Bing Chat) qui reproduisent les œuvres du New York Times ou en sont des œuvres dérivées.

Une deuxième demande en contrefaçon secondaire (vicarious copyright infringement, 17 U.S.C., § 106) est justifiée par le New York Times à l’encontre de Microsoft notamment pour avoir contrôlé, dirigé et profité, d’une part de l’atteinte perpétrée par OpenAI, et d’autre part pour avoir contrôlé et dirigé la plateforme en ligne supportant les ensembles de données litigieux.

Une troisième demande est fondée sur une contrefaçon secondaire différente (contributory copyright infringement), autrement dit pour la fourniture de moyens par les défendantes, pour Microsoft, en fournissant l’infrastructure ayant permis la contrefaçon et, avec OpenAI, en développant des « grands modèles de langage » (GPT LLMs) capables de diffuser des copies non autorisées des articles du New York Times, notamment.

Une quatrième demande est fondée sur le Digital millennium copyright Act, pour atteintes aux mesures techniques d’information (removal of copyright management information, 17 U.S.C., § 1202). Les cinquième et sixième demandes sont fondées sur la concurrence déloyale d’une part et sur la doctrine de la « trademark dilution » (15 U.S.C., § 1225 [c]), pour usages non autorisés des marques du New York Times portant atteinte à leur réputation, mais aussi par les attributions fausses de contenu au New York Times.

Sur ces fondements, le New York Times sollicite d’une part des dommages et intérêts (statutory and compensatory damages) et d’autre part une injonction permanente interdisant aux défendantes de poursuivre leurs activités illégales, injustes et contrefaisantes et la destruction (17 U.S.C., § 503 [b]) des modèles de langage et ensembles de données d’entraînement qui incorporent les articles du New York Times.

Sans reprendre dans le détail les arguments du New York Times, bien entendu, il est possible de relever sa volonté d’expliciter le fonctionnement des modèles d’intelligence artificielle, comme GPT afin de démontrer (ou prétendre à) la réalisation d’actes de reproduction et de représentation non autorisés (pour reprendre des termes familiers au juriste de droit français), tant en amont de l’utilisation de l’IA générative, que lors de cette utilisation, et en aval, par les « contenus » générés. Le New York Times s’efforce de produire des éléments de preuve concrets à l’appui de ses prétentions (§ 99 s.).

La « construction » de l’IA générative suppose deux sortes de corpus d’entraînement, indique le plaignant. Un pré-entraînement en quelque sorte intervient, pour ensuite affiner les paramètres servant à l’IA pour « apprendre » et « produire ». S’agissant de ces ensembles de données d’entraînement, le demandeur se réfère à la plateforme Github, regroupant des millions de développeurs, sur laquelle une page précise que, pour GPT-2, le corpus d’entraînement WebText d’OpenAI, inclut des « contenus » du New York Times, « scrapés », c’est-à-dire extraits et copiés, ceux-ci se trouvant dans le « top 15 » de ceux utilisés. Le New York Times allègue également que WebText2, qui contribue à « l’apprentissage » du modèle GPT-3, et a été créé pour prioriser les contenus de haute valeur, inclut pour une part importante les « contenus » du New York Times. On remarquera que si ces informations ont été divulguées par OpenAI, elles sont rares en ce qui concerne GPT-4 comme le souligne le demandeur.

Selon le New York Times, la constitution des ensembles de données d’apprentissage suppose donc des reproductions et des stockages de ses articles. Si l’on peut s’interroger sur la nature des données ou informations encodées dans un modèle d’inférence il apparaît que ces données peuvent être des œuvres et que la constitution des corpus d’entraînement suppose a priori leur reproduction et stockage (ce qui est une forme de reproduction). Mais sans répondre à la question, certains interrogent la nature des actes pour la constitution des corpus d’apprentissage en soulignant qu’il s’agit seulement d’apposer des balises ou des tags sur les œuvres.

Si tel est le cas, on pourrait alors considérer qu’il n’y aurait pas, a priori, de reproduction, sauf à ce que cette « apposition » suppose une reproduction « technique » (au sens des art. L. 122-5, 6°, CPI et 2.1 de la dir. 2001/29/CE) qui constitue une reproduction n’échappant au titulaire de droits qu’à la condition de ne pas avoir de valeur économique propre, ce qui n’est assurément pas le cas, on le comprendra aisément. Un autre argument pourrait être développé par un défendeur, en Europe à tout le moins. En effet, la Cour de justice a jugé que si la reproduction par un utilisateur d’un échantillon sonore, même très bref, d’un phonogramme doit, en principe, être considérée comme une reproduction « en partie » de celui-ci, donc soumise à autorisation du titulaire de droits, l’utilisation d’un tel sample, sous une forme modifiée et non reconnaissable à l’écoute, dans une nouvelle œuvre, ne constitue pas une reproduction… (CJUE, gr. ch., 29 juill. 2019, Pelham, aff. C-476/17, D. 2019. 1742 , note G. Querzola ; Dalloz IP/IT 2019. 465, obs. N. Maximin ; ibid. 2020. 317, obs. A. Latil ; Légipresse 2019. 452 et les obs. ; ibid. 541, obs. V. Varet ; ibid. 2020. 69, étude C. Alleaume ; RTD com. 2020. 74, obs. F. Pollaud-Dulian ; RTD eur. 2019. 927, obs. E. Treppoz ; ibid. 2020. 324, obs. F. Benoît-Rohmer ). L’absence de reproduction pourrait donc être alléguée sur le fondement d’une transposition du raisonnement en droit d’auteur. Mais le nouveau règlement sur l’IA semble bien consacrer l’existence d’une reproduction dans la mesure où il exige de respecter l’exception prévue à l’article 4 de la directive (UE) 2019/790, communément dénommée « directive DSM » (consid. 60 f et 60 j).

Au regard des efforts du New York Times pour négocier des autorisations, mentionnés dans la plainte, une transaction pourrait intervenir, dans le cas contraire, la décision à venir nous éclairera peut-être sur cette question de l’existence d’un acte de reproduction en amont. On remarquera néanmoins que pour se défendre, OpenAI et Microsoft arguent de l’application du fair use pour usage transformatif (l’argument des défendantes n’est évidemment pas développé dans la plainte du demandeur dont on propose ici une succincte présentation). Or se défendre sur le fondement du fair use présuppose d’admettre la réalisation d’actes portant atteinte aux droits du New York Times…

Le demandeur allègue également – et rappelons que la présentation faite n’est pas exhaustive – en ce qui concerne « l’aval », c’est-à-dire la phase de génération des contenus sollicités par les utilisateurs, que l’utilisation des IA génératives comme les modèles GPT (GPT LLMs), conduit, lorsqu’ils sont invités à le faire par les « prompts », à des productions dans lesquelles se retrouvent, à l’identique ou transformées, (constituant alors des œuvres dérivées), des œuvres et notamment celles protégées par le copyright du New York Times. Le demandeur souligne ainsi, preuve à l’appui, que ces IA génératives « mémorisent » donc de nombreuses copies de ses articles, ce qui prouve la reproduction en amont, dans les bases d’entraînement de l’IA et en aval, par les productions de l’IA. Bien entendu, comme le remarque le professeur Jean-Marc Deltorn (J.-M. Bruguière et J.-M. Deltorn, Y a-t-il exploitation des œuvres, au sens du droit d’auteur ? N’y aurait-il pas d’autres modèles à considérer ?, D. 2023. 1657 ), les modèles génératifs n’ont pas pour objectif de dupliquer les données d’entraînement (donc il y a bien parmi elles, potentiellement, des œuvres puisqu’on les retrouve comme productions…). La reproduction est découragée lors de l’apprentissage, des moyens étant mis en œuvre pour éviter la tendance à « l’over-fitting ». Reste que parfois, c’est le cas, il y a mémorisation et « restitution » d’un contenu protégé, et que donc il y a bien reproduction d’œuvres le cas échéant, par un procédé qui permet leur communication au public de manière indirecte puisque, dans le cas des articles du New York Times, on peut, parfois, les lire ! Reproduction donc et communication au public que ce soit de l’œuvre en elle-même ou parfois d’une œuvre dérivée.

Il faut néanmoins souligner que dans sa plainte, le New York Times évoque souvent des productions de l’IA générative qui reprennent le style des articles de ce journal.

Mais ni le copyright ni le droit d’auteur ne protège le style. Et l’on doit également admettre que parfois, il n’est pas de nombreuses et différentes manières de traiter une information dans un article de presse. Pour qu’il y ait reproduction ou transformation dans une œuvre dérivée, encore faut-il qu’il y ait une reprise des éléments conférant à l’œuvre son originalité.

J’évoque à l’instant la transformation et, évidemment, la question qui suit celle de la caractérisation d’actes de reproduction ou de communication au public, pour reprendre la terminologie du droit français, est celle de l’application d’éventuelles exceptions qui justifieraient la licéité de ces actes. En droit français ou de l’Union, on songe à l’exception de reproduction technique pour certaines reproductions en amont, lors de la phase d’apprentissage, on l’a vu, et de fouille de textes et de données. Mais à l’aune du droit américain, le terme de transformation évoque tout de suite le fair use. Le New York Times répond très brièvement à cet argument (§ 8) en considérant qu’il n’y a aucun usage transformatif à utiliser ses contenus protégés pour créer des produits qui se substituent aux contenus du New York Times et en détourne l’audience. La réponse d’OpenAI dans le cadre de cette procédure sera sans doute forte et l’on en a un aperçu déjà dans une réponse publique publiée le 8 janvier 2024 (OpenAI and journalism). La décision des juges sera particulièrement intéressante sur ce point, en l’absence de transaction. Mais l’on peut déjà se remémorer l’affaire Google books, spécialement, dans laquelle les juges avaient admis le bénéfice du fair use au profit de la société Google. Les reproductions réalisées par la société Google permettaient la diffusion de courts extraits (de « mauvaise qualité » empêchant donc a priori la reconstitution des ouvrages selon la cour d’appel, ce qui pouvait être discuté) accessibles sur demande des utilisateurs du moteur de recherche en sélectionnant un mot, une phrase, un passage, un titre ou un nom. La décision du 16 octobre 2015 dans cette affaire, soulignait le caractère transformatif de l’utilisation des œuvres : la création par Google d’une copie numérique pour assurer une fonction de recherche est un usage transformatif qui améliore les connaissances du public en rendant disponibles les informations sur les livres des plaignants et l’affichage d’extraits ne menace pas les titulaires de droits d’une perte significative de la valeur de leurs droits ni ne diminue leurs revenus liés à ces droits (US Court of Appeal for the 2^ndcircuit, Authors Guild v. Google Inc., 16 oct. 2015).

La décision américaine qui pourrait intervenir sur la plainte du New York Times sera, à n’en pas douter, sur cette question du fair use, une décision clé. Affaire à suivre donc !

En droit de l’Union, comme cela a été souligné, les derniers développements relatifs à l’IA Act au niveau de l’Union européenne, semblent en faveur d’une application de l’exception test et data mining. Mais le règlement, dans sa version du 26 janvier, évoque une obligation de transparence, imposant aux fournisseurs de ces IA de livrer des informations sur les data sets servant à l’apprentissage des systèmes. Il reste que le respect du droit d’auteur, qui n’apparaissait pas comme une priorité dans la proposition de la Commission, suppose comme c’est rappelé au considérant 60 i, une autorisation des titulaires de droits en l’absence d’exception ou limitation applicable. Mais son respect est imposé de manière diffuse ou vague dans la plupart des considérants qui le visent. Non seulement toutes les données, dont celles éventuellement protégées, n’ont pas à être identifiées ou divulguées, mais c’est principalement une obligation de mise en œuvre d’une politique de respect du droit d’auteur qui est exigée ou une formule précisant que la construction ou la fourniture de ces systèmes doivent être « sans préjudice » des droits d’auteur ou droits voisins », qui est plusieurs fois utilisée. Un point important néanmoins, le règlement qui distingue quatre types d’IA pour fixer les obligations de leurs fournisseurs, en fonction des risques qu’elles présentent – risque inacceptable, élevé, limité ou minimal – prévoit en son art. 52, § 3, une obligation pour les systèmes d’IA générative (d’images, de vidéos ou d’audios), de préciser que le contenu généré l’est par une IA.

Sans développer davantage ici la présentation de ce règlement sur l’IA, il constitue à l’évidence une avancée substantielle quant à la réglementation de ces systèmes, bien que le respect du droit d’auteur ne soit au cœur de celle-ci.

US District Court Southern District of New York, The New York Times Company v. Microsoft Corp., OpenAI Inc. et al., 27 déc. 2023