Première décision en Europe sur l’exception de fouille de textes et de données : l’affaire LAION c/ Robert Kneschke

Le Tribunal régional de Hambourg rend la première décision concernant les exceptions de fouille de textes et de données consacrées par la DAMUN. La reproduction d’une photographie dans un set de données n’est pas contrefaisante car couverte par l’exception de fouille de textes et de données à des fins scientifiques.

Dans une décision très attendue, le Tribunal régional de Hambourg rend la première décision impliquant l’exception de fouille de textes et données créée par la directive sur le droit d’auteur et les droits voisins dans le marché unique numérique (Dir. [UE] 2019/790 du Parlement européen et du Conseil du 17 avr. 2019 sur le droit d’auteur et les droits voisins dans le marché unique numérique et modifiant les dir. 96/9/CE et 2001/29/CE [ci-après DAMUN]).

Bien moins discutés à l’époque de l’élaboration de la directive, les articles 3 et 4 de la DAMUN sont pourtant aujourd’hui l’objet de nombreux débats, et tout particulièrement dans leur rapport avec l’intelligence artificielle.

Ces articles introduisent deux exceptions de fouille de textes et de données (ci-après TDM, pour text and data mining). Ces exceptions sont souvent évoquées pour justifier la phase d’entraînement de certains modèles.

La première, à l’article 3, prévoit une exception pour « les reproductions et les extractions effectuées par des organismes de recherche et des institutions du patrimoine culturel, en vue de procéder, à des fins de recherche scientifique, à une fouille de textes et de données sur des œuvres ou autres objets protégés auxquels ils ont accès de manière licite » (DAMUN, art. 3).

La deuxième, à l’article 4, autorise « les reproductions et les extractions d’œuvres et d’autres objets protégés accessibles de manière licite aux fins de la fouille de textes et de données », pour tous les bénéficiaires, sans restriction concernant l’objet des activités de TDM, qu’elles soient exercées à des fins lucratives ou non. La directive prévoit la possibilité pour les titulaires de droit de s’opposer à l’utilisation de leur contenu pour les opérations de TDM (aussi appelé « opt-out »).

Ces exceptions ont donc été transposées dans la législation allemande. L’article 3 de la DANUM est transposé à la section 60d UrhG et l’article 4 à la section 44b UrhG. Pour rappel, ces exceptions sont transposées aux articles L. 122-5-3, R. 122-27 et R. 122-28 du code de propriété intellectuelle en France.

Rappel des faits

L’affaire en l’espèce impliquait LAION, une organisation à but non lucratif allemande, connue notamment pour créer et mettre à disposition des sets de données d’entraînement. L’organisation a publié gratuitement un set de données d’entraînement, le LAION-5B dataset, ayant par exemple été utilisé pour entraîner certains modèles très connus tel que Stable Diffusion.

Ledit dataset comprenait un lien hypertexte vers une image sur Bigstockphoto, un site web que Robert Kneschke, un photographe et le demandeur, utilisait pour promouvoir et vendre ses images. S’il n’est pas contesté que LAION a bel et bien téléchargé une copie d’une photo du photographe en basse qualité et contenant un tatouage numérique (watermarking), les conditions d’utilisation de la plateforme Bigstockphoto interdisaient l’utilisation des images par des « programmes automatisés » (v. à ce propos, Bigstock standard content usage agreement, Part III, Restriction).

Le demandeur invoquait donc une violation du droit de reproduction.

Solution

LAION pouvait potentiellement se prévaloir de trois exceptions : l’exception de reproduction temporaire (v. sect. 44a UrhG), l’exception de fouille de textes et de données (v. sect. 44b UrhG) et l’exception de fouille de textes et de données à des fins de recherches scientifiques (v. sect. 60d UrhG ; M. Brüß, German court finds LAION’s copying of images non-infringing, The IPKat, 28 sept. 2024).

L’exception de reproduction temporaire est rapidement écartée puisque la décision reconnaît qu’une reproduction est bien caractérisée, la copie n’étant ni « transitoire » ni « fortuite », et cela malgré sa suppression. La décision retient ici que LAION pouvait se prévaloir de l’exception de la section 60d UrhG, à savoir l’exception de TDM à des fins de recherche scientifique. Par conséquent, il n’y a pas de violation du droit d’auteur pour la reproduction non autorisée de la photographie.

Apports

Sur l’article 4 – Section 44b UrhG

Bien que les juges n’aient pas eu à se prononcer sur la question du TDM dans le cadre « commercial », ils fournissent des pistes de raisonnement intéressantes sur les conditions d’application potentielle de la section 44b (DAMUN, art. 4).

Sur l’opt-out

Comme expliqué précédemment, il est possible de s’opposer à l’exception prévue par l’article 4 de la DAMUN, si les parties ont émis une réserve de droit à la manière d’un opt-out. La réservation doit être exprimée « […] de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne. » (DAMUN, art. 4, § 3). Le considérant 18 de la directive, quant à lui, fournit certaines indications quant à la réservation des droits. Elle peut être « […] effectuée au moyen de procédés lisibles par machine, y compris des métadonnées et les conditions générales d’utilisation d’un site internet ou d’un service. […] Dans d’autres cas, il peut être approprié de réserver les droits par d’autres moyens, comme des accords contractuels ou une déclaration unilatérale » (DANUM, consid. 18).

En l’espèce, une réservation des droits était présente dans les conditions d’utilisation du site internet sur lequel la photographie était mise à disposition. Toutefois, cette réservation n’était pas sous la forme de « procédés lisibles par machine » mais sous la forme d’un texte en langage naturel. La question était donc de déterminer si cela constituait un opt-out approprié au sens de la directive. Lors de l’audience de plaidoiries de juillet 2024, LAION arguait que l’opt-out aurait dû être manifesté via un protocole « robots.txt » ou sous une forme similaire tandis que le photographe soutenait que l’opt-out contenu dans les conditions d’utilisation était bien « lisible par machine », en s’appuyant notamment sur le considérant 18 de la directive (v. P. Keller, Machine readable or not ? – notes on the hearing in LAION e.v. vs Kneschke, Kluwer Copyright Blog, 22 juill. 2024).

Sur cette question, le tribunal retient que l’opt-out manifesté était conforme à la directive et constituait une réservation lisible par machine. Le tribunal tempère son raisonnement en indiquant que la question de savoir si une réservation en « langage naturel » peut constituer une réservation conforme à la directive doit être appréhendée à la lumière des développements techniques existant au moment de l’utilisation de l’œuvre. La décision souligne également l’obligation pour les fournisseurs de systèmes d’IA de mettre en place une stratégie, en particulier, pour identifier et respecter les réserves de droits revendiquées dans le cadre de la DANUM, « y compris au moyen de technologies de pointe » (Règl. [UE] 2024/1689 du 13 juin 2024, JOUE 12 juill., ci-après RIA, art. 53 (1), c, Dalloz actualité, 25 sept. 2024, obs. E. Migliore). Or, pour le tribunal, ces « technologies de pointe » comprennent sans aucun doute les systèmes d’IA capables de saisir le contenu d’un texte écrit en langage naturel (v. not., A. Guadamuz, LAION wins copyright infringement lawsuit in German court, TechnoLlama, 28 sept. 2024).

L’exception de TDM couvre-t-elle les activités d’entraînement des systèmes d’IA génératifs ?

La décision revient également sur un sujet d’importance concernant les articles 3 et 4 de la DANUM, à savoir leur potentielle mobilisation dans le cadre de l’entraînement des systèmes d’IA. Le tribunal détermine trois étapes clés lors de l’entraînement d’un système d’IA : la création d’un set de données, l’utilisation du set de données pour l’entraînement ultérieur d’un réseau neuronal et enfin l’utilisation ultérieure du système d’IA entraîné pour créer de nouveaux contenus d’images (v. à ce propos, A. Guadamuz, LAION wins copyright infringement lawsuit in German court, préc.).

La décision se concentre essentiellement sur la première étape, objet du litige. Sur ce point, la décision considère que le scraping, suivi d’une analyse technique, opéré par LAION, peut être considéré comme une opération de TDM au sens de la section 44b UrhG.

Le raisonnement suivi est particulièrement intéressant puisqu’il est souvent avancé qu’à l’époque de l’élaboration de la directive, les systèmes d’IA n’étaient pas envisagés et que par conséquent, les exceptions créées ne s’appliquent pas dans ce contexte. Cet argument ne convainc pas le tribunal. La décision explique tout d’abord que l’évolution technique importante dans le domaine de l’IA ne concerne pas tant les opérations de TDM pour créer des sets de données d’entraînement mais plutôt la performance des réseaux neuronaux artificiels entraînés avec les datasets. Enfin, elle relève que le législateur européen actuel a exprimé sans équivoque dans le RIA que la création de datasets destinés à l’entraînement de réseaux neuronaux artificiels relève de l’article 4 de la DAMUN (RIA, art.53). Cependant, elle ne se prononce pas réellement sur la question de l’entrainement des systèmes d’IA.

Sur le test en trois étapes

Le tribunal se prononce également sur la compatibilité des exceptions créées avec le test en trois étapes. Ce test exige que les exceptions créées soient limitées à certains cas spéciaux, ne portent pas atteinte à l’exploitation normale de l’œuvre et ne créent pas un préjudice injustifié aux intérêts légitimes du titulaire du droit (Dir. n° 2001/29/CE du 22 mai 2001 [Dir. Infosoc], art. 5, § 5).

Il est parfois argué que les exceptions de TDM ne sont pas compatibles avec le test en trois étapes, notamment en ce qui concerne l’article 4, dans le cadre des IA génératives (v. à ce sujet, S. Le Cam et F. Maupomé, IA génératives de contenus : pour une obligation de transparence des bases de données !, Dalloz actualité, 11 mai 2023 ; V.-L. Bénabou, Du test en trois étapes au domaine public payant – Quelques idées pour mieux associer les titulaires de droit à la production des intelligences artificielles génératives dans le champ de la création intellectuelle, Le « chat » et la souris, 11 déc. 2023).

La décision reconnaît que, dans ce cas précis, les conditions du test en trois étapes sont réunies. Tout d’abord, la reproduction est limitée à l’analyse des fichiers d’images afin de vérifier leur correspondance avec une description d’image existante, ainsi qu’à leur inclusion dans un ensemble de données. De plus, il n’est pas démontré que les possibilités d’exploitation des œuvres concernées sont affectées négativement par cette utilisation. Bien que le set de données créé puisse ensuite servir à entraîner des réseaux neuronaux artificiels pouvant être utilisés pour générer du contenu entrant en concurrence avec les œuvres d’auteurs humains, cela ne suffit pas en soi à considérer que la création des sets de données comme une atteinte aux droits d’exploitation des œuvres (pour une critique, v. E. Rosati, The German LAION decision : a problematic understanding of the scope of the TDM copyright exceptions and the transition from TDM to AI training, The IPKat, 7 oct. 2024).

Sur l’accès licite

La question de ce que constitue un accès licite au sens de la directive est également abordée (v. T. Margoni, Saving research, Lawful access to unlawful sources under Art. 3 CDSM Directive ?, Kluwer Copyright Blog, 22 déc. 2023). En l’espèce, il est considéré que la condition d’accès licite est remplie, et cela même s’il s’agissait d’une image de prévisualisation avec un tatouage numérique mise à disposition en ligne dans une bibliothèque d’images, et bien que l’accès à l’image en bonne qualité sans filigrane nécessite un accord de licence (pour une critique, v. E. Rosati, The German LAION decision : a problematic understanding of the scope of the TDM copyright exceptions and the transition from TDM to AI training, préc.)

Sur l’article 3 – Section 60d UrhG, exception à des fins scientifiques

La section 60d UrhG permet les opérations de TDM à des fins scientifiques sous certaines conditions. Le tribunal décide que les reproductions opérées par LAION sont bien effectuées à des fins scientifiques, et sont donc couvertes par l’exception.

Le tribunal précise que la notion de recherche scientifique ne doit pas être appréhendée trop étroitement. Bien que la création du dataset en tant que telle n’est pas encore associée à un gain de connaissances, cela constitue une étape essentielle pour un futur gain de connaissances. Il est suffisant que le dataset soit publié gratuitement, cela pouvant permettre à des chercheurs d’en bénéficier et donc de créer un gain de connaissance (v. M. Brüß, German court finds LAION’s copying of images non-infringing, préc.).

De plus, pour pouvoir bénéficier de l’exception de la section 60d UrhG, LAION devait poursuivre des objectifs non commerciaux, ce qui est le cas en l’espèce. Cela est notamment prouvé par le fait que l’organisation mette à disposition gratuitement le set de données, et cela même si ledit set peut être réutilisé par la suite par des organisations commerciales et que deux membres de LAION aient travaillé pour une entreprise commerciale. Il n’est également pas démontré un contrôle effectif sur les opérations de LAION par une société commerciale ou un accès préférentiel aux résultats de la recherche scientifique de LAION (M. Brüß, German court finds LAION’s copying of images non-infringing, préc.).

Portée

Cette affaire est manifestement historique puisqu’il s’agit de la première affaire impliquant les exceptions des articles 3 et 4 créées par la DANUM, notamment appliqué à l’IA.

Toutefois, sa portée reste limitée et de nombreuses questions restent en suspens. En effet, de nombreuses interrogations ne sont pas résolues notamment vis-à-vis de la relation entre TDM et entraînement des systèmes d’IA, même si des pistes de réflexion sont offertes.

Il est aussi regrettable que la décision n’évoque que rapidement la question de la mise à disposition au public, sans restriction quant à l’usage et au but, du dataset. En effet, cela permet à des sociétés commerciales d’utiliser un dataset agrégé grâce à une exception pour la recherche pour l’entraînement de systèmes d’IA de sociétés commerciales. La décision se borne à expliquer que cette mise à disposition gratuite n’empêche pas de remplir les conditions de la section 60d UrhG pour LAION, sans traiter le fond du problème (v. A Baio, AI Data Laundering : how Academic and Nonprofit Researchers Shield Tech Companies from Accountability, Waxy.org, 30 sept. 2022).

La décision ne règle également pas la question de nouvelles reproductions effectuées lorsque des recherches sont effectuées dans le set de données, permettant notamment de récupérer des images en taille réelle, ou encore la question de la communication/mise à la disposition du public, par exemple, des images affichées dans le dataset (v. E. Rosati, The German LAION decision : a problematic understanding of the scope of the TDM copyright exceptions and the transition from TDM to AI training, préc.).

Cette affaire souligne également l’importance de la transparence, puisqu’en présence de transparence sur les données, cela permet aux titulaires de droits de faire valoir leurs droits, ce qui est notamment désormais pris en compte par le règlement sur l’intelligence artificielle (UE) 2024/1689 du 13 juin 2024 (v. RIA, art. 53 ; v. égal., l’aff. Books3 aux États-Unis, Anti-Piracy Group Takes Massive AI Training Dataset "Books3" Offline, Gizmodo, 18 août 2023).

Le demandeur dispose d’un délai d’un mois pour faire appel de la décision.

 

Tribunal de Hambourg, 27 sept. 2024, n° 310 O 227/23 (en allemand)

Lefebvre Dalloz