Gema c/ OpenAI : la mémorisation des modèles d’IA au secours des titulaires de droits ?

L’Allemagne offre de nouveau une décision abordant l’interaction entre droit d’auteur et systèmes d’intelligence artificielle. Par une décision du 11 novembre 2025, le Tribunal régional de Munich I se penche sur la question du droit de reproduction dans le modèle d’IA, dans les sorties générées mais également de l’applicabilité de certaines exceptions aux opérations techniques de la chaîne de l’IA, comme les exceptions de fouille de textes et de données.

Les premières décisions concernant les rapports entre droit d’auteur et intelligence artificielle (IA) commencent à fleurir en Europe. Après Getty Images c/ Stability début novembre au Royaume-Uni, et Hambourg l’année dernière, c’est au tour du tribunal régional de Munich de se prononcer dans l’affaire Gema c/ OpenAI, sur des questions de droit d’auteur dans le contexte de l’IA.

Les faits et questions de l’affaire

Gema, la demanderesse, est une société de gestion collective qui exerce les droits d’utilisation des œuvres musicales qui lui sont cédés par des compositeurs, des paroliers et des éditeurs de musique.

Les défendeurs sont deux entités du groupe OpenAI. OpenAI est une société développant et exploitant des technologies d’IA, dont le très connu outil ChatGPT. Le premier défendeur à l’action, établi en Irlande, propose le chatbot aux utilisateurs de l’Espace économique européen (EEE) depuis le 14 décembre 2023. Le deuxième défendeur, établi aux États-Unis, proposait ce service depuis son lancement le 30 novembre 2022, et offre l’application mobile en Allemagne.

En l’espèce, Gema avance que des paroles de neuf chansons différentes ont été reproduites sous forme de sorties générées par ChatGPT, par le biais de prompts assez simples. Gema souligne qu’aucune recherche en ligne n’a été effectuée par le chatbot pour générer les résultats, cette fonction ayant été expressément désactivée. Il s’agit ici d’une précision importante puisque dans d’autres affaires, telles que l’affaire New York Times c/ OpenAI ou Getty Images c/ Stability, il était parfois rétorqué que la génération de sorties contrefaisantes avait été possible du fait de certains comportements irréalistes, qu’aucun utilisateur normal n’aurait adopté.

Gema accuse alors OpenAI d’utiliser du contenu protégé par le droit d’auteur sans compensation financière. Le litige est porté devant le Tribunal régional de Munich I, sur le fondement d’atteintes au droit d’auteur et aux droits de la personnalité liées à l’utilisation de textes de chansons d’auteurs allemands dans des systèmes d’intelligence artificielle générative. Le jugement final a été rendu le 11 novembre 2025.

Les infractions alléguées par la demanderesse

La demanderesse allègue plusieurs atteintes, mais le présent commentaire se concentrera principalement sur certaines infractions concernant le droit d’auteur.

Tout d’abord, Gema avance qu’il est incontesté que les paroles des chansons litigieuses ont été incluses dans les données d’entraînement utilisées pour entraîner les modèles des défendeurs. La demanderesse affirme que cette inclusion a conduit à la mémorisation des paroles litigieuses dans les modèles. Cette mémorisation constitue, selon la demanderesse, une reproduction au sens du droit d’auteur.

Pour rappel, la mémorisation est un phénomène pouvant se produire dans les modèles de base tels que les grands modèles de langage (v. à ce sujet, N. Carlini, D. Ippolito, M. Jagielski, K. Lee, F. Tramer et C. Zhang, Quantifying Memorization Across Neural Language Models, 6 mars 2023). Cela signifie que le modèle peut mémoriser une partie des données d’apprentissage et, lorsqu’il y est invité de manière appropriée, il peut reproduire de façon exacte certaines de ces données en sortie. Il est aussi avancé par certains auteurs que lorsque de la mémorisation est observée, cela signifie que les données d’entraînement sont également reproduites dans les paramètres du modèle, et non seulement en sortie du modèle (v. à ce sujet, A. F cooper et J. Grimmelmann, The Files are in the Computer : On Copyright, Memorization, and Generative AI, Chicago Kent Law Review, 2025).

Dans un second temps, la demanderesse allègue que la mémorisation entraîne la régurgitation, c’est-à-dire la production de contenu en sortie qui reproduit explicitement des données d’entraînement spécifiques, et donc une reproduction au sens du droit d’auteur. Ces sorties devraient également être classées comme des « divulgations publiques » conformément à l’article 19a de la loi allemande sur le droit d’auteur (UrhG). De plus, certaines des paroles générées, bien que suffisamment reconnaissables, le sont sous forme modifiées. De ce fait, la demanderesse estime qu’il s’agit ici d’une atteinte à ses droits en tant qu’adaptations au sens de l’article 23, § 1, de l’UrhG.

Enfin, la demanderesse soutient que la mémorisation et la régurgitation ne sont pas justifiées par certaines exceptions prévues, telle que l’exception de fouille de textes et de données (text and data mining, TDM), notamment en raison de la réserve de droits (l’opt-out) manifestée.

La question de la territorialité

La décision aborde spécifiquement la question de la compétence territoriale et du droit applicable pour ce litige, une question très importante dans le cas de l’IA. En effet, de nombreux acteurs sont généralement impliqués, opérant et réalisant certaines actions techniques depuis des territoires différents. Cette question épineuse est notamment adressée par le RIA (Règl. [UE] n° 2024/1689 du 13 juin 2024, JOUE 12 juill., art.2).

La décision établit ici que le Tribunal régional de Munich I est compétent. Concernant le premier défendeur, établi à Dublin, en Irlande, la compétence internationale et locale se fonde sur l’article 7, alinéa 2, du règlement Bruxelles I bis. Ce défendeur offre le chatbot aux utilisateurs basés dans l’EEE. Pour le second défendeur, établi aux États-Unis, la compétence est basée sur le § 32 du code de procédure civile allemand (le ZPO). Ce défendeur proposait initialement le service et offre l’application mobile qui peut être téléchargée dans la République fédérale d’Allemagne. Il est aussi précisé que les défendeurs fournissent le chatbot et les modèles d’IA sur des serveurs situés à divers endroits de l’EEE, y compris un emplacement dans la République fédérale d’Allemagne.

La décision détermine également que le droit applicable est le droit allemand. Concernant les atteintes au droit d’auteur, l’applicabilité du droit allemand est fondée sur l’article 8, § 1, du règlement Rome II. Selon ce principe, les obligations non contractuelles découlant d’une atteinte à un droit de propriété intellectuelle sont régies par la loi du pays pour lequel la protection est recherchée.

Sur la reproduction au sens du droit d’auteur

Sur la reproduction au sens du droit d’auteur des paroles dans le modèle

Concernant la reproduction au sens du droit d’auteur dans les modèles d’IA, la décision souligne dans un premier temps qu’il s’agit ici d’une question controversée dans la littérature juridique.

En effet, les défendeurs arguaient que le modèle ne stocke, ni ne copie de données d’entraînement spécifiques. Le modèle ne fait que refléter dans ses paramètres ce qu’il a appris en se basant sur l’ensemble des données d’entraînement. Ce qui est appris est donc constitué de relations et de schémas de tous les mots ou jetons qui représentent la diversité du langage humain et ses contextes. Le modèle apprend à reconnaitre des schémas dans le langage et en applique ensuite ces schémas à de nouveaux textes. Le modèle opère sur la base de probabilités statistiques qui formeront les paramètres du modèle. Selon les défendeurs, le modèle ne contiendrait que des abstractions mathématiques dérivées de l’analyse du corpus, et ne saurait dès lors être assimilé à une reproduction d’une œuvre au sens du droit d’auteur.

Le tribunal devait donc déterminer ici si un modèle d’IA constitue une reproduction au regard de la section 16 UrhG, à savoir la transposition de l’article 2 de la directive InfoSoc (Dir. 2001/29/CE du 22 mai 2001)

La décision souligne tout d’abord la portée étendue du droit de reproduction et sa neutralité technologique. Comme évoqué par le considérant 5 de la directive InfoSoc, le droit d’auteur doit tenir compte des nouvelles formes d’exploitation résultant des développements techniques. Selon le tribunal, les nouvelles technologies, comme les modèles d’IA, sont couvertes par le droit de reproduction.

Pour continuer son raisonnement, le tribunal utilise la distinction des phases techniques déterminées dans la décision allemande LAION (v. égal., E. Migliore, Première décision en Europe sur l’exception de fouille de textes et de données : l’affaire LAION c/ Robert Kneschke, Dalloz actualité, 15 oct. 2024).

La décision LAION déterminait trois étapes clés lors de l’entraînement d’un système d’IA : (1) l’extraction et la conversion du matériel d’entraînement en un format lisible par machine, ainsi que la création du matériel de données d’entraînement, (2) l’analyse du matériel de données et son enrichissement par des métadonnées, ainsi que l’entraînement du modèle, et (3) l’utilisation ultérieure du modèle entraîné au moyen de prompts et d’outputs.

Il est estimé que la reproduction en cause a lieu au cours de la phase 2.

La décision relève alors que, du fait du phénomène de mémorisation, les paroles litigieuses sont ici stockées dans le modèle, constituant une reproduction pertinente au titre du droit d’auteur. Si la décision distingue tout de même les reproductions qui sont simplement utilisées pour la conversion en format numérique ou créées à des fins d’analyse, elle établit une distinction avec les reproductions qui restent dans le modèle, sont « stockées », la mémorisation dans le cas d’espèce. Il s’agit ici d’une position différente de la décision rendue dans l’affaire Getty Images au Royaume-Uni, dans laquelle la juge expliquait qu’il n’y avait pas de copies stockées dans le modèle.

Le tribunal affirme que les paroles litigieuses sont reproduites dans les modèles 4 et 4o du fait de la mémorisation, cela constituant une fixation physique des paroles dans les paramètres spécifiés du modèle. La décision relève également que la décomposition des paroles de chanson en paramètres est sans conséquence au regard du critère de fixation physique puisque les paramètres peuvent être trouvés dans le modèle dans son ensemble. Indépendamment du fait que cela soit réellement possible, la définissabilité concrète n’est pas un critère pour supposer une fixation physique. La fixation dans le modèle est suffisante ; il s’agit d’un objet qui peut être identifié avec une précision et une objectivité suffisante.

De plus, les paroles litigieuses peuvent être perceptibles indirectement par les sens humains grâce à des aides techniques, telles que le que le chatbot, l’appareil terminal avec écran et des prompts simples.

Le tribunal conclu alors que les défendeurs ont reproduit les œuvres litigieuses, en tout ou en partie, dans leurs modèles, sans le consentement du demandeur. La mémorisation des paroles de chansons dans les modèles d’IA est une reproduction au sens du droit d’auteur puisqu’il s’agit d’une fixation physique qui permet une perception indirecte et reproductible de l’œuvre.

La reproduction dans les sorties générées : la régurgitation

Le tribunal statue sur la question des sorties générées par le chatbot, qui seraient également des reproductions au sens de l’article 16, § 1, UrhG.

Ces reproductions se manifestent par une fixation dans la mémoire de travail des appareils finaux des utilisateurs et par un stockage permanent dans l’historique des conversations sur les serveurs cloud fournis par les défendeurs.

La décision relève que l’atteinte au droit d’auteur se produit même en cas d’adaptations ou d’altérations des œuvres protégées, à condition que les éléments créatifs de l’œuvre protégée soient reconnaissables dans la sortie générée. Les sorties litigieuses, même lorsqu’elles contiennent des « hallucinations », c’est-à-dire des modifications, reprennent des éléments des paroles qui sont suffisamment reconnaissables. Ainsi, toute adaptation ou modification des paroles constitue également une reproduction dès lors qu’elle est physiquement enregistrée.

De plus, les sorties générées en cause ont porté atteinte aux droits du demandeur en tant qu’adaptations au sens de l’article 23 de l’UrhG. Les chansons originales ont été reproduites sous une forme reconnaissable dans les productions.

Enfin, les défendeurs sont considérés comme les responsables des reproductions dans les sorties, car ils exercent un contrôle sur l’acte de reproduction. Ils exploitent les modèles, sont responsables de leur architecture, de la sélection des données d’entraînement, et de la mémorisation. Le simple fait de déclencher la reproduction par un prompt ne fait pas de l’utilisateur le producteur de la reproduction, une position similaire à la décision rendue dans l’affaire Getty Images c/ Stability (v. à ce sujet, E. Migliore, Getty Images c/ Stability : une décision éclairante sur l’IA, le droit des marques et le droit d’auteur, Dalloz actualité, 25 nov. 2025).

Sur l’exception de TDM

La décision allemande rejette l’application des deux exceptions de fouille de textes et de données créées par la directive DAMUN (Dir. [UE] 2019/790 du Parlement européen et du Conseil du 17 avr. 2019 sur le droit d’auteur et les droits voisins dans le marché unique numérique et modifiant les dir. 96/9/CE et 2001/29/CE). Ces exceptions sont souvent évoquées pour justifier la phase d’entraînement de certains modèles.

La première exception, article 3 de la directive, prévoit une exception pour « les reproductions et les extractions effectuées par des organismes de recherche et des institutions du patrimoine culturel, en vue de procéder, à des fins de recherche scientifique, à une fouille de textes et de données sur des œuvres ou autres objets protégés auxquels ils ont accès de manière licite » (DAMUN, art. 3).

La deuxième, à l’article 4, autorise « les reproductions et les extractions d’œuvres et d’autres objets protégés accessibles de manière licite aux fins de la fouille de textes et de données », pour tous les bénéficiaires, sans restriction concernant l’objet des activités de TDM, qu’elles soient exercées à des fins lucratives ou non. La directive prévoit la possibilité pour les titulaires de droit de s’opposer à l’utilisation de leur contenu pour les opérations de TDM.

Ces exceptions ont donc été transposées dans la législation allemande. L’article 3 de la DANUM est transposé à la section 60d UrhG et l’article 4 à la section 44b UrhG.

Sur l’article 44b UrhG, l’exception générale

La décision précise tout d’abord une question importante souvent évoquée concernant les débats relatifs à l’entraînement de systèmes d’IA, à savoir l’applicabilité des exceptions de TDM aux opérations d’IA. Le tribunal commence par rappeler qu’en principe, les modèles de langages, comme ceux de la présente affaire relèvent généralement du champ d’application des exceptions relatives au TDM. Le législateur de l’Union européenne était conscient de l’utilisation des données pour l’entraînement des modèles, et l’objectif des exceptions de TDM est de promouvoir de nouvelles applications et technologies. Selon le juge, les exceptions de TDM s’appliquent pour l’entraînement de systèmes d’IA, et les reproductions pour la préparation de corpus d’entraînement sont couvertes par ces exceptions.

Toutefois, les exceptions de TDM ne couvrent que les reproductions nécessaires lors de la compilation du corpus de données dans la phase 1, mais pas les reproductions ultérieures dans le modèle dans la phase 2. Cette décision s’inscrit ainsi dans la continuité de l’arrêt LAION, lequel avait jugé que l’exception de TDM de l’article 60d UrhG était applicable et que l’opération en cause relevait de la phase 1, couverte par cette exception selon le tribunal.

Si, comme en l’espèce, la phase 2 ne se limite pas à extraire des informations à partir des données d’apprentissage mais conduit également à la reproduction d’œuvres, une telle opération ne peut plus être qualifiée de fouille de textes et de données. Bien que les exceptions de TDM s’appliquent en principe à l’entraînement des modèles, les reproductions intégrées dans le modèle ne relèvent pas de cette exception dès lors qu’elles ne sont pas strictement nécessaires à la préparation de l’activité de fouille de textes et de données.

En effet, le tribunal souligne que l’opération en cause ici excède la finalité prévue par les textes, à savoir les reproductions faites aux fins TDM. La mémorisation des paroles litigieuses excède l’évaluation de l’information (comme les règles syntaxiques abstraites ou les relations sémantiques) qui caractérise le TDM. De plus, les reproductions résultant de la mémorisation ne servent pas à une analyse de données ultérieure, et donc, ne peuvent bénéficier de l’exception.

Enfin, si les actes de la phase 1, à savoir l’évaluation automatisée de simples informations n’affectent pas en soi les intérêts d’exploitation du titulaire du droit d’auteur, la reproduction des œuvres en cause dans le modèle affecte de manière permanente l’exploitation de l’œuvre et lèse les intérêts légitimes des titulaires de droits. Or, une des justifications de l’absence d’un mécanisme de compensation lors des discussions de la directive DAMUN était justement que les actes de TDM, tels que ceux de la phase 1, ne portent qu’un préjudice minimal aux titulaires de droits, ce qui n’est pas le cas ici.

Sur la question de l’opt-out, Gema précisait avoir manifesté son opt-out selon plusieurs modalités, via son site internet ou dans ses conditions tarifaires de 2023 pour l’utilisation de musique sur internet. Malheureusement, le tribunal ne se prononce pas sur cette question et sur la validité des opt-out manifestés, considérant que l’exception ne s’applique de toute façon pas à l’affaire.

Sur l’article 60d UrhG, l’exception de recherche

Les défendeurs ont également tenté de faire valoir l’exception de TDM à but scientifique. Le tribunal écarte cette exception, les défendeurs ne pouvant valablement invoquer cette disposition. En effet, les défendeurs ne sont pas considérés comme des organismes de recherche au sens de l’exception. Si une entité poursuit des fins commerciales, elle doit de plus satisfaire à des critères supplémentaires comme réinvestir tous les bénéfices dans la recherche scientifique ou opérer dans l’intérêt public. Or, les défendeurs n’ont pas démontré que ces conditions sont remplies.

Enfin, la mise à disposition du public du contenu litigieux, par le biais des sorties du chatbot, n’est pas couvert par les deux exceptions de TDM. En effet, rappelons-le, les exceptions ne couvrent pas le droit de communication.

Les autres exceptions écartées par la décision

Les défendeurs invoquaient de nombreuses exceptions pour justifier l’utilisation des paroles des musiques concernées, mais toutes ces exceptions sont écartées.

Les défendeurs invoquaient l’exception « d’accessoire insignifiant », permettant la reproduction d’œuvre si cela constitue un accessoire insignifiant par rapport à l’objet réel de la reproduction. Toutefois, les reproductions des paroles de chansons ne constituent pas un accessoire insignifiant d’une œuvre principale.

Sur l’exception de citation, le tribunal écarte cette exception car les modèles d’IA sont structurellement incapables de poursuivre le but de citation requis par cette section, à savoir expliquer des déclarations, défendre une opinion, ou permettre un débat intellectuel, car une telle intention subjective ne peut être mesurée dans un système d’IA. De plus, l’exception de citation concerne la reproduction sans altération.

Concernant l’exception de pastiche, cette disposition exige un engagement artistique substantiel avec l’objet de référence. Cela n’est pas possible dans le cas de modèles d’IA, en raison de leur manque de personnalité, ils ne peuvent pas s’exprimer artistiquement.

Enfin, sur l’exception de copie privée, les défendeurs sont des personnes morales et ne peuvent invoquer l’exception de la copie privée. Cette exception ne bénéficie qu’aux personnes physiques pour un usage privé et non commercial. Les reproductions effectuées par les défendeurs dépassent « l’intensité compatible » avec l’exception de copie privée.

Conclusion

Cette décision est une victoire pour les titulaires de droits, bien que son apport semble limité au phénomène de la mémorisation. Elle contribue à alimenter la réflexion sur la question de l’applicabilité et l’articulation de certaines exceptions dans le cadre de l’IA.

Par ailleurs, l’approche retenue est également dans la lignée de certains raisonnements développés dans d’autres documents, comme dans le rapport de l’USCO (U.S. Copyright Office). Sur le sujet de la mémorisation, l’USCO concluait que l’existence d’une atteinte au droit de reproduction dépend de la présence d’une expression protégeable mémorisée dans les poids. Il reste à voir comment ces questions seraient appréhendées lorsque de la mémorisation n’est pas observée.  

 

Tr. régional de Munich, 11 nov. 2025, n° 42 O 14139/24

par Elodie Migliore, Doctorante au CEIPI, Université de Strasbourg

© Lefebvre Dalloz