Pourquoi le grand modèle de langage Falcon 180B est en accès libre ?

Si Falcon 180B n’est pas le premier modèle de langage ( LLM ) disponible sous licence open Source, le choix de l’Institut d’innovation technologique des Émirats arabes unis (Technology Innovation Institute – TII) de le diffuser en libre accès est loin d’être anodin. Le modèle défendu aurait pour objectif de démocratiser les technologies de l’IA et de la rendre plus éthique en privilégiant la transparence grâce à un accès libre de la technologie. Par ailleurs, en permettant aux utilisateurs de contribuer au développement de Falcon 180B, les concepteurs visent à profiter de l’expertise d’une large communauté d’utilisateurs alors que ce LLM égale voire dépasse déjà les performances des plus grands LLM propriétaires. En tout état de cause, le choix révèle une autre façon d’exercer les droits de propriété intellectuelle.

Le grand modèle de langage (appelé également grand modèle linguistique ou grand modèle de langue, modèle de langage de grande taille ou encore modèle massif de langage : v. Wikipédia, entrée « grand modèle de langage ») Falcon 180B (en anglais LLM pour large language model), qui s’érige parmi les plus performants de sa génération, vient d’être mis à disposition selon les termes de la licence TII Falcon 180B, version 1.0 par l’Institut d’innovation technologique des Émirats arabes unis (Technology Innovation Institute – TII). Cette licence open source, inspirée de la licence Apache 2.0, contient les conditions d’utilisation, de redistribution et de modification que l’on trouve habituellement dans les licences libres de logiciels (J.-Cl PLA,  L’œuvre libre, 2019, fasc. n° 1975). Rappelons que sur le fondement du droit d’auteur et du droit des brevets, les licences open source visent à permettre une diffusion large de l’œuvre et de ses formes dérivées et à offrir aux utilisateurs la possibilité de contribuer aux évolutions successibles de cette dernière.

Ce faisant, l’Institut d’innovation technologique des Émirats arabes unis (TII) enclenche trois dynamiques que nous analyserons successivement. La première est celle de rendre accessible intellectuellement l’IA, ce qui répond aux préoccupations éthiques du moment. Ensuite, la démarche permet de miser sur le travail collaboratif des spécialistes des LLM pour mieux concurrencer les autres outils comme GPT-4 d’OpenAI et PaLM 2 Large de Google qui reposent sur un modèle propriétaire. Enfin, le choix d’appliquer l’open source à la technologie de l’IA (d’autres IA sont disponibles en open source comme LLaMA, StableLM, RedPajama et MPT) file la tendance actuelle qui consiste à libéraliser l’accès aux contenus numériques à la faveur de l’entraînement des IA.

L’accès libre pour un LLM éthique ?

Imaginées pour les logiciels, les licences en open source autorisent l’utilisation, la copie, la diffusion et la modification des codes logiciels accessibles sous la forme source de sorte qu’il est possible de les étudier et d’en connaître exactement les fonctionnalités. Appliqué au LLM, l’open source offrirait la possibilité aux utilisateurs de maîtriser la technologie mise à disposition, de connaître précisément son fonctionnement et de mieux appréhender les résultats obtenus. La transparence ainsi introduite pourrait répondre au souhait, notamment du Parlement européen, que les systèmes d’IA utilisés dans l’UE soient sûrs, transparents, traçables, non discriminatoires (J. Sénéchal, L’IA Act déjà obsolète face aux IA de nouvelle génération ? L’exemple de ChatGPT, Dalloz actualité, 1er févr. 2023). Toutefois, pour atteindre de tels objectifs, il convient d’être attentif aux deux faces de l’accès libre, l’une vise l’accès à la connaissance intellectuelle de la technologie, l’autre dépend des usages permis.

S’agissant de la connaissance intellectuelle de la technologie, on relève que la version 1.0 de la licence TII Facon 180B prévoit que les utilisateurs auront accès à « l’œuvre et ses travaux dérivés sous forme de source ou d’objet » (art. 2 et 3). Il s’agit de la version initiale du LLM Falcon 180B et toutes les déclinaisons qui en seront faites au fur et à mesure des ajouts et des modifications excepté les créations qui demeurent séparables de l’œuvre et de ses dérivés quand bien même elles seraient liées par une interface.

Selon les définitions énoncées à l’article 1er, la « forme source » comprend notamment le code source d’un logiciel, les ensembles de données d’entraînement utilisés pour l’entraînement ou le réglage d’un modèle d’apprentissage automatique ou d’un modèle d’intelligence artificielle, la source de la documentation et les fichiers de configuration. Quant à la « forme objet », elle englobe notamment le code objet compilé, un modèle d’apprentissage automatique ou un modèle d’intelligence artificielle entraîné et/ou mis au point, la documentation générée et les conversions vers d’autres types de médias. La licence est accordée dans le monde entier, pour la durée des droits de propriété intellectuelle (droit d’auteur et des brevets), à titre non exclusif et gratuit. En conséquence, les utilisateurs pourront prendre connaissance des 180 milliards de paramètres, des 3,5 billions de jetons de l’ensemble de données web de la database RefinedWeb sur lequel il a été entraîné, de l’architecture du modèle de langage Falcon et, enfin, de son système d’attention multi-requêtes.

S’agissant des usages permis, on retient que les autorisations de distribution et d’utilisation accordées sont conditionnées au respect de la politique d’utilisation acceptable accessible sur le site du TII (art. 5.1 s.). Celle-ci est énoncée de la manière suivante :

You agree not to use Falcon 180B or any Work or Derivative Work (as such terms are defined in the Falcon 180B TII License Version 1.0):
1. In any way that violates any applicable national, federal, state, local or international law or regulation;
2. For the purpose of exploiting, harming or attempting to exploit or harm minors and/or living beings in any way;
3. To generate or disseminate verifiably false information with the purpose of harming others; and/or
4. To defame, disparage or otherwise harass others. 

La politique d’utilisation acceptable peut s’apparenter aux chartes qui encadrent les projets de logiciels libres. Elles ont pour finalité d’exposer les termes de la « philosophie » du projet (notre analyse, Les communautés épistémiques en ligne : un nouveau paradigme de la création, RIDA 2013/1, p. 112). En l’espèce, ladite politique répond aux grandes préoccupations du moment qui ont trait à l’usage de l’IA et plus généralement de l’information. Il ne s’agit que d’un rappel des obligations qui incombent à toute personne tel le respect du droit, l’interdiction de causer un préjudice à autrui notamment en commentant des actes de désinformation, de diffamation ou de harcèlement. La licence précise que cette politique d’utilisation acceptable a vocation à évoluer. Il est probable qu’elle sera adaptée aux cadres réglementaires dont les états se doteront pour accompagner le déploiement de l’IA (en particulier la proposition de règlement européen qui devrait être adoptée définitivement avant la fin de l’année 2023, préc.).

Si les conditions de mise à disposition libre de Falcon 180B répondent, au moins en partie, aux exigences de transparence et de respect des droits individuels des personnes, la question de la sécurité demeure pendante. Les licences open source contiennent quasi systématiquement une clause de non-garantie et d’exclusion de responsabilité. La version 1.0 de la licence TII Falcon 180B ne déroge pas à cette habitude. Le LLM Falcon 180B est mis à disposition sans garantie contre les dommages qui pourraient résulter de son utilisation (art. 10). L’outil est disponible « en l’état », sans que la responsabilité des contributeurs ou du concepteur initial ne puisse être engagée (art. 11). Toutefois, la connaissance intellectuelle de la technologie peut participer à la sécurité de l’outil, ne serait-ce que parce qu’elle offre à toute personne la possibilité de proposer un service de garantie, d’assistance ou d’indemnisation. Ce type de services, qui est autorisé expressément par la licence (art. 12), est d’ailleurs courant dans le secteur des logiciels libres.

L’accès libre d’un LLM pour renforcer les avancées technologiques ?

C’est ce que nous promet le Dr Ebtesam Almazrouei (directeur exécutif et chercheur en chef par intérim de l’unité intercentrique de l’IA à l’Institut d’innovation technologique des Émirats arabes unis) en déclarant que « Falcon 180B annonce une nouvelle ère d’IA générative, où le potentiel de progrès scientifique est rendu disponible grâce à un accès ouvert pour alimenter les innovations de demain. Alors que nous explorons les frontières de la science et de la technologie, notre vision va bien au-delà de l’innovation ; il s’agit d’entretenir un lien profond pour relever les défis mondiaux grâce à des percées collaboratives ».

La création en accès libre, on le sait, a pour effet de permettre à quiconque de participer à son amélioration, ce qui la différencie des modèles propriétaires qu’ils soient payants ou gratuits. Concrètement, un créateur, en l’occurrence l’Institut d’innovation technologique des Émirats arabes unis (TII), accorde à toute personne une licence d’utilisation de son œuvre qui confère l’autorisation de la modifier. Le sort des modifications dépend des termes de la licence d’utilisation, mais dans la plupart des cas, l’objectif consiste à en faire bénéficier les tiers, de sorte d’élargir l’équipe de développement à un plus vaste ensemble d’experts formant une communauté autour du projet. La communauté s’organise selon des règles qui prennent la forme de chartes, de licences et d’usages, relativement souples afin de favoriser le dynamisme créatif et suffisamment pour que le projet soit pérenne (v. notre analyse, op. cit). Une telle organisation, décrite par Eric Raymond dans son célèbre essai, La Cathédrale et le Bazar (E. Raymond, The Cathedral and Bazaar, 1999, publié ultérieurement avec d’autres essais dans The Cathedral & the Bazaar, E. Raymond, B. Young, O’Reilly, 2001), a été à l’origine de la création d’Internet, et de nombreux logiciels des couches internes et externes du réseau.

En l’occurrence, la licence TII Falcon 180B, qui organise l’accès de la technologie aux conditions envisagées plus tôt, autorise également les modifications de l’œuvre initiale ou de ses dérivés. En ce sens, la licence offre a priori les conditions nécessaires à la constitution d’une communauté de contributeurs et au dynamisme du travail collaboratif bien connu dans le domaine du logiciel libre. La licence reprend d’ailleurs les conditions habituelles de l’autorisation de modifier l’œuvre en ajoutant cependant une spécificité.

De manière classique, la licence prévoit que les modifications doivent être créditées à leur auteur, et la diffusion de l’œuvre et ses dérivées doivent être accompagnées de la licence, ce qui permet aux tiers de savoir qu’ils peuvent bénéficier des mêmes autorisations (art. 4.1, d, et 6). La question de la compatibilité de la licence est réglée à l’article 4.2 qui dispose que l’auteur d’une version dérivée peut ajouter des conditions supplémentaires à la licence voire peut changer de licence pour l’utilisation, la reproduction ou la distribution des seules modifications ou de la version modifiée (l’œuvre dérivée) dès lors que les conditions sont conformes à celles énoncées par la licence TII Falcon 180B version 1.0.

De manière plus originale, la licence précise que les modifications doivent faire l’objet d’une soumission au concédant pour être incorporées à l’œuvre (art. 1er). De plus, la licence ne couvre pas l’utilisation à des fins d’hébergement (art. 9) définie comme « toute utilisation de l’œuvre ou d’une œuvre dérivée pour offrir des instances partagées ou des services gérés basés sur l’œuvre, toute œuvre dérivée (y compris les versions perfectionnées d’une œuvre ou d’une œuvre dérivée) à des utilisateurs tiers sous la forme d’une API d’inférence ou de perfectionnement » (art. 9.1) (Texte original: "Hosting Use” means any use of the Work or a Derivative Work to offer shared instances or managed services based on the Work, any Derivative Work [including fine-tuned versions of a Work or Derivative Work] to third party users in an inference or finetuning API form).

En effet, les autorisations sont circonscrites à la reproduire, la préparation des travaux dérivés, l’affichage et l’exécution publique, la diffusion de l’œuvre et ces travaux dérivés, et ce, à titre gratuit (art. 2) ainsi que la fourniture d’applications et de produits intégrés d’utilisateur final qui utilise l’œuvre et ses dérivés en arrière-plan (art. 9.2). En conséquence, l’utilisation à des fins d’hébergement est conditionnée à l’octroi d’une licence spéciale (art. 9.3). Il s’agit d’une particularité de la licence TII Falcon 180B version 1.0 que l’on ne trouve pas dans les licences libres actuelles. Elle tient à son objet singulier, un LLM, et permet aux titulaires des droits intellectuels sur l’œuvre initiale de conserver l’exclusivité d’une part non négligeable de son exploitation notamment commerciale.

Il sera intéressant de mesurer l’incidence des articles 9 et suivants aux termes desquels l’utilisation à des fins d’hébergement nécessite une licence supplémentaire. En effet, pour qu’un projet fédère une communauté de contributeurs, il faut qu’il soit suffisamment attractif non seulement par sa philosophie, mais aussi économiquement. L’esprit d’un projet tel que celui-ci, qui est de rendre accessible à toute personne une technologie dans le respect d’autrui, est attractif ; en revanche, les restrictions de l’utilisation notamment commerciale (en l’espèce celles que permet l’hébergement du LLM) peuvent constituer un repoussoir.

L’accès libre d’un LLM pour un modèle renouvelé de la propriété intellectuelle ?

L’annonce de la mise à disposition en accès libre du nouveau LLM Falcon 180B révèle que l’économie de l’IA repose moins sur l’appropriation des créations intellectuelles que la capacité d’offrir des services associés.

Les grands modèles de langage, tels que Falcon 180B, sont des réseaux de neurones profonds entraînés à partir des quantités considérables de textes et de données (Villalobos, Sevilla, Heim et Besiroglu, Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning, arXiv:2211.04325 [cs],‎ 25 oct. 2022). Afin de permettre l’essor de cette technologie, les États ont libéralisé l’accès des données, quelle que soit leur nature juridique (données publiques, privées, intellectuelles, non personnelles…) (Droit d’auteur et l’exception de fouille de données : dir. [UE] 2019/790 du Parlement européen et du Conseil du 17 avr. 2019 sur le droit d’auteur et les droits voisins dans le marché unique numérique et modifiant les dir. 96/9/CE et 2001/29/CE ; droit des données publiques et données ouvertes : dir. 2013/37/UE, 26 juin 2013 modifiant la dir. 2003/98/CE du Parlement européen du 17 nov. 2003, concernant la réutilisation des informations du secteur public et dir. [UE] 2019/1024 du 20 juin 2019 concernant les données ouvertes et la réutilisation des informations du secteur public [refonte], JOUE, 26 juin 2019, n° L 172, p. 56 ; ou encore règlement établissant un cadre applicable au libre flux des données à caractère non personnel dans l’UE : règl. [UE] 2018/1807 du 14 nov. 2018).

Ce mouvement que nous soulignons depuis un moment s’accompagne inexorablement d’un recul de l’approche réservataire de la propriété intellectuelle (notre analyse, L’influence normative de l’IA en droit de la propriété intellectuelle, revue Communitas de l’UQAM [Québec], vol. 3, n° 1, [2022]) ; La convergence du droit de la propriété littéraire et artistique et du « droit des données » : une fatalité ?, in Penser le droit de la pensée, Mélanges en l’honneur de Michel Vivant, Dalloz, 2020, p. 97 s). Si l’Union européenne s’attache encore à concilier le droit de la propriété intellectuelle avec l’encouragement du développement des LLM (résolution du Parlement européen du 20 oct. 2020 sur les droits de propriété intellectuelle pour le développement des technologies liées à l’intelligence artificielle [2020/2015 (INI), résolution n° 13, p. 7.]. V. égal., OMPI, 29 mai 2020, WIPO/IP2/GE/20/1 REV, document de synthèse révisé sur les politiques en matière de propriété intellectuelle et l’intelligence artificielle, p. 5), d’autres pays semblent moins soucieux de cet équilibre. Le ministre japonais de l’Éducation, de la culture, des sports, des sciences et de la technologie a ainsi affirmé au printemps dernier que le droit d’auteur ne devait pas faire obstacle à l’entraînement des IA. En d’autres termes, il prône un gel de l’application du droit de la propriété intellectuelle au profit de l’entraînement des LLM.

La bataille pour un accès libre des données et des textes étant gagnée, pourquoi étendre l’accès libre à l’œuvre elle-même qu’est le LLM ? Deux raisons au moins président ce choix. Tout d’abord, comme nous l’avons vu plus tôt, le modèle open source ouvre la possibilité de mettre en place un travail collaboratif élargi à la communauté des utilisateurs très utile pour des structures qui ne bénéficient pas des mêmes ressources que les multinationales du numérique. Ensuite, le modèle économique repose davantage sur les services associés à l’IA que sur l’exploitation d’éventuels monopoles sur la technologie elle-même. C’est pourquoi, il n’est pas nécessaire pour l’Institut d’innovation technologique des Émirats arabes unis de conserver l’exclusivité de l’ensemble des droits de propriété intellectuelle, il lui suffit de se réserver le marché lié à l’hébergement et de garder le contrôle du développement avec la procédure de soumission des contributions. En somme, le droit de la propriété intellectuelle conserve son utilité en ce domaine, il est simplement employé différemment de ce pour quoi il avait été conçu à l’origine.

L’avenir nous dira si ces trois orientations se confirment…

 

© Lefebvre Dalloz