Les éditeurs universitaires vendent l’accès aux articles de recherche aux entreprises technologiques pour former des modèles d’intelligence artificielle (IA). Certains chercheurs ont réagi avec consternation face à de tels accords, conclus sans la consultation des auteurs. Cette tendance soulève des questions sur l’utilisation d’œuvres publiées et parfois protégées par le droit d’auteur pour former le nombre croissant de chatbots IA en développement.

Les experts affirment qu'un document de recherche qui n'a pas encore été utilisé pour former un grand modèle de langage sera probablement utilisé bientôt. Les chercheurs explorent les options techniques permettant aux auteurs de déterminer si leur contenu est utilisé.

Le mois dernier, il a été annoncé que l'éditeur scientifique britannique Taylor & Francis, basé à Milton Park, au Royaume-Uni, avait signé un accord de 10 millions de dollars avec Microsoft, permettant à l'entreprise technologique américaine d'accéder aux données de l'éditeur pour améliorer ses systèmes d'IA. En juin, une mise à jour des investisseurs a montré que l'éditeur américain Wiley avait gagné 23 millions de dollars en permettant à une société anonyme de former des modèles d'IA génératifs sur son contenu.

Tout ce qui est disponible en ligne – que ce soit dans un référentiel en libre accès ou non – a « très probablement » déjà été intégré dans un vaste modèle linguistique, explique Lucy Lu Wang, chercheuse en IA à l'Université de Washington à Seattle. "Et si un papier a déjà été utilisé comme données d'entraînement dans un modèle, il n'y a aucun moyen de supprimer ce papier après avoir entraîné le modèle", ajoute-t-elle.

Ensembles de données massifs

Les LLM sont formés sur d'énormes quantités de données, souvent siphonnées sur Internet. Ils identifient des modèles entre des milliards d'extraits de parole dans les données d'entraînement, appelés jetons, qui leur permettent de générer des textes avec une fluidité étonnante.

Les modèles d’IA générative s’appuient sur l’ingestion de modèles issus de ces masses de données pour produire du texte, des images ou du code informatique. Les articles scientifiques sont précieux pour les développeurs LLM en raison de leur longueur et de leur « haute densité d'informations », explique Stefan Baack, qui analyse les ensembles de données de formation à l'IA à la Fondation Mozilla à San Francisco, en Californie.

La tendance à acheter des ensembles de données de haute qualité s’accentue. Cette année a leTemps Financierleur matériel Développeur ChatGPT OpenAI proposé dans le cadre d'une offre lucrative, tout comme le forum en ligne Reddit à Google. Et comme les éditeurs universitaires sont susceptibles de considérer l’alternative comme un survol illicite de leur travail, « je pense qu’il y aura d’autres accords de ce type à venir », dit Wang.

Secrets d'informations

Certains développeurs d’IA, comme le Large-scale Artificial Intelligence Network, gardent intentionnellement leurs ensembles de données ouverts, mais de nombreuses entreprises développant des modèles d’IA génératifs ont gardé secrètes une grande partie de leurs données de formation, explique Baack. « Nous n’avons aucune idée de ce qu’il y a dedans », dit-il. Les référentiels open source tels que arXiv et la base de données scientifique PubMed sont considérés comme des sources « très populaires », même si les articles de revues payantes sont susceptibles d'être siphonnés par les grandes entreprises technologiques pour obtenir des résumés en lecture gratuite. « Ils sont toujours à la recherche de ce genre d'informations », ajoute-t-il.

Il est difficile de prouver qu'un LLM a utilisé un papier particulier, explique Yves-Alexandre de Montjoye, informaticien à l'Imperial College de Londres. Une option consiste à confronter le modèle avec une phrase inhabituelle d'un texte et à voir si le résultat correspond aux mots suivants de l'original. Si tel est le cas, c'est un bon signe que l'article soit inclus dans l'ensemble de formation. Sinon, cela ne signifie pas que le document n'a pas été utilisé - notamment parce que les développeurs peuvent programmer le LLM pour filtrer les réponses afin de s'assurer qu'elles ne correspondent pas trop étroitement aux données de formation. « Il en faut beaucoup pour que cela fonctionne », dit-il.

Une autre méthode permettant de vérifier si des données sont incluses dans un ensemble de données de formation est appelée attaque par inférence d'appartenance. Ceci est basé sur l’idée qu’un modèle sera plus sûr de ses résultats lorsqu’il verra quelque chose qu’il a déjà vu. L'équipe de De Montjoye a développé une version de ce phénomène, appelée piège du droit d'auteur, pour les LLM.

Pour tendre le piège, l'équipe génère des phrases plausibles mais absurdes et les cache dans une œuvre, comme du texte blanc sur fond blanc ou dans un champ affiché en largeur nulle sur une page Web. Si un LLM est "surpris" par une phrase de contrôle inutilisée - une mesure de sa confusion - plus que par la phrase cachée dans le texte, "c'est une preuve statistique que les pièges ont déjà été vus", dit-il.

Problèmes de droits d'auteur

Même s’il était possible de prouver qu’un LLM a été formé sur un texte particulier, la suite n’est pas claire. Les éditeurs affirment que l'utilisation de textes protégés par le droit d'auteur dans le cadre d'une formation sans licence est considérée comme une contrefaçon. Mais un contre-argument juridique affirme que les LLM ne copient rien : ils extraient le contenu informatif des données de formation, les analysent et utilisent leurs connaissances acquises pour générer un nouveau texte.

Peut-être qu’un procès pourrait aider à clarifier ce point. Poursuivi dans une affaire de droit d'auteur aux États-Unis en cours qui pourrait être révolutionnaireLe New York TimesMicrosoft et le développeur de ChatGPT, OpenAI, à San Francisco, Californie. Le journal accuse les entreprises d'utiliser leur contenu journalistique pour former leurs modèles sans autorisation.

De nombreux universitaires sont heureux de voir leurs travaux inclus dans les données de formation des LLM, d'autant plus que les modèles deviennent plus précis. « Personnellement, cela ne me dérange pas qu'un chatbot écrive dans mon style », déclare Baack. Mais il admet que sa profession n'est pas menacée par les dépenses liées aux LLM comme le sont celles d'autres professions, comme les artistes et les écrivains.

Les auteurs universitaires individuels ont actuellement peu de poids lorsque l'éditeur de leur article vend l'accès à leurs œuvres protégées par le droit d'auteur. Pour les articles accessibles au public, il n’existe aucun moyen établi d’attribuer un crédit ou de savoir si un texte a été utilisé.

Certains chercheurs, dont de Montjoye, sont frustrés. « Nous voulons des LLM, mais nous voulons toujours quelque chose d’équitable, et je ne pense pas que nous ayons encore inventé à quoi cela ressemble », dit-il.