Academische uitgevers verkopen toegang tot onderzoeksartikelen aan technologiebedrijven om modellen voor kunstmatige intelligentie (AI) te trainen. Sommige onderzoekers hebben met ontsteltenis gereageerd op dergelijke deals, die plaatsvinden zonder overleg met de auteurs. De trend roept vragen op over het gebruik van gepubliceerde en soms auteursrechtelijk beschermde werken om het groeiende aantal AI-chatbots in ontwikkeling te trainen.
Experts zeggen dat een onderzoeksartikel dat nog niet is gebruikt om een groot taalmodel te trainen, waarschijnlijk binnenkort zal worden gebruikt. Onderzoekers onderzoeken de technische mogelijkheden waarmee auteurs kunnen bepalen of hun inhoud wordt gebruikt.
Vorige maand werd aangekondigd dat de Britse wetenschappelijke uitgever Taylor & Francis, gevestigd in Milton Park, VK, een deal van $10 miljoen had getekend met Microsoft, waardoor het Amerikaanse technologiebedrijf toegang kreeg tot de gegevens van de uitgever om zijn AI-systemen te verbeteren. In juni bleek uit een beleggersupdate dat de Amerikaanse uitgever Wiley 23 miljoen dollar verdiende door een niet bij naam genoemd bedrijf toe te staan generatieve AI-modellen op de inhoud ervan te trainen.
Alles wat online beschikbaar is – of het nu in een open-access repository is of niet – is “zeer waarschijnlijk” al in een groot taalmodel ingevoerd, zegt Lucy Lu Wang, een AI-onderzoeker aan de Universiteit van Washington in Seattle. “En als een papier al is gebruikt als trainingsgegevens in een model, is er geen manier om dat papier te verwijderen na het trainen van het model”, voegt ze eraan toe.
Enorme datasets
LLM's zijn getraind in het omgaan met enorme hoeveelheden gegevens, die vaak van internet worden overgeheveld. Ze identificeren patronen tussen de vaak miljarden spraakfragmenten in de trainingsgegevens, zogenaamde tokens, waarmee ze teksten verbazingwekkend vlot kunnen genereren.
Generatieve AI-modellen zijn afhankelijk van het verwerken van patronen uit deze grote hoeveelheden gegevens om tekst, afbeeldingen of computercode uit te voeren. Wetenschappelijke artikelen zijn waardevol voor LLM-ontwikkelaars vanwege hun lengte en ‘hoge informatiedichtheid’, zegt Stefan Baack, die AI-trainingsdatasets analyseert bij de Mozilla Foundation in San Francisco, Californië.
De tendens om datasets van hoge kwaliteit aan te schaffen groeit. Dit jaar heeft deFinanciële tijdenhun materiële dem ChatGPT-ontwikkelaar OpenAI aangeboden in een lucratieve deal, net als het online forum Reddit aan Google. En aangezien academische uitgevers het alternatief waarschijnlijk zullen zien als het illegaal afromen van hun werk, “denk ik dat er nog meer van dit soort deals zullen volgen”, zegt Wang.
Geheimen van informatie
Sommige AI-ontwikkelaars, zoals het Large-scale Artificial Intelligence Network, houden hun datasets opzettelijk open, maar veel bedrijven die generatieve AI-modellen ontwikkelen, hebben veel van hun trainingsgegevens geheim gehouden, zegt Baack. “We hebben geen idee wat erin zit”, zegt hij. Open source-repository's zoals arXiv en de wetenschappelijke database PubMed worden als 'zeer populaire' bronnen beschouwd, hoewel tijdschriftartikelen met een betaalmuur waarschijnlijk door grote technologiebedrijven zullen worden overgeheveld voor gratis te lezen samenvattingen. “Ze zijn altijd op zoek naar dit soort informatie”, voegt hij eraan toe.
Het is moeilijk te bewijzen dat een LLM een bepaald artikel heeft gebruikt, zegt Yves-Alexandre de Montjoye, een computerwetenschapper aan het Imperial College London. Eén optie is om het model te confronteren met een ongebruikelijke zin uit een tekst en te kijken of de uitvoer overeenkomt met de volgende woorden in het origineel. Als dit het geval is, is het een goed teken dat het papier in de trainingsset zit. Als dat niet het geval is, betekent dat niet dat het artikel niet is gebruikt - niet in de laatste plaats omdat ontwikkelaars de LLM kunnen programmeren om de antwoorden te filteren om ervoor te zorgen dat ze niet te nauw overeenkomen met de trainingsgegevens. “Er is veel voor nodig om dit te laten werken”, zegt hij.
Een andere methode om te controleren of gegevens zijn opgenomen in een trainingsdataset, wordt een lidmaatschapsinferentieaanval genoemd. Dit is gebaseerd op het idee dat een model meer vertrouwen zal hebben in zijn output als het iets ziet dat het eerder heeft gezien. Het team van De Montjoye heeft hiervoor een versie ontwikkeld, de copyright trap genaamd, voor LLM's.
Om de valstrik uit te zetten, genereert het team plausibele maar onzinnige zinnen en verbergt deze in een werk, zoals witte tekst op een witte achtergrond of in een veld dat als breedte nul op een webpagina wordt weergegeven. Als een LLM meer ‘verrast’ wordt door een ongebruikte controlezin – een maatstaf voor de verwarring ervan – dan door de zin die in de tekst verborgen zit, ‘is dat statistisch bewijs dat de vallen al eerder zijn gezien’, zegt hij.
Auteursrechtproblemen
Zelfs als het mogelijk zou zijn om te bewijzen dat een LLM voor een bepaalde tekst is opgeleid, is het niet duidelijk wat er daarna gebeurt. Uitgevers beweren dat het zonder licentie gebruiken van auteursrechtelijk beschermde teksten in trainingen als inbreuk wordt beschouwd. Maar een juridisch tegenargument zegt dat LLM's niets kopiëren: ze halen informatie uit de trainingsgegevens, verwerken deze en gebruiken hun geleerde kennis om nieuwe tekst te genereren.
Misschien kan een rechtszaak hier duidelijkheid in scheppen. Aangeklaagd in een lopende Amerikaanse auteursrechtzaak die baanbrekend zou kunnen zijnDe New York TimesMicrosoft en de ontwikkelaar van ChatGPT, OpenAI, in San Francisco, Californië. De krant beschuldigt de bedrijven ervan hun journalistieke inhoud te gebruiken om zonder toestemming hun modellen te trainen.
Veel academici zijn blij dat hun werk wordt opgenomen in de trainingsgegevens van LLM's, vooral omdat de modellen nauwkeuriger worden. “Persoonlijk vind ik het niet erg als een chatbot in mijn stijl schrijft”, zegt Baack. Maar hij geeft toe dat zijn beroep niet wordt bedreigd door de kosten van LLM's zoals die van andere beroepen, zoals kunstenaars en schrijvers, dat wel doen.
Individuele academische auteurs hebben momenteel weinig invloed als de uitgever van hun artikel toegang tot hun auteursrechtelijk beschermde werken verkoopt. Voor openbaar beschikbare artikelen bestaat er geen vaste manier om krediet toe te kennen of om te weten of er tekst is gebruikt.
Sommige onderzoekers, waaronder de Montjoye, zijn gefrustreerd. “We willen LLM’s, maar we willen nog steeds iets dat eerlijk is, en ik denk niet dat we al hebben uitgevonden hoe dat eruit ziet”, zegt hij.
