Akademiske udgivere sælger adgang til forskningsartikler til teknologivirksomheder for at træne kunstig intelligens (AI) modeller. Nogle forskere har reageret med forfærdelse på sådanne aftaler, som finder sted uden forfatternes høring. Tendensen rejser spørgsmål om brugen af offentliggjorte og nogle gange ophavsretligt beskyttede værker til at træne det voksende antal AI-chatbots i udvikling.
Eksperter siger, at et forskningspapir, der endnu ikke er blevet brugt til at træne en stor sprogmodel, sandsynligvis snart vil blive brugt. Forskere undersøger tekniske muligheder for forfattere for at afgøre, om deres indhold bliver brugt.
Sidste måned blev det annonceret, at den britiske videnskabsudgiver Taylor & Francis, der er baseret i Milton Park, Storbritannien, havde underskrevet en aftale på $10 millioner med Microsoft, som giver det amerikanske teknologiselskab adgang til udgiverens data for at forbedre sine AI-systemer. I juni viste en investoropdatering, at den amerikanske udgiver Wiley tjente 23 millioner dollars ved at tillade en unavngiven virksomhed at træne generative AI-modeller på dets indhold.
Alt, der er tilgængeligt online - uanset om det er i et åbent-adgangs-depot eller ej - er "temmelig sandsynligt" allerede blevet indført i en stor sprogmodel, siger Lucy Lu Wang, en AI-forsker ved University of Washington i Seattle. "Og hvis et papir allerede er blevet brugt som træningsdata i en model, er der ingen måde at fjerne det papir efter træning af modellen," tilføjer hun.
Massive datasæt
LLM'er trænes på enorme mængder data, ofte hentet fra internettet. De identificerer mønstre mellem de ofte milliarder af talestykker i træningsdataene, såkaldte tokens, som gør dem i stand til at generere tekster med forbløffende flydende karakter.
Generative AI-modeller er afhængige af at indtage mønstre fra disse datamasser for at udlæse tekst, billeder eller computerkode. Videnskabelige artikler er værdifulde for LLM-udviklere på grund af deres længde og "høje informationstæthed," siger Stefan Baack, der analyserer AI-træningsdatasæt hos Mozilla Foundation i San Francisco, Californien.
Tendensen til at købe datasæt af høj kvalitet vokser. I år harFinancial Timesderes materiale dem ChatGPT-udvikler OpenAI tilbudt i en lukrativ aftale, ligesom onlineforummet Reddit til Google. Og da akademiske udgivere sandsynligvis vil se alternativet som ulovlig skimming af deres arbejde, "tror jeg, at der vil komme flere aftaler som denne," siger Wang.
Informations hemmeligheder
Nogle AI-udviklere, såsom Large-scale Artificial Intelligence Network, holder med vilje deres datasæt åbne, men mange virksomheder, der udvikler generative AI-modeller, har holdt meget af deres træningsdata hemmeligt, siger Baack. "Vi aner ikke, hvad der er i det," siger han. Open source-depoter såsom arXiv og den videnskabelige database PubMed betragtes som "meget populære" kilder, selvom betalingsvæggede tidsskriftsartikler sandsynligvis vil blive suget af store teknologivirksomheder for gratis at læse abstrakter. "De er altid på jagt efter denne form for information," tilføjer han.
Det er svært at bevise, at en LLM brugte et bestemt papir, siger Yves-Alexandre de Montjoye, en datalog ved Imperial College London. En mulighed er at konfrontere modellen med en usædvanlig sætning fra en tekst og se, om outputtet matcher de næste ord i originalen. Hvis dette er tilfældet, er det et godt tegn, at papiret er med i træningssættet. Hvis ikke, betyder det ikke, at papiret ikke blev brugt - ikke mindst fordi udviklere kan programmere LLM til at filtrere svarene for at sikre, at de ikke matcher træningsdataene for tæt. "Der skal meget til at få det her til at fungere," siger han.
En anden metode til at kontrollere, om data er inkluderet i et træningsdatasæt, kaldes et medlemskabsinferensangreb. Dette er baseret på ideen om, at en model vil være mere sikker på sit output, når den ser noget, den har set før. De Montjoyes team har udviklet en version af dette, kaldet copyright-fælden, til LLM'er.
For at sætte fælden genererer teamet plausible, men meningsløse sætninger og gemmer dem i et værk, såsom hvid tekst på en hvid baggrund eller i et felt, der vises som nul bredde på en webside. Hvis en LLM bliver "overrasket" over en ubrugt kontrolsætning - et mål for dens forvirring - mere end over sætningen gemt i teksten, "er det statistisk bevis på, at fælderne er set før," siger han.
Ophavsretsproblemer
Selvom det var muligt at bevise, at en LLM blev trænet i en bestemt tekst, er det ikke klart, hvad der derefter sker. Udgivere hævder, at brug af ophavsretsbeskyttede tekster i træning uden licens betragtes som krænkelse. Men et juridisk modargument siger, at LLM'er ikke kopierer noget - de udtrækker informationsindhold fra træningsdataene, knuser det og bruger deres indlærte viden til at generere ny tekst.
Måske kunne en retssag hjælpe med at afklare dette. Sagsøgt i en igangværende amerikansk ophavsretssag, der kan være banebrydendeNew York TimesMicrosoft og udvikleren af ChatGPT, OpenAI, i San Francisco, Californien. Avisen beskylder virksomhederne for at bruge deres journalistiske indhold til at træne deres modeller uden tilladelse.
Mange akademikere er glade for at få deres arbejde inkluderet i uddannelsesdata for LLM'er - især efterhånden som modellerne bliver mere præcise. "Personligt har jeg ikke noget imod, hvis en chatbot skriver i min stil," siger Baack. Men han indrømmer, at hans erhverv ikke er truet af udgifterne til LLM'er, som andre erhverv, såsom kunstnere og forfattere, er.
Individuelle akademiske forfattere har i øjeblikket ringe indflydelse, når deres papirs udgiver sælger adgang til deres ophavsretligt beskyttede værker. For offentligt tilgængelige artikler er der ingen etablerede metoder til at kreditere eller vide, om tekst er blevet brugt.
Nogle forskere, herunder de Montjoye, er frustrerede. "Vi vil have LLM'er, men vi vil stadig have noget, der er fair, og jeg tror ikke, vi har opfundet, hvordan det ser ud endnu," siger han.
