Akademiske utgivere selger tilgang til forskningsartikler til teknologiselskaper for å trene kunstig intelligens (AI)-modeller. Enkelte forskere har reagert med forferdelse på slike avtaler, som skjer uten forfatternes konsultasjon. Trenden reiser spørsmål om bruken av publiserte og noen ganger opphavsrettsbeskyttede verk for å trene det økende antallet AI-chatboter under utvikling.
Eksperter sier at en forskningsartikkel som ennå ikke har blitt brukt til å trene en stor språkmodell sannsynligvis vil bli brukt snart. Forskere utforsker tekniske alternativer for forfattere for å finne ut om innholdet deres blir brukt.
Forrige måned ble det kunngjort at den britiske vitenskapsutgiveren Taylor & Francis, med base i Milton Park, Storbritannia, hadde signert en avtale på 10 millioner dollar med Microsoft, som gir det amerikanske teknologiselskapet tilgang til utgiverens data for å forbedre AI-systemene sine. I juni viste en investoroppdatering at den amerikanske utgiveren Wiley tjente 23 millioner dollar ved å la et navngitt selskap trene generative AI-modeller på innholdet.
Alt som er tilgjengelig på nettet – enten i et arkiv med åpen tilgang eller ikke – har "ganske sannsynlig" allerede blitt matet inn i en stor språkmodell, sier Lucy Lu Wang, en AI-forsker ved University of Washington i Seattle. "Og hvis et papir allerede har blitt brukt som treningsdata i en modell, er det ingen måte å fjerne det papiret etter å ha trent modellen," legger hun til.
Massive datasett
LLM-er er trent på enorme mengder data, ofte hentet fra Internett. De identifiserer mønstre mellom ofte milliarder av talebiter i treningsdataene, såkalte tokens, som gjør dem i stand til å generere tekster med utrolig flyt.
Generative AI-modeller er avhengige av å innta mønstre fra disse datamassene for å sende ut tekst, bilder eller datakode. Vitenskapelige artikler er verdifulle for LLM-utviklere på grunn av deres lengde og "høye informasjonstetthet," sier Stefan Baack, som analyserer AI-treningsdatasett ved Mozilla Foundation i San Francisco, California.
Tendensen til å kjøpe datasett av høy kvalitet vokser. I år harFinancial Timesderes materiale dem ChatGPT-utvikler OpenAI tilbudt i en lukrativ avtale, det samme gjorde nettforumet Reddit til Google. Og siden akademiske utgivere sannsynligvis vil se på alternativet som ulovlig skumlesing av arbeidet deres, "tror jeg det vil komme flere slike avtaler," sier Wang.
Informasjons hemmeligheter
Noen AI-utviklere, som Large-scale Artificial Intelligence Network, holder med vilje datasettene åpne, men mange selskaper som utvikler generative AI-modeller har holdt mye av treningsdataene hemmelig, sier Baack. "Vi har ingen anelse om hva som er i den," sier han. Åpen kildekode-repositorier som arXiv og den vitenskapelige databasen PubMed regnes som "veldig populære" kilder, selv om tidsskriftartikler med betalingsmur sannsynligvis vil bli sugd av store teknologiselskaper for gratis å lese sammendrag. "De er alltid på jakt etter denne typen informasjon," legger han til.
Det er vanskelig å bevise at en LLM brukte et bestemt papir, sier Yves-Alexandre de Montjoye, en dataforsker ved Imperial College London. Et alternativ er å konfrontere modellen med en uvanlig setning fra en tekst og se om utgangen samsvarer med de neste ordene i originalen. Hvis dette er tilfelle, er det et godt tegn at papiret er inkludert i opplæringssettet. Hvis ikke, betyr det ikke at papiret ikke ble brukt - ikke minst fordi utviklere kan programmere LLM til å filtrere svarene for å sikre at de ikke samsvarer for tett med treningsdataene. Det skal mye til for å få dette til å fungere, sier han.
En annen metode for å sjekke om data er inkludert i et treningsdatasett kalles et medlemskapsinferensangrep. Dette er basert på ideen om at en modell vil være mer trygg på produksjonen når den ser noe den har sett før. De Montjoyes team har utviklet en versjon av dette, kalt opphavsrettsfellen, for LLM-er.
For å sette fellen genererer teamet plausible, men useriøse setninger og skjuler dem i et verk, for eksempel hvit tekst på en hvit bakgrunn eller i et felt som vises med null bredde på en nettside. Hvis en LLM blir "overrasket" av en ubrukt kontrollsetning - et mål på dens forvirring - mer enn av setningen som er skjult i teksten, "er det statistisk bevis på at fellene har blitt sett før," sier han.
Opphavsrettsproblemer
Selv om det var mulig å bevise at en LLM ble trent på en bestemt tekst, er det ikke klart hva som skjer videre. Utgivere hevder at bruk av opphavsrettsbeskyttede tekster i trening uten lisens anses som krenkelse. Men et juridisk motargument sier at LLM-er ikke kopierer noe - de trekker ut informasjonsinnhold fra treningsdataene, knuser det og bruker den lærte kunnskapen sin til å generere ny tekst.
Kanskje en rettssak kan bidra til å avklare dette. Saksøkt i en pågående amerikansk opphavsrettsak som kan være banebrytendeNew York TimesMicrosoft og utvikleren av ChatGPT, OpenAI, i San Francisco, California. Avisen anklager selskapene for å bruke deres journalistiske innhold til å trene opp modellene sine uten tillatelse.
Mange akademikere er glade for å få arbeidet sitt inkludert i opplæringsdataene til LLM-er – spesielt ettersom modellene blir mer nøyaktige. "Personlig har jeg ikke noe imot at en chatbot skriver i min stil," sier Baack. Men han innrømmer at yrket hans ikke er truet av bekostning av LLM-er som andre yrker, som kunstnere og forfattere, er.
Individuelle akademiske forfattere har for tiden liten innflytelse når avisens utgiver selger tilgang til deres opphavsrettsbeskyttede verk. For offentlig tilgjengelige artikler er det ingen etablerte metoder for å gi kreditt eller vite om tekst er brukt.
Noen forskere, inkludert de Montjoye, er frustrerte. "Vi vil ha LLM-er, men vi vil fortsatt ha noe som er rettferdig, og jeg tror ikke vi har funnet opp hvordan det ser ut ennå," sier han.
