Akademski izdavači prodaju pristup istraživačkim radovima tehnološkim tvrtkama za obuku modela umjetne inteligencije (AI). Neki su istraživači s užasom reagirali na takve dogovore koji se odvijaju bez konzultacija s autorima. Ovaj trend postavlja pitanja o korištenju objavljenih i ponekad zaštićenih djela za obuku sve većeg broja AI chatbota u razvoju.
Stručnjaci kažu da će se istraživački rad koji još nije korišten za obuku velikog jezičnog modela vjerojatno uskoro koristiti. Istraživači istražuju tehničke mogućnosti za autore kako bi utvrdili koristi li se njihov sadržaj.
Prošlog mjeseca objavljeno je da je britanski znanstveni izdavač Taylor & Francis, sa sjedištem u Milton Parku, UK, potpisao ugovor vrijedan 10 milijuna dolara s Microsoftom, dopuštajući američkoj tehnološkoj tvrtki pristup podacima izdavača kako bi poboljšao svoje AI sustave. U lipnju je ažuriranje investitora pokazalo da je američki izdavač Wiley zaradio 23 milijuna dolara dopustivši neimenovanoj tvrtki da trenira generativne AI modele na svom sadržaju.
Sve što je dostupno online - bilo u repozitoriju s otvorenim pristupom ili ne - "vrlo je vjerojatno" već uneseno u veliki jezični model, kaže Lucy Lu Wang, istraživač umjetne inteligencije na Sveučilištu Washington u Seattleu. "A ako je papir već korišten kao podaci za obuku u modelu, ne postoji način da se taj papir ukloni nakon obuke modela", dodaje ona.
Masivni skupovi podataka
LLM-i se obučavaju na ogromnim količinama podataka, često crpljenih s Interneta. Oni identificiraju obrasce između često milijardi isječaka govora u podacima za obuku, takozvanih tokena, koji im omogućuju generiranje tekstova s nevjerojatnom tečnošću.
Generativni AI modeli oslanjaju se na unos uzoraka iz tih masa podataka za izlaz teksta, slika ili računalnog koda. Znanstveni radovi vrijedni su programerima LLM-a zbog svoje duljine i "visoke gustoće informacija", kaže Stefan Baack, koji analizira skupove podataka o obuci AI-a u Zakladi Mozilla u San Franciscu, Kalifornija.
Tendencija kupnje visokokvalitetnih skupova podataka raste. Ova godina imaFinancial Timesnjihov materijalni dem ChatGPT programer OpenAI ponudio u unosnom poslu, kao što je Googleu učinio online forum Reddit. A budući da će akademski izdavači vjerojatno na alternativu gledati kao na nedopušteno kraćenje svog rada, "mislim da će biti još ovakvih poslova", kaže Wang.
Tajne informacija
Neki programeri umjetne inteligencije, kao što je Large-scale Artificial Intelligence Network, namjerno drže svoje skupove podataka otvorenima, ali mnoge tvrtke koje razvijaju generativne modele umjetne inteligencije držale su većinu svojih podataka o obuci u tajnosti, kaže Baack. "Nemamo pojma što je u njemu", kaže. Repozitoriji otvorenog izvornog koda kao što su arXiv i znanstvena baza podataka PubMed smatraju se "vrlo popularnim" izvorima, iako će velike tehnološke tvrtke vjerojatno prevlačiti članke iz časopisa koji se plaćaju za besplatno čitanje. "Oni su uvijek u potrazi za ovakvim informacijama", dodaje.
Teško je dokazati da je LLM koristio određeni papir, kaže Yves-Alexandre de Montjoye, računalni znanstvenik s Imperial Collegea u Londonu. Jedna je mogućnost suočiti model s neobičnom rečenicom iz teksta i vidjeti odgovara li rezultat sljedećim riječima u izvorniku. Ako je to slučaj, dobar je znak da je papir uključen u set za obuku. Ako nije, to ne znači da rad nije korišten - ne samo zato što programeri mogu programirati LLM da filtrira odgovore kako bi osigurali da se ne podudaraju previše s podacima o obuci. "Potrebno je puno da ovo uspije", kaže.
Druga metoda provjere jesu li podaci uključeni u skup podataka za obuku naziva se napad zaključivanjem članstva. Ovo se temelji na ideji da će model biti sigurniji u svoje rezultate kada vidi nešto što je već vidio. De Montjoyeov tim razvio je verziju ovoga, nazvanu zamka autorskih prava, za LLM.
Kako bi postavio zamku, tim generira uvjerljive, ali besmislene rečenice i skriva ih unutar djela, poput bijelog teksta na bijeloj pozadini ili u polju prikazanom kao nulta širina na web stranici. Ako je LLM "iznenađen" neiskorištenom kontrolnom rečenicom - mjerom njegove zbunjenosti - više nego rečenicom skrivenom u tekstu, "to je statistički dokaz da su zamke već viđene", kaže on.
Problemi s autorskim pravima
Čak i kada bi bilo moguće dokazati da je LLM bio obučen na određenom tekstu, nije jasno što se dalje događa. Izdavači tvrde da se korištenje tekstova zaštićenih autorskim pravima u obuci bez licenciranja smatra kršenjem autorskih prava. No pravni protuargument kaže da LLM ništa ne kopira - oni izvlače informacijski sadržaj iz podataka o obuci, drobe ga i koriste svoje naučeno znanje za generiranje novog teksta.
Možda bi sudski slučaj mogao pomoći da se to razjasni. Tužen u američkom slučaju autorskih prava koji je u tijeku i koji bi mogao biti revolucionaranThe New York TimesMicrosoft i programer ChatGPT-a, OpenAI, u San Franciscu, Kalifornija. Novine optužuju tvrtke da koriste njihov novinarski sadržaj za obuku svojih modela bez dopuštenja.
Mnogi akademici sretni su što je njihov rad uključen u podatke o obuci LLM-a - pogotovo kako modeli postaju točniji. “Osobno, nemam ništa protiv ako chatbot piše u mom stilu”, kaže Baack. Ali priznaje da njegova profesija nije ugrožena troškom LLM-a kao što je to slučaj s drugim profesijama, poput umjetnika i pisaca.
Pojedinačni akademski autori trenutno imaju malo utjecaja kada izdavač njihovih radova prodaje pristup njihovim djelima zaštićenim autorskim pravima. Za javno dostupne članke ne postoje utvrđeni načini dodjele zasluga ili saznanja je li tekst korišten.
Neki su istraživači, uključujući de Montjoyea, frustrirani. "Želimo LLM, ali još uvijek želimo nešto što je pošteno, a mislim da još nismo izmislili kako to izgleda", kaže.
