Akademski založniki prodajajo dostop do raziskovalnih člankov tehnološkim podjetjem za usposabljanje modelov umetne inteligence (AI). Nekateri raziskovalci so se zgroženo odzvali na takšne posle, ki potekajo brez posvetovanja z avtorji. Trend odpira vprašanja o uporabi objavljenih in včasih avtorsko zaščitenih del za usposabljanje vse večjega števila klepetalnih robotov AI v razvoju.
Strokovnjaki pravijo, da bo raziskovalni dokument, ki še ni bil uporabljen za usposabljanje velikega jezikovnega modela, verjetno kmalu uporabljen. Raziskovalci raziskujejo tehnične možnosti za avtorje, da ugotovijo, ali se njihova vsebina uporablja.
Prejšnji mesec je bilo objavljeno, da je britanski znanstveni založnik Taylor & Francis s sedežem v Milton Parku v Združenem kraljestvu z Microsoftom podpisal pogodbo v vrednosti 10 milijonov dolarjev, ki ameriškemu tehnološkemu podjetju omogoča dostop do podatkov založnika za izboljšanje svojih sistemov umetne inteligence. Junija je posodobitev za vlagatelje pokazala, da je ameriški založnik Wiley zaslužil 23 milijonov dolarjev s tem, ko je neimenovanemu podjetju dovolil usposabljanje generativnih modelov AI na njegovi vsebini.
Vse, kar je na voljo na spletu – ne glede na to, ali je v repozitoriju z odprtim dostopom ali ne – je "zelo verjetno" že vneseno v velik jezikovni model, pravi Lucy Lu Wang, raziskovalka AI na Univerzi Washington v Seattlu. »In če je bil papir že uporabljen kot podatki za usposabljanje v modelu, tega papirja po usposabljanju modela ni mogoče odstraniti,« dodaja.
Ogromni nizi podatkov
LLM se usposabljajo na ogromnih količinah podatkov, ki jih pogosto črpajo iz interneta. Identificirajo vzorce med pogosto milijardami govornih izrezkov v podatkih za usposabljanje, tako imenovane žetone, ki jim omogočajo ustvarjanje besedil z neverjetno tekočnostjo.
Generativni modeli AI se zanašajo na zaužitje vzorcev iz teh množic podatkov za izpis besedila, slik ali računalniške kode. Znanstveni članki so dragoceni za razvijalce LLM zaradi svoje dolžine in "visoke gostote informacij", pravi Stefan Baack, ki analizira nabore podatkov o usposabljanju AI pri Mozilla Foundation v San Franciscu v Kaliforniji.
Težnja po nakupu visokokakovostnih podatkovnih nizov narašča. Letos imaFinancial Timesnjihov materialni dem Razvijalec ChatGPT OpenAI ponudil v donosnem poslu, tako kot spletni forum Reddit Googlu. In ker bodo akademski založniki na alternativo verjetno gledali kot na nedovoljeno posnemanje svojega dela, "mislim, da bo še več takšnih poslov," pravi Wang.
Skrivnosti informacij
Nekateri razvijalci umetne inteligence, kot je Large-scale Artificial Intelligence Network, namenoma ohranjajo svoje nabore podatkov odprte, vendar so številna podjetja, ki razvijajo generativne modele umetne inteligence, večino svojih podatkov o usposabljanju ohranila v tajnosti, pravi Baack. "Nimamo pojma, kaj je v njem," pravi. Odprtokodni repozitoriji, kot sta arXiv in znanstvena zbirka podatkov PubMed, veljajo za "zelo priljubljena" vira, čeprav bodo članke v revijah s plačljivim zidom verjetno izčrpala velika tehnološka podjetja za brezplačno branje povzetkov. "Vedno so na lovu za tovrstnimi informacijami," dodaja.
Težko je dokazati, da je magistrski študij uporabljal določen papir, pravi Yves-Alexandre de Montjoye, računalničar na Imperial College London. Ena možnost je, da model soočite z nenavadnim stavkom iz besedila in preverite, ali se rezultat ujema z naslednjimi besedami v izvirniku. Če je temu tako, je dober znak, da je papir vključen v komplet za usposabljanje. Če ne, to ne pomeni, da dokument ni bil uporabljen – nenazadnje lahko razvijalci programirajo LLM, da filtrira odgovore in zagotovi, da se ne ujemajo preveč s podatki o usposabljanju. "Potrebno je veliko, da to deluje," pravi.
Druga metoda preverjanja, ali so podatki vključeni v nabor podatkov za usposabljanje, se imenuje napad sklepanja o članstvu. To temelji na zamisli, da bo model bolj samozavesten glede svojih rezultatov, ko bo videl nekaj, kar je videl že prej. De Montjoyejeva ekipa je razvila različico tega, imenovano copyright trap, za LLM.
Za nastavitev pasti ekipa ustvari verjetne, a nesmiselne stavke in jih skrije znotraj dela, kot je belo besedilo na belem ozadju ali v polju, prikazanem kot ničelna širina na spletni strani. Če je LLM "presenečen" nad neuporabljenim kontrolnim stavkom - merilom njegove zmede - bolj kot nad stavkom, ki je skrit v besedilu, "je to statistični dokaz, da so bile pasti že opažene," pravi.
Težave z avtorskimi pravicami
Tudi če bi bilo mogoče dokazati, da se je magisterij izobraževal na določenem besedilu, ni jasno, kaj se zgodi potem. Založniki trdijo, da se uporaba avtorsko zaščitenih besedil pri usposabljanju brez licence šteje za kršitev. Toda pravni protiargument pravi, da LLM ničesar ne kopirajo – iz podatkov o usposabljanju izvlečejo informacijsko vsebino, jo zdrobijo in uporabijo svoje naučeno znanje za ustvarjanje novega besedila.
Morda bi sodni primer lahko pomagal razjasniti to. Tožen v tekoči zadevi o avtorskih pravicah v ZDA, ki bi lahko bila prelomnaThe New York TimesMicrosoft in razvijalec ChatGPT, OpenAI, v San Franciscu v Kaliforniji. Časnik družbama očita, da brez dovoljenja uporabljajo svoje novinarske vsebine za urjenje svojih modelov.
Številni akademiki so veseli, da je njihovo delo vključeno v podatke o usposabljanju LLM - še posebej, ker modeli postajajo natančnejši. »Osebno me ne moti, če klepetalni robot piše v mojem slogu,« pravi Baack. Vendar priznava, da njegov poklic ni ogrožen zaradi stroškov magistrskega študija, kot so ogroženi pri drugih poklicih, kot so umetniki in pisatelji.
Posamezni akademski avtorji imajo trenutno malo vpliva, ko založnik njihovega časopisa proda dostop do njihovih avtorsko zaščitenih del. Za javno dostopne članke ni uveljavljenih načinov za dodelitev zaslug ali vedenje, ali je bilo besedilo uporabljeno.
Nekateri raziskovalci, vključno z de Montjoyejem, so razočarani. »Želimo magistrske študije, vendar še vedno želimo nekaj, kar je pošteno, in mislim, da še nismo izumili, kako to izgleda,« pravi.
