Akademiniai leidėjai technologijų įmonėms parduoda prieigą prie mokslinių darbų, kad galėtų mokyti dirbtinio intelekto (AI) modelius. Kai kurie tyrėjai su nerimu reagavo į tokius sandorius, kurie vyksta nepasitarus su autoriais. Ši tendencija kelia klausimų dėl paskelbtų ir kartais autorių teisių saugomų kūrinių naudojimo mokant vis didėjantį AI pokalbių robotų skaičių.
Ekspertai teigia, kad greičiausiai netrukus bus panaudotas mokslinis darbas, kuris dar nebuvo panaudotas lavinant didelį kalbos modelį. Tyrėjai tiria technines galimybes autoriams nustatyti, ar jų turinys naudojamas.
Praėjusį mėnesį buvo paskelbta, kad Didžiosios Britanijos mokslo leidėjas Taylor & Francis, įsikūręs Milton Parke, JK, pasirašė 10 mln. Birželio mėn. investuotojo atnaujinimas parodė, kad JAV leidėjas Wiley uždirbo 23 milijonus dolerių, leisdamas neįvardintai įmonei parengti generatyvius AI modelius pagal savo turinį.
Viskas, kas pasiekiama internete – atviros prieigos saugykloje ar ne – „labai tikėtina“ jau buvo įtraukta į didelį kalbos modelį, sako Lucy Lu Wang, dirbtinio intelekto tyrėja iš Vašingtono universiteto Sietle. „Ir jei popierius jau buvo panaudotas kaip treniruočių duomenys modelyje, jokiu būdu negalima to popieriaus pašalinti po modelio apmokymo“, – priduria ji.
Dideli duomenų rinkiniai
LLM mokomi apie didžiulius duomenų kiekius, dažnai gaunamus iš interneto. Jie nustato modelius tarp dažnai milijardų kalbos fragmentų mokymo duomenų, vadinamųjų žetonų, kurie leidžia jiems generuoti tekstus nuostabiai sklandžiai.
Generatyvieji dirbtinio intelekto modeliai remiasi šių duomenų masės gavimo modeliais, kad būtų išvestas tekstas, vaizdai ar kompiuterio kodas. Moksliniai dokumentai yra vertingi LLM kūrėjams dėl savo ilgio ir „didelio informacijos tankio“, - sako Stefanas Baackas, analizuojantis AI mokymo duomenų rinkinius Mozilla fonde San Franciske, Kalifornijoje.
Tendencija pirkti aukštos kokybės duomenų rinkinius auga. Šiemet turi„Financial Times“.jų materialinė dem „ChatGPT“ kūrėjas „OpenAI“. pasiūlyta pelningu sandoriu, kaip ir internetinis forumas Reddit to Google. Ir kadangi akademiniai leidėjai alternatyvą greičiausiai vertins kaip neteisėtą savo darbų nuskaitymą, „manau, kad tokių sandorių bus ir daugiau“, – sako Wang.
Informacijos paslaptys
Kai kurie dirbtinio intelekto kūrėjai, pavyzdžiui, didelio masto dirbtinio intelekto tinklas, sąmoningai laiko savo duomenų rinkinius atvirus, tačiau daugelis kompanijų, kuriančių generuojančius AI modelius, didžiąją dalį savo mokymo duomenų laiko paslaptyje, sako Baackas. „Neturime supratimo, kas jame yra“, - sako jis. Atvirojo kodo saugyklos, tokios kaip „arXiv“ ir mokslinė duomenų bazė „PubMed“, laikomos „labai populiariais“ šaltiniais, nors didelės technologijų kompanijos greičiausiai atsiims mokamus žurnalų straipsnius, kad gautų nemokamos skaitomų santraukų. „Jie visada ieško tokios informacijos“, – priduria jis.
Sunku įrodyti, kad LLM naudojo tam tikrą popierių, sako Yves-Alexandre de Montjoye, Londono imperatoriškojo koledžo kompiuterių mokslininkas. Viena iš galimybių yra pateikti modelį neįprastu sakiniu iš teksto ir pažiūrėti, ar išvestis atitinka kitus originalo žodžius. Jei taip yra, tai geras ženklas, kad popierius įtrauktas į mokymo rinkinį. Jei ne, tai nereiškia, kad popierius nebuvo naudojamas – ypač todėl, kad kūrėjai gali užprogramuoti LLM filtruoti atsakymus, kad užtikrintų, jog jie per daug nesutampa su mokymo duomenimis. „Tam, kad tai veiktų, reikia daug“, - sako jis.
Kitas būdas patikrinti, ar duomenys yra įtraukti į mokymo duomenų rinkinį, vadinamas narystės išvados ataka. Tai pagrįsta idėja, kad modelis bus labiau pasitikintis savo rezultatu, kai pamatys tai, ką matė anksčiau. De Montjoye komanda sukūrė šios versijos versiją, vadinamą autorių teisių spąstais, skirtą LLM.
Norėdami nustatyti spąstus, komanda sugeneruoja tikėtinus, bet nesąmoningus sakinius ir paslepia juos darbe, pvz., baltą tekstą baltame fone arba tinklalapio lauke, kuris rodomas kaip nulinis plotis. Jei LLM „nustebina“ nepanaudotas kontrolinis sakinys – jo painiavos matas – labiau nei tekste paslėptas sakinys, „tai statistinis įrodymas, kad spąstai buvo pastebėti anksčiau“, – sako jis.
Autorių teisės problemos
Net jei būtų įmanoma įrodyti, kad LLM buvo apmokytas tam tikru tekstu, neaišku, kas nutiks toliau. Leidėjai teigia, kad autorių teisių saugomų tekstų naudojimas mokymuose be licencijos yra laikomas pažeidimu. Tačiau teisinis kontrargumentas sako, kad LLM nieko nekopijuoja – jie iš mokymo duomenų išgauna informacijos turinį, jį sutraiško ir naudoja įgytas žinias kurdami naują tekstą.
Galbūt tai padėtų išsiaiškinti teismo procesas. Iškelta byla JAV vykstančioje autorių teisių byloje, kuri gali būti novatoriška„The New York Times“.„Microsoft“ ir „ChatGPT“ kūrėjas „OpenAI“ San Franciske, Kalifornijoje. Laikraštis kaltina įmones panaudojus savo žurnalistinį turinį savo modeliams apmokyti be leidimo.
Daugelis akademikų džiaugiasi, kad jų darbas įtrauktas į LLM mokymo duomenis – ypač kai modeliai tampa tikslesni. „Asmeniškai aš neprieštarauju, jei pokalbių robotas rašo mano stiliumi“, – sako Baackas. Tačiau jis pripažįsta, kad jo profesijai negresia LLM išlaidos, kaip ir kitų profesijų, tokių kaip menininkai ir rašytojai.
Šiuo metu atskiri akademiniai autoriai turi mažai įtakos, kai jų popieriaus leidėjas parduoda prieigą prie jų autorių teisių saugomų darbų. Viešai prieinamiems straipsniams nėra nustatytų būdų, kaip priskirti kreditą arba sužinoti, ar buvo naudojamas tekstas.
Kai kurie tyrinėtojai, įskaitant de Montjoye'ą, yra nusivylę. „Mes norime LLM, bet vis tiek norime kažko, kas būtų sąžininga, ir nemanau, kad dar sugalvojome, kaip tai atrodo“, – sako jis.
