Akadēmiskie izdevēji pārdod tehnoloģiju uzņēmumiem piekļuvi pētniecības darbiem, lai apmācītu mākslīgā intelekta (AI) modeļus. Daži pētnieki uz šādiem darījumiem, kas notiek bez autoru konsultācijas, ir reaģējuši ar satraukumu. Šī tendence rada jautājumus par publicētu un dažkārt ar autortiesībām aizsargātu darbu izmantošanu, lai apmācītu arvien pieaugošo AI tērzēšanas robotu skaitu.
Eksperti saka, ka drīzumā tiks izmantots pētniecības darbs, kas vēl nav izmantots liela valodas modeļa apmācībai. Pētnieki pēta autoru tehniskās iespējas, lai noteiktu, vai viņu saturs tiek izmantots.
Pagājušajā mēnesī tika paziņots, ka Lielbritānijas zinātnes izdevējs Taylor & Francis, kas atrodas Miltonparkā, Apvienotajā Karalistē, ir parakstījis 10 miljonu dolāru darījumu ar Microsoft, ļaujot ASV tehnoloģiju uzņēmumam piekļūt izdevēja datiem, lai uzlabotu savas AI sistēmas. Jūnijā investoru atjauninājums parādīja, ka ASV izdevējs Wiley nopelnījis 23 miljonus ASV dolāru, ļaujot nenosauktam uzņēmumam apmācīt ģeneratīvus AI modeļus savā saturā.
Viss, kas pieejams tiešsaistē — neatkarīgi no tā, vai tas atrodas brīvpiekļuves repozitorijā vai nē, — “diezgan iespējams” jau ir ievadīts lielā valodas modelī, saka Lūsija Lu Vanga, AI pētniece no Vašingtonas universitātes Sietlā. "Un, ja papīrs jau ir izmantots kā apmācības dati modelī, pēc modeļa apmācības šo papīru nevar noņemt," viņa piebilst.
Lielas datu kopas
LLM ir apmācīti par milzīgu datu apjomu, kas bieži tiek iegūts no interneta. Viņi identificē modeļus starp bieži vien miljardiem runas fragmentu apmācības datos, tā sauktos marķierus, kas ļauj ģenerēt tekstus pārsteidzoši plūstoši.
Ģeneratīvie AI modeļi paļaujas uz šo datu masīvu pārņemšanas modeļiem, lai izvadītu tekstu, attēlus vai datora kodu. Zinātniskie dokumenti ir vērtīgi LLM izstrādātājiem to garuma un “augstā informācijas blīvuma” dēļ, saka Stefans Bāks, kurš analizē AI apmācības datu kopas Mozilla Foundation Sanfrancisko, Kalifornijā.
Pieaug tendence iegādāties augstas kvalitātes datu kopas. Šogad irFinancial Timesviņu materiālie dem ChatGPT izstrādātājs OpenAI piedāvāja ienesīgā darījumā, tāpat kā tiešsaistes forums Reddit to Google. Un tā kā akadēmiskie izdevēji alternatīvu, visticamāk, uzskatīs par sava darba nelikumīgu izsmelšanu, "es domāju, ka būs vēl vairāk šādu darījumu," saka Vans.
Informācijas noslēpumi
Daži mākslīgā intelekta izstrādātāji, piemēram, liela mēroga mākslīgā intelekta tīkls, apzināti saglabā savas datu kopas atvērtas, taču daudzi uzņēmumi, kas izstrādā ģeneratīvus AI modeļus, lielu daļu no saviem apmācības datiem ir slēpuši noslēpumā, saka Baaks. "Mums nav ne jausmas, kas tajā ir," viņš saka. Atvērtā koda krātuves, piemēram, arXiv un zinātniskā datubāze PubMed, tiek uzskatīti par “ļoti populāriem” avotiem, lai gan lielākie tehnoloģiju uzņēmumi, visticamāk, izsūtīs maksas žurnālu rakstus, lai iegūtu brīvi lasāmus kopsavilkumus. "Viņi vienmēr meklē šāda veida informāciju," viņš piebilst.
Ir grūti pierādīt, ka LLM izmantoja noteiktu papīru, saka Īvs Aleksandrs de Montžojs, Londonas Imperiālās koledžas datorzinātnieks. Viena iespēja ir konfrontēt modeli ar neparastu teikumu no teksta un redzēt, vai izvade atbilst nākamajiem vārdiem oriģinālā. Ja tas tā ir, tā ir laba zīme, ka papīrs ir iekļauts apmācības komplektā. Ja nē, tas nenozīmē, ka papīrs netika izmantots — jo īpaši tāpēc, ka izstrādātāji var ieprogrammēt LLM, lai filtrētu atbildes, lai nodrošinātu, ka tās pārāk precīzi neatbilst apmācības datiem. "Lai tas darbotos, ir nepieciešams daudz, " viņš saka.
Vēl viena metode, kā pārbaudīt, vai dati ir iekļauti apmācības datu kopā, tiek saukta par dalības secinājumu uzbrukumu. Tas ir balstīts uz domu, ka modelis būs pārliecinātāks par savu rezultātu, kad redzēs kaut ko iepriekš redzētu. De Montjoye komanda ir izstrādājusi šīs versijas versiju, ko sauc par autortiesību slazdu, kas paredzēta LLM.
Lai iestatītu slazdu, komanda ģenerē ticamus, bet nejēdzīgus teikumus un paslēpj tos darbā, piemēram, baltu tekstu uz balta fona vai laukā, kas tīmekļa lapā tiek rādīts kā nulles platums. Ja LLM ir "pārsteigts" par neizmantotu kontroles teikumu - tā apjukuma mērauklu - vairāk nekā ar tekstā paslēptu teikumu, "tas ir statistikas pierādījums tam, ka slazdi ir redzēti iepriekš," viņš saka.
Autortiesību problēmas
Pat ja būtu iespējams pierādīt, ka LLM ir apmācīts par konkrētu tekstu, nav skaidrs, kas notiks tālāk. Izdevēji apgalvo, ka ar autortiesībām aizsargātu tekstu izmantošana apmācībās bez licences tiek uzskatīta par pārkāpumu. Taču juridisks pretarguments saka, ka LLM neko nekopē – viņi iegūst informācijas saturu no apmācību datiem, tos sasmalcina un izmanto iegūtās zināšanas, lai ģenerētu jaunu tekstu.
Varbūt tiesas process varētu palīdzēt to noskaidrot. Iesūdzēts tiesā ASV notiekošajā autortiesību lietā, kas varētu būt revolucionāraThe New York TimesMicrosoft un ChatGPT izstrādātājs OpenAI Sanfrancisko, Kalifornijā. Laikraksts apsūdz uzņēmumus, ka tie bez atļaujas izmanto savu žurnālistikas saturu, lai apmācītu savus modeļus.
Daudzi akadēmiķi priecājas, ka viņu darbs ir iekļauts LLM apmācības datos, jo īpaši tāpēc, ka modeļi kļūst precīzāki. "Man personīgi nav nekas pretī, ja tērzēšanas robots raksta manā stilā," saka Baaks. Taču viņš atzīst, ka viņa profesiju neapdraud LLM izdevumi, kā tas ir citu profesiju pārstāvjiem, piemēram, māksliniekiem un rakstniekiem.
Atsevišķiem akadēmiskiem autoriem pašlaik ir maz sviras, kad viņu papīra izdevējs pārdod piekļuvi viņu ar autortiesībām aizsargātajiem darbiem. Publiski pieejamiem rakstiem nav noteikts veids, kā piešķirt kredītu vai zināt, vai teksts ir izmantots.
Daži pētnieki, tostarp de Montjoye, ir neapmierināti. "Mēs vēlamies LLM, bet mēs joprojām vēlamies kaut ko godīgu, un es domāju, ka mēs vēl neesam izgudrojuši, kā tas izskatās," viņš saka.
