Akadeemilised kirjastajad müüvad tehisintellekti (AI) mudelite koolitamiseks tehnoloogiaettevõtetele juurdepääsu uurimistöödele. Mõned teadlased on sellistele tehingutele, mis toimuvad ilma autoritega konsulteerimata, suhtunud nördinult. See suundumus tõstatab küsimusi avaldatud ja mõnikord autoriõigustega kaitstud teoste kasutamise kohta kasvava hulga tehisintellekti vestlusrobotite arendamise koolitamiseks.
Eksperdid ütlevad, et uurimistööd, mida pole veel suure keelemudeli koolitamiseks kasutatud, hakatakse tõenäoliselt varsti kasutama. Teadlased uurivad autorite tehnilisi võimalusi, et teha kindlaks, kas nende sisu kasutatakse.
Eelmisel kuul teatati, et Suurbritannias Milton Parkis asuv Briti teaduskirjastus Taylor & Francis sõlmis Microsoftiga 10 miljoni dollari suuruse lepingu, mis võimaldab USA tehnoloogiaettevõttel pääseda ligi kirjastaja andmetele, et oma tehisintellektisüsteeme täiustada. Juunis näitas investori värskendus, et USA kirjastaja Wiley teenis 23 miljonit dollarit, lubades nimetamata ettevõttel koolitada oma sisu põhjal generatiivseid tehisintellekti mudeleid.
Kõik, mis on veebis saadaval – olgu see siis avatud juurdepääsuga hoidlas või mitte –, on "üsna tõenäoliselt" juba suurde keelemudelisse sisestatud, ütleb Seattle'i Washingtoni ülikooli tehisintellekti uurija Lucy Lu Wang. "Ja kui paberit on mudelis juba treeningandmetena kasutatud, ei saa seda paberit pärast mudeli väljaõpetamist enam eemaldada," lisab ta.
Suured andmekogumid
LLM-id on koolitatud tohutul hulgal andmemahtudel, mis sageli ammutatakse Internetist. Nad tuvastavad mustrid treeningandmetes sageli miljardite kõnejuppide vahel, nn märgid, mis võimaldavad neil hämmastava ladususega tekste genereerida.
Generatiivsed AI mudelid tuginevad teksti, piltide või arvutikoodi väljastamiseks nendest andmemassidest pärinevatele mustritele. Teaduslikud dokumendid on LLM-i arendajatele väärtuslikud nende pikkuse ja suure teabetiheduse tõttu, ütleb Stefan Baack, kes analüüsib Californias San Franciscos asuvas Mozilla Foundationis tehisintellekti koolituse andmekogumeid.
Kalduvus osta kvaliteetseid andmekogumeid kasvab. Sellel aastal onFinancial Timesnende materiaalne dem ChatGPT arendaja OpenAI pakuti tulusa tehinguna, nagu tegi ka veebifoorum Reddit Google'ile. Ja kuna akadeemilised kirjastajad peavad alternatiivi tõenäoliselt oma töö ebaseaduslikuks närimiseks, "arvan, et selliseid tehinguid tuleb veel," ütleb Wang.
Teabe saladused
Mõned AI arendajad, nagu laiaulatuslik tehisintellekti võrk, hoiavad oma andmekogusid tahtlikult avatuna, kuid paljud generatiivseid AI mudeleid arendavad ettevõtted on hoidnud suure osa oma koolitusandmetest saladuses, ütleb Baack. "Meil pole aimugi, mis selles on," ütleb ta. Avatud lähtekoodiga hoidlaid, nagu arXiv ja teadusandmebaasi PubMed, peetakse väga populaarseteks allikateks, kuigi suured tehnoloogiaettevõtted saadavad tasuliste ajakirjade artikleid tõenäoliselt tasuta loetavate kokkuvõtete saamiseks. "Nad jahivad alati sellist teavet," lisab ta.
On raske tõestada, et LLM kasutas teatud paberit, ütleb Londoni Imperial College'i arvutiteadlane Yves-Alexandre de Montjoye. Üks võimalus on panna mudel vastamisi tekstist pärit ebatavalise lausega ja vaadata, kas väljund ühtib järgmiste sõnadega originaalis. Kui see nii on, on see hea märk, et paber on koolituskomplektis kaasas. Kui ei, siis see ei tähenda, et paberit ei kasutatud – muu hulgas seetõttu, et arendajad saavad programmeerida LLM-i vastuseid filtreerima, et need ei vastaks liiga täpselt koolitusandmetele. "Selle toimimiseks kulub palju," ütleb ta.
Teist meetodit, mille abil kontrollida, kas andmed on koolitusandmekomplekti kaasatud, nimetatakse liikmelisuse järeldamisrünnakuks. See põhineb ideel, et mudel on oma väljundis kindlam, kui ta näeb midagi, mida ta on varem näinud. De Montjoye meeskond on LLM-ide jaoks välja töötanud selle versiooni, mida nimetatakse autoriõiguse lõksuks.
Lõksu seadmiseks genereerib meeskond usutavaid, kuid mõttetuid lauseid ja peidab need teosesse, näiteks valge teksti valgel taustal või väljale, mis kuvatakse veebilehel nulllaiusega. Kui LLM-i "üllatub" kasutamata kontrolllause – selle segaduse mõõt – rohkem kui tekstis peidetud lause, "see on statistiline tõend selle kohta, et lõkse on varem nähtud," ütleb ta.
Autoriõigusega seotud probleemid
Isegi kui oleks võimalik tõestada, et LLM on konkreetse tekstiga koolitatud, pole selge, mis edasi saab. Kirjastajad väidavad, et autoriõigustega kaitstud tekstide kasutamist koolitusel ilma litsentsita peetakse rikkumiseks. Kuid juriidiline vastuargument ütleb, et LLM-id ei kopeeri midagi – nad eraldavad koolitusandmetest teabesisu, purustavad selle ja kasutavad oma õpitud teadmisi uue teksti loomiseks.
Võib-olla aitaks kohtumenetlus seda selgitada. Kaebati kohtusse käimasolevas USA autoriõiguse juhtumis, mis võib olla murrangulineNew York TimesMicrosoft ja ChatGPT arendaja OpenAI Californias San Franciscos. Ajaleht süüdistab ettevõtteid ajakirjandusliku sisu kasutamises modellide loata koolitamiseks.
Paljud akadeemikud tunnevad heameelt, et nende töö lisatakse LLM-ide koolitusandmete hulka – seda enam, et mudelid muutuvad täpsemaks. "Mind isiklikult ei häiri, kui vestlusrobot kirjutab minu stiilis," ütleb Baack. Kuid ta tunnistab, et tema elukutset ei ohusta LLM-ide kulud, nagu teiste elukutsete, näiteks kunstnike ja kirjanike omasid.
Üksikutel akadeemilistel autoritel on praegu vähe mõjuvõimu, kui nende paberi väljaandja müüb juurdepääsu nende autoriõigustega kaitstud teostele. Avalikult kättesaadavate artiklite puhul puuduvad kindlad viisid, kuidas määrata autoriteksti või teada, kas teksti on kasutatud.
Mõned teadlased, sealhulgas de Montjoye, on pettunud. "Me tahame LLM-e, kuid tahame siiski midagi, mis on õiglane, ja ma arvan, et me pole veel leiutanud, kuidas see välja näeb," ütleb ta.
