Akateemiset kustantajat myyvät tutkimuspapereita teknologiayrityksille, jotka harjoittavat tekoälyn (AI) malleja. Jotkut tutkijat ovat reagoineet tyrmistyneenä tällaisiin kauppoihin, jotka tapahtuvat ilman tekijöiden kuulemista. Suuntaus herättää kysymyksiä julkaistujen ja toisinaan tekijänoikeudella suojattujen teosten käytöstä kasvavan AI-chatbotin kehittämiseen.

Asiantuntijat sanovat, että tutkimuspaperia, jota ei ole vielä käytetty laajan kielimallin kouluttamiseen, käytetään todennäköisesti pian. Tutkijat tutkivat teknisiä vaihtoehtoja, joiden avulla kirjoittajat voivat määrittää, käytetäänkö heidän sisältöään.

Viime kuussa ilmoitettiin, että brittiläinen tiedejulkaisija Taylor & Francis, jonka kotipaikka on Milton Parkissa, Isossa-Britanniassa, oli allekirjoittanut 10 miljoonan dollarin sopimuksen Microsoftin kanssa, minkä ansiosta yhdysvaltalainen teknologiayritys voi käyttää kustantajan tietoja tekoälyjärjestelmiensä parantamiseksi. Kesäkuussa sijoittajapäivitys osoitti, että yhdysvaltalainen julkaisija Wiley ansaitsi 23 miljoonaa dollaria sallimalla nimettömän yrityksen kouluttaa generatiivisia tekoälymalleja sisältöönsä.

Kaikki verkossa saatavilla oleva – joko avoimessa tietovarastossa tai ei – on "melko todennäköisesti" jo syötetty suureen kielimalliin, sanoo Lucy Lu Wang, tekoälytutkija Washingtonin yliopistosta Seattlessa. "Ja jos paperia on jo käytetty mallin harjoitustietona, sitä paperia ei voi poistaa mallin koulutuksen jälkeen", hän lisää.

Massiiviset tietojoukot

LLM:t ovat koulutettuja valtaviin tietomääriin, jotka usein kerätään Internetistä. Ne tunnistavat kuvioita harjoitustiedoissa olevien usein miljardien puhekatkelmien välillä, niin sanottuja tokeneita, joiden avulla he voivat luoda tekstejä hämmästyttävän sujuvasti.

Generatiiviset tekoälymallit luottavat näiden tietomassojen kaavojen syöttämiseen tekstin, kuvien tai tietokonekoodin tulostamiseksi. Tieteelliset asiakirjat ovat arvokkaita LLM-kehittäjille niiden pituuden ja "korkean informaatiotiheyden" vuoksi, sanoo Stefan Baack, joka analysoi tekoälyn koulutustietojoukkoja Mozilla Foundationissa San Franciscossa, Kaliforniassa.

Taipumus ostaa korkealaatuisia tietokokonaisuuksia kasvaa. Tänä vuonna onFinancial Timesheidän materiaalinsa dem ChatGPT-kehittäjä OpenAI tarjosi tuottoisaa sopimusta, kuten verkkofoorumi Reddit Googlelle. Ja koska akateemiset kustantajat näkevät vaihtoehdon todennäköisesti työnsä luvattomana luvatona, "Luulen, että tällaisia ​​sopimuksia tulee lisää", Wang sanoo.

Tiedon salaisuudet

Jotkut tekoälykehittäjät, kuten Large-scale Artificial Intelligence Network, pitävät tietojoukonsa tarkoituksella auki, mutta monet generatiivisia tekoälymalleja kehittävät yritykset ovat pitäneet suuren osan koulutustiedoistaan ​​salassa, Baack sanoo. "Meillä ei ole aavistustakaan, mitä siinä on", hän sanoo. Avoimen lähdekoodin arkistot, kuten arXiv ja tieteellinen tietokanta PubMed, katsotaan "erittäin suosituiksi" lähteiksi, vaikka suuret teknologiayritykset tulevat todennäköisesti keräämään maksullisia lehtiartikkeleita ilmaiseksi luettavien tiivistelmien vuoksi. "He etsivät aina tällaista tietoa", hän lisää.

On vaikea todistaa, että LLM käytti tiettyä paperia, sanoo Lontoon Imperial Collegen tietojenkäsittelytieteilijä Yves-Alexandre de Montjoye. Yksi vaihtoehto on kohdata malli epätavallisen tekstin lauseen kanssa ja katsoa, ​​vastaako tulos alkuperäisen tekstin seuraavia sanoja. Jos näin on, se on hyvä merkki, että paperi sisältyy harjoitussarjaan. Jos ei, se ei tarkoita, että paperia ei käytetty – ei vähiten siksi, että kehittäjät voivat ohjelmoida LLM:n suodattamaan vastaukset varmistaakseen, että ne eivät täsmää koulutustietojen kanssa liian tarkasti. "Tämän toimivuuden saaminen vaatii paljon", hän sanoo.

Toista tapaa tarkistaa, sisältyykö koulutustietojoukkoon tietoja, kutsutaan jäsenyyspäätelmähyökkäykseksi. Tämä perustuu ajatukseen, että malli on varmempi tuloksestaan, kun se näkee jotain, mitä se on nähnyt aiemmin. De Montjoyen tiimi on kehittänyt tästä version, nimeltään tekijänoikeusloukku, LLM:ille.

Ansan asettamiseksi tiimi luo uskottavia, mutta järjettömiä lauseita ja piilottaa ne teoksen sisään, kuten valkoisen tekstin valkoisella taustalla tai kenttään, joka näkyy verkkosivulla nollaleveänä. Jos LLM on "yllättynyt" käyttämättömästä kontrollilauseesta - sen hämmennyksen mittarista - enemmän kuin tekstiin piilotetusta lauseesta, "se on tilastollista näyttöä siitä, että ansoja on nähty aiemmin", hän sanoo.

Tekijänoikeusongelmat

Vaikka olisi mahdollista todistaa, että LLM on koulutettu tietystä tekstistä, ei ole selvää, mitä tapahtuu seuraavaksi. Kustantajat väittävät, että tekijänoikeudella suojattujen tekstien käyttäminen koulutuksessa ilman lisenssiä katsotaan loukkaukseksi. Mutta oikeudellinen vasta-argumentti sanoo, että LLM:t eivät kopioi mitään - he poimivat informaatiosisältöä koulutustiedoista, murskaavat sen ja käyttävät oppimaansa tietoa uuden tekstin luomiseen.

Ehkä oikeusjuttu voisi auttaa asiaa selvittämään. Haastettu oikeuteen meneillään olevassa Yhdysvalloissa tekijänoikeusjutussa, joka voi olla uraauurtavaNew York TimesMicrosoft ja ChatGPT:n kehittäjä OpenAI San Franciscossa, Kaliforniassa. Lehti syyttää yrityksiä siitä, että ne ovat käyttäneet journalistista sisältöään malliensa kouluttamiseen ilman lupaa.

Monet akateemikot ovat iloisia, että heidän työnsä sisällytetään LLM:ien koulutustietoihin - varsinkin mallien tarkentuessa. "Henkilökohtaisesti en välitä, jos chatbot kirjoittaa minun tyylilläni", Baack sanoo. Mutta hän myöntää, että hänen ammattiaan ei uhkaa LLM:ien kustannukset, kuten muiden ammattien, kuten taiteilijoiden ja kirjailijoiden, kustannukset.

Yksittäisillä akateemisilla kirjoittajilla on tällä hetkellä vain vähän vaikutusvaltaa, kun heidän paperinsa kustantaja myy pääsyn heidän tekijänoikeudella suojattuihin teoksiinsa. Julkisesti saatavilla oleville artikkeleille ei ole olemassa vakiintuneita tapoja osoittaa ansiota tai tietää, onko tekstiä käytetty.

Jotkut tutkijat, mukaan lukien de Montjoye, ovat turhautuneita. "Haluamme LLM:itä, mutta haluamme silti jotain reilua, enkä usko, että olemme vielä keksineet, miltä se näyttää", hän sanoo.