Akademickí vydavatelia predávajú prístup k výskumným dokumentom technologickým spoločnostiam na trénovanie modelov umelej inteligencie (AI). Niektorí výskumníci reagovali zdesene na takéto obchody, ktoré sa uskutočňujú bez konzultácie s autormi. Tento trend vyvoláva otázky o používaní publikovaných a niekedy chránených diel na trénovanie rastúceho počtu AI chatbotov vo vývoji.
Odborníci tvrdia, že výskumný dokument, ktorý ešte nebol použitý na trénovanie veľkého jazykového modelu, bude pravdepodobne čoskoro použitý. Výskumníci skúmajú technické možnosti autorov, aby zistili, či sa ich obsah používa.
Minulý mesiac bolo oznámené, že britský vedecký vydavateľ Taylor & Francis so sídlom v Milton Parku v Spojenom kráľovstve podpísal s Microsoftom zmluvu v hodnote 10 miliónov dolárov, ktorá americkej technologickej spoločnosti umožňuje prístup k údajom vydavateľa na zlepšenie jeho systémov AI. V júni aktualizácia pre investorov ukázala, že americký vydavateľ Wiley zarobil 23 miliónov dolárov tým, že umožnil nemenovanej spoločnosti trénovať generatívne modely AI na svojom obsahu.
Všetko dostupné online – či už v úložisku s otvoreným prístupom alebo nie – už bolo „dosť pravdepodobne“ vložené do veľkého jazykového modelu, hovorí Lucy Lu Wang, výskumníčka AI na Washingtonskej univerzite v Seattli. „A ak už bol papier použitý ako tréningové údaje v modeli, neexistuje spôsob, ako tento papier po natrénovaní modelu odstrániť,“ dodáva.
Masívne súbory údajov
LLM sú trénovaní na obrovských množstvách údajov, ktoré sa často odčerpávajú z internetu. Identifikujú vzory medzi často miliardami úryvkov reči v tréningových dátach, takzvané tokeny, ktoré im umožňujú generovať texty s úžasnou plynulosťou.
Generatívne modely AI sa spoliehajú na prijímanie vzorov z tohto množstva údajov na výstup textu, obrázkov alebo počítačového kódu. Vedecké práce sú cenné pre vývojárov LLM z dôvodu ich dĺžky a „vysokej informačnej hustoty,“ hovorí Stefan Baack, ktorý analyzuje súbory tréningových dát AI v Mozilla Foundation v San Franciscu v Kalifornii.
Tendencia nakupovať vysokokvalitné dátové súbory rastie. Tento rok máFinancial Timesich materiálne dem Vývojár ChatGPT OpenAI ponúkol v lukratívnej zmluve, rovnako ako online fórum Reddit spoločnosti Google. A keďže akademickí vydavatelia budú pravdepodobne považovať alternatívu za nezákonné zbieranie svojich prác, „myslím, že podobných obchodov bude pribúdať,“ hovorí Wang.
Tajomstvá informácií
Niektorí vývojári umelej inteligencie, ako napríklad sieť umelej inteligencie vo veľkom meradle, zámerne uchovávajú svoje súbory údajov otvorené, ale mnoho spoločností, ktoré vyvíjajú generatívne modely AI, utajilo väčšinu svojich tréningových údajov, hovorí Baack. "Nemáme potuchy, čo v ňom je," hovorí. Repozitáre s otvoreným zdrojovým kódom, ako je arXiv a vedecká databáza PubMed, sa považujú za „veľmi populárne“ zdroje, hoci platené články z časopisov pravdepodobne veľké technologické spoločnosti odčerpajú na voľne prístupné abstrakty. „Vždy hľadajú tento druh informácií,“ dodáva.
Je ťažké dokázať, že LLM použil konkrétny papier, hovorí Yves-Alexandre de Montjoye, počítačový vedec z Imperial College London. Jednou z možností je konfrontovať model s nezvyčajnou vetou z textu a zistiť, či sa výstup zhoduje s nasledujúcimi slovami v origináli. Ak je to tak, je to dobré znamenie, že papier je súčasťou tréningovej sady. Ak nie, neznamená to, že papier nebol použitý – v neposlednom rade preto, že vývojári môžu naprogramovať LLM na filtrovanie odpovedí, aby sa zabezpečilo, že sa príliš nezhodujú s údajmi o školení. „Na to, aby to fungovalo, je potrebné veľa,“ hovorí.
Ďalšia metóda kontroly, či sú údaje zahrnuté v trénovacej množine údajov, sa nazýva útok na odvodenie členstva. Je to založené na myšlienke, že model bude mať väčšiu istotu vo svojom výstupe, keď uvidí niečo, čo už videl. De Montjoyeov tím vyvinul verziu tohto, nazývanú pasca autorských práv, pre LLM.
Aby tím nastražil pascu, vygeneruje hodnoverné, ale nezmyselné vety a skryje ich v diele, ako je napríklad biely text na bielom pozadí alebo v poli zobrazenom ako nulová šírka na webovej stránke. Ak je LLM „prekvapený“ nepoužitou kontrolnou vetou – mierou jeho zmätku – viac ako vetou skrytou v texte, „to je štatistický dôkaz, že pasce už boli videné,“ hovorí.
Problémy s autorskými právami
Aj keby bolo možné dokázať, že LLM bol vyškolený na konkrétnom texte, nie je jasné, čo sa stane ďalej. Vydavatelia tvrdia, že používanie textov chránených autorskými právami na školeniach bez licencovania sa považuje za porušenie. Právny protiargument však hovorí, že LLM nič nekopírujú – extrahujú informačný obsah z tréningových dát, lámu ich a svoje naučené znalosti využívajú na generovanie nového textu.
Možno by to mohol objasniť súd. Žalovaný v prebiehajúcom prípade autorských práv v USA, ktorý by mohol byť prelomovýThe New York TimesMicrosoft a vývojár ChatGPT, OpenAI, v San Franciscu v Kalifornii. Noviny obviňujú spoločnosti, že svoj novinársky obsah využívajú na trénovanie svojich modelov bez povolenia.
Mnohí akademici sú radi, že ich práca je zahrnutá do tréningových údajov LLM – najmä keď sa modely stávajú presnejšími. „Osobne mi nevadí, ak chatbot píše v mojom štýle,“ hovorí Baack. Pripúšťa však, že jeho povolanie nie je ohrozené výdavkami na LLM, ako sú v prípade iných profesií, ako sú umelci a spisovatelia.
Jednotliví akademickí autori majú v súčasnosti malý vplyv, keď vydavateľ ich článku predáva prístup k ich dielam chráneným autorskými právami. V prípade verejne dostupných článkov neexistujú žiadne zavedené prostriedky na pridelenie kreditu alebo zistenie, či bol text použitý.
Niektorí výskumníci, vrátane de Montjoye, sú frustrovaní. „Chceme LLM, ale stále chceme niečo, čo je spravodlivé, a nemyslím si, že sme ešte vymysleli, ako to vyzerá,“ hovorí.
