Akademičtí vydavatelé prodávají přístup k výzkumným pracím technologickým společnostem za účelem trénování modelů umělé inteligence (AI). Někteří badatelé reagovali zděšením na takové obchody, které probíhají bez konzultace s autory. Tento trend vyvolává otázky ohledně používání publikovaných a někdy autorskými právy chráněných děl k výcviku rostoucího počtu AI chatbotů ve vývoji.
Odborníci říkají, že výzkumný dokument, který ještě nebyl použit k trénování velkého jazykového modelu, bude pravděpodobně brzy použit. Výzkumníci zkoumají technické možnosti pro autory, aby zjistili, zda je jejich obsah používán.
Minulý měsíc bylo oznámeno, že britský vědecký vydavatel Taylor & Francis se sídlem v Milton Parku ve Spojeném království podepsal s Microsoftem smlouvu v hodnotě 10 milionů dolarů, která americké technologické společnosti umožňuje přístup k datům vydavatele za účelem zlepšení jeho systémů umělé inteligence. V červnu aktualizace pro investory ukázala, že americký vydavatel Wiley vydělal 23 milionů dolarů tím, že umožnil nejmenované společnosti trénovat generativní modely umělé inteligence na svém obsahu.
Cokoli dostupného online – ať už v úložišti s otevřeným přístupem nebo ne – již bylo „dost pravděpodobně“ začleněno do velkého jazykového modelu, říká Lucy Lu Wang, výzkumnice AI na Washingtonské univerzitě v Seattlu. „A pokud byl papír již použit jako trénovací data v modelu, neexistuje způsob, jak tento papír po trénování modelu odstranit,“ dodává.
Masivní datové sady
LLM jsou vyškoleni na obrovském množství dat, často vysílaných z internetu. Identifikují vzory mezi často miliardami úryvků řeči v trénovacích datech, takzvané tokeny, které jim umožňují generovat texty s úžasnou plynulostí.
Generativní modely umělé inteligence se spoléhají na přijímání vzorů z těchto množství dat pro výstup textu, obrázků nebo počítačového kódu. Vědecké články jsou pro vývojáře LLM cenné kvůli jejich délce a „vysoké hustotě informací,“ říká Stefan Baack, který analyzuje soubory dat pro školení AI v Mozilla Foundation v San Franciscu v Kalifornii.
Tendence nakupovat vysoce kvalitní datové soubory roste. Tento rok máFinancial Timesjejich materiální dem Vývojář ChatGPT OpenAI nabízené v lukrativní dohodě, stejně jako online fórum Reddit společnosti Google. A protože akademičtí vydavatelé pravděpodobně pohlížejí na alternativu jako na nezákonné přebírání jejich prací, „Myslím, že podobných obchodů bude přibývat,“ říká Wang.
Tajemství informací
Někteří vývojáři umělé inteligence, jako je Large-scale Artificial Intelligence Network, záměrně uchovávají své datové sady otevřené, ale mnoho společností vyvíjejících generativní modely umělé inteligence uchovává většinu svých tréninkových dat v tajnosti, říká Baack. "Nemáme ponětí, co v něm je," říká. Open source repozitáře, jako je arXiv a vědecká databáze PubMed, jsou považovány za „velmi oblíbené“ zdroje, ačkoli placené články v časopisech budou pravděpodobně vysávány velkými technologickými společnostmi pro volně čtené abstrakty. "Vždy hledají tento druh informací," dodává.
Je obtížné prokázat, že LLM použil konkrétní papír, říká Yves-Alexandre de Montjoye, počítačový vědec z Imperial College London. Jednou z možností je konfrontovat model s neobvyklou větou z textu a zjistit, zda výstup odpovídá dalším slovům v originále. Pokud tomu tak je, je to dobré znamení, že je papír součástí tréninkové sady. Pokud ne, neznamená to, že papír nebyl použit – v neposlední řadě proto, že vývojáři mohou naprogramovat LLM tak, aby filtroval odpovědi, aby se zajistilo, že se nebudou příliš shodovat s trénovacími daty. "Je potřeba hodně, aby to fungovalo," říká.
Další metoda kontroly, zda jsou data zahrnuta do trénovací datové sady, se nazývá útok na odvození členství. To je založeno na myšlence, že model si bude jistější svým výstupem, když uvidí něco, co už viděl dříve. De Montjoyeův tým vyvinul verzi tohoto, nazývanou past na autorská práva, pro LLM.
Aby tým nastražil past, vygeneruje věrohodné, ale nesmyslné věty a skryje je v díle, jako je bílý text na bílém pozadí nebo v poli zobrazeném jako nulová šířka na webové stránce. Pokud je LLM „překvapen“ nepoužitou kontrolní větou – mírou jeho zmatenosti – více než větou skrytou v textu, „to je statistický důkaz, že pasti už byly viděny,“ říká.
Problémy s autorskými právy
I kdyby bylo možné prokázat, že LLM byl vyškolen na konkrétním textu, není jasné, co se stane dál. Vydavatelé tvrdí, že používání textů chráněných autorskými právy při školení bez udělení licence je považováno za porušení. Právní protiargument ale říká, že LLM nic nekopírují – extrahují informační obsah ze školicích dat, drtí je a své naučené znalosti využívají ke generování nového textu.
Možná by to mohl objasnit soudní spor. Žalován v probíhající kauze amerických autorských práv, která by mohla být průlomováThe New York TimesMicrosoft a vývojář ChatGPT, OpenAI, v San Franciscu v Kalifornii. Noviny obviňují společnosti z toho, že jejich žurnalistický obsah využívají k výcviku svých modelů bez povolení.
Mnoho akademiků je rádo, že jejich práce je zahrnuta do tréninkových dat LLM – zvláště když se modely stávají přesnějšími. „Osobně mi nevadí, když chatbot píše v mém stylu,“ říká Baack. Připouští však, že jeho profese není ohrožena výdaji LLM jako u jiných profesí, jako jsou umělci a spisovatelé.
Jednotliví akademičtí autoři mají v současnosti malý vliv, když vydavatel jejich článku prodává přístup k jejich dílům chráněným autorským právem. U veřejně dostupných článků neexistuje žádný zavedený způsob, jak přidělit kredit nebo zjistit, zda byl použit text.
Někteří výzkumníci, včetně de Montjoye, jsou frustrovaní. „Chceme LLM, ale stále chceme něco, co je spravedlivé, a myslím, že jsme ještě nevynalezli, jak to vypadá,“ říká.
