Az akadémiai kiadók kutatási dokumentumokhoz való hozzáférést adnak el technológiai cégeknek mesterséges intelligencia (AI) modellek képzése céljából. Egyes kutatók döbbenten reagáltak az ilyen ügyletekre, amelyekre a szerzők konzultációja nélkül kerül sor. A tendencia kérdéseket vet fel azzal kapcsolatban, hogy a publikált és esetenként szerzői jogvédelem alatt álló alkotásokat hogyan használják fel a növekvő számú mesterséges intelligencia chatbotok fejlesztésben való betanításához.

Szakértők szerint egy olyan kutatási dokumentumot, amelyet még nem használtak nagy nyelvi modell képzésére, valószínűleg hamarosan alkalmazni fognak. A kutatók technikai lehetőségeket kutatnak a szerzők számára annak megállapítására, hogy tartalmukat felhasználják-e.

Múlt hónapban jelentették be, hogy a brit Milton Parkban található Taylor & Francis tudományos kiadó 10 millió dolláros szerződést írt alá a Microsofttal, amely lehetővé teszi az amerikai technológiai vállalat számára, hogy hozzáférjen a kiadó adataihoz mesterséges intelligenciájának fejlesztése érdekében. Júniusban egy befektetői frissítés kimutatta, hogy a Wiley amerikai kiadó 23 millió dollárt keresett azzal, hogy lehetővé tette egy meg nem nevezett cég számára, hogy generatív mesterségesintelligencia-modelleket tanítson a tartalomra.

Minden, ami az interneten elérhető – akár nyílt hozzáférésű adattárban van, akár nem –, „nagy valószínűséggel” már bekerült egy nagy nyelvi modellbe – mondja Lucy Lu Wang, a Seattle-i Washington Egyetem mesterséges intelligencia-kutatója. „És ha egy papírt már használtak oktatási adatként egy modellben, akkor a modell betanítása után nem lehet eltávolítani a papírt” – teszi hozzá.

Hatalmas adathalmazok

Az LLM-ek hatalmas mennyiségű adatra vannak kiképezve, amelyek gyakran az internetről származnak. A betanítási adatokban gyakran milliárdnyi beszédrészlet között mintákat azonosítanak, úgynevezett tokeneket, amelyek lehetővé teszik számukra, hogy elképesztő folyékonyan generáljanak szövegeket.

A generatív mesterséges intelligencia modellek ezen adattömegek mintáira támaszkodnak, hogy szöveget, képeket vagy számítógépes kódot adjanak ki. A tudományos iratok értékesek az LLM-fejlesztők számára hosszúságuk és „nagy információsűrűségük miatt” – mondja Stefan Baack, aki a kaliforniai San Francisco-i Mozilla Foundationnél elemzi a mesterséges intelligencia képzési adatkészleteit.

Egyre nagyobb a tendencia a jó minőségű adatkészletek vásárlására. Ebben az évben aFinancial Timesanyaguk dem ChatGPT fejlesztő OpenAI jövedelmező üzletet kínált, akárcsak a Reddit a Google-nak online fórum. És mivel az akadémiai kiadók valószínűleg úgy tekintenek erre az alternatívára, mint a munkájuk illegális átfedésére, „Úgy gondolom, hogy még több ilyen üzlet lesz” – mondja Wang.

Az információ titkai

Egyes mesterséges intelligencia-fejlesztők, mint például a Large-scale Artificial Intelligence Network, szándékosan tartják nyitva az adatkészleteiket, de sok generatív mesterséges intelligencia modelleket fejlesztő cég a képzési adataik nagy részét titokban tartja, mondja Baack. „Fogalmunk sincs, mi van benne” – mondja. Az olyan nyílt forráskódú adattárak, mint az arXiv és a PubMed tudományos adatbázis, „nagyon népszerű” forrásnak számítanak, bár a fizetős folyóiratcikkeket valószínűleg a nagy technológiai cégek kiszipolyozzák az ingyenesen olvasható kivonatokért. „Mindig az ilyen jellegű információkra vadásznak” – teszi hozzá.

Nehéz bizonyítani, hogy egy LLM egy bizonyos papírt használt - mondja Yves-Alexandre de Montjoye, az Imperial College London informatikusa. Az egyik lehetőség, hogy szembesítjük a modellt egy szövegből származó szokatlan mondattal, és megnézzük, hogy a kimenet megegyezik-e az eredeti következő szavaival. Ha ez a helyzet, az jó jel, hogy a papír benne van a képzési készletben. Ha nem, ez nem jelenti azt, hogy a papírt nem használták fel – már csak azért sem, mert a fejlesztők beprogramozhatják az LLM-et a válaszok szűrésére, hogy azok ne egyezzenek túl szorosan a képzési adatokkal. „Sok minden kell ahhoz, hogy ez működjön” – mondja.

Egy másik módszer annak ellenőrzésére, hogy az adatok szerepelnek-e egy betanítási adatkészletben, az úgynevezett tagsági következtetési támadás. Ez azon az elgondoláson alapszik, hogy a modell magabiztosabb lesz a teljesítményében, ha olyasmit lát, amit korábban látott. De Montjoye csapata ennek a szerzői jogi csapdának nevezett változatát fejlesztette ki az LLM-ek számára.

A csapda felállításához a csapat hihető, de értelmetlen mondatokat generál, és elrejti őket egy műben, például fehér szöveget fehér alapon vagy egy weboldalon nulla szélességként megjelenített mezőben. Ha egy LLM-et jobban „meglep” egy nem használt ellenőrző mondat – a zavartság mértéke –, mint a szövegben elrejtett mondat, „az statisztikai bizonyíték arra, hogy a csapdákat korábban is látták” – mondja.

Szerzői jogi problémák

Még ha be is lehetne bizonyítani, hogy egy LLM-t egy adott szövegre képeztek ki, nem világos, mi történik ezután. A kiadók azt állítják, hogy a szerzői joggal védett szövegek képzésben engedély nélkül történő használata jogsértésnek minősül. Egy jogi ellenérv azonban azt mondja, hogy az LLM-ek nem másolnak le semmit – információtartalmat nyernek ki a képzési adatokból, összetörik azokat, és a tanult tudásukat felhasználva új szöveget generálnak.

Talán egy bírósági eljárás segíthet ennek tisztázásában. Beperelték egy folyamatban lévő amerikai szerzői jogi ügyben, amely úttörő lehetA New York TimesA Microsoft és a ChatGPT fejlesztője, az OpenAI a kaliforniai San Franciscóban. Az újság azzal vádolja a cégeket, hogy újságírói tartalmaikkal engedély nélkül képezték ki modelleiket.

Sok akadémikus örül annak, hogy munkája bekerül az LLM-ek képzési adatai közé – különösen a modellek pontosabbá válásával. „Személy szerint nem bánom, ha egy chatbot az én stílusomban ír” – mondja Baack. De elismeri, hogy szakmáját nem fenyegeti az LLM-ek költsége, mint más szakmákét, például művészeket és írókat.

Az egyes tudományos szerzők jelenleg csekély befolyással rendelkeznek, amikor lapjuk kiadója hozzáférést ad el szerzői joggal védett műveikhez. A nyilvánosan elérhető cikkek esetében nincs bevált módszer a hitelek hozzárendelésére vagy annak megállapítására, hogy használtak-e szöveget.

Néhány kutató, köztük de Montjoye is csalódott. „Szeretnénk LLM-eket, de még mindig valami tisztességes dolgot akarunk, és azt hiszem, hogy még nem találtuk ki, hogyan néz ki” – mondja.