Editorii academice vând acces la lucrări de cercetare companiilor de tehnologie pentru a pregăti modele de inteligență artificială (AI). Unii cercetători au reacționat cu consternare la astfel de tranzacții, care au loc fără consultarea autorilor. Tendința ridică semne de întrebare cu privire la utilizarea lucrărilor publicate și uneori protejate prin drepturi de autor pentru a antrena numărul tot mai mare de chatboți AI în dezvoltare.
Experții spun că o lucrare de cercetare care nu a fost încă folosită pentru a antrena un model lingvistic mare este probabil să fie folosită în curând. Cercetătorii explorează opțiuni tehnice pentru autori pentru a determina dacă conținutul lor este utilizat.
Luna trecută a fost anunțat că editorul britanic de știință Taylor & Francis, cu sediul în Milton Park, Marea Britanie, a semnat un acord de 10 milioane de dolari cu Microsoft, permițând companiei de tehnologie din SUA să acceseze datele editorului pentru a-și îmbunătăți sistemele AI. În iunie, o actualizare a investitorilor a arătat că editorul american Wiley a câștigat 23 de milioane de dolari, permițând unei companii fără nume să antreneze modele AI generative cu privire la conținutul său.
Orice lucru disponibil online – fie într-un depozit cu acces deschis sau nu – a fost „destul de probabil” deja introdus într-un model lingvistic mare, spune Lucy Lu Wang, cercetător AI la Universitatea Washington din Seattle. „Și dacă o hârtie a fost deja folosită ca date de antrenament într-un model, nu există nicio modalitate de a elimina acea hârtie după antrenamentul modelului”, adaugă ea.
Seturi masive de date
LLM-urile sunt instruite pe cantități uriașe de date, adesea preluate de pe Internet. Ei identifică modele între miliardele de fragmente de vorbire din datele de antrenament, așa-numitele jetoane, care le permit să genereze texte cu o fluență uimitoare.
Modelele AI generative se bazează pe modele de ingerare din aceste mase de date pentru a scoate text, imagini sau cod de computer. Lucrările științifice sunt valoroase pentru dezvoltatorii LLM datorită lungimii și „densității mari de informații”, spune Stefan Baack, care analizează seturile de date de instruire AI la Fundația Mozilla din San Francisco, California.
Tendința de a cumpăra seturi de date de înaltă calitate este în creștere. Anul acesta areFinancial Timeslor material dem Dezvoltator ChatGPT OpenAI oferit într-o afacere profitabilă, la fel ca forumul online Reddit către Google. Și, din moment ce editorii academici probabil vor vedea alternativa ca o ignorare ilegală a lucrării lor, „Cred că vor urma mai multe oferte de acest fel”, spune Wang.
Secretele informatiei
Unii dezvoltatori de inteligență artificială, cum ar fi Rețeaua de inteligență artificială la scară largă, își păstrează în mod intenționat seturile de date deschise, dar multe companii care dezvoltă modele generative de inteligență artificială și-au păstrat secrete o mare parte din datele lor de antrenament, spune Baack. „Nu avem idee ce este în el”, spune el. Arhivele cu sursă deschisă, cum ar fi arXiv și baza de date științifică PubMed, sunt considerate surse „foarte populare”, deși articolele din jurnalele de tip paywall sunt probabil să fie preluate de marile companii de tehnologie pentru rezumate care pot fi citite gratuit. „Sunt mereu în căutarea acestui tip de informații”, adaugă el.
Este dificil de demonstrat că un LLM a folosit o anumită lucrare, spune Yves-Alexandre de Montjoye, un informatician la Imperial College London. O opțiune este de a confrunta modelul cu o propoziție neobișnuită dintr-un text și de a vedea dacă rezultatul se potrivește cu următoarele cuvinte din original. Dacă acesta este cazul, este un semn bun că hârtia este inclusă în setul de instruire. Dacă nu, asta nu înseamnă că lucrarea nu a fost folosită - nu în ultimul rând pentru că dezvoltatorii pot programa LLM să filtreze răspunsurile pentru a se asigura că nu se potrivesc prea mult cu datele de instruire. „Este nevoie de mult pentru ca acest lucru să funcționeze”, spune el.
O altă metodă de a verifica dacă datele sunt incluse într-un set de date de antrenament se numește atac de inferență de membru. Acest lucru se bazează pe ideea că un model va fi mai încrezător în ceea ce privește rezultatele sale atunci când vede ceva ce a văzut înainte. Echipa lui De Montjoye a dezvoltat o versiune a acesteia, numită capcana drepturilor de autor, pentru LLM.
Pentru a pune capcana, echipa generează propoziții plauzibile, dar fără sens și le ascunde într-o lucrare, cum ar fi text alb pe fundal alb sau într-un câmp afișat ca lățime zero pe o pagină web. Dacă un LLM este „surprins” de o propoziție de control nefolosită – o măsură a confuziei sale – mai mult decât de propoziția ascunsă în text, „aceasta este o dovadă statistică că capcanele au fost văzute înainte”, spune el.
Probleme cu drepturile de autor
Chiar dacă ar fi posibil să se dovedească că un LLM a fost instruit pe un anumit text, nu este clar ce se întâmplă în continuare. Editorii susțin că utilizarea textelor protejate prin drepturi de autor în cursuri de formare fără licență este considerată o încălcare. Dar un contraargument legal spune că LLM-urile nu copiază nimic - extrag conținutul de informații din datele de instruire, îl strâng și își folosesc cunoștințele învățate pentru a genera text nou.
Poate că un proces judiciar ar putea ajuta la clarificarea acestui lucru. Dat în judecată într-un caz de drept de autor în SUA, care ar putea fi inovatorThe New York TimesMicrosoft și dezvoltatorul ChatGPT, OpenAI, din San Francisco, California. Ziarul acuză companiile că își folosesc conținutul jurnalistic pentru a-și antrena modelele fără permisiune.
Mulți cadre universitare sunt fericiți că munca lor este inclusă în datele de formare ale LLM - mai ales că modelele devin mai precise. „Personal, nu mă deranjează dacă un chatbot scrie în stilul meu”, spune Baack. Dar recunoaște că profesia lui nu este amenințată de cheltuielile LLM, așa cum sunt cele ale altor profesii, precum artiștii și scriitorii.
În prezent, autorii academici individuali au puțină influență atunci când editorul lucrării lor vinde acces la lucrările lor protejate prin drepturi de autor. Pentru articolele disponibile public, nu există un mijloc stabilit de atribuire a creditului sau de a ști dacă textul a fost folosit.
Unii cercetători, inclusiv de Montjoye, sunt frustrați. „Vrem LLM-uri, dar încă vrem ceva care este corect și nu cred că am inventat încă cum arată”, spune el.
