Gli editori accademici vendono l’accesso ai documenti di ricerca alle aziende tecnologiche per addestrare modelli di intelligenza artificiale (AI). Alcuni ricercatori hanno reagito con sgomento a tali accordi, che avvengono senza la consultazione degli autori. La tendenza solleva interrogativi sull’uso di opere pubblicate e talvolta protette da copyright per addestrare il numero crescente di chatbot IA in fase di sviluppo.

Gli esperti dicono che un documento di ricerca che non è ancora stato utilizzato per addestrare un modello linguistico di grandi dimensioni sarà probabilmente utilizzato presto. I ricercatori stanno esplorando le opzioni tecniche per consentire agli autori di determinare se il loro contenuto viene utilizzato.

Il mese scorso è stato annunciato che l’editore scientifico britannico Taylor & Francis, con sede a Milton Park, nel Regno Unito, aveva firmato un accordo da 10 milioni di dollari con Microsoft, consentendo all’azienda tecnologica statunitense di accedere ai dati dell’editore per migliorare i suoi sistemi di intelligenza artificiale. A giugno, un aggiornamento degli investitori ha mostrato che l’editore statunitense Wiley ha guadagnato 23 milioni di dollari consentendo a una società senza nome di addestrare modelli di intelligenza artificiale generativa sui suoi contenuti.

Tutto ciò che è disponibile online – sia in un archivio ad accesso aperto o meno – è “molto probabilmente” già stato inserito in un modello linguistico di grandi dimensioni, afferma Lucy Lu Wang, ricercatrice di intelligenza artificiale presso l’Università di Washington a Seattle. "E se un documento è già stato utilizzato come dati di addestramento in un modello, non c'è modo di rimuoverlo dopo aver addestrato il modello", aggiunge.

Set di dati enormi

Gli LLM vengono addestrati su enormi quantità di dati, spesso sottratti da Internet. Identificano modelli tra i miliardi di frammenti di discorso contenuti nei dati di addestramento, i cosiddetti token, che consentono loro di generare testi con sorprendente fluidità.

I modelli di intelligenza artificiale generativa si basano sull’acquisizione di modelli da queste masse di dati per produrre testo, immagini o codice informatico. Gli articoli scientifici sono preziosi per gli sviluppatori LLM a causa della loro lunghezza e dell'"elevata densità di informazioni", afferma Stefan Baack, che analizza i set di dati di addestramento sull'intelligenza artificiale presso la Mozilla Foundation di San Francisco, California.

La tendenza ad acquistare set di dati di alta qualità è in crescita. Quest'anno ha ilTempi finanziariil loro materiale dem OpenAI, sviluppatore di ChatGPT offerto in un accordo redditizio, così come il forum online Reddit a Google. E poiché gli editori accademici probabilmente considereranno l’alternativa come una scrematura illecita del loro lavoro, “penso che arriveranno altri accordi come questo”, dice Wang.

Segreti dell'informazione

Alcuni sviluppatori di intelligenza artificiale, come la Large-scale Artificial Intelligence Network, mantengono intenzionalmente aperti i loro set di dati, ma molte aziende che sviluppano modelli di intelligenza artificiale generativa hanno mantenuto segreti gran parte dei loro dati di addestramento, afferma Baack. “Non abbiamo idea di cosa contenga”, dice. I repository open source come arXiv e il database scientifico PubMed sono considerati fonti “molto popolari”, anche se è probabile che gli articoli di riviste protette da paywall vengano sottratti dalle principali società tecnologiche per ottenere abstract gratuiti. “Sono sempre alla ricerca di questo tipo di informazioni”, aggiunge.

È difficile dimostrare che un LLM abbia utilizzato un particolare documento, afferma Yves-Alexandre de Montjoye, informatico dell'Imperial College di Londra. Un'opzione è confrontare il modello con una frase insolita tratta da un testo e vedere se l'output corrisponde alle parole successive nell'originale. Se questo è il caso, è un buon segno che il documento sia incluso nel set di formazione. In caso contrario, ciò non significa che l'articolo non sia stato utilizzato, anche perché gli sviluppatori possono programmare LLM per filtrare le risposte per garantire che non corrispondano troppo ai dati di addestramento. "Ci vuole molto per far funzionare tutto questo", dice.

Un altro metodo per verificare se i dati sono inclusi in un set di dati di addestramento è chiamato attacco di inferenza di appartenenza. Ciò si basa sull'idea che un modello sarà più sicuro del proprio output quando vedrà qualcosa che ha già visto prima. Il team di De Montjoye ha sviluppato una versione di questo, chiamata trappola del copyright, per i LLM.

Per preparare la trappola, il team genera frasi plausibili ma prive di senso e le nasconde all'interno di un'opera, come testo bianco su sfondo bianco o in un campo visualizzato a larghezza zero su una pagina web. Se un LLM è "sorpreso" da una frase di controllo inutilizzata - una misura della sua confusione - più che dalla frase nascosta nel testo, "questa è una prova statistica che le trappole sono già state viste prima", dice.

Problemi di diritto d'autore

Anche se fosse possibile dimostrare che un LLM è stato formato su un particolare testo, non è chiaro cosa succederà dopo. Gli editori sostengono che l'utilizzo di testi protetti da copyright nella formazione senza licenza è considerato una violazione. Ma una controargomentazione legale afferma che i LLM non copiano nulla: estraggono il contenuto informativo dai dati di formazione, lo elaborano e utilizzano la conoscenza appresa per generare nuovo testo.

Forse un caso giudiziario potrebbe aiutare a fare chiarezza. Citato in giudizio in una causa sul copyright negli Stati Uniti in corso che potrebbe essere rivoluzionariaIl New York TimesMicrosoft e lo sviluppatore di ChatGPT, OpenAI, a San Francisco, California. Il giornale accusa le aziende di utilizzare i loro contenuti giornalistici per addestrare le proprie modelle senza permesso.

Molti accademici sono felici di includere il proprio lavoro nei dati di formazione degli LLM, soprattutto perché i modelli diventano più accurati. “Personalmente non mi importa se un chatbot scrive nel mio stile”, afferma Baack. Ma ammette che la sua professione non è minacciata dalle spese dei LLM come lo sono quelle di altre professioni, come artisti e scrittori.

I singoli autori accademici attualmente hanno poca influenza quando l'editore del loro articolo vende l'accesso alle loro opere protette da copyright. Per gli articoli disponibili al pubblico, non esiste un metodo stabilito per assegnare crediti o sapere se il testo è stato utilizzato.

Alcuni ricercatori, tra cui de Montjoye, sono frustrati. "Vogliamo LLM, ma vogliamo ancora qualcosa che sia giusto, e non credo che abbiamo ancora inventato come sarebbe", dice.