Akademiska förlag säljer tillgång till forskningsartiklar till teknikföretag för att träna artificiell intelligens (AI)-modeller. Vissa forskare har reagerat med bestörtning på sådana affärer, som sker utan författarnas samråd. Trenden väcker frågor om användningen av publicerade och ibland upphovsrättsskyddade verk för att träna det växande antalet AI-chatbotar under utveckling.

Experter säger att en forskningsartikel som ännu inte har använts för att träna en stor språkmodell sannolikt kommer att användas snart. Forskare undersöker tekniska alternativ för författare för att avgöra om deras innehåll används.

Förra månaden tillkännagavs att det brittiska vetenskapsförlaget Taylor & Francis, baserat i Milton Park, Storbritannien, hade tecknat ett avtal på 10 miljoner dollar med Microsoft, vilket ger det amerikanska teknikföretaget tillgång till förlagets data för att förbättra sina AI-system. I juni visade en investeraruppdatering att den amerikanska utgivaren Wiley tjänade 23 miljoner dollar genom att tillåta ett icke namngivet företag att träna generativa AI-modeller på dess innehåll.

Allt som är tillgängligt online - oavsett om det är i ett arkiv med öppen tillgång eller inte - har "ganska troligt" redan matats in i en stor språkmodell, säger Lucy Lu Wang, en AI-forskare vid University of Washington i Seattle. "Och om ett papper redan har använts som träningsdata i en modell, finns det inget sätt att ta bort det papperet efter att ha tränat modellen", tillägger hon.

Massiva datamängder

LLM:er utbildas på enorma mängder data, ofta hämtade från Internet. De identifierar mönster mellan de ofta miljarder talsnuttar i träningsdatan, så kallade tokens, som gör att de kan generera texter med fantastiskt flyt.

Generativa AI-modeller förlitar sig på att ta in mönster från dessa mängder av data för att mata ut text, bilder eller datorkod. Vetenskapliga artiklar är värdefulla för LLM-utvecklare på grund av deras längd och "höga informationstäthet", säger Stefan Baack, som analyserar AI-träningsdatauppsättningar vid Mozilla Foundation i San Francisco, Kalifornien.

Tendensen att köpa högkvalitativa datamängder växer. I år harFinancial Timesderas material dem ChatGPT-utvecklare OpenAI erbjuds i en lukrativ affär, liksom onlineforumet Reddit till Google. Och eftersom akademiska förlag sannolikt kommer att se alternativet som olaglig skumning av deras arbete, "Jag tror att det kommer att komma fler sådana här affärer", säger Wang.

Informationens hemligheter

Vissa AI-utvecklare, som det stora nätverket för artificiell intelligens, håller avsiktligt sina datauppsättningar öppna, men många företag som utvecklar generativa AI-modeller har hållit mycket av sin träningsdata hemlig, säger Baack. "Vi har ingen aning om vad som finns i det", säger han. Förråd med öppen källkod som arXiv och den vetenskapliga databasen PubMed anses vara "mycket populära" källor, även om tidskriftsartiklar med betalvägg sannolikt kommer att sugas bort av stora teknikföretag för att få gratis att läsa sammanfattningar. "De är alltid på jakt efter den här typen av information", tillägger han.

Det är svårt att bevisa att en LLM använde ett visst papper, säger Yves-Alexandre de Montjoye, datavetare vid Imperial College London. Ett alternativ är att konfrontera modellen med en ovanlig mening från en text och se om utdata matchar nästa ord i originalet. Om så är fallet är det ett gott tecken att pappret ingår i utbildningssetet. Om inte, betyder det inte att papperet inte användes - inte minst eftersom utvecklare kan programmera LLM för att filtrera svaren för att säkerställa att de inte matchar träningsdata för nära. "Det krävs mycket för att få det här att fungera", säger han.

En annan metod för att kontrollera om data ingår i en träningsdatauppsättning kallas en medlemskapsinferensattack. Detta är baserat på idén att en modell kommer att vara mer säker på sin produktion när den ser något den har sett tidigare. De Montjoyes team har utvecklat en version av detta, kallad upphovsrättsfällan, för LLM:er.

För att sätta fällan genererar teamet rimliga men meningslösa meningar och gömmer dem i ett verk, som vit text på en vit bakgrund eller i ett fält som visas som noll bredd på en webbsida. Om en LLM blir "överraskad" av en oanvänd kontrollmening - ett mått på dess förvirring - mer än av meningen som är gömd i texten, "är det statistiska bevis på att fällorna har setts tidigare", säger han.

Upphovsrättsfrågor

Även om det skulle vara möjligt att bevisa att en LLM utbildats på en viss text är det inte klart vad som händer sedan. Utgivare hävdar att användning av upphovsrättsskyddade texter i utbildning utan licens anses vara intrång. Men ett juridiskt motargument säger att LLM:er inte kopierar någonting - de extraherar informationsinnehåll från träningsdata, krossar det och använder sin inlärda kunskap för att generera ny text.

Kanske ett rättsfall kan hjälpa till att klargöra detta. Stämd i ett pågående amerikanskt upphovsrättsmål som kan vara banbrytandeNew York TimesMicrosoft och utvecklaren av ChatGPT, OpenAI, i San Francisco, Kalifornien. Tidningen anklagar företagen för att använda deras journalistiska innehåll för att träna sina modeller utan tillstånd.

Många akademiker är glada över att få sitt arbete inkluderat i utbildningsdata för LLM - särskilt när modellerna blir mer exakta. "Personligen har jag inget emot om en chatbot skriver i min stil", säger Baack. Men han medger att hans yrke inte hotas av bekostnad av LLMs som andra yrkesgrupper, som konstnärer och författare, är.

Enskilda akademiska författare har för närvarande liten inflytande när deras tidnings utgivare säljer tillgång till deras upphovsrättsskyddade verk. För allmänt tillgängliga artiklar finns det inget etablerat sätt att tilldela kredit eller veta om text har använts.

Vissa forskare, inklusive de Montjoye, är frustrerade. "Vi vill ha LLM, men vi vill fortfarande ha något som är rättvist, och jag tror inte att vi har uppfunnit hur det ser ut än", säger han.