Wydawcy akademiccy sprzedają dostęp do artykułów naukowych firmom technologicznym w celu szkolenia modeli sztucznej inteligencji (AI). Niektórzy badacze zareagowali z konsternacją na takie transakcje, które odbywają się bez konsultacji autorów. Tendencja rodzi pytania dotyczące wykorzystywania opublikowanych, a czasami chronionych prawem autorskim, dzieł do szkolenia rosnącej liczby rozwijanych chatbotów AI.
Eksperci twierdzą, że artykuł badawczy, który nie został jeszcze wykorzystany do szkolenia dużego modelu językowego, prawdopodobnie wkrótce zostanie wykorzystany. Badacze badają możliwości techniczne umożliwiające autorom określenie, czy ich treści są wykorzystywane.
W zeszłym miesiącu ogłoszono, że brytyjski wydawca naukowy Taylor & Francis z siedzibą w Milton Park w Wielkiej Brytanii podpisał umowę o wartości 10 milionów dolarów z Microsoftem, umożliwiając amerykańskiej firmie technologicznej dostęp do danych wydawcy w celu ulepszenia systemów sztucznej inteligencji. W czerwcu aktualizacja inwestorów wykazała, że amerykański wydawca Wiley zarobił 23 miliony dolarów, umożliwiając anonimowej firmie trenowanie generatywnych modeli sztucznej inteligencji na podstawie swoich treści.
Wszystko, co jest dostępne w Internecie – czy to w ogólnodostępnym repozytorium, czy nie – „całkiem prawdopodobne” zostało już uwzględnione w dużym modelu językowym, mówi Lucy Lu Wang, badaczka sztucznej inteligencji na Uniwersytecie Waszyngtońskim w Seattle. „A jeśli dokument został już użyty jako dane szkoleniowe w modelu, nie ma możliwości usunięcia go po przeszkoleniu modelu” – dodaje.
Ogromne zbiory danych
LLM są szkolone na ogromnych ilościach danych, często pobieranych z Internetu. Identyfikują wzorce pomiędzy często miliardami fragmentów mowy w danych szkoleniowych, tzw. tokeny, które umożliwiają im generowanie tekstów z niesamowitą płynnością.
Modele generatywnej sztucznej inteligencji opierają się na wzorcach pozyskiwania tych mas danych w celu uzyskania tekstu, obrazów lub kodu komputerowego. Artykuły naukowe są cenne dla programistów LLM ze względu na ich długość i „dużą gęstość informacji” – mówi Stefan Baack, który analizuje zbiory danych szkoleniowych AI w Fundacji Mozilla w San Francisco w Kalifornii.
Rośnie tendencja do zakupu wysokiej jakości zbiorów danych. W tym roku ma„Financial Times”.ich materialne dem Twórca ChatGPT OpenAI oferowane w lukratywnej transakcji, podobnie jak forum internetowe Reddit dla Google. A ponieważ wydawcy akademiccy prawdopodobnie będą postrzegać alternatywę jako nielegalne przeglądanie ich prac, „myślę, że w przyszłości będzie więcej takich umów” – mówi Wang.
Tajemnice informacji
Niektórzy twórcy sztucznej inteligencji, np. wielkoskalowa sieć sztucznej inteligencji, celowo utrzymują otwarte zbiory danych, ale wiele firm opracowujących generatywne modele sztucznej inteligencji utrzymuje w tajemnicy większość swoich danych szkoleniowych, mówi Baack. „Nie mamy pojęcia, co w nim jest” – mówi. Repozytoria open source, takie jak arXiv i naukowa baza danych PubMed, są uważane za „bardzo popularne” źródła, chociaż artykuły z czasopism płatnych będą prawdopodobnie pobierane przez duże firmy technologiczne w celu udostępnienia bezpłatnych abstraktów. „Zawsze poszukują tego rodzaju informacji” – dodaje.
Trudno udowodnić, że uczelnia LLM korzystała z konkretnego artykułu, mówi Yves-Alexandre de Montjoye, informatyk w Imperial College w Londynie. Jedną z opcji jest skonfrontowanie modelu z nietypowym zdaniem z tekstu i sprawdzenie, czy wynik pasuje do kolejnych słów w oryginale. Jeśli tak jest, to dobry znak, że artykuł znajduje się w zestawie uczącym. Jeśli nie, nie oznacza to, że artykuł nie był używany — między innymi dlatego, że programiści mogą zaprogramować LLM tak, aby filtrował odpowiedzi, aby upewnić się, że nie odpowiadają one zbyt ściśle danym szkoleniowym. „Aby to zadziałało, potrzeba wiele pracy” – mówi.
Inną metodą sprawdzania, czy dane znajdują się w zbiorze danych szkoleniowych, jest atak polegający na wnioskowaniu o członkostwie. Opiera się to na założeniu, że model będzie bardziej pewny swoich wyników, gdy zobaczy coś, co widział wcześniej. Zespół De Montjoye opracował wersję tego, zwaną pułapką praw autorskich, dla LLM.
Aby zastawić pułapkę, zespół generuje prawdopodobne, ale bezsensowne zdania i ukrywa je w pracy, np. biały tekst na białym tle lub w polu wyświetlanym na stronie internetowej o zerowej szerokości. Jeśli LLM jest „zaskoczony” niewykorzystanym zdaniem kontrolnym – co jest miarą jego pomieszania – bardziej niż zdaniem ukrytym w tekście, „jest to statystyczny dowód na to, że pułapki widziano już wcześniej” – mówi.
Kwestie praw autorskich
Nawet gdyby można było udowodnić, że LLM został przeszkolony w zakresie określonego tekstu, nie jest jasne, co stanie się dalej. Wydawcy twierdzą, że wykorzystywanie w szkoleniach tekstów chronionych prawem autorskim bez licencji uznawane jest za naruszenie. Ale kontrargument prawny mówi, że LLM niczego nie kopiują – wydobywają treść informacyjną z danych szkoleniowych, przetwarzają ją i wykorzystują zdobytą wiedzę do generowania nowego tekstu.
Być może sprawa sądowa pomoże to wyjaśnić. Pozwany w toczącej się w USA sprawie dotyczącej praw autorskich, która może być przełomowaNew York TimesaMicrosoft i twórca ChatGPT, OpenAI w San Francisco w Kalifornii. Gazeta zarzuca firmom wykorzystywanie treści dziennikarskich do szkolenia modelek bez pozwolenia.
Wielu naukowców jest zadowolonych, że ich praca jest uwzględniana w danych szkoleniowych LLM – zwłaszcza, że modele stają się dokładniejsze. „Osobiście nie przeszkadza mi, jeśli chatbot pisze w moim stylu” – mówi Baack. Przyznaje jednak, że koszt studiów LLM nie zagraża jego zawodowi, tak jak w przypadku innych zawodów, takich jak artyści i pisarze.
Poszczególni autorzy akademiccy mają obecnie niewielki wpływ, gdy wydawca ich artykułu sprzedaje dostęp do ich dzieł chronionych prawem autorskim. W przypadku artykułów dostępnych publicznie nie ma ustalonych sposobów przypisania autorstwa ani sprawdzenia, czy tekst został wykorzystany.
Niektórzy badacze, w tym de Montjoye, są sfrustrowani. „Chcemy programów LLM, ale nadal chcemy czegoś sprawiedliwego i nie sądzę, że jeszcze wymyśliliśmy, jak to wygląda” – mówi.
