Академичните издатели продават достъп до научни статии на технологични компании, за да обучават модели с изкуствен интелект (AI). Някои изследователи реагираха с ужас на подобни сделки, които се извършват без консултация с авторите. Тенденцията повдига въпроси относно използването на публикувани и понякога защитени с авторски права произведения за обучение на нарастващия брой AI chatbots в процес на разработка.

Експерти казват, че изследователска работа, която все още не е била използвана за обучение на голям езиков модел, вероятно ще бъде използвана скоро. Изследователите проучват технически възможности за авторите, за да определят дали тяхното съдържание се използва.

Миналия месец беше обявено, че британският научен издател Taylor & Francis, базиран в Милтън Парк, Обединеното кралство, е подписал сделка за 10 милиона долара с Microsoft, позволявайки на американската технологична компания да има достъп до данните на издателя, за да подобри своите AI системи. През юни актуализация на инвеститорите показа, че американският издател Wiley е спечелил 23 милиона долара, като е позволил на неназована компания да обучава генеративни AI модели върху нейното съдържание.

Всичко, което е налично онлайн – независимо дали е в хранилище с отворен достъп или не – е „много вероятно“ вече да е въведено в голям езиков модел, казва Луси Лу Уанг, изследовател на AI в Университета на Вашингтон в Сиатъл. „И ако хартия вече е била използвана като данни за обучение в модел, няма начин да премахнете тази хартия след обучение на модела“, добавя тя.

Масивни набори от данни

LLM се обучават върху огромни количества данни, често извличани от интернет. Те идентифицират модели между често милиардите речеви фрагменти в данните за обучение, така наречените токени, които им позволяват да генерират текстове с удивителна плавност.

Генеративните AI модели разчитат на поглъщане на модели от тези масиви от данни за извеждане на текст, изображения или компютърен код. Научните статии са ценни за разработчиците на LLM поради тяхната дължина и „висока плътност на информацията“, казва Щефан Баак, който анализира набори от данни за обучение на AI в Mozilla Foundation в Сан Франциско, Калифорния.

Тенденцията за закупуване на висококачествени набори от данни нараства. Тази година имаFinancial Timesматериалните им дем ChatGPT разработчик OpenAI предложени в изгодна сделка, както направи онлайн форумът Reddit на Google. И тъй като академичните издатели е вероятно да гледат на алтернативата като на незаконно преглеждане на тяхната работа, „Мисля, че ще има още подобни сделки“, казва Уанг.

Тайните на информацията

Някои разработчици на AI, като Large-scale Artificial Intelligence Network, умишлено държат своите набори от данни отворени, но много компании, разработващи генеративни AI модели, са запазили голяма част от своите данни за обучение в тайна, казва Баак. „Нямаме представа какво има в него“, казва той. Хранищата с отворен код като arXiv и научната база данни PubMed се считат за „много популярни“ източници, въпреки че статиите в списания с платена стена вероятно ще бъдат източени от големите технологични компании за безплатни за четене резюмета. „Те винаги са на лов за този вид информация“, добавя той.

Трудно е да се докаже, че LLM е използвал определена хартия, казва Ив-Александр дьо Монтжоайе, компютърен учен в Imperial College London. Една от възможностите е да сблъскате модела с необичайно изречение от текст и да видите дали резултатът съвпада със следващите думи в оригинала. Ако случаят е такъв, това е добър знак, че хартията е включена в комплекта за обучение. Ако не, това не означава, че хартията не е била използвана - не на последно място защото разработчиците могат да програмират LLM да филтрира отговорите, за да гарантира, че те не съвпадат твърде много с данните за обучението. „Необходими са много, за да работи това“, казва той.

Друг метод за проверка дали данните са включени в набор от данни за обучение се нарича атака с извод за членство. Това се основава на идеята, че моделът ще бъде по-уверен в резултата си, когато види нещо, което е виждал преди. Екипът на De Montjoye разработи версия на това, наречена капан за авторски права, за LLM.

За да постави капана, екипът генерира правдоподобни, но безсмислени изречения и ги скрива в произведение, като например бял текст на бял фон или в поле, показано като нулева ширина на уеб страница. Ако LLM е „изненадан“ от неизползвано контролно изречение – мярка за неговото объркване – повече, отколкото от изречението, скрито в текста, „това е статистическо доказателство, че капаните са били виждани и преди“, казва той.

Проблеми с авторските права

Дори и да е възможно да се докаже, че LLM е бил обучен върху определен текст, не е ясно какво ще се случи след това. Издателите твърдят, че използването на защитени с авторски права текстове в обучението без лиценз се счита за нарушение. Но юридически контрааргумент гласи, че LLM не копират нищо - те извличат информационно съдържание от данните за обучението, обработват го и използват наученото си знание, за да генерират нов текст.

Може би едно съдебно дело би могло да помогне да се изясни това. Съден по текущо дело за авторски права в САЩ, което може да бъде новаторскоНю Йорк ТаймсMicrosoft и разработчикът на ChatGPT, OpenAI, в Сан Франциско, Калифорния. Вестникът обвинява компаниите, че използват журналистическото им съдържание, за да обучават моделите си без разрешение.

Много преподаватели се радват работата им да бъде включена в данните за обучението на LLM - особено след като моделите стават по-точни. „Лично аз нямам нищо против чатботът да пише в моя стил“, казва Баак. Но той признава, че неговата професия не е застрашена от цената на LLM, както тези на други професии, като художници и писатели, са.

Индивидуалните академични автори в момента имат малко влияние, когато издателят на техния доклад продава достъп до техните защитени с авторски права произведения. За публично достъпни статии няма установени средства за приписване на кредит или да се знае дали е използван текст.

Някои изследователи, включително де Монджойе, са разочаровани. „Искаме LLM, но все още искаме нещо, което е справедливо и не мисля, че все още сме измислили как изглежда това“, казва той.