学术出版商向科技公司出售研究论文的使用权,以训练人工智能 (AI) 模型。一些研究人员对此类未经作者咨询而进行的交易感到沮丧。这一趋势引发了人们对使用已出版的、有时是受版权保护的作品来训练越来越多的正在开发的人工智能聊天机器人的质疑。
专家表示,一篇尚未用于训练大型语言模型的研究论文可能很快就会被使用。研究人员正在探索作者的技术选择,以确定他们的内容是否被使用。
上个月,总部位于英国米尔顿帕克的英国科学出版商 Taylor & Francis 宣布与微软签署了一项价值 1000 万美元的协议,允许这家美国科技公司访问出版商的数据以改进其人工智能系统。 6 月,投资者更新显示,美国出版商 Wiley 通过允许一家未透露姓名的公司在其内容上训练生成人工智能模型,赚取了 2300 万美元。
西雅图华盛顿大学的人工智能研究员 Lucy Lu Wang 表示,在线提供的任何内容(无论是否在开放访问存储库中)“很可能”已经被输入到大型语言模型中。 “如果一篇论文已经被用作模型中的训练数据,那么在训练模型后就无法删除该论文,”她补充道。
海量数据集
法学硕士接受大量数据的培训,这些数据通常来自互联网。他们识别训练数据中数十亿个语音片段(所谓的标记)之间的模式,这使他们能够生成极其流畅的文本。
生成式人工智能模型依赖于从大量数据中提取模式来输出文本、图像或计算机代码。加利福尼亚州旧金山 Mozilla 基金会分析人工智能训练数据集的 Stefan Baack 表示,科学论文对于 LLM 开发人员来说很有价值,因为它们的长度和“信息密度高”。
购买高质量数据集的趋势正在增长。今年有金融时报他们的物质需求 ChatGPT 开发者 OpenAI 在线论坛 Reddit 向 Google 提供了一笔利润丰厚的交易。由于学术出版商可能会将这种替代方案视为非法窃取他们的作品,“我认为未来还会有更多这样的交易,”王说。
信息的秘密
巴克说,一些人工智能开发商,比如大规模人工智能网络,有意保持他们的数据集开放,但许多开发生成式人工智能模型的公司却对他们的大部分训练数据保密。 “我们不知道里面有什么,”他说。 arXiv 和科学数据库 PubMed 等开源存储库被认为是“非常受欢迎”的来源,尽管付费期刊文章可能会被主要科技公司窃取以免费阅读摘要。 “他们总是在寻找这类信息,”他补充道。
伦敦帝国理工学院的计算机科学家 Yves-Alexandre de Montjoye 表示,很难证明法学硕士使用了特定的论文。一种选择是让模型面对文本中的一个不寻常的句子,看看输出是否与原文中的下一个单词匹配。如果是这种情况,则表明该论文已包含在训练集中。如果没有,这并不意味着该论文没有被使用——尤其是因为开发人员可以对法学硕士进行编程来过滤答案,以确保它们不会与训练数据过于匹配。 “要让这项工作成功需要付出很多努力,”他说。
检查数据是否包含在训练数据集中的另一种方法称为成员推理攻击。这是基于这样的想法:当模型看到以前见过的东西时,它会对它的输出更有信心。 De Montjoye 的团队为法学硕士开发了一个版本,称为版权陷阱。
为了设置陷阱,团队生成看似合理但无意义的句子,并将它们隐藏在作品中,例如白色背景上的白色文本或网页上显示为零宽度的字段中。如果法学硕士对未使用的控制句(衡量其混乱的程度)感到“惊讶”,而不是对隐藏在文本中的句子感到“惊讶”,“这就是统计证据,表明以前已经见过这些陷阱,”他说。
版权问题
即使可以证明法学硕士接受过特定文本的培训,也不清楚接下来会发生什么。出版商声称,未经许可在培训中使用受版权保护的文本被视为侵权。但法律上的反驳说,法学硕士不会复制任何东西——他们从训练数据中提取信息内容,对其进行处理,并利用他们学到的知识生成新文本。
也许法庭案件可以帮助澄清这一点。在正在进行的美国版权案件中被起诉,这可能是开创性的纽约时报微软和 ChatGPT 的开发商 OpenAI,位于加利福尼亚州旧金山。该报指责这些公司未经许可使用其新闻内容来训练模型。
许多学者很高兴将他们的工作纳入法学硕士的培训数据中——尤其是当模型变得更加准确时。 “就我个人而言,我不介意聊天机器人是否按照我的风格写作,”巴克说。但他承认,他的职业并没有像艺术家和作家等其他职业那样受到法学硕士费用的威胁。
目前,当论文出版商出售其受版权保护的作品的访问权时,个别学术作者几乎没有什么影响力。对于公开发表的文章,没有既定的方法来分配来源或了解文本是否已被使用。
包括德蒙乔耶在内的一些研究人员感到沮丧。 “我们想要法学硕士,但我们仍然想要一些公平的东西,而且我认为我们还没有发明它的样子,”他说。
