谷歌学术能否在人工智能革命中幸存下来?
谷歌学术庆祝 20 周年。对于新的基于人工智能的竞争,问题是:它能保持自己的地位吗?

谷歌学术能否在人工智能革命中幸存下来?
最大、最全面的学术搜索引擎 Google Scholar 本周迎来了 20 岁生日。在过去的二十年中,一些研究人员指出,该工具已成为科学中最重要的工具之一。然而,近年来,出现了使用人工智能(AI)来改善搜索体验的竞争对手,以及其他允许用户下载数据的竞争对手。
西雅图华盛顿大学的计算社会科学家杰文·韦斯特(Jevin West)每天都使用该数据库,他表示,由位于加利福尼亚州山景城的互联网巨头谷歌运营的谷歌学术搜索的影响是显着的。但“如果说谷歌学术搜索作为主要搜索引擎的地位有可能被取代的话,那可能就是现在了,因为其中一些新工具和其他地方正在发生的创新,”韦斯特说。
西班牙格拉纳达大学的文献计量学家阿尔贝托·马丁·马丁 (Alberto Martín Martín) 表示,谷歌学术搜索的许多优势——免费访问、信息广度和复杂的搜索选项——“现在已被其他平台所共享”。
人工智能驱动的聊天机器人 诸如ChatGPT等使用大型语言模型的工具已成为一些研究人员在检索、回顾和总结文献时的首选应用。一些研究人员已经用谷歌学术来换取这些工具。 “直到最近,谷歌学术搜索还是我的默认搜索引擎,”新加坡管理大学学术图书馆员亚伦·泰 (Aaron Tay) 说。它仍然是他的首要任务,但“最近我开始使用其他人工智能工具。”
尽管如此,考虑到谷歌学术的规模以及它在科学界的根深蒂固,“要推翻它需要付出很大的努力,”韦斯特补充道。
阿努拉格·阿查里亚 Google Scholar 联合创始人,欢迎为使学术信息更易于查找、理解和构建而做出的一切努力。 “我们能做的越多,对科学的进步就越好。”
规模最大、最全
谷歌学术开始启动 2004年 出现在文献研究的舞台上 改变了一切 。当时,研究人员使用图书馆查找信息或通过付费在线服务(例如 Web of Science 引文数据库)搜索学术论文。在谷歌学术推出的同一个月,爱思唯尔也推出了付费服务 Scopus,这是一个学术参考文献和摘要的综合数据库。
谷歌学术搜索在网络上搜索各种学术著作,例如书籍章节、报告、预印本和网络文档,包括英语以外语言的学术著作。阿查里亚说,我们的目标是“提高世界研究人员的效率,让每个人都站在科学的共同前沿”。
谷歌学术搜索与出版商的协议使其能够无与伦比地访问付费墙后面的文章全文,而不仅仅是大多数搜索引擎提供的标题和摘要。这些文章根据其与搜索查询的相关性进行排名 - 通常被引用最多的文章被带到顶部 - 并建议进一步的搜索查询。覆盖深度允许进行高度具体的搜索。
谷歌没有透露该服务的使用数据,但根据网络流量计Similarweb的数据,谷歌学术搜索每月的访问量超过1亿次。
Martín Martín 表示,该数据库还非常擅长将用户引导至文章的免费版本。位于科尔多瓦的西班牙国家研究委员会高级社会研究所的文献计量学家何塞·路易斯·奥尔特加补充道,这鼓励了开放获取运动。
然而,谷歌学术在其他方面并不透明。一个关键问题是缺乏对搜索内容(包括哪些期刊)以及使用什么算法推荐文章的可见性。它还限制其搜索结果的大量下载,这些搜索结果可用于文献计量分析等。 “我们对科学领域最有价值的工具之一了解不多,”韦斯特说。
Acharya 解释说,谷歌学术主要是一个搜索工具,其主要目标是帮助学者找到最有用的研究。
更新的搜索引擎
近年来,提供此类文献计量数据的竞争对手已经出现,尽管没有一家能够超越谷歌学术搜索的规模和付费墙后对全文文章的访问。一个著名的例子是 2022 年推出的 OpenAlex。前一年,用于在网络上搜索学术信息的 Microsoft Academy Graph 已被关闭,并发布了整个数据集。 OpenAlex 建立在这个数据源和其他开放的科学数据源的基础上。用户可以搜索按作者、机构和引文编录的内容,还可以免费下载整个记录。 “他们做了我们希望谷歌学术做的事情,”马丁-马丁说。
另一种流行的研究工具 Semantic Scholar 于 2015 年推出,利用人工智能创建可读的论文摘要并识别最相关的引文。另一个工具, 共识 于 2022 年推出,使用 Semantic Scholar 的数据库来寻找研究型问题的答案(West 是 Consensus 的顾问)。 Tay 最喜欢的作品之一是 暗中 ,它使用复杂的基于代理的搜索,其中自治实体像人类一样扫描科学文献,并根据找到的内容调整搜索。与 Google Scholar 上的几秒钟相比,需要几分钟才能产生结果,但 Tay 解释说,等待是值得的。 “我认为返回结果的质量比谷歌学术更好。”
Acharya 表示,谷歌学术搜索还使用人工智能对文章进行排名、建议其他搜索以及推荐相关文章。本月早些时候,该公司为其 PDF 阅读器推出了人工智能生成的文章摘要。 Acharya 补充说,搜索工具试图理解查询背后的意图和上下文。他说,这种语义搜索方法基于语言模型,已经使用了大约两年。
谷歌学术尚未做的一件事是将人工智能生成的搜索查询答案概述纳入其中,类似于现在在典型谷歌搜索顶部找到的内容。 Acharya 表示,以简洁且上下文丰富的方式总结多篇论文的结论是一项挑战。 “我们还没有找到应对这一挑战的有效解决方案,”他补充道。