发布时间: 2025-06-30

COAR报告:AI爬虫正深刻冲击全球开放知识库

“每天都有多个爬虫程序24小时不间断地访问我们的知识库。我们估计,由于爬虫活动导致的性能下降每天大约发生一到两次,而每周至少会发生一次整个系统彻底崩溃,需要人工干预——通常是重启服务。”

—— 一位调查受访者

      当前,有越来越多的AI爬虫程序在抓取知识库。这些自动化程序(或称爬虫)在互联网上穿梭,为搜索引擎、人工智能和大型语言模型以及其他目的收集数据并索引信息。虽然有些爬虫相对无害,但另一些则极具攻击性,会导致知识库(以及其他学术交流基础设施)的服务中断。为了解当前状况并更好地掌握爬虫程序对知识库的影响,开放获取知识库联盟(COAR)于2025年4月向其成员分发了一项调查。该调查收到了来自全球各地知识库的66份回复(加拿大和美国22份、欧洲22份、拉丁美洲9份、亚洲6份、澳大拉西亚4份、非洲2份、未知地区1份)。

      超过90%的受访者表示他们的知识库正遭遇恶意爬虫的攻击,通常每周不止一次,并常常导致服务变慢甚至中断。虽然无法百分百确定这些爬虫的具体目的,但业内的普遍假设是,它们是用于收集生成式AI训练数据的AI爬虫。此类流量在过去两年左右显著增加,对知识库产生了相当大的影响,不仅体现在服务质量上,也体现在处理这些爬虫所需的时间和资源上。

      为减轻其影响,各机构正在采取多种措施来限制或阻止AI爬虫访问知识库。其中一些措施能有效保护知识库服务不中断,但同样明显的是,这些措施也阻碍了其他对象(如个人用户和良性的系统)访问知识库。

      知识库的根本使命是提供对其馆藏的访问,以便这些资源能被再利用和重新整合,造福学术与社会。然而,近期恶意爬虫活动的激增,可能导致知识库不得不限制人类用户和机器用户对其资源的访问——最终可能导致全球知识库网络的价值大幅缩水。

      为了帮助知识库界应对这一快速变化的局面,并制定解决方案以使知识库尽可能保持开放,COAR将于2025年7月启动“知识库与AI爬虫特别工作组”。该工作组将汇集来自知识库的技术代表及其他专家,共同讨论此问题的潜在解决方案,并为知识库界制定建议。


阅读完整报告:

Report-of-the-COAR-Survey-on-AI-Bots-June-2025-1.pdf


延伸阅读:

      经纶·知识服务平台,依托强大的平台架构,即使在面对复杂网络环境和高并发请求时,也能持续为用户提供稳定、流畅的学术资源服务。平台整合全球丰富的学术文献资源,文献元数据超12亿,确保知识能够被读者顺畅、稳定地访问和利用。