COAR报告：AI爬虫正深刻冲击全球开放知识库

“每天都有多个爬虫程序24小时不间断地访问我们的知识库。我们估计，由于爬虫活动导致的性能下降每天大约发生一到两次，而每周至少会发生一次整个系统彻底崩溃，需要人工干预——通常是重启服务。”

—— 一位调查受访者

当前，有越来越多的AI爬虫程序在抓取知识库。这些自动化程序（或称爬虫）在互联网上穿梭，为搜索引擎、人工智能和大型语言模型以及其他目的收集数据并索引信息。虽然有些爬虫相对无害，但另一些则极具攻击性，会导致知识库（以及其他学术交流基础设施）的服务中断。为了解当前状况并更好地掌握爬虫程序对知识库的影响，开放获取知识库联盟（COAR）于2025年4月向其成员分发了一项调查。该调查收到了来自全球各地知识库的66份回复（加拿大和美国22份、欧洲22份、拉丁美洲9份、亚洲6份、澳大拉西亚4份、非洲2份、未知地区1份）。

超过90%的受访者表示他们的知识库正遭遇恶意爬虫的攻击，通常每周不止一次，并常常导致服务变慢甚至中断。虽然无法百分百确定这些爬虫的具体目的，但业内的普遍假设是，它们是用于收集生成式AI训练数据的AI爬虫。此类流量在过去两年左右显著增加，对知识库产生了相当大的影响，不仅体现在服务质量上，也体现在处理这些爬虫所需的时间和资源上。

为减轻其影响，各机构正在采取多种措施来限制或阻止AI爬虫访问知识库。其中一些措施能有效保护知识库服务不中断，但同样明显的是，这些措施也阻碍了其他对象（如个人用户和良性的系统）访问知识库。

知识库的根本使命是提供对其馆藏的访问，以便这些资源能被再利用和重新整合，造福学术与社会。然而，近期恶意爬虫活动的激增，可能导致知识库不得不限制人类用户和机器用户对其资源的访问——最终可能导致全球知识库网络的价值大幅缩水。

为了帮助知识库界应对这一快速变化的局面，并制定解决方案以使知识库尽可能保持开放，COAR将于2025年7月启动“知识库与AI爬虫特别工作组”。该工作组将汇集来自知识库的技术代表及其他专家，共同讨论此问题的潜在解决方案，并为知识库界制定建议。

阅读完整报告：

Report-of-the-COAR-Survey-on-AI-Bots-June-2025-1.pdf

延伸阅读：

经纶·知识服务平台，依托强大的平台架构，即使在面对复杂网络环境和高并发请求时，也能持续为用户提供稳定、流畅的学术资源服务。平台整合全球丰富的学术文献资源，文献元数据超12亿，确保知识能够被读者顺畅、稳定地访问和利用。

COAR报告：AI爬虫正深刻冲击全球开放知识库

延伸阅读：

相关内容