维基媒体基金会：为 AI 训练数据集抓取资源的网络爬虫正带来运营开支压力

人阅读 2025-04-03 15:50:47维基百科

感谢网友 Coje_He 的线索投递！

4 月 3 日消息，维基百科运营方维基媒体基金会在当地时间 4 月 1 日的一份博文中表示，为 AI 训练数据集抓取资源的网络爬虫正对这家非营利性组织带来运营开支上的压力。

维基百科的姊妹项目维基共享资源（注：Wiki Commons）存储着大量可用于 AI 模型训练的多媒体资料集。根据统计数据，自 2024 年 1 月以来从维基共享资源下载多媒体内容的带宽增长了 50%，而这一变化趋势主要由自动化程序而非人类操作导致。

维基媒体基金会此前有能力应对突发事件导致的人类用户的流量激增，但 AI 时代自动爬虫活动的日益频繁正不断侵蚀该组织现有的冗余度，让基金会将大量时间和资源用于响应非真人流量。

维基媒体基金会的数据存储的模式是低使用频率内容仅存放在核心数据中心，而高频请求的数据则将在更邻近的数据中心提供备份。

自动爬虫的“遍历式”查询方式意味着其有更多的流量发送到核心数据中心，这带来了更高的流量成本。根据维基媒体基金会的统计，机器人以 35% 的总体浏览量消耗了 65% 的核心数据中心流量资源。

此外，自动爬虫甚至还去访问了维基媒体基金会开发环境关键系统（如代码审查平台、错误跟踪器）的 URL。

维基媒体基金会表示虽然该组织是非营利的，各项目的内容是免费提供的，但其基础设施却不是免费获得的，应建立一个负责任、可持续的基础设施使用规范，勿重演“公地悲剧”。

大数据