AI 机器人流量负担令维基百科管理者忧心忡忡

Wikipedia 面临 AI 训练爬虫带来的巨大带宽压力。维基媒体基金会报告称,自 2024 年 1 月以来,多媒体文件请求带宽增加了 50%,主要来自 AI 模型训练爬虫。这些爬虫占据了大量资源,给基础设施带来前所未有的风险和成本。维基媒体基金会正在寻求解决方案,以优先保障人类用户的访问需求。

由于人工智能模型训练对在线内容有着无止境的需求，网络爬虫机器人已经成为维基媒体社区无法承受的负担。

维基媒体基金会 (负责管理维基百科及类似社区项目) 的代表表示，自 2024 年 1 月以来，用于处理多媒体文件请求的带宽使用量增加了 50%。

维基媒体基金会的 Birgit Mueller、Chris Danis 和 Giuseppe Lavagetto 在一份公开帖子中解释道："这种增长并非来自人类读者，而主要来自自动化程序，这些程序在抓取维基共享资源中的开放许可图片，用于训练 AI 模型。"

"我们的基础设施本是为了应对重大事件期间人类用户造成的突发流量高峰而建立的，但爬虫机器人产生的流量规模前所未有，带来了日益增长的风险和成本。"

据维基媒体人士透露，维基媒体基金会数据中心处理的最耗资源内容中，至少 65% 的流量是由机器人产生的，尽管这些软件代理仅占页面访问量的约 35%。

这是因为维基媒体基金会采用了缓存策略，将热门内容分发到全球各地的区域数据中心以提升性能。机器人访问页面时不考虑内容的热门程度，它们对冷门内容的请求意味着这些内容必须从核心数据中心获取，这会消耗更多计算资源。

正如维基媒体人士通过引用我们最近的相关报告所指出的，在过去一年左右的时间里，行为不当的机器人一直是开源项目计算基础设施运营者的普遍抱怨。

上个月，Git 托管服务 Sourcehut 公开批评了那些为 AI 公司疯狂抓取内容的网络爬虫。Diaspora 开发者 Dennis Schubert、维修网站 iFixit 以及 ReadTheDocs 等也都对激进的 AI 爬虫表示反对。

大多数网站都认识到为机器人查询提供带宽是经营成本的一部分，因为这些脚本化访问通过为搜索引擎建立索引，有助于在线内容更容易被发现。

但自从 ChatGPT 上线和生成式 AI 兴起以来，机器人变得更加肆无忌惮，大量抓取整个网站的内容用于训练 AI 模型。这些模型最终可能成为商业竞争对手，通过收费订阅或免费方式提供它们收集的聚合知识。这两种情况都可能减少对源网站的需求，或减少产生在线广告收入的搜索查询。

维基媒体基金会在其 2025/2026 年度规划文件的"基础设施负责任使用"部分中提出了一个目标："在请求率方面将爬虫产生的流量减少 20%，在带宽使用方面减少 30%。"

该规划文件指出，虽然维基百科及其多媒体库维基共享资源对训练机器学习模型来说是无价之宝，但"我们必须优先考虑为谁提供这些资源，我们希望优先考虑人类使用，并优先支持维基媒体项目和贡献者使用我们有限的资源。"

除了网站可靠性工程师已经采取的针对性干预措施来封禁最恶劣的机器人外，如何实现这一目标仍有待探索。

由于对 AI 内容滥用性采集的担忧已存在一段时间，已经出现了许多用于阻止激进爬虫的工具。这些包括：数据投毒项目如 Glaze、Nightshade 和 ArtShield；以及基于网络的工具，包括 Kudurru、Nepenthes、AI Labyrinth 和 Anubis。

去年，当网络对 AI 爬虫的不满传到主要的 AI 机器人赞助商 (如 Google、OpenAI 和 Anthropic 等) 耳中时，他们做出了一些努力，通过应用 robots.txt 指令来提供防止 AI 爬虫访问网站的方法。

但这些存储在网站根目录供到访网络爬虫读取的指令并未得到普遍部署或遵守。而且，如果不使用通配符来覆盖所有可能性，这种可选的声明式防御协议也无法跟上仅需更改名称就能躲避封禁列表条目的步伐。网站运营者普遍反映，行为不当的机器人会将自己伪装成 Googlebot 或其他广泛容忍的爬虫，以避免被封禁。

例如，Wikipedia.org 的 robots.txt 文件并没有封禁来自 Google、OpenAI 或 Anthropic 的 AI 爬虫。它封禁了一些因贪婪抓取整个网站而被认为有问题的机器人，但未能包括主要商业 AI 公司的条目。

The Register 已就维基媒体基金会为何没有更全面地禁止 AI 爬虫一事向其询问。

来源：The Register

0赞

好文章，需要你的鼓励

AI 机器人流量负担令维基百科管理者忧心忡忡

来源：The Register

2025

04/04

11:00

分享

点赞

AI智能体漏洞挖掘成本骤降，Anthropic呼吁AI防御

Spotify年度盘点2025首次推出多人互动功能"盘点派对"

英国SAP用户因商业套件重启授权迷局感到困惑

AWS发布Graviton5定制CPU，为云工作负载带来强劲性能

美光放弃Crucial品牌：告别消费级存储市场

手机里的NPU越来越强，为什么AI体验还在原地踏步？

如何使用现有基础设施让数据做好AI准备

IT领导者快问快答：思科光网络公司首席数字信息官Craig Williams分享AI转型经验

Anthropic CEO警告AI行业泡沫化，批评"YOLO"式投资

雅虎利用AI实时总结橄榄球比赛精彩内容

押注AI智能体，奇奇科技跨越十年的“换挡”与远航

联想天禧AI及创新终端设备在2025 AIE博览会获两项大奖，引领个人AI体验创新

360网络安全研究院 李丰沛：我们坚持用大数据的方法防护安全

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

360网络安全研究院李丰沛：我们坚持用大数据的方法防护安全