SourceHut,一个开源代码托管服务,表示 AI 公司的网络爬虫通过过度索取数据正在拖慢其服务。
"SourceHut 继续面临由于激进的 LLM 爬虫导致的服务中断,"该公司周一在其状态页面上报告。"我们正在持续部署缓解措施。我们已经部署了多项缓解措施,目前能够控制住这个问题。然而,我们的一些缓解措施可能会影响终端用户。"
SourceHut 表示已部署了 Nepenthes,这是一个用来捕获主要用于训练大语言模型的网络爬虫的陷阱,并指出这样做可能会降低用户对某些网页的访问质量。
"我们已单方面屏蔽了多个云服务提供商,包括 GCP (Google Cloud) 和 (Microsoft) Azure,因为大量机器人流量来自它们的网络,"该公司表示,并建议与 SourceHut 集成的服务管理员联系安排例外情况以避免被屏蔽。
这并非 SourceHut 第一次承担无限制网络请求的带宽负担。该组织在 2022 年对 Google 的 Go Module Mirror 提出了类似的反对意见,将流量超载比作拒绝服务攻击。其他开源项目如 GMP 也面临过这个问题。
但在过去两年生成式 AI 热潮中,AI 爬虫表现得尤其不守规矩。OpenAI 在 2023 年 8 月宣布其网络爬虫将遵守 robots.txt 文件,这是网站提供的一组指令,用于告诉爬虫它们是否受欢迎。其他 AI 提供商也作出了类似承诺。
尽管如此,滥用报告仍然继续。维修网站 iFixit 在去年 7 月提出了这个问题,当时 Anthropic 的 Claudebot 被指控过度爬取。
2024 年 12 月,云托管服务 Vercel 表示 AI 爬虫已成为重要存在。在前一个月,该公司表示,OpenAI 的 GPTbot 在其网络上产生了 5.69 亿请求,而 Anthropic 的 Claude 则产生了 3.7 亿请求。在同一时期,这些 AI 爬虫的请求量约占 Googlebot (用于 Google 搜索索引) 45 亿请求的 20%。
同月晚些时候,Diaspora 开发者 Dennis Schubert 也注意到 AI 机器人的激增。在一篇帖子中,他表示在过去 60 天内,他的服务器 70% 的流量来自 LLM 训练机器人。
《The Register》在 1 月初询问了 Schubert 这件事。"有趣的是,在这篇帖子病毒式传播后的几天内,所有爬取都停止了,"他当时回应。"不仅是 Diaspora wiki,还有我的整个基础设施。我不完全确定为什么,但事实就是如此。"
他表示,问题并没有完全消失,因为他的帖子的可见性激发了互联网上的恶作剧者创建自己的 wiki 爬虫,这些爬虫现在伪装成 OpenAI GPTbot。
结果是日志分析变得更加困难。
"例如,我现在在 robots.txt 中放置了一个 '金丝雀',现在它已经达到了近百万的点击量,包括使用 GPTBot 用户代理字符串的点击,"Schubert 解释道。"问题是这些请求绝对不是来自 OpenAI。OpenAI 似乎正在使用 Microsoft Azure 进行爬取。但所有这些金丝雀点击都来自 AWS IP 甚至一些美国住宅 ISP。所以这只是一些混蛋试图通过伪造他们的[用户代理]字符串来搞笑。"
同时,关于 AI 爬虫行为不端的报告仍在继续,阻止它们的努力也在进行中。而且,在有人声称亚马逊的 Amazonbot 让开发者的服务器超载后,也有人报告称用户代理字符串被伪造。
根据广告指标公司 DoubleVerify 的数据,由于 AI 爬虫的原因,2024 年下半年一般无效流量(GIVT,即不应计入广告浏览量的机器人)增长了 86%。
该公司表示,"2024 年已知机器人印象中的 GIVT 记录中,有 16% 是由与 AI 抓取工具相关的机器人生成的,如 GPTBot、ClaudeBot 和 AppleBot。"
这家广告公司还观察到,虽然一些机器人,如 Meta AI 机器人和 AppleBot,声明它们是为了收集数据来训练 AI,但其他爬虫服务于多种目的,这使得屏蔽变得更加复杂。例如,禁止 GoogleBot 访问(它既用于搜索也用于 AI)可能会降低网站的搜索可见性。
为了避免这种情况,Google 在 2023 年实施了一个名为 Google-Extended 的 robots.txt 令牌,网站可以使用它来防止其网页内容被用于训练互联网巨头的 Gemini 和 Vertex AI 服务,同时仍允许这些网站被索引用于搜索。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。