SourceHut,一个开源代码托管服务,表示 AI 公司的网络爬虫通过过度索取数据正在拖慢其服务。
"SourceHut 继续面临由于激进的 LLM 爬虫导致的服务中断,"该公司周一在其状态页面上报告。"我们正在持续部署缓解措施。我们已经部署了多项缓解措施,目前能够控制住这个问题。然而,我们的一些缓解措施可能会影响终端用户。"
SourceHut 表示已部署了 Nepenthes,这是一个用来捕获主要用于训练大语言模型的网络爬虫的陷阱,并指出这样做可能会降低用户对某些网页的访问质量。
"我们已单方面屏蔽了多个云服务提供商,包括 GCP (Google Cloud) 和 (Microsoft) Azure,因为大量机器人流量来自它们的网络,"该公司表示,并建议与 SourceHut 集成的服务管理员联系安排例外情况以避免被屏蔽。
这并非 SourceHut 第一次承担无限制网络请求的带宽负担。该组织在 2022 年对 Google 的 Go Module Mirror 提出了类似的反对意见,将流量超载比作拒绝服务攻击。其他开源项目如 GMP 也面临过这个问题。
但在过去两年生成式 AI 热潮中,AI 爬虫表现得尤其不守规矩。OpenAI 在 2023 年 8 月宣布其网络爬虫将遵守 robots.txt 文件,这是网站提供的一组指令,用于告诉爬虫它们是否受欢迎。其他 AI 提供商也作出了类似承诺。
尽管如此,滥用报告仍然继续。维修网站 iFixit 在去年 7 月提出了这个问题,当时 Anthropic 的 Claudebot 被指控过度爬取。
2024 年 12 月,云托管服务 Vercel 表示 AI 爬虫已成为重要存在。在前一个月,该公司表示,OpenAI 的 GPTbot 在其网络上产生了 5.69 亿请求,而 Anthropic 的 Claude 则产生了 3.7 亿请求。在同一时期,这些 AI 爬虫的请求量约占 Googlebot (用于 Google 搜索索引) 45 亿请求的 20%。
同月晚些时候,Diaspora 开发者 Dennis Schubert 也注意到 AI 机器人的激增。在一篇帖子中,他表示在过去 60 天内,他的服务器 70% 的流量来自 LLM 训练机器人。
《The Register》在 1 月初询问了 Schubert 这件事。"有趣的是,在这篇帖子病毒式传播后的几天内,所有爬取都停止了,"他当时回应。"不仅是 Diaspora wiki,还有我的整个基础设施。我不完全确定为什么,但事实就是如此。"
他表示,问题并没有完全消失,因为他的帖子的可见性激发了互联网上的恶作剧者创建自己的 wiki 爬虫,这些爬虫现在伪装成 OpenAI GPTbot。
结果是日志分析变得更加困难。
"例如,我现在在 robots.txt 中放置了一个 '金丝雀',现在它已经达到了近百万的点击量,包括使用 GPTBot 用户代理字符串的点击,"Schubert 解释道。"问题是这些请求绝对不是来自 OpenAI。OpenAI 似乎正在使用 Microsoft Azure 进行爬取。但所有这些金丝雀点击都来自 AWS IP 甚至一些美国住宅 ISP。所以这只是一些混蛋试图通过伪造他们的[用户代理]字符串来搞笑。"
同时,关于 AI 爬虫行为不端的报告仍在继续,阻止它们的努力也在进行中。而且,在有人声称亚马逊的 Amazonbot 让开发者的服务器超载后,也有人报告称用户代理字符串被伪造。
根据广告指标公司 DoubleVerify 的数据,由于 AI 爬虫的原因,2024 年下半年一般无效流量(GIVT,即不应计入广告浏览量的机器人)增长了 86%。
该公司表示,"2024 年已知机器人印象中的 GIVT 记录中,有 16% 是由与 AI 抓取工具相关的机器人生成的,如 GPTBot、ClaudeBot 和 AppleBot。"
这家广告公司还观察到,虽然一些机器人,如 Meta AI 机器人和 AppleBot,声明它们是为了收集数据来训练 AI,但其他爬虫服务于多种目的,这使得屏蔽变得更加复杂。例如,禁止 GoogleBot 访问(它既用于搜索也用于 AI)可能会降低网站的搜索可见性。
为了避免这种情况,Google 在 2023 年实施了一个名为 Google-Extended 的 robots.txt 令牌,网站可以使用它来防止其网页内容被用于训练互联网巨头的 Gemini 和 Vertex AI 服务,同时仍允许这些网站被索引用于搜索。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。