SourceHut,一个开源代码托管服务,表示 AI 公司的网络爬虫通过过度索取数据正在拖慢其服务。
"SourceHut 继续面临由于激进的 LLM 爬虫导致的服务中断,"该公司周一在其状态页面上报告。"我们正在持续部署缓解措施。我们已经部署了多项缓解措施,目前能够控制住这个问题。然而,我们的一些缓解措施可能会影响终端用户。"
SourceHut 表示已部署了 Nepenthes,这是一个用来捕获主要用于训练大语言模型的网络爬虫的陷阱,并指出这样做可能会降低用户对某些网页的访问质量。
"我们已单方面屏蔽了多个云服务提供商,包括 GCP (Google Cloud) 和 (Microsoft) Azure,因为大量机器人流量来自它们的网络,"该公司表示,并建议与 SourceHut 集成的服务管理员联系安排例外情况以避免被屏蔽。
这并非 SourceHut 第一次承担无限制网络请求的带宽负担。该组织在 2022 年对 Google 的 Go Module Mirror 提出了类似的反对意见,将流量超载比作拒绝服务攻击。其他开源项目如 GMP 也面临过这个问题。
但在过去两年生成式 AI 热潮中,AI 爬虫表现得尤其不守规矩。OpenAI 在 2023 年 8 月宣布其网络爬虫将遵守 robots.txt 文件,这是网站提供的一组指令,用于告诉爬虫它们是否受欢迎。其他 AI 提供商也作出了类似承诺。
尽管如此,滥用报告仍然继续。维修网站 iFixit 在去年 7 月提出了这个问题,当时 Anthropic 的 Claudebot 被指控过度爬取。
2024 年 12 月,云托管服务 Vercel 表示 AI 爬虫已成为重要存在。在前一个月,该公司表示,OpenAI 的 GPTbot 在其网络上产生了 5.69 亿请求,而 Anthropic 的 Claude 则产生了 3.7 亿请求。在同一时期,这些 AI 爬虫的请求量约占 Googlebot (用于 Google 搜索索引) 45 亿请求的 20%。
同月晚些时候,Diaspora 开发者 Dennis Schubert 也注意到 AI 机器人的激增。在一篇帖子中,他表示在过去 60 天内,他的服务器 70% 的流量来自 LLM 训练机器人。
《The Register》在 1 月初询问了 Schubert 这件事。"有趣的是,在这篇帖子病毒式传播后的几天内,所有爬取都停止了,"他当时回应。"不仅是 Diaspora wiki,还有我的整个基础设施。我不完全确定为什么,但事实就是如此。"
他表示,问题并没有完全消失,因为他的帖子的可见性激发了互联网上的恶作剧者创建自己的 wiki 爬虫,这些爬虫现在伪装成 OpenAI GPTbot。
结果是日志分析变得更加困难。
"例如,我现在在 robots.txt 中放置了一个 '金丝雀',现在它已经达到了近百万的点击量,包括使用 GPTBot 用户代理字符串的点击,"Schubert 解释道。"问题是这些请求绝对不是来自 OpenAI。OpenAI 似乎正在使用 Microsoft Azure 进行爬取。但所有这些金丝雀点击都来自 AWS IP 甚至一些美国住宅 ISP。所以这只是一些混蛋试图通过伪造他们的[用户代理]字符串来搞笑。"
同时,关于 AI 爬虫行为不端的报告仍在继续,阻止它们的努力也在进行中。而且,在有人声称亚马逊的 Amazonbot 让开发者的服务器超载后,也有人报告称用户代理字符串被伪造。
根据广告指标公司 DoubleVerify 的数据,由于 AI 爬虫的原因,2024 年下半年一般无效流量(GIVT,即不应计入广告浏览量的机器人)增长了 86%。
该公司表示,"2024 年已知机器人印象中的 GIVT 记录中,有 16% 是由与 AI 抓取工具相关的机器人生成的,如 GPTBot、ClaudeBot 和 AppleBot。"
这家广告公司还观察到,虽然一些机器人,如 Meta AI 机器人和 AppleBot,声明它们是为了收集数据来训练 AI,但其他爬虫服务于多种目的,这使得屏蔽变得更加复杂。例如,禁止 GoogleBot 访问(它既用于搜索也用于 AI)可能会降低网站的搜索可见性。
为了避免这种情况,Google 在 2023 年实施了一个名为 Google-Extended 的 robots.txt 令牌,网站可以使用它来防止其网页内容被用于训练互联网巨头的 Gemini 和 Vertex AI 服务,同时仍允许这些网站被索引用于搜索。
好文章,需要你的鼓励
一加正式推出AI功能Plus Mind和Mind Space,将率先在一加13和13R上线。Plus Mind可保存、建议、存储和搜索屏幕内容,并将信息整理到Mind Space应用中。该功能可通过专用按键或手势激活,能自动创建日历条目并提供AI搜索功能。一加还计划推出三阶段AI战略,包括集成大语言模型和个人助手功能,同时将推出AI语音转录、通话助手和照片优化等工具。
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
预计到2035年,数据中心用电需求将增长一倍以上,达到440TWh,相当于整个加利福尼亚州的用电量。AI工作负载预计将占2030年数据中心需求的50-70%。传统冷却系统电机存在功率浪费问题,通常在30-50%负载下运行时效率急剧下降。采用高效率曲线平坦的适配电机可显著降低冷却系统功耗,某大型数据中心通过优化电机配置减少了近4MW冷却功耗,为13500台AI服务器腾出空间,年增收入900万美元。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。