六个月前,AI数据训练初创公司Mercor完成了3.5亿美元的C轮融资,估值高达100亿美元,一时风头无两。然而,在3月31日承认遭遇数据泄露事件后,这家公司陷入了重重麻烦之中。
事件发酵至今,一个黑客组织声称已从Mercor系统中窃取了4TB的数据,其中包括候选人档案、个人身份信息、雇主数据、源代码及API密钥。Mercor对相关数据的真实性未予置评,仅重申正在开展调查,并表示"将继续酌情与客户和承包商直接沟通,并投入必要资源,尽快解决相关问题"。
Mercor表示,此次数据泄露源于开源工具LiteLLM遭到攻击。这款工具每天被下载数百万次,使用极为广泛。在长达40分钟的时间里,该工具中潜伏着一种凭证窃取恶意软件,专门用于盗取登录凭证。攻击者利用这些凭证入侵更多软件和账户,再以此获取更多凭证,形成连锁渗透。
尽管目前没有官方声明披露从Mercor窃取的具体数据量,但后续影响已接踵而至。据《连线》杂志消息人士透露,Meta已无限期暂停与Mercor的合作合同。对此,Mercor拒绝向TechCrunch置评。
与其他AI数据训练承包公司一样,Mercor掌握着部分模型厂商最核心的商业机密——用于训练模型的定制数据集与流程。这些资产对于模型厂商而言至关重要。即便Meta斥资143亿美元收购了Mercor的竞争对手Scale AI,此后仍继续维持与Mercor的合作关系。
对Mercor而言,目前也有一个相对积极的消息:OpenAI向《连线》证实,正在评估其在Mercor数据泄露事件中的风险敞口,但表示截至目前尚未暂停或终止与Mercor的合作合同。不过,TechCrunch从多个信源了解到,其他大型模型厂商可能也在重新审视与Mercor的合作关系,但目前尚未掌握足够细节,故不便点名。
与此同时,据《商业内幕》报道,已有五名Mercor承包商以个人数据遭泄露为由提起诉讼。这些诉讼究竟构成实质威胁,还是仅属机会主义式的干扰,目前尚难定论。对此,Mercor拒绝发表评论。
TechCrunch获得的一份诉状甚至将LiteLLM和Delve列为被告,此举颇为大胆,或许也有些牵强。其中的逻辑关联如下:LiteLLM曾委托AI合规初创公司Delve为其获取安全认证,而Delve被一名匿名举报人指控伪造安全认证数据,并使用走过场的审计人员。
安全认证并不能直接阻止黑客发动攻击,但其本意在于确保企业建立相应流程,将此类安全威胁降至最低。
Delve在否认上述指控的同时,也着手推行了若干运营层面的变革,但公司同样陷入困境,最终导致Y Combinator与其切断关系。
LiteLLM已与Delve终止合作,转而委托另一家AI合规初创公司重新申请安全认证,并就此次安全事件发布了完整调查报告。
不过,Mercor已向TechCrunch确认,其本身并非Delve的客户。但若此次事件的后续影响持续扩大,Mercor的营收损失将不可小觑。据《The Information》援引匿名消息人士透露,在数据泄露事件发生前,该公司今年的年化营收预计将突破10亿美元。
Q&A
Q1:Mercor的数据泄露事件是怎么发生的?
A:此次泄露源于开源工具LiteLLM遭受攻击。在约40分钟内,LiteLLM中被植入了凭证窃取恶意软件,攻击者借此盗取登录凭证,并利用这些凭证逐步渗透至更多系统和账户,最终波及Mercor的数据安全。黑客组织声称已获取4TB数据,包括候选人档案、个人身份信息、源代码及API密钥等敏感内容。
Q2:Meta为什么暂停与Mercor的合作?
A:据《连线》杂志消息人士透露,Meta已无限期暂停与Mercor的合作合同,原因与Mercor遭受的数据泄露事件直接相关。由于Mercor掌握着AI模型厂商最核心的商业机密,包括定制数据集与模型训练流程,数据安全问题对合作方而言极为敏感。Mercor对此拒绝向TechCrunch置评。
Q3:Delve被卷入Mercor数据泄露诉讼的原因是什么?
A:LiteLLM曾委托AI合规初创公司Delve为其获取安全认证。有匿名举报人指控Delve伪造安全认证数据、使用走过场的审计人员。部分针对Mercor数据泄露事件的诉讼将Delve列为被告,逻辑在于其认证有效性存疑。目前Delve已否认相关指控,但Y Combinator已与其终止合作关系,LiteLLM也已更换合规服务商。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。