Meta一项大规模员工数据采集计划在数据保护机制接连失效后宣告暂停。据悉,该计划旨在收集员工数据以训练公司的AI模型,但员工多次突破安全限制、访问受限数据,即便Meta声称已修复漏洞后,问题依然未能得到根本解决。
分析人士指出,无论这家市值2010亿美元的Facebook母公司的数据采集计划初衷如何,其所部署的数据保护措施与所采集数据的高度敏感性相比,实属严重不足。
咨询公司Acceligence总监Karianne Michelle表示:"Meta本有足够的资源将这件事做好,结果却接连失误。这正是政策决策与技术执行两张皮、缺乏协同的典型表现,在承受结构性压力的组织中,这种脱节现象并不罕见。"
Info-Tech Research Group首席网络安全顾问Fritz Jean-Louis也持相同看法:"从Meta这起事件可以看出,这是AI时代数据战略中的一种典型失败模式——在访问控制机制尚不成熟的情况下,就大规模采集高风险遥测数据。在如此体量下,一次配置失误就能让内部数据演变为系统性的安全隐患。"
据《连线》杂志的报道,Meta于今年4月推出了名为"模型兼容性计划"(MCI)的项目,该计划采集员工的鼠标移动轨迹、点击位置、键盘输入等计算机操作数据,以及屏幕内容。员工最初无权选择退出。《连线》还披露,所采集数据涵盖完整的输入提示词与转录内容、私人对话、员工个人信息及绩效数据。报道指出,Meta高管多次为该项目辩护,称其有助于训练AI系统以模拟人类操作软件的方式,而员工则是AI学习的最佳样本。
《连线》援引负责监督AI研究的Meta副总裁Stephane Kasriel的话称,公司于6月18日发现未经授权的员工访问了MCI数据,漏洞在"四小时内"得到修补。但他同时承认,"最初的修复并不彻底,后续不得不进一步加强对数据的访问管控。"
Meta在一份书面声明中确认,该计划已暂时叫停:"我们在设计这一计划时已采取了隐私保护措施。目前没有迹象显示任何员工存在不当访问行为,但我们仍决定暂停该计划,以便开展调查。"
分析师、咨询顾问及业界人士普遍表示,相比数据本身遭到泄露,他们更担忧的是保护措施严重不足这一根本问题。
独立技术分析师Carmi Levy表示,尽管Meta对员工键盘输入和鼠标行为实施"奥威尔式监控"令人忧虑,但更大的问题在于其用于保护这些数据的措施形同虚设。"MCI本身令人不安,但Meta按下暂停键,与员工监控行为本身的道德争议毫无关系,根本原因在于其未能有效保护采集到的数据。可以想象,一旦Meta彻底搞清楚员工私人对话、绩效数据、转录内容等高度敏感信息为何会无意间向全体员工开放,监控与数据采集工作大概率会重新启动。"
值得注意的背景是,从严格的合规法律角度来看,所采集的数据并不属于个人可识别信息(PII),尽管其高度敏感。这一区分或许令Meta产生了错误的安全感,进而认为这些数据不需要严格保护。
Conifers.ai首席执行官Tom Findling表示:"我认为很多公司一听到'不是PII'就如释重负,仿佛这意味着数据风险可以忽略不计。但内部提示词、对话记录、聊天记录、数据表格和绩效备注,可以揭示大量关于公司运作方式、业务方向以及潜在薄弱环节的信息。即便不涉及社会安全号码,这些数据同样高度敏感。"
Findling认为,Meta高管的态度是"假装不明白"这些数据有多敏感,并以此为由规避充分保护义务。他直言:"毫无疑问,Meta没有将这些数据标注在应有的风险等级上。"
Info-Tech的Jean-Louis对所采集数据的性质尤为不满:"键盘输入、截屏、使用行为模式等员工行为数据,本质上属于默认敏感级别。如果要用这些数据来训练AI,就必须以保护生产机密的标准来对待它,而不是把它当成普通的分析性废料。当数以千计的内部数据表可被广泛访问时,这已不是数据平台,而是一个巨大的责任敞口。如今,信任本身就是一种安全控制手段。一旦员工开始认为自己的数据被过度采集且保护不足,内部风险和声誉损失便会同步爆发。"
Acceligence的Michelle也对此深表认同:"Meta暴露的数据本身并非最大的风险。安全政策的效力建立在人们对其信任的基础上,而现在恰恰是这种信任受到质疑的时刻。正是在这种信任缺口之中,此类事件才会造成真正的损害——一旦员工不再相信领导层关于自身数据保护的承诺,这种怀疑就会蔓延至此后推出的每一项政策,进而引发变通规避、沉默抵制,以及员工不再主动上报问题等连锁反应。"
Q&A
Q1:Meta的模型兼容性计划(MCI)具体收集哪些员工数据?
A:MCI计划采集员工在使用计算机时产生的多种行为数据,包括鼠标移动轨迹、点击位置、键盘输入内容,以及屏幕截图等。此外,还涉及员工与AI系统交互时产生的完整提示词及转录内容、私人对话记录、个人信息和绩效数据。Meta表示,收集这些数据的目的是训练AI系统以模拟人类操作软件的方式执行任务,并认为员工是最佳的学习样本来源。
Q2:Meta的数据保护机制为何会接连失效?
A:分析人士认为,Meta在采集高度敏感数据的同时,访问控制机制却远未达到同等成熟水平,这是导致保护机制失效的核心原因。此外,由于所采集数据在法律定义上不属于个人可识别信息(PII),Meta可能因此低估了数据的风险等级,进而忽视了应有的安全保护措施。在如此大规模的部署下,一次配置失误便足以将内部数据暴露为系统性安全隐患。
Q3:Meta暂停MCI计划会带来哪些影响?
A:Meta暂停MCI计划的直接影响是相关AI训练数据的采集工作被叫停。但更深远的影响在于员工信任的损耗——一旦员工认为自身数据被过度采集且保护不力,这种不信任感将蔓延至公司此后推出的每一项数据政策。分析人士警告,这可能引发员工沉默抵制、绕过规定等行为,同时对Meta的企业声誉造成持续损害。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。