在本月早些时候欧盟对X平台开出罚单后,埃隆·马斯克宣布该平台的整个推荐算法将开源。这一举措看似是为了通过提供更大的透明度来缓解监管压力,让人们了解这家社交媒体巨头如何组织用户的时间线。
通常情况下,IT专业人士看到某项技术开源的消息时,会微笑着继续自己的工作。但上周,我在X平台上看到了一个有趣的讨论串,解释了这一举措实际上如何通过"行为指纹"暴露匿名小号账户,无论是好是坏。
X平台上一位名为@Harrris0n的开源情报爱好者最近发布了他在挖掘该平台现已开源的推荐代码时的发现。如果你关心隐私或者运营着整个机器人账户网络,他的发现有些令人恐惧。
在X的代码库中隐藏着一个叫做"用户行为序列"的东西。
这不仅仅是一个简单的日志记录。它是一个Transformer上下文,编码了你在平台上的整个行为历史。它追踪你暂停滚动的具体毫秒数、触发你屏蔽的账户类型、你感兴趣的具体内容类型,以及你与之互动的确切时刻。在你看到第一条猫咪帖子之前,它就代表了数千个收集到的个人数据点。
现在,有趣的地方来了。X使用这个序列来预测用户参与度(基本上是提供最相关的内容来让你留在平台上),同时创建了一个高保真度的行为指纹。
Harrison发现,如果你在一个已知账户上运行这种编码,然后使用代码库中称为"候选隔离"的功能将其与数千个匿名账户进行比较,你会得到匹配结果。异常高的匹配度。他甚至详细说明了构建这种去匿名化工具所需的具体方法,而且门槛非常低。
根据他的讨论串,任何人只需要行为序列编码器(X代码库刚刚提供了这个)、嵌入相似性搜索和一点运气。对大多数人来说,唯一缺少的部分是已确认小号账户的训练数据,但Harrison指出他从多年的威胁行为者追踪中已经拥有了这些数据。
理论上,你可以将公开X用户的相同行为指纹映射到匿名用户,甚至可能跨平台映射到Reddit和Discord上的账户。这表明你可以轻易改变用户名,但改变习惯要困难得多。
那么,一个临时账户真的是匿名的吗?我让你自己决定。
我想在Security Bite上分享这个讨论串,因为它提醒我们这些算法往往比你自己更了解你。而那个数字版本的你仍然是脆弱的。
Q&A
Q1:X平台的用户行为序列是什么?
A:用户行为序列是X平台推荐算法中的一个Transformer上下文,它编码用户在平台上的整个行为历史,包括滚动暂停的毫秒数、屏蔽账户类型、内容偏好和互动时刻等数千个数据点,用于预测用户参与度并创建行为指纹。
Q2:开源推荐算法如何威胁匿名账户安全?
A:通过开源的行为序列编码器和候选隔离功能,研究人员可以将已知账户的行为指纹与匿名账户进行比较,获得异常高的匹配度,从而实现去匿名化。这种方法门槛很低,只需要编码器、相似性搜索和训练数据。
Q3:行为指纹识别技术能跨平台使用吗?
A:理论上可以。研究表明,相同的行为指纹可以从X平台的公开用户映射到匿名用户,甚至可能跨平台映射到Reddit和Discord等其他平台的账户,因为改变用户名容易,但改变行为习惯很困难。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。