一项新研究警告称,AI技术已经让恶意黑客识别匿名社交媒体账号变得极其容易。
在大多数测试场景中,大语言模型——ChatGPT等平台背后的技术——根据用户发布的信息,成功将匿名在线用户与其在其他平台上的真实身份进行匹配。
AI研究人员Simon Lermen和Daniel Paleka表示,大语言模型使执行复杂的隐私攻击变得成本低廉,迫使人们"从根本上重新评估什么可以被认为是在线隐私"。
在他们的实验中,研究人员将匿名账号输入AI,并让其抓取所有可能的信息。他们给出了一个假设的例子:一名用户谈论在学校的困难,以及带着他们的狗Biscuit穿过"Dolores公园"。
在这个假设案例中,AI随后在其他地方搜索这些细节,并以高度的置信度将@anon_user42与已知身份进行匹配。
虽然这个例子是虚构的,但论文作者强调了一些场景,其中政府使用AI监控匿名发帖的异议人士和活动家,或者黑客能够发起"高度个性化"的诈骗。
AI监控是一个快速发展的领域,正在引起计算机科学家和隐私专家的警报。它使用大语言模型综合个人在线信息,这对大多数人来说手动完成是不现实的。
Lermen说,关于公众成员的信息在网上随时可得,已经可以"直接被滥用"进行诈骗,包括鱼叉式网络钓鱼,黑客冒充可信朋友让受害者点击收件箱中的恶意链接。
随着执行更复杂攻击的专业知识要求现在大大降低,黑客只需要访问公开可用的语言模型和互联网连接。
伦敦大学学院计算机科学教授Peter Bentley表示,对该技术的商业用途存在担忧,"如果去匿名化产品推出的话"。
一个问题是大语言模型在链接账号时经常出错。Bentley警告说:"人们将被指控他们没有做过的事情。"
爱丁堡大学网络安全讲师Marc Juárez教授提出的另一个担忧是,大语言模型可以使用社交媒体之外的公共数据:医院记录、录取数据和各种其他统计发布可能无法达到AI时代所需的高标准匿名化。
Juarez说:"这相当令人震惊。我认为这篇论文表明我们应该重新考虑我们的做法。"
AI并非对抗在线匿名的魔法武器。虽然大语言模型在许多情况下可以去匿名化记录,但有时没有足够的信息得出结论。在许多情况下,潜在匹配的数量太大而无法缩小范围。
加州大学伯克利分校信息学院的Marti Hearst教授说:"它们只能在某人在两个地方一致分享相同信息位的平台之间建立链接。"
虽然技术并不完美,但科学家们现在要求机构和个人重新思考如何在AI世界中匿名化数据。
Lermen建议平台限制数据访问作为第一步:对用户数据下载执行速率限制,检测自动抓取,并限制数据的批量导出。但他也指出,个人用户可以对他们在线分享的信息采取更大的预防措施。
Q&A
Q1:大语言模型是如何识别匿名社交媒体账号的?
A:大语言模型通过抓取匿名账号发布的所有信息,然后在其他平台搜索相同的细节信息进行匹配。例如,如果用户提到在学校的困难和遛狗等具体信息,AI就能根据这些信息在不同平台间建立身份关联。
Q2:AI去匿名化技术会带来哪些安全风险?
A:主要风险包括政府使用AI监控异议人士和活动家,黑客发起高度个性化的诈骗攻击,以及鱼叉式网络钓鱼等。另外,大语言模型经常出错,可能导致无辜的人被错误指控。
Q3:如何防护AI去匿名化攻击?
A:平台应该限制数据访问,实施速率限制、检测自动抓取并限制批量数据导出。个人用户也应该更谨慎地分享在线信息,避免在不同平台分享相同的具体细节。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。