思科最新研究表明,经过微调的大语言模型(LLMs)正在成为网络攻击的新型威胁放大器,迫使首席信息安全官们重新制定防御策略。这些模型已被证明能够自动化侦察、身份冒充和实时检测规避,加速大规模社会工程攻击。
包括FraudGPT、GhostGPT和DarkGPT在内的恶意模型,月租金低至75美元,专为钓鱼、漏洞生成、代码混淆、漏洞扫描和信用卡验证等攻击策略而设计。
网络犯罪团伙、犯罪集团和国家级组织正在通过提供平台、工具包和出租武器化大语言模型来寻求收益。这些大语言模型的包装方式与合法企业打包销售SaaS应用程序几乎无异。租用武器化大语言模型通常包括访问仪表板、API、定期更新,有些甚至提供客户支持。
VentureBeat持续密切追踪武器化大语言模型的发展。开发者平台与网络犯罪工具包之间的界限正在模糊,而武器化大语言模型的复杂性不断提高。随着租赁或租用价格暴跌,更多攻击者开始尝试这些平台和工具包,导致AI驱动威胁的新时代来临。
合法大语言模型成为攻击目标
武器化大语言模型的传播速度如此之快,以至于合法的大语言模型面临被入侵并整合到网络犯罪工具链中的风险。简而言之,合法的大语言模型现在已处于任何攻击的影响范围内。
一个大语言模型经过的微调越多,它产生有害输出的可能性就越大。思科《AI安全状况报告》显示,经过微调的大语言模型产生有害输出的可能性比基础模型高22倍。微调模型对确保其上下文相关性至关重要。问题在于,微调也会削弱安全防护措施,为越狱、提示注入和模型反转打开大门。
思科的研究证明,模型越接近生产就绪状态,就越容易暴露于必须考虑在攻击影响范围内的漏洞。团队依赖微调大语言模型的核心任务,包括持续微调、第三方集成、编码和测试以及代理编排,为攻击者创造了入侵大语言模型的新机会。
一旦进入大语言模型内部,攻击者会迅速投毒数据、尝试劫持基础设施、修改和误导代理行为,以及大规模提取训练数据。思科的研究表明,如果没有独立的安全层,团队辛勤微调的模型不仅面临风险,还迅速成为潜在的安全隐患。从攻击者的角度看,这些模型是可以被渗透和利用的资产。
微调大语言模型大规模瓦解安全控制
思科安全团队研究的关键部分集中在测试多个经过微调的模型,包括Llama-2-7B和特定领域的Microsoft Adapt大语言模型。这些模型在医疗保健、金融和法律等多个领域进行了测试。
思科AI安全研究中最有价值的发现之一是,即使在干净数据集上训练,微调也会破坏模型的对齐性。对齐性崩溃在生物医学和法律领域最为严重,而这两个行业以合规性、法律透明度和患者安全方面的严格要求而闻名。
虽然微调的初衷是提高任务性能,但副作用是内置安全控制的系统性退化。对基础模型通常失败的越狱尝试,在微调后的变体上成功率显著提高,尤其是在受严格合规框架管控的敏感领域。
结果令人震惊。与基础模型相比,越狱成功率增加了三倍,恶意输出生成增加了2,200%。图1清晰地展示了这一显著转变。微调提高了模型的实用性,但代价是大幅扩大了攻击面。
TAP(目标对抗性提示)在开源和闭源大语言模型中实现高达98%的越狱成功率,优于其他方法。来源:思科2025年AI安全状况报告,第16页。
恶意大语言模型成为75美元的商品
思科Talos正积极追踪黑市大语言模型的兴起,并在报告中提供了他们的研究见解。Talos发现GhostGPT、DarkGPT和FraudGPT在Telegram和暗网上销售,月租金低至75美元。这些工具即插即用,可用于钓鱼、漏洞开发、信用卡验证和混淆。
DarkGPT地下仪表板提供"无审查情报",基于订阅的访问价格低至0.0098比特币——将恶意大语言模型包装成消费级SaaS。
来源:思科2025年AI安全状况报告,第9页。
与内置安全功能的主流模型不同,这些大语言模型预先配置为攻击性操作,并提供与商业SaaS产品无异的API、更新和仪表板。
60美元数据集投毒威胁AI供应链
"只需60美元,攻击者就能毒害AI模型的基础——无需零日漏洞,"思科研究人员写道。这是思科与谷歌、苏黎世联邦理工学院和英伟达联合研究的结论,显示对手可以轻松将恶意数据注入到全球最广泛使用的开源训练集中。
通过利用过期域名或在数据集归档期间编辑维基百科,攻击者可以仅投毒LAION-400M或COYO-700M等数据集的0.01%,却仍能以有意义的方式影响下游大语言模型。
研究中提到的两种方法,分裂视图投毒和抢先攻击,旨在利用网络爬取数据的脆弱信任模型。由于大多数企业大语言模型都建立在开放数据之上,这些攻击可以悄然扩散并深入推理管道。
分解攻击悄然提取受版权和受管制内容
思科研究人员展示的最惊人发现之一是,大语言模型可以被操纵泄露敏感训练数据,而不触发任何防护机制。研究人员使用名为"分解提示"的方法,重建了超过20%的《纽约时报》和《华尔街日报》精选文章。他们的攻击策略将提示分解为被防护机制归类为安全的子查询,然后重新组装输出以重建付费墙或受版权保护的内容。
成功规避防护机制访问专有数据集或许可内容是当今每个企业都在努力防范的攻击向量。对于那些在专有数据集或许可内容上训练大语言模型的企业来说,分解攻击可能特别具有破坏性。思科解释说,漏洞不是发生在输入层面,而是从模型的输出中出现。这使得它更难被检测、审计或控制。
如果您在医疗保健、金融或法律等受监管行业部署大语言模型,您面临的不仅仅是GDPR、HIPAA或CCPA违规风险。您正在应对一种全新的合规风险,即使是合法获取的数据也可能通过推理被暴露,而处罚只是开始。
最后的话:大语言模型不仅是工具,还是最新的攻击面
思科的持续研究,包括Talos的暗网监控,证实了许多安全领导者已经怀疑的情况:武器化大语言模型的复杂性不断提高,同时暗网上正爆发价格和包装战争。思科的发现也证明,大语言模型不再是企业的边缘,它们就是企业的核心。从微调风险到数据集投毒和模型输出泄漏,攻击者将大语言模型视为基础设施,而非应用程序。
思科报告中最有价值的关键启示之一是,静态防护措施已不再足够。首席信息安全官和安全领导者需要对整个IT环境的实时可见性、更强的对抗性测试和更精简的技术栈来跟上发展——同时认识到大语言模型和模型是一个攻击面,随着微调程度的提高而变得更加脆弱。
好文章,需要你的鼓励
人类本质上是社会性动物,我们的大脑天生就需要连接。从与陌生人的简短交流到与亲人的深度对话,这些互动都能促进个人幸福、增强社区纽带并稳定社会结构。随着AI聊天机器人的兴起,它们承诺提供不间断的陪伴,但并非所有连接都具有同等价值。我们需要在拥抱AI的同时,思考其对人际关系和自我认知的深远影响。
Google正在升级搜索中的"AI模式"功能,引入多模态能力,使其能够"看见"用户上传的图片,从而更好地回答问题。这项实验性功能现已支持图片分析,用户可上传图片并提问,AI能理解图片中的场景、物体关系及材质,提供比传统搜索更详细的回答。
随着我们全面进入自主转型时代,AI代理正在改变企业运营和创造价值的方式。面对数百家声称提供"AI代理"的供应商,企业需要透过炒作,真正理解这些系统的能力及其适用场景。关键不在于简单替代现有工作,而是通过SPAR框架(感知、规划、行动、反思)识别全新的价值创造机会。