Domino's 连锁披萨公司的集团首席信息安全官 (CISO) Stephen Bennett 将他的组织描述为"我工作过的最大的创业公司"。
作为首位担任该职务的人,他在一定程度上能够定义这个职位的职责。最初,他"甚至找不到问题所在",所以他坐在高级员工旁边,了解安全职能部门的运作情况。他还成了"会议常客",努力了解组织的需求,因为起初很难获得与高管会面的机会。
Bennett 与董事会的第一次会议是一个转折点,他意识到必须从业务和技术两个角度理解安全问题。其他业务部门并不太关心技术问题,因为他们专注于盈利。因此,CISO 的角色需要致力于推动业务发展,并在少数情况下,防止公司犯严重错误,比如荷兰分公司计划推出的 Domino's Dating 应用就存在严重的隐私问题。
这关乎识别组织的"核心资产",需要如何保护它们,以及需要多少成本。正如 Gartner 研究副总裁 Christine Lee 在最近悉尼举行的 Gartner 安全和风险管理峰会上的主题演讲中提到的,想要更多保护就需要付出更多成本。在 Domino's,恢复点目标仍在这个背景下讨论。
Bennett 建议 CISO 应该"与董事会成员交好",了解董事会想知道和不想知道什么。这可能包括五大风险及其管理方式的报告,并以适合董事会的方式呈现 —— 例如,避免使用"终端"和"框架"等技术术语。
当他按要求在店铺工作两天时,又有了一个新的发现。他发现披萨上放多少奶酪、烤多长时间这些极其具体的指示其实就是治理的一个例子。他质疑,如果店铺能接受这样的治理,为什么在涉及良好安全实践时,其他业务部门却不能接受治理呢?
当被问及会给年轻时的自己什么建议时,Bennett 说他应该更早地与其他业务部门沟通,而不是在头两年沉迷于技术。到那时,他已不再是公司的新人,第一次接触其他部门的同事反而变得更困难。
在 UniSuper,CISO Vijay Krishnan 谈到了组织韧性的必要性。该退休基金在 2024 年 5 月因 Google 的"无意配置错误"而遭遇重大故障,导致 UniSuper 的 Google Cloud VMware Engine 私有云被自动删除,而该私有云承载着会员管理系统。
得益于 UniSuper 已经采取的各种措施,这个问题用了大约三周时间才完全解决。组织启动了危机管理计划,成立了重大事件团队,并与 Google Cloud 密切合作。
"真正帮助我们的是我们健壮的、冗余的多云架构,"他说。"我们的生产系统分布在多个云服务提供商中,而且在每个云服务提供商内部我们也有多站点冗余。"
但在这次事件中,冗余并没有太大帮助,因为 UniSuper 私有云的删除影响了两个区域。相反,公司依靠其健壮的备份实践,包括不仅在 Google Cloud 存储备份,还在其他两个服务提供商存储备份副本。
基础设施即代码的使用也加快了恢复速度,"灾难恢复计划和测试起到了重要作用",尽管计划中并未包含触发此次故障的黑天鹅事件。
UniSuper 还制定了业务连续性计划,并模拟了一次事件,这对恢复工作产生了影响。这包括让危机管理团队在任何故障发生前练习良好的沟通。
当被问及他会建议观众回到工作岗位后检查哪一两件事时,Krishnan 说"确保你的备份是万无一失的",并将副本存储在远离主系统的地方。他补充道:"查看你的架构...确保它稳健且具有韧性。"
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。