2021 年 4 月 — 网络安全解决方案提供商 Check Point 软件技术有限公司(纳斯达克股票代码:CHKP)今天公布了其 MITRE ATT&CK 端点防护产品评估结果。该公司的完整端点安全解决方案 Check Point Harmony Endpoint 成功检测到评估过程中使用的所有不同技术。此外,对于评估中使用的 96% 的技术,Check Point Harmony Endpoint 达到了最高技术检测水平。
MITRE Engenuity 每年都会对网络安全产品执行独立评估,旨在帮助行业和政府机构做出更明智的决策,从而抵御安全威胁并提高威胁检测能力。ATT&CK 是 MITRE 根据实际观察结果开发的攻击战术和技术知识库,可帮助安全运营团队发现其在可视性、防御工具及流程上的缺口,以增强网络安全性。
今年,MITRE Engenuity 对 Check Point Harmony Endpoint 及其他 29 家厂商的网络安全产品进行了评估,测试其在检测复杂威胁团伙 Carbanak 和 FIN7 所用攻击手段方面的能力。过去五年,这两个威胁团伙使用复杂的恶意软件和策略频频发起攻击,致使数百家企业损失超过 10 亿美元。
评估结果:
评估结果突显了 Check Point Harmony Endpoint 的出色可视性和威胁检测能力。此外,该结果还充分表明,作为市场上唯一一款端点安全解决方案,Check Point Harmony Endpoint 具有显著优势,可执行最准确的检测并实施对真实网络威胁的情境化监控,同时还提供自动检测和响应功能。
Check Point 软件技术公司威胁防御副总裁 Neatsun Ziv 表示:“MITRE Engenuity ATT&CK® 评估在打击网络犯罪方面发挥着关键作用。通过评估网络安全解决方案抵御真实网络攻击和威胁团伙的能力,MITRE 团队助力提高了行业的网络保护标准。随着大规模转向远程办公模式且威胁态势快速演变,增强端点安全策略对于全球企业而言已变得至关重要。最新 ATT&CK® 评估结果进一步验证了 Harmony Endpoint 具有行业领先的威胁检测和全面的攻击监控功能。客户可获得所需的所有端点保护,有效防范勒索软件、恶意软件、网络钓鱼等所有紧迫威胁,同时以最低的总体拥有成本尽享强大的检测和响应功能。”
MITER ATT&CK 评估主管 Frank Duff 表示:“MITRE 评估采用透明流程,有助于安全社区做出更明智的决策,很高兴看到 Check Point 软件技术公司及其他多家厂商积极参与这项重要测试。将 MITER ATT&CK 框架作为基准测试并查看我们的公开结果,用户能够深入了解 Harmony Endpoint 如何检测到我们模拟的 Carbanak 和 FIN7 的攻击行为。我们将携手共进,通过全面评估为所有人打造更安全的网络空间。”
MITRE 评估结果证明,Harmony Endpoint 可即时自动拦截勒索软件及其他攻击、迅速采取补救措施并从中快速恢复,有效防止破坏蔓延。同时,客户安全团队还可以使用该解决方案准确检测、调查并应对威胁,尽享通过 MITER ATT&CK® 框架测试的最全面保护。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。