2022 年 4 月 -- 网络安全解决方案提供商 Check Point® 软件技术有限公司(纳斯达克股票代码:CHKP)宣布,Harmony Endpoint 连续两年凭借其最全面的威胁检测和可视性能力被 MITRE Engenuity ATT&CK® 评估评为端点安全领域的领导者。MITRE Engenuity 的评估结果表明,Check Point Harmony Endpoint 能够立即自动拦截、修复勒索软件及其他网络威胁并从中恢复,从而防止破坏蔓延。与此同时,安全团队还可以使用该解决方案准确检测、调查并应对威胁,并结合 MITER ATT&CK® 框架获得业内最全面的关联能力。
Harmony Endpoint 拥有最高的技术检测水平和零延迟警报检测能力,支持全面检测所有攻击步骤。该解决方案针对 APT Spider Wizard 的检测率达 98%。这些结果表明,Check Point 致力于提供应对网络威胁的最高级别准确性与上下文可视性,同时为用户提供自主检测和响应能力。
在本次评估中,MITRE Engenuity 测试了 30 家端点安全提供商及其解决方案,并根据 MITRE 对现实世界的观察所建立的攻击战术和技术知识库进行评估。今年,MITRE Engenuity 测试了厂商检测 Wizard Spider(旨在索取赎金的犯罪集团)和 Sandworm所采用的攻击技术。选择这两个攻击者出于几个方面的考虑:复杂性、与市场的相关性以及 MITRE Engenuity 的工作人员能否有效地模仿攻击者。
Check Point 软件技术公司威胁防御副总裁 Ofir Israel 表示:“在过去的一年里,攻击的复杂程度和频率急剧增加,创造了新的历史高峰。在这种情况下,企业应采用威胁感知的安全策略。MITRE Engenuity ATT&CK® 评估了网络安全解决方案抵御现实世界网络攻击和黑客组织的能力,能够帮助用户做出正确的选择。端点安全对于保护超分布式办公空间至关重要。最新的 ATT&CK® 评估结果显示,Check Point Harmony Endpoint 连续两年凭借行业领先的威胁检测和全面的攻击可视性能力荣膺领导者称号。Harmony Endpoint 的客户可获得所需的所有端点保护,有效防范勒索软件、恶意软件、网络钓鱼等所有紧迫威胁,同时以最低的总体拥有成本尽享强大的检测和响应功能。”
MITRE Engenuity ATT&CK 评估执行总经理 Ashwin Radhakrishnan 表示:“最新一轮评估表明,参与厂商的产品有了显著的增长。我们发现,威胁感知的防御能力正得到更多关注,这反过来使信息安全社区更加重视 ATT&CK 框架。”
测试的主要亮点包括:
关于 MITRE Engenuity
MITRE 子公司 MITRE Engenuity 是 MITRE 旗下的一家公益技术基金会。MITRE 团队以使命为导向,致力于解决安全问题,打造更安全的世界。我们不仅拥有广泛的公私合作伙伴关系,而且还拥有联邦政府资助的研发中心,我们与政府和行业携手合作,共同应对与国家安全、稳定和福祉有关的各种挑战。
MITRE Engenuity 为私营部门提供了 MITRE 深厚的技术知识和系统思维,以帮助解决仅凭政府之力所无法解决的复杂挑战。MITRE Engenuity 将美国联邦政府、学术界和私营部门等不同领域的研发力量凝聚在一起,共同应对国家和全球挑战,例如保护关键基础设施、创建富有弹性的半导体生态系统、建立公益基因组中心、加速 5G 用例创新以及普及威胁感知的网络防御。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。