近日,中国信息通信研究院公布第一批“网络安全能力评价工作组”,丈八网安凭借在网络安全方面的科研实力、产品研发能力、技术创新水平、人才培养成果等综合素质,成为第一批工作组成员单位,参与体系研究、标准研制、示范推进三大子工作组的能力评价工作当中。
此前,中国信通院安全研究所开展的“先进网络安全能力验证评估计划(第七期)网络空间资产平台能力评测”中,丈八网安有幸作为技术支撑单位,参与本次评测的协助工作。在本次项目中,通过公司自研产品“火天”系列产品“火天网测™”测试床平台和全新定义的“Meta Computing”技术相结合为评测过程提供支撑。
近期,丈八网安将作为牵头单位,基于在网络靶场及仿真应用领域的深耕成果,结合国内外市场发展情况、技术发展现状与趋势的理解,辅以科学的分析方法,联合国内靶场领域厂商,共同进行“网络安全产品能力评价体系”中网络空间靶场平台相关标准的制定。
为深入贯彻习近平总书记关于发展网络安全产业的重要指示精神,落实《中华人民共和国网络安全法》《中华人民共和国国民经济和社会发展第十四个五年计划和2035远景目标纲要》部署要求,构建网络安全能力科学评价体系,引领网络安全技术产品高质量发展,推动形成人才培养、技术创新、产业发展良性生态,中国信息通信研究院牵头成立网络安全能力评价工作组,遴选工作组成员单位。
体系研究子工作组
研究国内外网络安全能力评价体系和方法。研究网络安全产品服务类别、技术创新方向、典型应用场景和应用模式等,研究网络安全产品分类,形成清单、图谱。综合被评价方技术产品方向、评价方基础能力、评价结果应用场景等,研究网络安全产品能力评价机构管理要求。
标准研制子工作组
推进网络安全能力评价标准化工作,研制概念和指南、评价指标要求、评价指南、通用测试方法等总体指导性标准,以及主动防御、安全运营与事件响应、数据安全等细分类别网络安全产品、服务等能力评价标准。
示范推进工作组
搭建能力评价成果示范推进平台,挖掘形成细分领域网络安全产品服务卓越案例集、网络安全产品服务提供商竞争力名录等,促进释放网络安全产业基础动能。组织开展网络安全技术应用试点示范项目验证和应用推介。
丈八网安立足于网络安全相关技术研究、产品研发、人才培养及服务支撑领域,秉承让网络安全仿真及应用核心
技术掌握在国人手中的使命,长期以来在国家第五空间安全事业上勤勉深耕,构建实战化场景仿真模拟平台。我们将为使命付诸实践,不懈努力,成为中国领先的网络安全仿真及应用平台供应商,为国家构建全面网络防护体系奉献力量。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。