高性能计算(HPC)是指以计算为目的,使用了很多处理器的单个计算机系统或者使用了多台计算机集群的计算系统和环境。HPC计算集群主要有计算服务器、共享存储、高速互联设备以及配套的管理软件、平台软件和应用软件构成。随着社会的发展,高性能计算被越来越多的行业例如科研、教育、生物、能源等行业广泛应用,目前正呈逐渐扩大化趋势,各种新兴行业如电信、金融、游戏、信息安全领域也得到了越来越多的应用。
中国航空工业空气动力研究院(以下简称“中航工业气动院”),隶属于中航工业集团,是我国航空工业领域唯一的风洞试验基地。作为中国航空工业系统唯一的专业空气动力研究机构,参与了几乎所有重点飞机型号的研制工作,拥有一批国内领先或特有的先进试验技术,如进气道试验技术、动态试验技术、推力矢量试验技术、流场显示与测量试验技术、高精度天平设计与标准技术、高雷诺数试验技术、动力模拟试验技术等,并已初步建成基于结构网格与非结构网格的航空高精度数值模拟计算平台。
当前,中航工业气动院正处在一个重要的加速发展期,未来5年内的科研能力建设投入将超过以往50多年来投入的总和,重点发展的业务领域将围绕高、低速风洞群的建设与先进试验技术、先进气动力理论研究与CFD、新概念飞行器的气动力创新设计三条主线全面展开,因此客户亟需建设新的计算平台来满足未来业务发展对计算性能的需要。
面临挑战
1)中航工业气动院现有计算平台计算性能不足,不能满足业务需求。原有计算集群为LC机架式服务器,设备面临老旧、故障率较高, CPU为E5-2609 V2系列,随着业务发展,计算性能的瓶颈越来越突出。
2)存储的性能较低,IOPS值无法满足要求,拉低了计算集群的整体计算性能。客户现有HPC集群中存储系统采用Lusture方案,OSS和MDS由一台服务器承载,负担较重,制约了存储性能,也极大的拉低了计算集群的整体计算性能。
3)原有HPC集群的可靠性和可扩展性较差。OSS和MDS节点由一台服务器承载,且存储为两台集中式存储,数据可靠性差,同时采用机架式服务器面临组网复杂,管理复杂,扩展性不强的劣势。
解决方案
在本次建设中,华为所提供的计算集群、存储系统、管理系统及IPMI网络等解决方案为中航工业气动院构筑了全新的HPC平台,在本次建设中通过采用高性能的华为E9000刀片服务器,可以提供300万亿次的计算能力。同时计算网络采用100GB EDR高速Infiniband组网,通过2层胖树无阻塞(1:1)组网,提供更高的带宽,使计算性能得到完全发挥。
为解决存储性能和可靠性以及可扩展性问题,本次建设采用全对称分布式存储OceanStor 9000代替传统HPC解决方案中存储系统Lusture方案中的集中式存储,OceanStor 9000系统包含硬件平台和软件系统,硬件主要包含了交换机和存储节点,且该设备支持3-288个节点可扩展,扩展性较强。存储节点中SSD盘作为元数据存储,NL-SAS大容量硬盘作为对象存储,采用8+1:1的冗余比来保障节点间硬件和数据的可靠性。OceanStor 9000使用全IB组网,前端网络对接用户IB交换网后端网络使用内部IB交换机,保证了存储系统内部的高带宽,避免了成为计算集群的性能瓶颈。
同时通过一台CE6180万兆交换机和一台CE5810千兆交换机连接所有设备的管理端口实现集群的调度、硬件监控和管理功能。极大地方便管理和运维,同时本次HPC项目采用刀片式方案,E9000刀片服务器可以支持最大32个节点,密度业界最高,扩展性十分强大,便于扩容来满足未来业务发展需要。
建设价值
通过本次建设,中航工业气动院的工作效率极大提升:通过部署新的高性能仿真平台,使得计算性能大幅提升,使得高复杂模型仿真由不可能变成可能;同时存储性能得到极大提升,数据可靠性增强,数据存储量极大提高;本次建设还拥有良好的扩展性,便于后续扩容:华为高性能仿真平台采用华为的一体化解决方案,具备良好的可扩展性,后续的扩容方便快捷。同时通过管理网络来管理所有硬件设备,极大地简化了运维,节约了成本。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。