高性能计算(HPC)是指以计算为目的,使用了很多处理器的单个计算机系统或者使用了多台计算机集群的计算系统和环境。HPC计算集群主要有计算服务器、共享存储、高速互联设备以及配套的管理软件、平台软件和应用软件构成。随着社会的发展,高性能计算被越来越多的行业例如科研、教育、生物、能源等行业广泛应用,目前正呈逐渐扩大化趋势,各种新兴行业如电信、金融、游戏、信息安全领域也得到了越来越多的应用。
中国航空工业空气动力研究院(以下简称“中航工业气动院”),隶属于中航工业集团,是我国航空工业领域唯一的风洞试验基地。作为中国航空工业系统唯一的专业空气动力研究机构,参与了几乎所有重点飞机型号的研制工作,拥有一批国内领先或特有的先进试验技术,如进气道试验技术、动态试验技术、推力矢量试验技术、流场显示与测量试验技术、高精度天平设计与标准技术、高雷诺数试验技术、动力模拟试验技术等,并已初步建成基于结构网格与非结构网格的航空高精度数值模拟计算平台。
当前,中航工业气动院正处在一个重要的加速发展期,未来5年内的科研能力建设投入将超过以往50多年来投入的总和,重点发展的业务领域将围绕高、低速风洞群的建设与先进试验技术、先进气动力理论研究与CFD、新概念飞行器的气动力创新设计三条主线全面展开,因此客户亟需建设新的计算平台来满足未来业务发展对计算性能的需要。
面临挑战
1)中航工业气动院现有计算平台计算性能不足,不能满足业务需求。原有计算集群为LC机架式服务器,设备面临老旧、故障率较高, CPU为E5-2609 V2系列,随着业务发展,计算性能的瓶颈越来越突出。
2)存储的性能较低,IOPS值无法满足要求,拉低了计算集群的整体计算性能。客户现有HPC集群中存储系统采用Lusture方案,OSS和MDS由一台服务器承载,负担较重,制约了存储性能,也极大的拉低了计算集群的整体计算性能。
3)原有HPC集群的可靠性和可扩展性较差。OSS和MDS节点由一台服务器承载,且存储为两台集中式存储,数据可靠性差,同时采用机架式服务器面临组网复杂,管理复杂,扩展性不强的劣势。
解决方案
在本次建设中,华为所提供的计算集群、存储系统、管理系统及IPMI网络等解决方案为中航工业气动院构筑了全新的HPC平台,在本次建设中通过采用高性能的华为E9000刀片服务器,可以提供300万亿次的计算能力。同时计算网络采用100GB EDR高速Infiniband组网,通过2层胖树无阻塞(1:1)组网,提供更高的带宽,使计算性能得到完全发挥。
为解决存储性能和可靠性以及可扩展性问题,本次建设采用全对称分布式存储OceanStor 9000代替传统HPC解决方案中存储系统Lusture方案中的集中式存储,OceanStor 9000系统包含硬件平台和软件系统,硬件主要包含了交换机和存储节点,且该设备支持3-288个节点可扩展,扩展性较强。存储节点中SSD盘作为元数据存储,NL-SAS大容量硬盘作为对象存储,采用8+1:1的冗余比来保障节点间硬件和数据的可靠性。OceanStor 9000使用全IB组网,前端网络对接用户IB交换网后端网络使用内部IB交换机,保证了存储系统内部的高带宽,避免了成为计算集群的性能瓶颈。
同时通过一台CE6180万兆交换机和一台CE5810千兆交换机连接所有设备的管理端口实现集群的调度、硬件监控和管理功能。极大地方便管理和运维,同时本次HPC项目采用刀片式方案,E9000刀片服务器可以支持最大32个节点,密度业界最高,扩展性十分强大,便于扩容来满足未来业务发展需要。
建设价值
通过本次建设,中航工业气动院的工作效率极大提升:通过部署新的高性能仿真平台,使得计算性能大幅提升,使得高复杂模型仿真由不可能变成可能;同时存储性能得到极大提升,数据可靠性增强,数据存储量极大提高;本次建设还拥有良好的扩展性,便于后续扩容:华为高性能仿真平台采用华为的一体化解决方案,具备良好的可扩展性,后续的扩容方便快捷。同时通过管理网络来管理所有硬件设备,极大地简化了运维,节约了成本。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。