高性能计算(HPC)是指以计算为目的,使用了很多处理器的单个计算机系统或者使用了多台计算机集群的计算系统和环境。HPC计算集群主要有计算服务器、共享存储、高速互联设备以及配套的管理软件、平台软件和应用软件构成。随着社会的发展,高性能计算被越来越多的行业例如科研、教育、生物、能源等行业广泛应用,目前正呈逐渐扩大化趋势,各种新兴行业如电信、金融、游戏、信息安全领域也得到了越来越多的应用。
中国航空工业空气动力研究院(以下简称“中航工业气动院”),隶属于中航工业集团,是我国航空工业领域唯一的风洞试验基地。作为中国航空工业系统唯一的专业空气动力研究机构,参与了几乎所有重点飞机型号的研制工作,拥有一批国内领先或特有的先进试验技术,如进气道试验技术、动态试验技术、推力矢量试验技术、流场显示与测量试验技术、高精度天平设计与标准技术、高雷诺数试验技术、动力模拟试验技术等,并已初步建成基于结构网格与非结构网格的航空高精度数值模拟计算平台。
当前,中航工业气动院正处在一个重要的加速发展期,未来5年内的科研能力建设投入将超过以往50多年来投入的总和,重点发展的业务领域将围绕高、低速风洞群的建设与先进试验技术、先进气动力理论研究与CFD、新概念飞行器的气动力创新设计三条主线全面展开,因此客户亟需建设新的计算平台来满足未来业务发展对计算性能的需要。
面临挑战
1)中航工业气动院现有计算平台计算性能不足,不能满足业务需求。原有计算集群为LC机架式服务器,设备面临老旧、故障率较高, CPU为E5-2609 V2系列,随着业务发展,计算性能的瓶颈越来越突出。
2)存储的性能较低,IOPS值无法满足要求,拉低了计算集群的整体计算性能。客户现有HPC集群中存储系统采用Lusture方案,OSS和MDS由一台服务器承载,负担较重,制约了存储性能,也极大的拉低了计算集群的整体计算性能。
3)原有HPC集群的可靠性和可扩展性较差。OSS和MDS节点由一台服务器承载,且存储为两台集中式存储,数据可靠性差,同时采用机架式服务器面临组网复杂,管理复杂,扩展性不强的劣势。
解决方案
在本次建设中,华为所提供的计算集群、存储系统、管理系统及IPMI网络等解决方案为中航工业气动院构筑了全新的HPC平台,在本次建设中通过采用高性能的华为E9000刀片服务器,可以提供300万亿次的计算能力。同时计算网络采用100GB EDR高速Infiniband组网,通过2层胖树无阻塞(1:1)组网,提供更高的带宽,使计算性能得到完全发挥。
为解决存储性能和可靠性以及可扩展性问题,本次建设采用全对称分布式存储OceanStor 9000代替传统HPC解决方案中存储系统Lusture方案中的集中式存储,OceanStor 9000系统包含硬件平台和软件系统,硬件主要包含了交换机和存储节点,且该设备支持3-288个节点可扩展,扩展性较强。存储节点中SSD盘作为元数据存储,NL-SAS大容量硬盘作为对象存储,采用8+1:1的冗余比来保障节点间硬件和数据的可靠性。OceanStor 9000使用全IB组网,前端网络对接用户IB交换网后端网络使用内部IB交换机,保证了存储系统内部的高带宽,避免了成为计算集群的性能瓶颈。
同时通过一台CE6180万兆交换机和一台CE5810千兆交换机连接所有设备的管理端口实现集群的调度、硬件监控和管理功能。极大地方便管理和运维,同时本次HPC项目采用刀片式方案,E9000刀片服务器可以支持最大32个节点,密度业界最高,扩展性十分强大,便于扩容来满足未来业务发展需要。
建设价值
通过本次建设,中航工业气动院的工作效率极大提升:通过部署新的高性能仿真平台,使得计算性能大幅提升,使得高复杂模型仿真由不可能变成可能;同时存储性能得到极大提升,数据可靠性增强,数据存储量极大提高;本次建设还拥有良好的扩展性,便于后续扩容:华为高性能仿真平台采用华为的一体化解决方案,具备良好的可扩展性,后续的扩容方便快捷。同时通过管理网络来管理所有硬件设备,极大地简化了运维,节约了成本。
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。