2016全球超级计算大会(SC16)在美国盐湖城落下帷幕,期间第48版TOP500超级计算机榜单发布,中国以171台的上榜总数与美国并列第一,千万亿次的超算系统大放异彩。
不过你要问是什么助力了超算系统的性能越来越高、速度越来越快?除了计算、存储、软件、应用等协作外,还少不了一个关键部分,高速互联的网络让超算系统的效率不断提升。Top500榜单(第48版)显示,有超过65%的HPC系统采用InfiniBand网络,并且有46%的千万亿次超算系统采用InfiniBand互连,来自Mellanox InfiniBand互连方案在TOP500榜单中的全部超千万亿次系统中占据了半壁江山。
在高性能计算系统中使用最多的网络毫无疑问属于InfiniBand,统计Top500中HPC系统使用的网络方案数据显示,InfiniBand排头阵,其后分别是Cray、Proprietary,不过后两者均属于私有网络,再之后以太网的份额非常小。
国际高性能计算咨询委员会亚太区主席、Mellanox亚太及中国区高级市场开发总监刘通
HPC系统为什么选择Mellanox InfiniBand?刘通解释了Mellanox为超算系统提供的一系列全球领先的性能、可扩展性和效能。
为HPC网络互连添智能
Mellanox的产品特性可以凸显其所强调的网络并不是简单的数据转发网络,而是加入了强大的“智能”属性。
首先是具备智能处理能力的InfiniBand交换机——100G EDR InfiniBand交换机Switch-IB 2和在SC16上刚刚发布的200G HDR InfiniBand交换机Quantum,智能InfiniBand交换机能够在网络中管理和执行MPI算法。这样,网络就能够在数据传输过程中处理和聚合数据,Mellanox称这种能力为“SHArP(Scalable Hierarchical Aggregation Protocol,可扩展分层聚合协议)”。
刘通指出,“相对于以前的InfiniBand交换机只负责数据转发,Mellanox现在的InfiniBand交换机能够执行数据计算,因此让HPC的应用程序整体性能又有进一步的飞跃。”
其次是InfiniBand网卡,“Mellanox ConnectX-5网卡提供100G网络带宽,延迟降到0.6微妙,每秒可以处理2亿条消息,比上一代产品(Mellanox ConnectX-4适配器)快了33%。”刘通说,同Switch-IB 2一样,ConnectX-5网卡也会执行相应的MPI操作,这会将MPI数据通讯延迟大幅下降,同时将其占用的CPU资源降低至最低的可能。
此外,Mellanox的网卡还支持Multi-Host(多通路)技术,即一款网卡可以同时给多台服务器使用。刘通说,“传统上每台服务器必须配一片网卡,现在Multi-host技术可以使多台服务器共享一片网卡。Mellanox100G的单片网卡,支持4台服务器,每台服务器相当于拥有一片25G独立网卡,这可以大大节约成本,提高灵活性。同时,Multi-Host不仅仅是把一个高带宽的网络切成几片小带宽的网络,它还可以带来另外一个巨大利好,Multi-Host的网络技术可以让每一颗CPU直通网卡,通过PCIe直连到网卡传输数据,避免在多CPU系统共享一片网卡的传统服务器中,通信只能通过与网卡在同一root complex的CPU来完成。因此,Mutli-host不仅降低成本,同时可以保障更好通信性能。”
PK英特尔Omni-Path
当然,看出了Mellanox的做法也就回到了两个技术体系的PK,也就是Offloading(卸载)和Onloading(加载)技术的PK。 Offloading的代表是Mellanox,Onloading的代表是英特尔。
刘通表示,虽然英特尔在很多场合展示了其Onloading的测试结果对比InfiniBand具备性能相近或甚至某些情况下具备微弱优势。 刘通直言性能测试大有玄机。如果使用同样硬件(仅仅网络不同),同样系统软件配置,相同应用程序运行参数,几乎不可能出现Onload技术为基础的omni-path技术比智能InfiniBand还快的可能性。用户的实际体验是最直接的证明。最近在OpenFoam用户大会(主流CAE软件),Onmi-path位于意大利的大型系统使用者直接指出要使用Omni-path网络运行应用的时候需要空余部分核心用来做通讯,这些核心不能分配MPI进程。因为计算与通信会在CPU资源占有上互相冲突,这时候Onloading的缺陷就会出现了。
InfiniBand 100G和Omni-Path 100G应用性能对比
“多个应用测试结果显示,Omni-path性能要比InfiniBand EDR慢很多。尤其随着节点增加,InfiniBand EDR优势越明显”
为什么会有这样的一个区别?刘通解释称,第一点就是对CPU的占有率,因为Omni-Path做网络处理,需要占用大量CPU资源,很多CPU资源耗费在通讯上面,我们的CPU占有率则不到1%。其次,在CPU的指令上面耗费也是非常巨大的一个区别,InfiniBand 3900万,但是Omni-Path已经是几个亿的量级。我们可以把Mellanox InfiniBand看做协处理器,因为它释放了大量CPU指令和CPU占有率,让CPU能够完全地用到计算任务上,从而使用更少的服务器完成同样任务,最终降低整体系统成本。
现在,Mellanox还在继续引领高速网络创新,近日其发布了全球首个 200Gb/s 数据中心网络互连解决方案,200Gb/s HDR InfiniBand 解决方案进一步巩固了Mellanox的市场领先地位。
Mellanox还宣布提供HPC集群的租用服务,128个节点,有最新的Intel CPU、最新的InfiniBand网卡和支持SHArP功能的交换机,还有支持SHArP加速的HPC-X软件、最优化的支持RDMA Lustre文件系统,刘通表示,Mellanox提供的HPC平台是经过反复推敲的性能优化的一个HPC集群。“我们想通过为用户提供HPC租用服务让大家了解一个真正高效率的集群是如何工作的,让用户有一个切身的体会,能够用到我们硬件加速、软件加速、文件系统加速等所有性能的体现优势。”
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。