高性能计算需要什么样的互连网络？

2016全球超级计算大会在美国盐湖城落下帷幕，期间第48版TOP500超级计算机榜单发布,中国以171台的上榜总数与美国并列第一，千万亿次的超算系统大放异彩。不过你要问是什么助力了超算系统的性能越来越高、速度越来越快？高速互联的网络让超算系统的效率不断提升

2016全球超级计算大会（SC16）在美国盐湖城落下帷幕，期间第48版TOP500超级计算机榜单发布，中国以171台的上榜总数与美国并列第一，千万亿次的超算系统大放异彩。

不过你要问是什么助力了超算系统的性能越来越高、速度越来越快？除了计算、存储、软件、应用等协作外，还少不了一个关键部分，高速互联的网络让超算系统的效率不断提升。Top500榜单（第48版）显示，有超过65%的HPC系统采用InfiniBand网络，并且有46%的千万亿次超算系统采用InfiniBand互连，来自Mellanox InfiniBand互连方案在TOP500榜单中的全部超千万亿次系统中占据了半壁江山。

在高性能计算系统中使用最多的网络毫无疑问属于InfiniBand，统计Top500中HPC系统使用的网络方案数据显示，InfiniBand排头阵，其后分别是Cray、Proprietary，不过后两者均属于私有网络，再之后以太网的份额非常小。

国际高性能计算咨询委员会亚太区主席、Mellanox亚太及中国区高级市场开发总监刘通

HPC系统为什么选择Mellanox InfiniBand？刘通解释了Mellanox为超算系统提供的一系列全球领先的性能、可扩展性和效能。

为HPC网络互连添智能

Mellanox的产品特性可以凸显其所强调的网络并不是简单的数据转发网络，而是加入了强大的“智能”属性。

首先是具备智能处理能力的InfiniBand交换机——100G EDR InfiniBand交换机Switch-IB 2和在SC16上刚刚发布的200G HDR InfiniBand交换机Quantum，智能InfiniBand交换机能够在网络中管理和执行MPI算法。这样，网络就能够在数据传输过程中处理和聚合数据，Mellanox称这种能力为“SHArP(Scalable Hierarchical Aggregation Protocol，可扩展分层聚合协议)”。

刘通指出，“相对于以前的InfiniBand交换机只负责数据转发，Mellanox现在的InfiniBand交换机能够执行数据计算，因此让HPC的应用程序整体性能又有进一步的飞跃。”

其次是InfiniBand网卡，“Mellanox ConnectX-5网卡提供100G网络带宽，延迟降到0.6微妙，每秒可以处理2亿条消息，比上一代产品（Mellanox ConnectX-4适配器）快了33%。”刘通说，同Switch-IB 2一样，ConnectX-5网卡也会执行相应的MPI操作，这会将MPI数据通讯延迟大幅下降，同时将其占用的CPU资源降低至最低的可能。

此外，Mellanox的网卡还支持Multi-Host（多通路）技术，即一款网卡可以同时给多台服务器使用。刘通说，“传统上每台服务器必须配一片网卡，现在Multi-host技术可以使多台服务器共享一片网卡。Mellanox100G的单片网卡，支持4台服务器，每台服务器相当于拥有一片25G独立网卡，这可以大大节约成本，提高灵活性。同时，Multi-Host不仅仅是把一个高带宽的网络切成几片小带宽的网络，它还可以带来另外一个巨大利好，Multi-Host的网络技术可以让每一颗CPU直通网卡，通过PCIe直连到网卡传输数据，避免在多CPU系统共享一片网卡的传统服务器中，通信只能通过与网卡在同一root complex的CPU来完成。因此，Mutli-host不仅降低成本，同时可以保障更好通信性能。”

PK英特尔Omni-Path

当然，看出了Mellanox的做法也就回到了两个技术体系的PK，也就是Offloading（卸载）和Onloading（加载）技术的PK。 Offloading的代表是Mellanox，Onloading的代表是英特尔。

刘通表示，虽然英特尔在很多场合展示了其Onloading的测试结果对比InfiniBand具备性能相近或甚至某些情况下具备微弱优势。刘通直言性能测试大有玄机。如果使用同样硬件（仅仅网络不同），同样系统软件配置，相同应用程序运行参数，几乎不可能出现Onload技术为基础的omni-path技术比智能InfiniBand还快的可能性。用户的实际体验是最直接的证明。最近在OpenFoam用户大会（主流CAE软件），Onmi-path位于意大利的大型系统使用者直接指出要使用Omni-path网络运行应用的时候需要空余部分核心用来做通讯，这些核心不能分配MPI进程。因为计算与通信会在CPU资源占有上互相冲突，这时候Onloading的缺陷就会出现了。

InfiniBand 100G和Omni-Path 100G应用性能对比

“多个应用测试结果显示，Omni-path性能要比InfiniBand EDR慢很多。尤其随着节点增加，InfiniBand EDR优势越明显”

为什么会有这样的一个区别？刘通解释称，第一点就是对CPU的占有率，因为Omni-Path做网络处理，需要占用大量CPU资源，很多CPU资源耗费在通讯上面，我们的CPU占有率则不到1%。其次，在CPU的指令上面耗费也是非常巨大的一个区别，InfiniBand 3900万，但是Omni-Path已经是几个亿的量级。我们可以把Mellanox InfiniBand看做协处理器，因为它释放了大量CPU指令和CPU占有率，让CPU能够完全地用到计算任务上，从而使用更少的服务器完成同样任务，最终降低整体系统成本。

现在，Mellanox还在继续引领高速网络创新，近日其发布了全球首个 200Gb/s 数据中心网络互连解决方案，200Gb/s HDR InfiniBand 解决方案进一步巩固了Mellanox的市场领先地位。

Mellanox还宣布提供HPC集群的租用服务，128个节点，有最新的Intel CPU、最新的InfiniBand网卡和支持SHArP功能的交换机，还有支持SHArP加速的HPC-X软件、最优化的支持RDMA Lustre文件系统，刘通表示，Mellanox提供的HPC平台是经过反复推敲的性能优化的一个HPC集群。“我们想通过为用户提供HPC租用服务让大家了解一个真正高效率的集群是如何工作的，让用户有一个切身的体会，能够用到我们硬件加速、软件加速、文件系统加速等所有性能的体现优势。”

来源：ZD至顶网网络频道

0赞

好文章，需要你的鼓励

高性能计算需要什么样的互连网络？

来源：ZD至顶网网络频道

2016

11/24

09:18

分享

点赞

情感AI的十字路口：从马斯克的虚拟伴侣到腾讯的共情革命

CoDesign 2025国际研讨会在大阪召开 共探高性能计算与AI融合新路径

自写互联网：Dfinity的Caffeine AI是否为应用开发者敲响警钟

Meta利用AI创造低碳混凝土并用于数据中心地板浇筑

Slack宣称其AI能够理解公司的专业术语和行话

Adobe新AI工具将搞怪噪音转换成逼真音效

AI是新的Android恶意软件吗？手机厂商争夺用户注意力的战争

NetBox Labs获得3500万美元融资推动基础设施运营现代化

边缘计算趋势：采用现状、挑战与未来展望

Liqid发布支持CXL 2.0内存池的可组合GPU服务器

Uber携手Lucid和Nuro部署2万辆自动驾驶出租车

Mistral的Le Chat聊天机器人推出"深度研究"模式，生产力大幅提升

“GPU闲置过半，器件逼近物理极限”？是德科技如何应对AI基础设施之困

Graid基于Nvidia GPU的RAID卡技术突破及产品路线图

VAST Data凭借Doudna超算项目成功进军高性能计算领域

VDURA瞄准VAST、WEKA、DDN，以AI-HPC存储重启挑战市场

PCIe 7.0规范正式发布，带宽达512GBps，PCIe 8.0已在筹备中

桑迪亚启用类脑无存储超算

法国政府正式出价4.1亿欧元收购Atos精简后的高性能计算资产

AI 对算力的渴望推动企业迈向超级计算

Intel Xeon 6 CPU 在人工智能、高性能计算领域崭露头角

谷歌“Ironwood” TPU Pod与其他AI超级计算机的对比

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

CoDesign 2025国际研讨会在大阪召开共探高性能计算与AI融合新路径