ZD至顶网网络频道 11月11日 北京消息: InfiniBand明年将从100 Gbps走向200 Gbps。记者日前采访了Mellanox营销副总总裁Gilad Shainer。
Shainer表示,Mellanox将自下而上提供200 Gbps HDR InfiniBand规范产品,包括开关、芯片、网卡和相应的网线。
即将上市的Quantum开关设备支持40端口200 Gbps HDR InfiniBand,或80端口100 Gbps,将以模块化开关的形式提供,可以扩展到200 Gbps速度的800个端口或100 Gbps 速度的1600个端口。切换延迟为90 ns,总容量达16 Tbps。
200 Gbps的ConnectX适配器设备的延迟为0.6微秒,支持第三代、第四代PCIe,包括Mellanox多主机支持(如果不需要200 Gbps,则可将分适配器分割给多个主机使用)。
假如有人觉得此类速度翻倍的游戏没有什么意思,Mellanox也一直在推动利用开关减少CPU的负载的工作,这一点兴许会更有意思。
Shainer表示,现在业界需要“在各种地方分析数据,特别是在迁移数据的时候。InfiniBand HDR设备着眼于高性能计算环境,并将扩大网络计算和自适应路由功能,二者在运行上一代100 Gbps的环境里都颇为有用。”
Shainer称,卸载处理器方面的工作多年前以RDMA(远程直接内存访问)起步,即是说数据迁移用到的CPU时间不到1%。这在Quantum和ConnectX里得以扩展。
他表示,“Quantum开关的功能包括执行数据整合和削减协议,以减少CPU的负载。”他还表示,机器学习训练算法用到相同的基本概念。
ConnectX适配器也提供网络内存储、加密和其他安全方面的卸载功能。超级计算环境中的消息传递接口(MPI)也属于ConnectX卸载功能的一部分,MPI利用集总和匹配减少CPU的负载。Shainer表示,ConnectX的卸载功能可以将“60%至70%的MPI工作负载卸载到网络里……有朝一日,整个MPI框架将会迁移到网络里”。
他表示,存储卸载也是卸载功能的一部分,原因是检查点的设置(将应用程序的状态保存为返回点以备崩溃是用)目前是CPU负载的一部分。Shainer表示,“如果运行的节点达数千个,而又不想重新启动应用程序,那么这一点就十分关键。”
检查点的设置需要CPU时间,而HPC管理员不愿意在这些事务管理上消耗资源,因此ConnectX可以做背景检查点的设置。
适配器加密卸载为磁盘加密添加一个有意思的功能。如果用了全盘加密,那么数据保护涉及的不是单个用户。据Shainer介绍,“但如果是在网络上,不同的用户在网络上可以使用不同的密钥或不同的应用程序。”
Quantum和ConnectX还添加了遥测功能,内置的硬件传感器可以提供实时数据收集。
200 Gbps的配件包括HDR铜电缆和拆分器(用于3米内的机架链接)、主动硅光光学电缆(用于100米以内的数据中心链接)和光收发器(2000米以内的链接)。
新产品将于2017年应市。
好文章,需要你的鼓励
OpenAI CEO描绘了AI温和变革人类生活的愿景,但现实可能更复杂。AI发展将带来真正收益,但也会造成社会错位。随着AI系统日益影响知识获取和信念形成,共同认知基础面临分裂风险。个性化算法加剧信息茧房,民主对话变得困难。我们需要学会在认知群岛化的新地形中智慧生存,建立基于共同责任而非意识形态纯洁性的社区。
杜克大学等机构研究团队通过三种互补方法分析了大语言模型推理过程,发现存在"思维锚点"现象——某些关键句子对整个推理过程具有决定性影响。研究表明,计划生成和错误检查等高层次句子比具体计算步骤更重要,推理模型还进化出专门的注意力机制来跟踪这些关键节点。该发现为AI可解释性和安全性研究提供了新工具和视角。
传统数据中心基础设施虽然对企业至关重要,但也是预算和房地产的重大负担。模块化数据中心正成为强有力的替代方案,解决企业面临的运营、财务和环境复杂性问题。这种模块化方法在印度日益流行,有助于解决环境问题、满足人工智能的电力需求、降低成本并支持新一代分布式应用。相比传统建设需要数年时间,工厂预制的模块化数据中心基础设施可在数周内部署完成。
法国索邦大学团队开发出智能医学文献管理系统Biomed-Enriched,通过AI自动从PubMed数据库中识别和提取高质量临床案例及教育内容。该系统采用两步注释策略,先用大型AI模型评估40万段落质量,再训练小型模型处理全库1.33亿段落。实验显示该方法仅用三分之一训练数据即可达到传统方法效果,为医学AI发展提供了高效可持续的解决方案。