以GPT 4 为代表的AI大模型参数已进入到了万亿时代,训练数据也不是以GB、TB为单位,而是可能涵盖整个互联网的数据量。模型的急剧扩大不仅需要与之相匹配的算力、数据,还需要更加快速、安全的网络,才能支撑企业在AI时代下的数字化发展需求。
正如新华三集团副总裁、网络产品线总裁曾富贵所言:“以GPT为代表的AI给网络、存储、计算都带来一些全新的革命和体验,同时也带来了新的要求。AI有三驾马车:算法、算力和数据。算法要依赖整个大模型参数提升以及模型本身的优化,而算力和数据需要传统的GPU服务器,存储和网络来实现相互交互,并反馈于算法本身。大模型对网络的高速连接也提出更高的挑战和需求。”
图:新华三集团副总裁、网络产品线总裁曾富贵
大模型时代网络的三大演进方向
高带宽、低功耗、低时延是大模型时代网络设备的三个演进方向。曾富贵指出:“大模型给算力需求带来了爆发式增长,网络作起到了两个关键作用:第一,将整个算力高效联接起来;第二,算力、数据通过网络进行调度。”
“大模型训练集群往往采用混合并行的方式进行训练。模型、数据、计算除了少量采用顺序方式,都需要尽可能地以并行方式来加速训练。因此,通过智能无损网络可以使GPU集群从存储集群中高效地获取数据。同时满足GPU间的参数、数据的双向传输的高可靠性。”
智能无损网络是基于先进的网络技术实现的无损数据传输和管理的网络,通过有效的数据压缩和计算算法来实现数据的高效传输,为用户提供快速、可靠、可扩展和灵活性强的数据传输服务。具有智能控制和管理、灵活性强、安全可靠、高质量数据传输、高速、可扩展性强特点。
同时可实现AI驱动算力加速。利用人工智能技术来加速计算机执行任务的速度和效率。目前,AI驱动算力加速主要采用的是加速器技术,如GPU(图形处理器)、FPGA(现场可编程门阵列)和ASIC(专用集成电路)等,在计算机视觉、自然语言处理、语音识别、机器学习等领域得到广泛应用,能大幅提升算法运行速度和精度。
企业拥抱大模型,实现网络就绪
企业在进行AI训练、计算时通过GPU进行算力提升,然而在传输过程各种仍面临数据丢包、延时的问题,没有完全发挥出算力的能力。曾富贵指出:新华三针对这种问题,专门针对算力方面做了网络解决方案,能做到无损、低时延,解决网络与GPU的性能匹配瓶颈,才能充分释放算力。
曾富贵介绍:“基于SRv6 TE Policy的严格转发路径约束技术,能实现确定性流量的路径独立;借助SRv6+FlexE的多层次切片能力,将为确定性应用分配一个独立的平面保障带宽,从而保证确定性流量的较小丢包率。使用基于IPv6的高精度随流检测技术来进行路径链路时延测量与标定,为确定性路径提供纳秒级精度的测量结果,大幅提高了确定性时延的保障效果;在承载协议上选择了可编程的SRv6技术,充分利用SRv6的灵活可编程能力,实现时隙映射信息的携带,保障每一个转发节点都能按照预设的时隙要求传送确定性报文。”
“目前可以在1600公里广域传输距离里,保证延抖动在15微秒以内,并且在同一条链路上,也突破了确定性流量和非确定性流量并存的问题,业务级别可以达到数千。这些技术为‘东数西算’场景的数据稳定可靠传输以及工业互联网的 实时远距离工业控制带来很好的商用前景。”
网络性能与网络安全齐头并进
IPv6新协议架构也将带来安全新方法和新手段。曾富贵表示:“从感知维度解决应用洞察和全栈可视,从分析维度解决场景认知和数据赋能,从控制维度解决精准运营和策略管控,从响应维度解决自主构建,敏捷响应。形成了‘四维一体’的网络内生安全体系。”
“首先,我们将继续坚持技术创新,安全理念。落地和实践新华三主动安全3.0战略。结合云、网、端,将这些监测信息汇总。”新华三集团网络产品线系统规划与解决方案部总经理程臻进一步指出:“其次,利用AI赋能安全。在新的安全平台引入更多AI能力,实现攻击检测的智能化和快速防御。”
“第三,利用AI进行趋势分析、不像以前问题暴露之后再进行打补丁或者升级,而是进行一个趋势预判,发觉风险后我们就会进行告警和下发相应策略。”
“第四,加强威胁分析的溯源。建立趋势分析后会对攻击源进行模型建立和溯源,通过云、网、端融合的判断,精准实现攻击源封堵,特别是云端和网端进行联动。”
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面