大模型训练任务对于网络要求苛刻,34%的训练中断是由网络引起。RDMA的丢包重传机制将导致带宽利用率快速降低,当丢包率达到千分之1时,训练效率降低明显;
在华为中国政企运维峰会2023期间,华为正式发布数字地图使能服务,面对云网一体化架构下的业务看不清、拓扑看不全、问题看不准等难题,华为通过自主研发的数字地图使能服务产品