网络运维 关键字列表
万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

大模型训练任务对于网络要求苛刻,34%的训练中断是由网络引起。RDMA的丢包重传机制将导致带宽利用率快速降低,当丢包率达到千分之1时,训练效率降低明显;

2023-11-21

数字地图使能服务,激活运维数据,提升运维效率

在华为中国政企运维峰会2023期间,华为正式发布数字地图使能服务,面对云网一体化架构下的业务看不清、拓扑看不全、问题看不准等难题,华为通过自主研发的数字地图使能服务产品