如果网络和应用程序发生延迟,终端用户就会遭受糟糕的性能问题,但还要努力完成基本的工作任务。虽然有些延迟问题比较容易定位和修复,但是,总有一些问题需要借助监视方案和其它工具才能深入地挖掘并解决。
不能仅关注用户的反馈
倾听雇员的反馈并用其发现网络或应用程序的潜在问题是很重要的,但是用户的抱怨往往并不能明确地说明问题,而且也不能使管理员完整地阐述问题和故障。管理员应透过现象看本质,由表及里,由此及彼。用户们可能仅仅告诉管理员其VoIP和视频会议的呼叫没有声音,或者某个应用程序运行速度大不如以前正常时的情况,但你应由此扩展出去。管理员不应利用一个或几个不同用户的抱怨来帮助查找潜在的基本问题,而应查找相关的模式。
例如,如果有13个人抱怨说有13个不同的应用程序运行速度缓慢,但这些问题碰巧都运行在相同的存储阵列,那么你就可以追踪问题到特定的系统。又如,如果短时间内有几十个员工抱怨速度问题,但你作为管理员却发现这些用户都在使用在云中运行的服务所涉及的应用程序,因而基本可以断定是服务供应商的问题。
但预防总比等待终端用户的抱怨要好。管理员应提前规划,真正理解数据中心的运行方式,以便于能够执行网络的健康检查,真正地定位和解决问题。保持主动是确保管理员能够快速响应性能问题的最佳方法。
系统负担过重
系统承受的负担,尤其是内存的负担是造成应用程序延迟的另一个常见原因。你的系统未必运行缓慢,但如果其负担过重,将无法满足通信和要求。这种情况既可发生在服务器端也可发生在终端,所以管理员必须确保拥有适当数量的资源(特别是内存)可以运行负载。
如果企业的应用非常重要,而且需要实时响应,那么你必须将这些应用放到拥有最大内存的最佳存储系统上。但是,如果你的应用不是那么“生死攸关”,或者并不需要同等水平的资源和容量,就可以将其放到一些不太强大的系统上。
为了以最有效的方式将负载分配到服务器中,管理员必须决定最佳的方法。如果这些系统是在云计算之前设计的,但如今又有新要求的应用程序,那么它有可能造成延迟问题而需要升级。
改进网络的流量管理
就像系统负担过重会影响应用程序的性能一样,网络的负担过重也会引起延迟问题。但是,此问题的有趣之处在于延迟往往是由于网络作为一个整体的利用率过低造成的。
许多数据中心有两个分离的网络连接,其中之一是MPLS线,另一个是互联网连接。在多数情况下,公司并不能充分利用这两个连接,从而导致大量潜在的性能问题。
例如,有些公司仅将互联网连接用于处理备份,但此连接还可用于非关键的应用和服务。管理员为什么要将所有的娱乐通信交给数据而中心而没有将其直接发到互联网上呢?通过将诸如社交媒体、视频流、其它大量消耗带宽的服务迁移到不同的网络连接中,你就可以改善性能,甚至可以释放一些额外的网络性能用于将来的繁重任务。
未必都是内部问题
即使在采取了所有必要的措施之后,网络和应用仍有可能遭受延迟问题,那么问题就未必是内部原因引起的。管理员必须知道,应用程序不再完全位于企业内部的数据中心了。在很情况下,应用程序要与云端的服务相协作,或者使用云中的服务,所以即使企业的数据中心正常运行,互联网服务供应商或云服务供应商也有可能出问题。管理员不妨运行一些可以查看云服务状态的工具,这应是不错的方法。
好文章,需要你的鼓励
Akamai的分布式边缘架构从设计之初就以韧性为核心,全球平台通过跨区域负载均衡和智能路由技术,确保即使某些节点出现故障,流量也能无缝切换至可用节点。
卡内基梅隆大学联合Adobe开发出革命性的NP-Edit技术,首次实现无需训练数据对的AI图像编辑。该技术通过视觉语言模型的语言反馈指导和分布匹配蒸馏的质量保障,让AI仅用4步就能完成传统50步的编辑任务,在保持高质量的同时大幅提升处理速度,为图像编辑技术的普及应用开辟了全新道路。
Turner & Townsend发布的2025年数据中心建设成本指数报告显示,AI工作负载激增正推动高密度液冷数据中心需求。四分之三的受访者已在从事AI数据中心项目,47%预计AI数据中心将在两年内占据一半以上工作负载。预计到2027年,AI优化设施可能占全球数据中心市场28%。53%受访者认为液冷技术将主导未来高密度项目。电力可用性成为开发商面临的首要约束,48%的受访者认为电网连接延迟是主要障碍。
复旦大学团队突破AI人脸生成"复制粘贴"痛点,开发WithAnyone模型解决传统AI要么完全复制参考图像、要么身份差异过大的问题。通过MultiID-2M大规模数据集和创新训练策略,实现保持身份一致性的同时允许自然变化,为AI图像生成技术树立新标杆。