如果网络和应用程序发生延迟,终端用户就会遭受糟糕的性能问题,但还要努力完成基本的工作任务。虽然有些延迟问题比较容易定位和修复,但是,总有一些问题需要借助监视方案和其它工具才能深入地挖掘并解决。
不能仅关注用户的反馈
倾听雇员的反馈并用其发现网络或应用程序的潜在问题是很重要的,但是用户的抱怨往往并不能明确地说明问题,而且也不能使管理员完整地阐述问题和故障。管理员应透过现象看本质,由表及里,由此及彼。用户们可能仅仅告诉管理员其VoIP和视频会议的呼叫没有声音,或者某个应用程序运行速度大不如以前正常时的情况,但你应由此扩展出去。管理员不应利用一个或几个不同用户的抱怨来帮助查找潜在的基本问题,而应查找相关的模式。
例如,如果有13个人抱怨说有13个不同的应用程序运行速度缓慢,但这些问题碰巧都运行在相同的存储阵列,那么你就可以追踪问题到特定的系统。又如,如果短时间内有几十个员工抱怨速度问题,但你作为管理员却发现这些用户都在使用在云中运行的服务所涉及的应用程序,因而基本可以断定是服务供应商的问题。
但预防总比等待终端用户的抱怨要好。管理员应提前规划,真正理解数据中心的运行方式,以便于能够执行网络的健康检查,真正地定位和解决问题。保持主动是确保管理员能够快速响应性能问题的最佳方法。
系统负担过重
系统承受的负担,尤其是内存的负担是造成应用程序延迟的另一个常见原因。你的系统未必运行缓慢,但如果其负担过重,将无法满足通信和要求。这种情况既可发生在服务器端也可发生在终端,所以管理员必须确保拥有适当数量的资源(特别是内存)可以运行负载。
如果企业的应用非常重要,而且需要实时响应,那么你必须将这些应用放到拥有最大内存的最佳存储系统上。但是,如果你的应用不是那么“生死攸关”,或者并不需要同等水平的资源和容量,就可以将其放到一些不太强大的系统上。
为了以最有效的方式将负载分配到服务器中,管理员必须决定最佳的方法。如果这些系统是在云计算之前设计的,但如今又有新要求的应用程序,那么它有可能造成延迟问题而需要升级。
改进网络的流量管理
就像系统负担过重会影响应用程序的性能一样,网络的负担过重也会引起延迟问题。但是,此问题的有趣之处在于延迟往往是由于网络作为一个整体的利用率过低造成的。
许多数据中心有两个分离的网络连接,其中之一是MPLS线,另一个是互联网连接。在多数情况下,公司并不能充分利用这两个连接,从而导致大量潜在的性能问题。
例如,有些公司仅将互联网连接用于处理备份,但此连接还可用于非关键的应用和服务。管理员为什么要将所有的娱乐通信交给数据而中心而没有将其直接发到互联网上呢?通过将诸如社交媒体、视频流、其它大量消耗带宽的服务迁移到不同的网络连接中,你就可以改善性能,甚至可以释放一些额外的网络性能用于将来的繁重任务。
未必都是内部问题
即使在采取了所有必要的措施之后,网络和应用仍有可能遭受延迟问题,那么问题就未必是内部原因引起的。管理员必须知道,应用程序不再完全位于企业内部的数据中心了。在很情况下,应用程序要与云端的服务相协作,或者使用云中的服务,所以即使企业的数据中心正常运行,互联网服务供应商或云服务供应商也有可能出问题。管理员不妨运行一些可以查看云服务状态的工具,这应是不错的方法。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。