2015年5月28日,黑色星期四,沪指一日连续下破整数关口,上证指数收盘下跌6.5%,深成指下跌6.19%,创业板下跌5.39%,创4个月来单日最大跌幅,全国股民人均赔两万!正当股民们心灰意冷,打算出去看看世界的时候,携程挂了!
从11:09分开始,到晚上22:45分恢复,此次携程网站崩溃时间共持续了近12个小时。事后携程的官网解释:经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。
从携程的声明来看,导致此次事件的直接原因是员工误操作造成,但有一个现象非常形象地描述了目前IT运维的真实状况:
系统出现故障后→
1、业务使用者最先发现应用受到影响,开始抓狂和投诉。
2、继而运营监控的各种大屏幕会出现流量的异样图、系统告警图。
3、最后轮到攻城狮们手忙脚乱进行troubleshooting,挨个设备的各种telnet/ssh抓取信息。
4、可以定位故障的,对症解决;不明所以的,尝试重新启动设备或者切换备份方案。
5、提交故障报告、问责、致歉、危机公关等等
目前的IT运维系统,可以查看链路状态,监控设备资源利用率,故障告警,但从业务的角度来说,还缺乏一种手段对这些数据进行系统性的分析,呈现出更明确更有意义的结论,以便在突发事件时,启动预案、快速定位和给出指导性建议。
携程事件再次向我们表明了新常态下,系统可靠性的重要作用,据统计,这次宕机给携程网造成的直接损失超过数百万美元,股价暴跌11%。云计算、大数据、互联网+ 的空前繁荣,让IT运维面临前所未有的挑战,如何及时全面的掌握网络、主机、数据库、存储、桌面等各类资源的运行情况?如何使我们的运维工作未雨绸缪,做到防患于未然呢?
【IT运维人员八种痛】
东华网智认为,互联网+时代,系统化的运维管理对企业有着不可估量的作用,规模化的IT系统和复杂的业务系统稳定运行是信息部门的重要职责,如果发生故障不能及时准备定位,引发业务中断,给企业带来的损失是巨大的,同时,企业IT治理、流程规范、智能巡检将有效减少违规操作、消弭隐患,降低故障发生机率。换言之,企业需要一套清晰、智能化的运维管理系统来帮助IT人员提高对整个业务系统的把控能力,而东华网智正是致力于精细化IT服务管理,帮助企业建立健全IT运维管理体系,实现IT“监.管.控”一体化,全面提升IT服务质量。
【东华IT服务综合管理解决方案技术架构】
“监”之综合监控
对IT基础架构和业务系统的实时监控,能够帮助管理人员准确定位故障,及时处理问题,并在警戒阈值达到前,将系统隐患扼杀于摇篮。东华IT综合监控范围涵盖机房动力环境、网络设备、服务器、数据库、中间件、虚拟化资源、桌面终端、通用服务等IT资源的运行状态及性能,支持SNMP、telnet、SSH、WMI、JMX、JDBC等远程非代理监测和Agent代理监测,根据管理规模不同支持分布式采集和集中管理模式,提供7X24不间断监测服务。系统将复杂的技术指标、监控状态等以图形化方式展现给客户,支持机房、办公区域、场所的3D可视化展现,大大提高用户的操作便捷性及工作效率。
“管”之性能管理
系统不宕机、应用可访问只是保障业务连续性的入门级要求,在“永远在线”的互联网+时代,最终用户的应用体验成为关键要素。东华网智强调“业务服务视角”,分段监测业务系统的每个过程环节,快速解析应用问题并将问题范围定位到具体的应用组件,帮助运维者实现对业务应用问题的监测、定位和诊断,达到先于用户发现问题,提前建立紧急预案,保障业务可用性,提高用户体验。
“控”之流程把控
携程宕机的问题最终定位为“员工误操作”,实际是流程管控和权限设置不当,“人为因素”在很多IT事故中不是小概率事件,必须要依赖必要的IT手段将流程僵化再优化,将人为因素将至最低,操作是否合规,变更是否合理,访问是否越权,数据是否备份,一切全部由流程铁律进行约束。东华网智IT运维管理系统的目的正是通过建立一套标准的运维服务流程,围绕事件管理、问题管理、变更管理、配置管理、发布管理、服务级别管理等ITIL最佳实践,帮助用户实现IT运维服务的流程化、规范化管理,最终让IT的“精确化”制约人力的“随机化”。
5.28携程的重大故障虽然是一次灾难,但也为所有的企业敲响了警钟,安全生产重于泰山,一个误操作带来的可能就是毁灭性的损失。在互联网企业各项业务都依赖IT系统的今天,做好IT系统的运维管理工作无疑是保障业务正常运行的核心所在。
专业的事一定要交给专业的系统来做,让5.28事件不再重演,让企业长青!
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。