2015年5月28日,黑色星期四,沪指一日连续下破整数关口,上证指数收盘下跌6.5%,深成指下跌6.19%,创业板下跌5.39%,创4个月来单日最大跌幅,全国股民人均赔两万!正当股民们心灰意冷,打算出去看看世界的时候,携程挂了!
从11:09分开始,到晚上22:45分恢复,此次携程网站崩溃时间共持续了近12个小时。事后携程的官网解释:经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。
从携程的声明来看,导致此次事件的直接原因是员工误操作造成,但有一个现象非常形象地描述了目前IT运维的真实状况:
系统出现故障后→
1、业务使用者最先发现应用受到影响,开始抓狂和投诉。
2、继而运营监控的各种大屏幕会出现流量的异样图、系统告警图。
3、最后轮到攻城狮们手忙脚乱进行troubleshooting,挨个设备的各种telnet/ssh抓取信息。
4、可以定位故障的,对症解决;不明所以的,尝试重新启动设备或者切换备份方案。
5、提交故障报告、问责、致歉、危机公关等等
目前的IT运维系统,可以查看链路状态,监控设备资源利用率,故障告警,但从业务的角度来说,还缺乏一种手段对这些数据进行系统性的分析,呈现出更明确更有意义的结论,以便在突发事件时,启动预案、快速定位和给出指导性建议。
携程事件再次向我们表明了新常态下,系统可靠性的重要作用,据统计,这次宕机给携程网造成的直接损失超过数百万美元,股价暴跌11%。云计算、大数据、互联网+ 的空前繁荣,让IT运维面临前所未有的挑战,如何及时全面的掌握网络、主机、数据库、存储、桌面等各类资源的运行情况?如何使我们的运维工作未雨绸缪,做到防患于未然呢?
【IT运维人员八种痛】
东华网智认为,互联网+时代,系统化的运维管理对企业有着不可估量的作用,规模化的IT系统和复杂的业务系统稳定运行是信息部门的重要职责,如果发生故障不能及时准备定位,引发业务中断,给企业带来的损失是巨大的,同时,企业IT治理、流程规范、智能巡检将有效减少违规操作、消弭隐患,降低故障发生机率。换言之,企业需要一套清晰、智能化的运维管理系统来帮助IT人员提高对整个业务系统的把控能力,而东华网智正是致力于精细化IT服务管理,帮助企业建立健全IT运维管理体系,实现IT“监.管.控”一体化,全面提升IT服务质量。
【东华IT服务综合管理解决方案技术架构】
“监”之综合监控
对IT基础架构和业务系统的实时监控,能够帮助管理人员准确定位故障,及时处理问题,并在警戒阈值达到前,将系统隐患扼杀于摇篮。东华IT综合监控范围涵盖机房动力环境、网络设备、服务器、数据库、中间件、虚拟化资源、桌面终端、通用服务等IT资源的运行状态及性能,支持SNMP、telnet、SSH、WMI、JMX、JDBC等远程非代理监测和Agent代理监测,根据管理规模不同支持分布式采集和集中管理模式,提供7X24不间断监测服务。系统将复杂的技术指标、监控状态等以图形化方式展现给客户,支持机房、办公区域、场所的3D可视化展现,大大提高用户的操作便捷性及工作效率。
“管”之性能管理
系统不宕机、应用可访问只是保障业务连续性的入门级要求,在“永远在线”的互联网+时代,最终用户的应用体验成为关键要素。东华网智强调“业务服务视角”,分段监测业务系统的每个过程环节,快速解析应用问题并将问题范围定位到具体的应用组件,帮助运维者实现对业务应用问题的监测、定位和诊断,达到先于用户发现问题,提前建立紧急预案,保障业务可用性,提高用户体验。
“控”之流程把控
携程宕机的问题最终定位为“员工误操作”,实际是流程管控和权限设置不当,“人为因素”在很多IT事故中不是小概率事件,必须要依赖必要的IT手段将流程僵化再优化,将人为因素将至最低,操作是否合规,变更是否合理,访问是否越权,数据是否备份,一切全部由流程铁律进行约束。东华网智IT运维管理系统的目的正是通过建立一套标准的运维服务流程,围绕事件管理、问题管理、变更管理、配置管理、发布管理、服务级别管理等ITIL最佳实践,帮助用户实现IT运维服务的流程化、规范化管理,最终让IT的“精确化”制约人力的“随机化”。
5.28携程的重大故障虽然是一次灾难,但也为所有的企业敲响了警钟,安全生产重于泰山,一个误操作带来的可能就是毁灭性的损失。在互联网企业各项业务都依赖IT系统的今天,做好IT系统的运维管理工作无疑是保障业务正常运行的核心所在。
专业的事一定要交给专业的系统来做,让5.28事件不再重演,让企业长青!
好文章,需要你的鼓励
DeepSeek 的 AI 模型在处理效率方面取得重大突破,可能对数据中心产生深远影响。尽管引发了科技股抛售,但业内专家认为,这项创新将推动 AI 应用普及,促进大规模和分布式数据中心基础设施需求增长。更高效的 AI 算法有望降低成本、扩大应用范围,从而加速数据中心行业发展。
Rivian 正全面推进 AI 技术整合,开发下一代电动车平台,以挑战特斯拉的市场地位。公司计划于 2025 年实现免手驾驶,2026 年达到 L3 级自动驾驶。Rivian 还将在车载系统中广泛应用 AI 技术,提供语音交互等功能,并计划推出更实惠的车型,扩大市场份额。
Postman 发布了 AI 代理构建器,这是一款创新的生成式 AI 工具。它允许开发者通过整合大语言模型、API 和工作流程来设计、构建、测试和部署智能代理。这一工具旨在简化 API 交互、优化工作流程,并支持创建能执行复杂任务的智能代理,标志着 API 优先的 AI 开发迈出了重要一步。
微软第二财季利润同比增长10%,人工智能年化收入达130亿美元。然而,云计算业务未达预期,下季度指引不及预期,导致盘后股价下跌。公司资本支出创新高,以满足AI和云需求。尽管Azure增长放缓,但微软对下半年增速加快持乐观态度。同时,中国AI初创公司DeepSeek的崛起引发业界对AI基础设施投资的重新审视。