当全世界都建构在数字化技术之上,运维的重要性攀上了前所未有的高峰。
随着物联网的发展,预计到2030年全球联网设备数量将从80亿增长到2000亿,甚至更多,这些设备都是数字化设备,承载着难以计数的数字化服务。以此为基础,全世界都将事实性的构建在数字化设备,或者说数字化技术之上。
但这些设备并非完美,鉴于这些数字化设备,都是由人遵循一定的模式创造出来的,缺陷与不足都会天然存在于这些数字化设备之中,这其中最著名的代表就是“千年虫”——一个因为人在PC设备的时钟设计时发生疏漏,产生波及面极广的数字化海啸的典型案例。
于是,对于数字化时代来说,针对数字化设备进行运维,确保其能够安全可靠高速的运转,在尽可能长的时间内平稳运行,充分发挥其基本能力效用,成为一个关键议题,并直接影响到企业业务的收益和成本。
从某种意义上来说,运维的重要性攀上前所未有的高峰是数字化时代的必然,但在运维的重要性攀上前所未有高峰的同时,传统运维方式和运维技术迅速失效:
一方面,数字化时代运维所要面对的数字化设备数量和复杂度都呈现出快速增长的趋势,运维所要面对的问题更多、更复杂,运维压力也更大,传统运维无法消解压力,只能将压力直接传递给运维团队;
另一方面,企业在数字化时代的业务转型和发展速度显著加快,对数字化设备及时响应能力的要求也更高,不仅如此,传统运维是以设备为导向而不是以数据为基础、以业务需求为导向的,这意味着运维与企业业务需求处在完全脱节的情形之下。
数字时代下,任何使用传统运维方式和运维技术来管理机器数据的组织要么忽略了信息的价值,要么已经让他们的运维团队不堪重负。
近年来,解决数字化时代运维难题的思路逐渐聚焦:将开发和运维这两个领域相结合,通过自动化“软件交付”和“架构变更”的流程,来使构建、测试、发布软件能够更加地快捷、频繁和可靠,直至逐渐形成开发与运维紧密结合的自动化运维体系,这一体系更加强调从运维流程、运维手段等层面实现完全的自动化,在特定情况下,甚至实现无人干预。
这就是当前主流的DevOps,但对于正在选择DevOps的传统企业来说,却并不是所有的DevOps都能够适应以及支持传统企业向互联网+转型的进程,与此同时,DevOps的边界也在随着数字化时代的深入而不多扩展。
传统DevOps与互联网DevOps有什么区别?从某种程度上来说,DevOps的概念诞生于互联网行业。
在互联网企业中,将开发与运维结合的最大好处,是可以将开发和运维部门整合为一体,实现产品开发、测试、上线的快速迭代,以应对互联网行业快速变化的趋势,不断的快速满足新兴的客户需求。
特别是在产品交付给运维团队时,由于在DevOps的过程中运维团队有着深入参与,对产品的运维建更有把握,可以在短期内接手新产品的运维工作。
但传统企业在软件发布模式和企业组织结构上,与互联网企业存在着较大的差别,即使近年来企业数字化转型和“以互联网思维优化传统企业”正在许多传统企业中得到实践,照搬互联网企业的DevOps不是可取的解决方案,与此同时,传统企业软件发布的模式面临的挑战也与互联网企业不同,主要包括:
为保证产品质量而设定的过长的开发测试流程与快速迭代交付的迫切业务需求之间的矛盾;
大量手工操作与企业对于产品质量一致性、稳定性严苛要求之间的矛盾;
开发团队对于流程简单性、快速性的现实要求与风险管控之间的矛盾。
不仅如此,传统企业对DevOps的核心诉求也并非是“开发与运维的融合”:在传统企业中,团队权责划分有清晰地边界,而并非融合型的跨职能型组织,因此DevOps所带来的融合并非第一要务,“创新”或者说是“借助DevOps实现业务上线流程的不断演进”,才是传统企业的主要关注点。
因此,在技术上,传统企业更希望借助DevOps整合现有工具平台,打通业务交付的端到端流水线;在架构上,通过DevOps建构融合效率与稳定需求的精益管理;在流程上,实现人员架构与业务发布标准流程的不断优化。
基于以上对传统企业DevOps的深入认知,睿至大数据建立了一整套面向传统企业的DevOps落地规划,其中明确指出:应当在传统企业中构建端到端的DevOps能力,通过DevOps中各类角色的能力融合、能力传递,减少流程环节的浪费,帮助传统企业提高效率。具体来说,睿至大数据在传统企业中构建DevOps遵循三条需求定律:
该平台一定要与企业目前所具备的基础设施相结合,而不能像一些初创企业,马上就对整个基础环境及设施进行更新;
该平台一定要考虑到企业 IT组织目前的组织结构现状、人才技能现状以及存量产品特点;
该平台一定要与企业目前已有的流程控制系统相结合,而不能独立于现有的流程控制系统。
在这样的DevOps平台构建思路下,睿至大数据将帮助传统企业构建DevOps流水线工具平台层:该工具平台对上通过流水线引擎与现有的流程管理系统对接,对中整合现有的各种开发测试部署工具,对下则采集并分析存量硬件和云平台的基础设施监控数据并分析反馈。同时,睿至大数据还为传统企业提供统一资源管理平台基础。
睿至大数据为传统企业建立的DevOps流水线工具平台,既可以帮助传统企业建立持续的集成体系,实现交付过程的标准化与透明化,也可以透明化应用交易过程,实现端到端的应用性能管理,同时,以此为基础企业能够构建起立体化监控体系,实现运行状态的可视化及深度性能分析,或帮助传统企业整合利用现有运维数据,进行运维大数据分析。
睿至大数据认为:目前传统企业所面临的挑战既有技术层面上的,也有开发模式以及流程管理上的,试图采用单一的方法进行应对无法奏效,也无法一蹴而就进行解决。
因此,在帮助企业客户构建DevOps时,睿至大数据制定了详细的适合企业自身的落地路线图,分为“技术改造-架构优化-流程优化”三大阶段,不仅帮助企业客户消除大量的手工操作,构建持续交付的流水线平台,而且能够对传统企业的开发模式、产品架构乃至整体开发测试发布流程实现优化。
但DevOps还不是“终局”,自动化运维确实带来了很大的进步,但是它只能100%的按照人类制定的指令和流程运行,无法自主适应,甚至不能处理与旧问题非常相似的“新问题”,这就需要将以人工智能为代表的新一代信息技术运用到运维这一领域,在以数据化为导向、自动化为基础,结合AI实现运维的智能化,这就是最近一段时间火热的AIOps。
现阶段AIOps的发展:重在落地
据Gartner预测,至2020年,将近50%的企业会在业务和IT运维方面采用AIOps,这一比例远远高于今天的10%,AIOps将会在未来2、3年中进入高速发展阶段。
就概念来说,AIOps并不是一个全新的概念,而是IT运营分析和管理(ITOA/ITOM)体系与大数据和人工智能技术结合的产物。
AIOps智能运维以ITOA/ITOM系统所采集的运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深入分析,涵盖IT监控,应用性能管理、外网监控、日志分析,系统安全等方面。
就能力而言,AIOps智能运维平台能够接入不同业务系统、监控系统、管理系统的海量IT数据,并运用各种算法进行高速分析、学习甚至预测。
立足于AIOps,IT部门可以获得强大的自动化IT决策和运营管理能力,并能对业务质量和用户体验进行准确检测和持续优化。
但理想与现实之间往往存在着一定的差距,目前阶段的AIOps可以理解为:通过深度整合IT数据资源与运维的实际场景进行深度集成的,同时结合了大数据以及机器学习技术,以多种维度和分析场景为展现的智能辅助分析平台。
当前阶段的AIOps平台主要适用于中大型客户,并需要构建者在行业领域相关知识、对应行业运维场景知识和机器学习相关知识上具有一定的储备。
睿至大数据基于上述对AIOps现阶段情况的理解,设计并构建了睿至大数据AIOps平台整体方案。
睿至大数据AIOps平台整体方案以对国内外各种数据源标准化支持为基础,构建包括运维知识图谱、实时分析库、短期汇总库和长期汇总库在内的数据汇聚层,同时借助机器学习算法为智能运维门户提供在不同场景下的落地功能,在故障准确定位、系统隐患发现、趋势预测分析以及业务创新分析方面具有较强的竞争实力,睿至大数据将企业AIOps的建设阶段分为四个:
第一阶段是数据治理、标准化以及统一存储;
第二阶段是可视化界面和多维度统计分析;
第三阶段是对接算法和模型,进行简单的异常诊断;
第四阶段则进如深度集成多种算法和机器学习结果,以统一场景进行分析和展现的阶段。
在每个阶段中,睿至大数据AIOps的建设核心都是“落地”。比如说在数据治理、标准化以及统一存储的第一阶段,睿至大数据AIOps在建设过程中明确提出两个尽早明确:
数据抽取范围和对应数据的抽取方案尽早明确;
各类数据抽取到平台的数据标准格式要尽早明确。
结合考虑后续应用场景的数据存储服务,在第一阶段完成后,企业客户切切实实的能够实现基础的数据治理、标准化和统一存储架构。
完成睿至大数据AIOps的构建,企业客户可以实现基于机器学习的多指标关联分析,并构建基于业务拓扑的跟踪视图以及业务画像和故障诊断视图,相比传统运维,分析和展现的结果对现实运维更有辅助指导意义,并且为实现理想中的AIOps智能化运维打下良好的基础。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。