古语有云:兵马未动,粮草先行!由此可见保障服务工作的重要性和必要性。同样,这个道理也适用于我们今天的云计算和云服务。随着云计算大潮的不断涌来,并逐渐深入到各个细分市场中,给企业在IT管理带来了前所未有的挑战,迫使企业CIO不得不重新考虑IT管理策略,而首先需要解决的就是如何做好云服务运维的新问题。
世纪互联蓝云事业部技术运维总经理汤涛
近期,以“可信融合、开放创新”为主题的2015可信云服务大会在北京召开。在大会中的云服务性能、运维分会场中,来自世纪互联蓝云事业部技术运维总经理汤涛为我们带来了题为《打造世界一流本土可信云服务》的主题演讲,详细介绍了如何在云计算时代下做好运维,从而消除企业在云环境中发展的后顾之忧。
“没有云运维,就没有云服务!”汤涛在主题演讲中用这样一句话表达自己对云运维重要性的理解。同时,汤涛表示当企业纷纷开始将应用放到云上之后,就会发现运维管理面临集中化、专业化、以及影响范围更广泛等诸多问题,因此给运维本身提出了更高的挑战。
云运维对人员要求更高
那么,与传统运维相比,云运维的主要区别与挑战在哪呢?汤涛认为对于传统的运维而言,比如PC服务器的单一节点出现问题后影响范围十分有限。而不论是公有云、私有云还是混合云模式,一旦出现问题,影响的范围往往可能是非常大的,所以,在云运维中,运维工程师需要更加的小心、谨慎,以及管理的精细化程度都需要比传统IT运维要高很多。
而对于运维人员来说,要从传统运维转移到云运维的思路,就意味全方位的技术能力和对业务能力提出更高的要求。汤涛讲到,比如蓝云在进行云维护工作时,会比以往更加注重全方位的测试、预部署,以及严格要求运维人员在做每一个操作时遵循预先制定的非常严格的SOP(标准作业程序),通过这些措施来减少底层操作和维护中给整个系统带来的影响。
因此,对于云运维来讲,挑战更高了,无论是对运维体系的要求,还是对于工程师的要求都更高了。汤涛表示,蓝云从运维团队,技术水平和专业能力,甚至包括学历都是在不断提升的,像以前传统的IT运维,IT技术人员基本就能够胜任,但对于云运维来说,现在需要至少半年甚至一年的专业性训练,才能保障运维人员真正能够很好的投入到云运维的工作中去。
传统IT架构面临重要转型
针对目前很多企业所顾虑的,如果将业务迁移到云上会不会带来一些跨平台间过渡的问题,以及后期运维会不会对自身业务造成不利影响等问题。汤涛对此表示,首先云解决了很多传统IT很难解决的问题,比如高可用,传统做法是通过多台服务器搭建互为备份的机制,但问题是企业很难预见到未来用户的规模,所以当随着用户量的不断增长,之前服务器的承载能力就会出现瓶颈,比如4台服务器搭建的集群要扩容成8台时,升级就比较麻烦,而且容易造成业务中断,这就非常不利于企业IT进行平滑升级,也会给企业带来高昂的建设和维护费用。
另外,企业在设计传统IT架构时,基于用户规模不可预见,再加上目前互联网、物联网、大数据等新的趋势的快速发展,对未来IT架构的压力和挑战是非常大的。而云计算所具备的自动缩放、弹性、全网负载均衡等这些特性,正好缓解了传统IT所面临的这些压力,降低了这方面的高昂成本。
所以,当企业采用云架构之后,就不用去考虑今后是1万、10万还是100万甚至更多的用户访问规模了,云计算在解决企业的这些后顾之忧后,企业就能将主要精力集中到业务应用中去。
公有云与私有云在运维中有何区别
“企业走向云是未来必然的选择”汤涛这样讲到,并解释说,在当前国家大力提倡互联网+、物联网等背景下,企业很难去预测自身业务未来的用户访问量的,因此云计算的威力就能得到很好的诠释和充分的应用。如果企业要向互联网+转型,那就必须要考虑IT架构的弹性及扩展性等,以此来解决企业内部业务系统和外部应用系统中的不可预测的峰值和错峰问题,减少资源的浪费。所以从这些角度来看,云计算相比传统IT架构,可以给企业带来非常直接的成本节约。
对于企业而言,无论是采用公有云还是私有云,对于虚机以上层面,如操作系统、业务应用等是没有分别的,都需要企业自己进行维护和管理。而在虚机以下层面,如风、火、水、电等数据中心基本运维操作,如果采取公有云方式是不需要企业自行维护的。汤涛表示,“现在越来越多的企业除了做公有云的服务托管以外,也希望把私有云的服务进行外包,所以现在ITSM(IT服务管理)也开始逐渐走向云化。这对于蓝云来说是一个非常好的机遇,因为以世纪互联的数据中心为基础加上国际一流水准的运维服务,很容易可以满足这些企业的需求。”
全网负载保障用户业务连续性
“对于全网负载这个技术而言,蓝云在国内始终是跑在最前面的。”汤涛讲到,“这个功能就和我们在以前率先推出透明云服务仪表盘一样,都是为了让用户能够清楚地知道云服务的性能到底怎么样,同时也是帮助众多云计算厂商加强自身技术与服务的成熟和进步,引领了云计算行业不断健康发展。”
另外,汤涛解释道,对于全网负载这个技术其最核心的价值就在于:第一,任何用户都可以使用,其负载能力可以满足大容量用户,包括上千、万、亿级别的用户负载。因此对于任何企业都是适用的。
而对于云服务而言,任何云服务提供商都不敢保证自身系统永远不会“宕机”,但宕机之后如何快速解决,这也是云服提供商应该重点考虑的问题。对此,汤涛表示,全网负载的核心价值就在于一旦云服务出现问题时,我们能够尽量的去保障企业用户业务的稳定性和连续性,其负载不但可以指向到如Azure等公共云服务平台,同时还能够指向用户自身的私有云系统,其中包含故障转移、轮询和按性能分配等功能,比如同样一个用户域名可以指向分布在10个不同云上的10个节点,任何一个云节点故障发生时,用户都可以指向其他9个。所以只要10个云节点中的1个不宕机,服务就能有效提供。
第二,按性能进行负载均衡,这有点像CDN,但和CDN的主要区别在于,CDN只能满足一定的静态或半静态请求需求。而全网负载可以通过额外实现各节点间的镜像,从而满足用户更多的交互性操作需求,例如网上交易等需求。
由于这项技术涉及到对海量用户访问的切换,所以它还包含了用户本地的负责均衡技术,蓝云称为SLB技术,而其他厂商看到这样的技术推出后,也纷纷效仿,推出了相应的技术,对于这点,汤涛表示,“对于用户而言这是好事,因为有很多家厂商在不断推出基于云的新技术和相关的云运维技术,使得云服务的功能更强大,性能更加的透明化,让用户可以有更多的选择,这样才能形成一个良性的市场竞争关系,让所有用户从中获益。”
而对于任何技术从推出到成熟都需要一段时间,尤其对于云计算而言,大概需要1到2年的时间,所以,汤涛也表示,蓝云在以上这些技术的先发优势是比较明显的,对于中高级用户对系统成熟性的较高要求是可以保障的。另据了解,蓝云全网负载主要是基于Azure平台开发的一项功能,可以为用户带来业务的稳定与连续性保障。
此外,为了打消用户对云运维中所存在问题的各种顾虑,在本届可信云大会上最新公布了《可信云服务认证专项评估-面向云服务提供商的运维管理指南》,并正式推出相关认证服务。汤涛对此表示,蓝云一直走在云运维的前沿,无论是从技术研发,还是标准制定,一直都在参与可信云服务认证及标准的开发工作。
最后,我们相信随着越来越多的企业加入到可信云认证体系中后,将进一步补充和完善云服务相关的运维管理水平,为用户踏入云端扫清障碍,这也将对国内云计算的健康发展起到相当大的促进作用。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。