中国银联周雍恺:SDN组网建设如何提升金融云组网效应并兼顾安全? 原创

在3日上午的2017全球SDNFV技术大会中,中国银联电子支付与电子商务国家重点工程实验室博士后,周雍恺为与会嘉宾带来了以“面向金融云的SDN组网——理论与实践”的干货演讲。

至顶网网络频道 08月03日 北京消息: 天地互连、下一代互联网国家工程中心主办的“2017全球SDNFV技术大会” (2017.chinasdn.org)于 2017年8月2-3日,在北京国宾酒店火热开幕。在3日上午的大会中,中国银联电子支付与电子商务国家重点工程实验室博士后,周雍恺为与会嘉宾带来了以“面向金融云的SDN组网——理论与实践”的干货演讲。

周雍恺

中国银联电子支付与电子商务国家重点工程实验室博士后  周雍恺

以下为现场演讲实录: 

周雍恺:大家好。我今天内容分三部分:第一,简单介绍一下研究的背景,第二个,介绍一下金融云与SDN组网的几大部分,最后做一个总结。

首先,研究的背景。看一下SDN,其实大家都已经很熟悉,在企业网这块,SDN应用,主要的爆发点还是在云数据中心这块,它将每个交换机集中的控制面,合在一起的控制平面和转发平面进行分离,然后把控制平面给上收,这样形成统一的中心的控制平面,它的核心特征首先是数据平面是接口开放,然后中心化的控制平面可以提供全网视角以及全局的网络信息,可以做智能优化调度。SDN本质应该说是网络架构的核心可以实现在组网方面提升网络的应用效率与灵活性,在安全方面让网络精细化管理成为可能。

看一下银联在云计算方面的建设,银联起步还是很早的,大概在2009、2010年开始研究,只是当时实现了计算虚拟化方面的功能。在2015年的时候才开始调研基于SDN的下一代的云平台的开发,今年是一个比较关键的技术节点,SDN已经生产落地,同时会探索对外开展行业云的服务。

我们可以看一下像我们金融云里主要的业务发展趋势。主要可以总结成为两点:第一,面向互联网化的业务日益增多。以前主要的流量还是通过专网进来,现在面临互联网的业务会越来越多,它对组网的要求就是敏捷灵活,物理资源能够高效利用。第二,互联网的业务没办法基于可行假设,它的安全性假设风险很高,所以从组网如果联通的同时如何做到更加的健壮。第二,今后将向外部提供金融云的服务,集约资源利用的同时可以促进业务的合作。但是一直在说行业云,其实行业云主要的目标还不是为大家提供资源,最后是能够促进大家业务合作,数据共享,这个才是最主要的一个目标。这两点提出来对网络的要求,我们觉得可以概括为:提升金融云组网效应的同时兼顾安全,这是最核心的一个需求。

下面看看在这样的需求下如何进行SDN组网建设。我觉得一个通信系统可以分为管理平面,控制平面和转发平台。管理平面是金融云的业务需求,控制平面对SDN组网来说,是希望有一个集中式的控制器,至少是逻辑的控制器。在数据转发平面当然是分散在各个地方的转发设备。从数据流的角度来看,组网可以分为:首先是控制器到转发设备这块,基本上我们可以称之为SDN组网这部分。之后是金融云到云业务到SDN控制器这部分,可以称之为SDN服务编排这一层。另外,对系统来还得有一个反馈的链路,才能使系统达到稳定,所以第三部分就叫SDN运维。其实之前像三大运营商他们提到的有些架构差不多,基本上都包括这几块。我们认为三大部分就构成面向SDN金融云SDN组网一个完备的框架。

先看一下SDN组网,分三个:第一个是SDN组网下金融云组网演进,主要是私有云网络。第二,金融行业云组网增强。第三,随着SDN引入会有新增的严重风险点。首先看一下在私有云它的网络组网演进,这是一个比较典型的金融业务的分层数据流,就是业务的分层数据流,主要可以分为外部接入,前置系统再到核心系统,再连到各种各样的外部的金融机构。这当然是银联的数据,对于银行来说其实也是差不多的,只不过银行核心系统是账务,然后后面连接是连到银联或者人民银行。对于这样的业务系统怎么样能够映射到网络的组网呢?在此之前人民银行发布了一个组网的测评指南,里面写到这样的一句话,就是“通过划分安全域的方法将银行业的信息系统划分为不同的安全域,并且针对每个安全域给出相应的保护措施,从而建立纵深防御体系,实现深度防御的目标。”其实这样就形成了我们的金融数据中心的组网模型,就是安全域的模型。之后我们提出在SDN组网架构下对这个模型可以进行改善,所以提出了一条理论的演进路线,一个是我们会将它的安全全部进行深化,这样会形成一个大区的组网模型,之后再进行一个拓展,就可以拓展到多中心的组网模型。

首先看一下当前的架构,是安全域的模型。安全域模型可以看到组网分两部分:一个是外网接入,我们认为这部分是不可信的域。另外,内网的核心区域,在这个核心区域我们会把业务按照它的重要等级来分成业务一区、二区等等,然后在内网部分基本上把它看成是可信的一个区域。在这样的组网模型下主要有两个特征:一个是内外分离,第二分区而治。对每个区域来讲,区域的内部是全网能够联通的,但是区域和区域之间是有着严格的安全策略的访问控制。这样基本上每个区域都是外层有一个安全控制,基本上这样子一个一个模块化架构,所以安全组网模型优点结构化和模块化比较好,但是也有一大问题,就是它在互联网云化场景下有一定局限性的。因为我前面说过每个区域里,其实每个区域内部网络是全联通的,这个在互联网业务逐渐增多的话是有很大的安全风险,因为在这种场景下是不能做任何安全假设的。如果一个业务被攻陷的话,可能影响到的就是整个区里的业务。

第二个,组网效率其实也是有待提高的。因为等于说一个区域内的网络资源只能给网络区域内自己应用,但是区域之间是无法进行资源的调配,所以就形成了叫做资源竖井的问题。之后,我们如果采用SDN组网的话会对它的组网结构进行优化。首先看单个区域,等于原来区域内部的应用都是大家混在一起共享这张网络,有了SDN之后,通过SDN等技术其实可以增强细粒度的管控能力;再看每个业务内部,这其中还有各种各样的子系统,子系统之间是有通信的,但是通信的话也会给它规定更加细化的策略,比如说仅允许访问等等的,这样就可以把策略制定的非常细化,这样的模型其实理论上来说就是把安全权限限制在最小的范围,这样也可以把故障率的影响范围降到最低。这是单区域的视角。

我们再看多区域的视角,业务分为一区和二区等,在这个前提下我们有很细的SDN隔离之后,基于这种安全等级进行业务划区的模型其实不一定需要,其实可以进行更进一步的优化,就是说可以把原来的业务大区再混在一起,这样就可以实现资源的有效利用。所以我们称之为大区组网的模型。也就是说,把原来分离的区域可以整合到一起,但是在安全层面上可能比原来的还更加细化。因此,主要的特点就是两句话:安全的精细化,以及组网的集约化。另外,如果区域和区域之间,就是内部需要访问的话,其实还可以通过SDN服务链的技术来实现。这样也就回应了我最早在背景里提出的,就是如何提高组网效率又兼顾安全。

第三,看一下完整数据中心的视角。前面提到业务区可以合并起来,是不是所有的业务区都可以合在一起?目前来说还是不行。因为还有一些合规的要求。大家知道金融领域网络或者IT系统最大的一个特色,就是合规要求会非常多,有这样的等保要求就是严禁从外联区访问内部网络,就是内外之间还需要有一层安全的控制。所以最终的组网效果是这样,会形成两个大区,一个是外面的大区,还有一个业务大区。

最后讲一下在这个模型上怎么样进行多中心的扩展。多中心的扩展对于我们目前金融数据中心的建设,一般都是采用两地三中心的灾备或者高可用的方案,主要是同城双活异地灾备,这样的三个数据中心,目前其实有很多金融机构都是为了拉通各个数据中心之间的通信,尤其是同业务组的通信,都会做一个大层的建设,当然下面用的技术是各种各样的,目前还没有一个统一的技术,但是至少可以通过大层的技术把跨层的技术拉通。

这样大区模型如何进行扩展,其实也是比较简单,首先每个数据中心还是依照之前说到的大区组网模式进行部署,就是基本上还是依照之前的大区和APP大区,内部有很精细的安全管控,通过大层的技术使得单个业务可以实现跨数据中心实现联通。其次对不同的业务有不同颜色的业务,还是始终保持隔离的,不管在同一个数据中心还是不同的数据中心。因此这个做法其实本质上来说就是安全策略,跨数据中心能够保持一致,就是能够把单数据中心平滑的扩到多数据组网。

私有云的组网的小结:我们提出了这样的一个模型的演进路线,首先是现在的安全域模型,到之后的大区组网模型,再到之后的多中心大区域组网模型。这用几个安全模型的特征比较一下的话,首先在安全角度,以前假设内网是完全可信的,但在大区组网模型下内网业务是基于不可信的假设,之间默认不通的,这样就可以把安全域风险降到最低。其次,本来是区域级的安全管控,现在是业务级的细粒度的管控,原来是资源竖井,现在把资源都利用了。之后再拓展到多中心的大区组网模型,这样可以把整个金融数据中心的私有云的基础设施,组网给基本上完善。达到的效果提升组网效率的同时兼顾安全。

接下来看一下金融行业怎么样进行组网的增强。我们对于金融行业云的理解,大致有这样三步:首先还是以私有云作为最基本的框架架构,之后会延伸到行业托管云,就是有些金融机构会把部分的业务半托管或者全托管到其他的技术实力比较强的金融机构里去。半托管的模式叫做虚拟专有云,这个全托管就是两地三中心,当然最高级别的一个理想,就是说可以实现金融云之间的互联,也就是说全国这么多金融数据中心,而且建设等级都很高的金融数据中心之间,可以相互联通。当然联通的同时最终的目标其实是促进业务之间的协作和信息共享。

我们再看一下金融行业云组网的思路,基本的技术还是基于之前的私有云的组网的增强和灵活的架构基础之上,有一些比较大的差异性体现在:就是行业云不再是单租户,而是多租户隔离。第二个,因为以前私有云,大家一般各自有各自的运维习惯,到行业云的话需求就会多样化。第三个,外部需要有领先的接入能力,就是提供给其他的机构。对于这三点首先租户之间的安全隔离,这点比较好做,因为之前已经把隔离的粒度做到了每个业务层面了,再做到租户层面的隔离相对容易的,因为已经有了这个基础。第二,多形态的网络提供服务能力。就是不光金融行业常用的硬件的,比如F5负载均衡,还有各种样的硬件的防火墙,我们还需要提供像一些安全设备,还有软件形式的安全网源,大家谈的非常多的NFV这样的网源。这样的话对我们的要求就是屏蔽形态之间差异要同意,还有就是服务链的支撑技术。第三,VPN的接入,这个分两种:一个是半托管模式下是站到站,全托管到点到站的VPN。

第三个,之前谈到最高级别的互联方式,就是金融云之间可以互联,当然这只是目前的理想状态,当然希望有一个集中式的控制器可以控制所有的金融数据的网络。但是现实的条件,由于大家毕竟是不的组织机构,有一个统一的中央的控制器,一般还是不怎么现实。所以一般现在大家比较常用的还是分布式的控制平面,就是控制平面并不是采用SDN集中式的管理,而是采用分布式的来协同调度,这样的其实使不可信域之间怎么同步问题,现在分布式技术,像区块链这样的技术,它在我们场景下有两点:一个是资源的竞争,同时在竞争的同时又可以达到共识的算法。所以我们觉得其实用区块链来分布式的协同技术来协同不同机构之间它们如果要达到组网目的,尤其有些高层方面的可信瓶颈的话,可以用这种技术来解决。

整体就是把条线二总结一下,主要是这样的一条演进路线,在这个模式下金融行业云的网络形态会产生比较大的变化。首先,两地三中心,就是我们当前的架构会向多地多中心的物理基础设施进行演变。第二比较大的改变,就是说多形态的网络服务能力提供,不是基于我们原先的可能之前的运维习惯来做服务链的串接。第三个,也是很重要的一个变化,就是原来可能大家之间专线的连接,机构和机构之间的专线连接会变成内网的连接,其实本来这样的流量是需要通过专线连接,现在等于说在同一个数据中心内部就直接交换掉了,其实这对于传输效率是有提升的,同时当然也能促进业务之间的合作。第四,多元之间的互联可信问题,可以通过分布式协同技术加以解决。

第一部分,差不多组网部分讲完了,这是最重的,后面部分就是SDN服务编排和运维内容。对于SDN服务编排最重要的当然就是承接云平台下发的一些API的需求。在这里我们需要看这三个平面到底承接是什么样的角色。对于数据平面来说,它其实是需要转发指令的成型。SDN控制平面只能生成的角色。对于云平台来说其实是决策生成这样的角色。也就是说,从信息的角度来说这是唯一具有信息量的一部分。其他的至于控制器,还有指令执行都可以通过SDN技术把它贯通。这是第一,就是许多控制平面和数据平面理论上都可以由SDN转化执行。人工角色主要集中在组底层,像编排这块地方。第二个,现在大家都在强调开发运维一体化。这个就是怎么样从运维延伸至开发阶段的全生命周期管理,就是说直接我们要涉及到业务的开发和定义阶段,不仅仅是开发团队提交给我们的一个需求再来实现。大概是这样的两个演变。因此它的核心我们总结一下:我们在SDN服务编排这个核心的研究问题,这是提供了一套面向策略,面向业务的服务定义框架。

在以前其实大家云编排框架主要是OpenStack,在OpenStack里有一个网络的组件Nutron,这个主要是面向网络的定义,比如它从定义一个网络,在网络下面再划分子网,子网下面再挂各个Pot,这样整个的编排的模型基本上是面向网络的。我们希望这样云网协同之后还是能够做到更加自动化一点,更加智能化一点。所以我们提出三个设计要点:第一,采用森林式的接口,模板化定义。就是大家填填参数,而不是说为了创建什么网络之类的,很繁琐的一个过程。第二,直接面向BU的功能,人工只负责最有信息量的策略。第三,还有全局资源编排系统。在这样的背景下我们提出了四步框架:从工作定义到资源编排到服务链整合,到最后的网络映射。可以看一下大致的流程,首先工作流定义很简单,就是把大家的业务,最典型的业务就是每个组划好,外部连接全部划好,然后直接的连接。第二,定义每个任务组的资源需求,比如需要多大的计算量,多大的内存等等。对于链路的话也是,它对于链路的需求可以通过之前定义好,然后通过服务链的整合可以把组网需要什么都串接后,最后就是映射到具体的物理网络这样四个过程。所以说也只有第一和第二是具有信息量,后面两步其实都可以通过预先的定义或者配置自动化的实现。

最后讲一下SDN运维这个反馈链路怎么做。在SDN环境下,其实我们前面也看到了,就是我们希望正向的链路越自动化越好,但是越自动化同时也带给了反向的排错一个很典型的困难。接下来在SDN组网环境下流量模型也会产生很大的变化,主要几点:首先,原来流量是比较静态化的,也就是说一个业务它部署在一个接入交换机下是不会动的,但是现在虚机有时候会迁移,我们怎么做到流量跟踪,这个比较困难。第二,等于由实向虚,就是说大家的流量基本上是实际的流量,现在的话可能还会有XLAN流量出现。还有同一个业务分散在不同的接入交换机下,就是流量其实是分散的,我们怎么样把它汇聚,集中也是一个很大的难度。在这样的条件下,怎么样实现反馈链路,光靠SDN技术不一定够了,基本上处于我们系统解耦合和高可用的考虑,这条链路基本上是会被分离出来,有一个其他的系统来实现,基本上是运维的系统。主要分三步:第一,怎么从数据平面把它的流量数据以及有些告警数据可以有效的提取出来。第二,一个旁路的运维监控系统在里面做一些智能化分析。第三,告警与反馈响应。当然这也涉及到一定的网络风险。接下来人是定义最核心的运维策略。这样就形成SDN智能运维的闭环。SDN运维核心就是提取数据,分析出有用的信息,来呈现出网络运行的稳定态势。等于说我们把流量数据给沉淀下来之后,在上面进行开发各种各样的应用,比如网络流量的分析,以及业务层的业务质量的分析,还有报安全的分析。之后的反馈的话既可以反馈到控制器,也可以反馈到云平台。这样的架构特征,就是光靠SDN技术是解决不了这个问题的,还需要结合一些,尤其是大数据分析的技术。第二个,数据开放的话,这样的信息是可以基于它上面做很多业务分析的开发工作。

这是我们目前正在做的一个云网监控的项目,它基本上针对云平台的每个租户,每个业务监控业务的异常。后面是一个三层的示意图。

最后总结一下,前面讲了这么多,基本上讲了三件事情:一个是理论框架,就是提出了这样的三部分的理论框架。第二个,它的安全演进的模型,就是原来的安全域模型到大区安全模型,再到多中心的大区组网模型。第三,行业的演进模式。行业托管云在业界已经出现了,银联行业今年差不多要投入运营了。

在设计理念方面总结出来四点:第一个,在面向互联网业务逐渐增加的背景下,内网区域,原来基于可信假设,现在要不可信的假设。第二个,在SDN自动化的时代,然后云的核心角色应该定义最顶层的策略。第三个,对于像SDN这样物理分布式的系统设计,怎么样做到运维,这才是目前或者说我们遇到的最大困难,或者说也是目前最有研究价值的一个场景。因为前面自动化的部分其实目前的产品基本上已经很多。第四,在SDN和安全组网是紧密结合的。这里画了一张图,就是通常的组网和安全,大家可以看到在SDN条件下,或者云计算的条件下它的安全和组网已经有很多重叠部分了。最后,我们国家工程实验室的研究方向是这样(图中)一个大致的架构,我们属于云计算比较底层的一个支撑平台。感谢大家的聆听,有讲的不对的地方请各位专家指正。谢谢。

来源:至顶网网络频道

0赞

好文章,需要你的鼓励

2017

08/03

21:11

分享

点赞

邮件订阅
白皮书