扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZD至顶网网络频道 05月18日 北京报道(文/李超):5月18日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会在北京国家会议中心隆重举办。在下午的主会场上,百度开放云总经理刘炀做了主题为“百度开放云助力企业应用创新”的精彩演讲。
百度开放云总经理 刘炀
刘炀在演讲中讲到:“随着大数据的出现和人工智能对数据的饥渴,对底层架构会比过去上升了很多量级,未来对云计算是超大规模的数据量。所以我们希望通过一个百度开放云的方式将百度所有的云计算、大数据、人工智能这些领域及能力对外开放,希望能够更好地服务于客户,和更多的合作伙伴一起来共建更加繁荣的人工智能的生态。”
刘炀:各位嘉宾下午好。今天非常荣幸能够到这云计算的大会上来跟大家分享,百度在云上的大数据和人工智能方面的思考和进展。首先介绍一下我个人是百度开放云的总经理刘炀。百度开放云是百度所推出公有云的业务。大家知道公有云这几年也是非常非常的热。百度在云计算已经探索了很长时间,但是公有云应该是一个后来者。那我们在云计算这个领域里面,我们的领先优势会在什么地方?今天也是借这机会跟大家分享一下,我们在大数据和人工智能这个领域的一些思考。
从2011年开始,MIT每年都会发布世界上十大的突破技术,这十大突破技术的话,一方面科学研究有了重大的突破,另一方面确实对人们的生活产生了巨大的影响。今年十大影响包括免疫工程、包括基因、包括语音、包括可回收的火箭,包括知识分享型的机器人,DNA的应用商店,超级工厂,特斯拉的自动驾驶还有空中取电,我们可以感到有一个趋势,就这一些技术里面。当然每一个技术其实十大创新每一个都离不开大数据云计算,但是其中是以云计算、大数据、人工智能为核心的技术突破。特别是像生物的领域,免疫工程、DNA、基因等等。像人工智能的话,语音、自动驾驶然后知识分享型的机器人等等,这些都是属在人工智能这领域一个特别大的突破。
当然百度也非常荣幸成为十大技术突破中的一员,它每一个技术突破都提到了一些公司。百度是唯一被提到中国公司。那在哪里提到百度,在语音识别这一个领域,百度会被提到。所以今天来到大数据和人工智能已经在不段突破的阶段,具体来看大数据发生什么事情,人工智能在发生一些什么事情。大数据其实应该是从大约十年前开始热起来,已经热了一段时间。而且我们也看到的话,今天来讲大数据基本上所有的互联网公司,没有哪怕一般家互联网公司说自己不是做大数据的。所有的互联网公司都说自己在做大数据,百度毫无疑问也是在做大数据,我们看到一个现象,大数据这一个技术,今天已经是相对成熟,而且已经在大量的领域里面开始应用了。这里举了几个例子,百度外卖,百度外卖大家知道是一个O2O的业务,里面牵涉到非常多的骑着摩托车,接到订单之后,会到饭店把这拿好开着车给用户送到家里面去,那在外卖领域百度有什么优势,大数据到底对外卖有什么帮助?但实际上大数据对外卖非常非常帮助,以百度外卖的例子,它的思路非常非常简单,因为大家外卖这领域竞争也非常激烈,百度外卖是做有品质的外卖,所以我们的针对群体是相对高端一点的白领人群、相对安全、卫生有保障这样的餐厅。
那百度外卖怎么样切入?其实用到非常多的大数据,因为百度有地图,从百度地图里面的话我们有非常多的数据,我们知道每一个写字楼它的用户流量多大,什么样的人群经常去这一些大楼,这些人群一般情况下到什么地方去消费,所以这信息可以快速的找到哪一些大楼事实上是高端人群的大楼。哪一些饭店事实上是相对高端的饭店,因为我们有糯米这样的业务,我们知道每一个饭店它大致的价位,这数据可以帮助我们做非常好的营销,我们知道地推我到什么大楼里面去做地推,我到什么地方去找这样的饭店群。除此之外我们的大数据可以预测每一个大楼,它每天的需求是多少,每一个饭店它一般的供应量多少。所以我们可以调度更多的骑士到什么地方等单。再加上大数据可以帮助调度,什么样的路径是最短的?可以一路送更多的餐,所以大家其实可以看到百度本身虽然在O2O领域没有什么样的背景,但是因为大数据的能力,以及大数据跟业务本身的结合,这些东西的话,使得百度在短短时间之内,成为中国最大的外卖平台之一。
这是一个例子,其他例子很多,像百度地图实时路况、拥堵的预测等等。百度也一直在进行金融方向的探索,希望能够把技术优势运用到金融行业中。和国金证券推出大数据量化基金,实现了大数据技术和金融的结合。所以我们其实刚才看到的话,大数据这个领域的话,今天来讲其实已经是一个成熟的领域,已经在大规模应用。但是人工智能我们可以看到最近这几年特别热。其实人工智能这个名字的话,它这名字出来是远远早于大数据这个名字出来,大数据名字出来我们十年以内才形成大数据的概念。人工智能事实上60年前就已经有了。但为什么人工智能最近这几年这么这么热?最近像阿尔法狗全世界人都知道,这是人工智能做的最好一个广告。其中一个核心要素是在人工智能这领域有一个新的算法突破。就是说深度学习引领了人工智能的突破。深度学习的话其实用了神经网络,神经网络本身也不是一个新东西,也好多年,为什么这几年这么热?其中根本的原因是跟数据计算能力相结合。深度学习只是人工智能非常多算法一个而已,那这一个算法跟以前的算法有什么区别?为什么它的这一个影响力这么大。其中核心的一点,其实在这张图里面大家可以看出来,这一张红色的线是历史上很多的人工智能算法,大家知道任何一个东西的话,都有一个边际效应,过去的算法随着数据量的增大,这边际效应事实上到了某一个数据量的时候,边际量就没有了几乎的话它不能够随着你数据的增多,而把这效果做的更好。
深度学习这算法跟过去算法一个最大的不同,它使得数据量增大的边际效应剔减拐点大大向后面推,基本上有越多的数据就可以获得越好的结果,这一点在过去到了一定数据量以上,你再做数据也没有用。这一个照片是百度首席科学家,他有一句话说深度学习火箭的燃料是引擎才可以升空。
所以说深度引擎的算法跟过去算法非常大的不同。
那刚才也提到百度语音技术,是在十大突破里面被提到,我们其实语音技术上做了什么样的突破?大家对语音技术熟悉的话,可能知道语音技术过去其实是基于模型像马尔凯夫一样,从音素模型到语音模型。这样的一个分层模型使得计算各个模型方面也会很简单,百度在这个MIT所提到技术的话,我们叫(英文)就不再去细分声学模型、音素模型,而直接用深度学习的神经网络做AND TO AND的量,它的数据量很多但是实际效果也会提升非常非常多。
另外一个领域百度在人工智能上其实在做大规模的投入,是在自动驾驶,自动驾驶事实上大家知道它非常多的领域用到人工智能,从这高精地图,我们一般地图分辨率10厘米,高精厘米级,所以每一道分道非常非常清楚。另外一辆车它想不想超车会不会切进来都是分析,可能未来无人驾驶是通过语音我要快一点、慢一点,我要赶几点飞机你将几点到达。图像、视频识别更没有疑问,因为今天在无人车太贵,但是更多的我们相信视频这一个是非常非常重要的。所以我们需要识别人、识别物品。所以这是人工智能综合的应用,但这应用事实上对底层要求非常高万亿级的参数,甚至我们未来还会提升一个数量级。所以我们看到人工智能和大数据它今天发展,很重要的一点它其实对底层的计算需求,有一个非常非常大的提升它其实超出了以前我们的想象,刚才提到的百度语音(英文)对底下的计算资源要求非常非常多,因为我们需要处理2.4亿次的语音识别和语音合成这样的请求,因为我们今天对外提供语音的服务,为了支撑这样一个量,今天我们使用上千台服务器来进行这一个模型的训练。而且我们在(英文)这领域里面的话,大量使用了易购的框架,使用了GPU和FDI(音),所以底层的资源需求非常非常大。
计算机视觉我们今天处理百亿级、千亿级,也使用上千块的CPU来解决等等这样很多的服务。广告点击的这其实是百度早期用的比较早领域,就在需要使用机器学习,因为它使用大量的预估和预测,过去用的(英文),今天也切到深度学习的模型,所以也支持千亿样本和千亿特征。所以这里用的资源是更多,今天我们超过一万台服务器,事实上是用于CPI的跟广告相关的机器学习。 往精准用户方向的话就不详细介绍,我们也会对用户行为分析之类的。
我们看到就是说人工智能和大数据对底层的技术架构其实有非常非常多的需求,那如果是说我今天这PPT里面有一些东西真的是干货,很多在这一页PPT里面,这基本讲的就是说,为了支撑这样子的需求,百度在云技术基础架构我们做了一些什么样的投入、我们做了一些什么样的事情。大家知道要支撑这样的大数据和人工智能的能力,首先对底层我们要数据中心,百度今天的话有几十万台服务器,那我们有租用的数据中心,我们也有自己建,也有跟运营商合建的数据中心。我们今天能够提供年平均的PUE最佳可以到1.22,这在中国最先进,我们也连续获得了相关的奖项。因为毕竟大家知道特别在北京,我们每天生活在,我们希望每天都是APEC蓝,那对环保这东西事实上也是百度很在乎的社会责任。
另外的话在云计算时代的话,这数据不断的增加,所以你机器也要不断的增加,怎么样让你数据中心随着你的需求快路的扩张。所以我们今天数据中心支持模块化的数据中心设计,也就是很多的模块化你可以在工厂里面装配好,再到数据中心搭配起来这数据中心就可以用,我们在供电离线的直流供电,就一主一备。这核心的好处,过去往往是双交流,两个都是(英文)供电形式,它这电使用率可能只有90%左右,今天使用新的技术可以做到95%。而且百度自然的冷却,比方说高原地方或者是说北方这些地方的温度比较低,我们可以用自然的风冷来进行冷却。有了这数据中心,上面免不了谈计算、储存和网络。
计算为了支持超大规模的机器学习、人工智能这样平台,我们今天是支持国内规模最大的深度学习的易构(音)集群,刚才提到我们用中国FPI和GPU(音)最大的。我们的机器交互也是准机柜,一个机柜的机器全部在厂商那边生产好,可以快速的上架,我们供货一天的话可以上架一万台以上的机器。那百度的话也是一个领导者,我们今天是中国整机柜量最大的公司。
我们谈谈储存,刚才前面许总也提到,视频是一个非常非常大的量。我们确实也看到的话,现在储存的需求增长非常非常快,百度提供百度云盘的个人储存服务,每个人有2T的储存服务空间,今天云盘上面的储存数据超过了5个EB。用什么样的技术支撑这样的大的需求,百度在储存方面从硬件到软件都是自己设计的,我们今天使用的是特别高密的储存,每一台机器里面可能40块硬盘,每一个硬盘8个T,一个机架超过7个P的数据。你可以想象一个机柜的话,是非常非常重。因为我们用这么高密度的储存,事实上对我们整个数据的中心设计都提出要求,一般的只要1.2吨,我们百度1.5吨以上甚至更高。所以都是这些技术支撑高密度的储存,所以我们才可以提供免费的云盘服务。
因为这么多的硬盘,那运维其实非常非常难,我们在硬盘的运维也使用很多人工智能的技术,我们会对磁盘故障进行预测,我们每一台磁盘上会有很多的指标,我们根据这指标预测,这磁盘是不是坏了,如果坏了我提前就把数据进行迁移等等。所以我们今天磁盘故障修复率可以自动修复50%,预警就是在它坏之前98%以上,这样可以把数据进行迁走,也不需要后续更加昂贵的数据修复。在网络领域我们支持全直言(音)SDN软件定义的网络,我们支持万兆的接入。
更重要的我们在跨数据中心的传输的话是一个很重要的事情。我们今天跨数据中心PB级别,我们南和北之间带宽是非常非常高的。再往上的话是分布式系统,我们今天的话有超过1.3万台的集群的单机集群,但是我们设计可以超过2万台,只是我们应用1.3万台,我们支持在离线的,因为很多的业务是把在线计算和离线计算完全分开,在线路就要是满足用户快速来,它对(英文LEDS)要求很高。但是大量的资源会被浪费,为什么?在线的业务到了网上可能就没有用了,这时候大量的资源是空闲在那地方。百度的话事实上我们今天是把在线和离线混合在一起,也就是说在线业务我们首先保证它的(LEDS)响应的要求,所以这听起来很简单,但事实上对隔离技术非常非常高,怎么样保证你的离线业务不会影响你的在线响应时间。
我们对象储存刚才提到EB级别的对象储存。而且搜索网页库也是结构化,也支持EB级搜索网页化结构化的储存。所以后台技术这朵云计算才有可能支撑上面大数据和人工智能。今天的话我们百度开放云目标是希望把刚才提到的不管是云计算这层面的能力,还是大数据层面的能力,还是人工智能的能力,对外进行开放。在这些能力之上的话,事实上就有各种各样的应用包括营销,大家知道营销的话,事实上是大数据使用非常非常多的。因为你有大量的用户行为,有大量的转化数据要进行判断,然后要进行预估、进行竞价等等。所以它是一个很典型的对大数据和人工智能要求的领域,百度在数字营销也是最擅长,所以今天在开放云上提供非常好的营销云的解决方案。
媒体云,那前面也提到,今天来讲视频、不管是音频、视频、直播等等是一个增长非常非常快的领域。多媒体的第一大需求就是储存。第二大需求是什么呢?今天在直播的时代,第二大需求是分发,怎么样把这媒体的内容分发出去,让其他人可以看到,让更多的用户可以看到,或者朋友看到,所以分发出去是第二大需求。第三大需求事实上媒体内容的处理。包括像转码,包括像视频的压缩,包括像视频里面的一些内容分析。刚才讲了比方说人脸识别是一个很强的需求,这些都会在媒体云上进行对外开放。
物联网云,其实大家知道物联网是一个大数据的业务,未来的话物联网会是数据增加的一个主要驱动力。所以在这一块也会使用大量的大数据这方面的需求。
政企云今天来讲是我们探索的领域,政府、企业也是有非常多的数据。当然这些数据怎么样公有云上用的更好,我相信这是一个过程,我们一起来跟企业进行混合云的方案,希望将互联网的技术也可以带到政企去,用互联网的技术提升所有这些政企的,在互联网+时代的效率。
所以回顾以上的话,今天我们看到的话就是说大数据已经开始在成熟,大数据今天来讲,中国可能最缺的大数据人才把大数据用好,技术很多的技术已经成熟,大数据这领域可能面临最大的挑战,不是在于现在手头上有没有工具有没有什么,大数据最大的挑战当大大数据出现的时候,当那数据量已经远远超过我们手上处理量的时候,有没有更好的办法,特别是基因这领域,那个数据量比我们今天看到的数据量又大了那几个量级,那是大数据最大的挑战,但是大数据今天挑战是应用。人工智能我们可以看到在突破,特别是深度学习这算法,在很多领域突破,我们相信像语音、像自动驾驶这些领域的话,会首先让大家看到深度学习这样的能力。再往后的话当然也是更多的应用。
另外我们可以看到的话,随着刚才讲的大数据的出现或者是人工智能对数据饥渴出现,对底层架构又会比过去上升了量级,未来对云计算是超大规模、超大数据量。所以我们希望通过这一个百度开放云将百度所有云计算、大数据、人工智能这些领域能力对外开放的话,那希望是说能够更好地服务于我们客户,希望有更多的合作伙伴可以跟我们一起来共建更加繁荣的人工智能的生态,好,谢谢大家。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者