北京邮电大学董远教授指导北京飞搜科技获得VOT2017第二名
作为计算机视觉顶级会议的ICCV2017在美丽的意大利威尼斯成功落幕,40%的投稿来自中国,华人学者继续在AI领域引领一股思潮,无论是对于学术界还是工业界都能带来很多启发。每一届的ICCV workshop比赛都吸引了包括谷歌,微软,FaceBook等巨头公司参加,可谓明星璀璨,而ICCV的workshop更关注算法的某一领域算法的极限性能,因此能在workshop中独占鳌头的队伍代表了该领域的最高水平。在COCO比赛中,以商汤,旷世为首的中国团队斩获多项冠军,将FACEBOOK,GOOGLE等巨头公司甩在身后,备受瞩目的领域检测,分割等领域有了新的算法高峰。
而作为视觉跟踪领域的最高峰,VOT(visual object tracking challenge)竞赛,吸引了来自全世界的38个队伍参加(英国伯明翰大学,北京邮电大学,卡内基梅隆大学,中科院,大连理工大学,法国科学院,美国GE,香港理工,地平线,华中科技大学,国防科大,美国海军研究院,加州大学,牛津大学,中国科技大学,浙江大学等),总共有51个追踪器的结果。由于每年的评测序列都会更新,且标注的精确度一年一年提高,该竞赛也被视为视觉跟踪领域最难的竞赛,远远超过了其他数据集。因此,每年最好的追踪算法都会在上面一展拳脚,在激烈的比拼中擦出灵感的火花。
在公开的38个队伍、60个序列的排名中,大连理工大学的卢湖川教授队伍夺得第一名。由北京邮电大学董远教授指导,北京飞搜科技何智群、樊应若、庄骏飞、白洪亮组队提交的结果获得第二名(CFWCR)。
至顶网特约采访了指导北京飞搜科技获奖的北京邮电大学董远教授。
记者:北京飞搜科技,作为一个创业公司,做核心算法的精力和资源应该非常有限,而且公司成立时间也不长,您能评价一下为什么一个小型创业公司能够取得这样的好成绩。
董远:一个小型创业公司能取得这样的成绩确实不容易,因为核心技术需要多年的沉淀,但北京飞搜科技的科研能力不是从零开始的,公司的核心成员来自原北京法国电信研发中心图像搜索组,公司的CEO白洪亮博士以前就是法国电信图像搜索组的组长,公司的副总经理冯文建是原法国电信北京研究中心的首席运营官COO,公司的部门负责人也是原法国电信的研究员。
这个图像搜索组由白洪亮博士领导,在法国电信研发中心里具有光荣的历史和声誉,该研究组从2008年到2014年,连续6年在美国国家标准与技术研究所(National Institute of Standards and Technology | NIST)举办的当时世界上视频检索的最权威比赛 NIST TRECVID 上名列前茅。2013年、2014年又分别两次获得微软在西雅图举办的BING图片检索评测(MSR-Bing Image Retrieval Challenge (MSR-Bing IRC) at Bellevue, WA, USA)亚军。2014年获得华为举办的移动视频标注比赛(uawei Accurate and Fast Mobile Video Annotation Challenge, IEEE ICME 2014)最高性能奖。 参加世界评测获奖,对这个队伍来说,就是轻车熟路。
由于法国电信在中国没有业务,所以这个组只为法国电信在欧洲和非洲的图像搜索业务提供技术与支持,在中国没有直接的业务。2012年,法国电信研发中心为采购人脸检测技术,评测了法国若干商业人脸检测引擎、face.com(后被facebook收购)的人脸检测引擎和法国电信北京研究中心图像搜索组的人脸识别引擎,白博士领导的图像搜索组的引擎胜出,从此北京法国电信北京研究中心图像搜索组的图像搜索技术和人脸搜索技术就开始在法国电信集团的业务中得到应用。
2015年,为了响应国家双创的号召,由白洪亮博士引导,这个队伍的核心成员离职,开始了创业。
记者:您怎么对法国电信这么了解?您为什么选择与北京飞搜科技合作呢 ?
董远:我在2004年到2014年在法国电信北京研究中心任多媒体搜索实验室主任,下辖图像搜索组、语音搜索组、文本组、开发组,主要为法国电信集团在欧洲和非洲的Orange TV 提供多媒体搜索的业务提供核心技术支持。2015年,我回高校教书去了。然后,我们这些“法老”(我们戏称法国电信老同志为“法老”)就又合作了。
记者:北京飞搜科技目前在哪个方向发力,目前在哪些方向上具有核心竞争力?
董远:鉴于北京飞搜的起源,目前公司的主要核心竞争力还是在图像与视频分析,主要核心技术点在人脸检测、人脸识别、人脸搜索、图像识别、视频自动结构化分析等领域。
公司在2015年主要发力在重新编写code,去掉一些核心算法知识产权的问题,然后重新评估了一下自有知识产权的性能。
比如,在人脸验证1:1(Face Verification),北京飞搜科技的实时人脸识别算法,在世界公开测试基准数据集Labeled Faces in the Wild(LFW)上准确性达到99.67% ,针对同一数据集谷歌的准确率为 99.63%。我们的人脸识别算法,跻身国际一流水平。
在1:N人脸搜索方面,2015年10月,北京飞搜科技的人脸识别算法,参加了华盛顿大学举办人脸搜索比赛,测试基准数据集是MegaFace的100万张人脸数据集。当时获得第一名的是俄罗斯的NTechLAB,首选正确率为73%;获得第二名的是谷歌,首选正确率是70%;第三名就是北京飞搜科技,首选率是64%。 这次比赛之后的两年之内,又有一些其他队伍逐渐在这个数据集上开始刷分,腾讯优图于2017年4月把megaface数据集的首选准确率刷到了 83%,成绩目前领先。
北京飞搜科技的实时人脸检测算法,在世界公开人脸检测评测平台FDDB上,准确率达到95%。 跻身一流性能。
目前公司平均每年申请20余项目发明专利,软着20多个。
目前公司在智能安防、智慧城市、智慧园区的项目,需要有在视频中对人、车辆进行目标跟踪的技术需求,我们为此开发了这项目标跟踪技术,然后我们就顺势参加这个全球视频目标追踪最高水平的MOT2017 比赛,能获得这个好的名次我们也很高兴,但也不意外。
记者:如何评价AI智能大潮下,目前中国这个多人脸识别公司和图像处理公司如雨后春笋般的出现。
董远:随着人工智能的火热,确实目前国内有大量人脸识别和图像识别的公司,但能做好核心技术的公司还是不多的,而持续的核心技术更新就更困难。目前国内深入了解深度学习的人才少而贵。作为技术公司,限于人才的短缺和高端人才的价格也很高,企业能够把核心技术坚持下来并持续保持世界前列,实属不易。
记者:很多公司说自己的人脸识别技术达到99% 了,超过人类了,是否是这样?
董远:1:1 人脸识别,机器根本超不过人类的辨别能力,因为人脸有“气质”的区分的,人能分别出这种“气质”,而机器是看不出来的。人能识别出双胞胎,但机器不可能做到。如何让机器能够学习出这种“气质”,是需要大量标注数据的,但问题是,人们还不知道怎么标注出这个“气质”。
1:N 人脸搜索,机器能超过人类,特别是当N大于5000以上时,那是因为人是会累了,而且也记不住那么多人。
对于视频流中的动态人脸识别,光照、分辨率、姿态、人脸质量、带帽子口罩眼镜等情况,使得人脸识别远没有能够被理想应用的状态。而且怎么样能够降低人脸识别的硬件成本也是一个严重的问题。
虽然一个人脸识别是一个简单的词句,但里面的技术非常长多,越做发现问题越多。人脸识别研究远没有结束,或许只是才开始。
记者:人脸识别、图像识别的市场点是什么
董远:现在是智能安防、智慧城市、智慧园区, 将来可能是自动驾驶、机器人、电视视频内容自动分析、手机视频内容分析。
记者:如何评价独角兽,创业公司还有机会吗?
董远:独角兽带动了整个行业是好事。技术型公司,不像互联网+公司及 O2O 公司, 技术需要持续发展,发展中就有机会。10年前在人脸识别领域就有独角兽,但随着深度学习的发展,目前在这一领域的新独角兽(比如商汤和旷视)就超越了老的独角兽 。
同时,AI需要对客户的定制服务与支持,服务不是产品,多样化定制的服务在市场中还是有机会的。
记者:怎么评价目前中国的人工智能热?
董远:人工智能还是一个大概念,目前的一轮人工智能热是由深度学习带起来的,深度学习在图像(比如人脸识别、色情图片分析)、语音识别、文本分析、用户行为分析都得到了落地应用,以后的应用会越来越广泛。
记者:怎么评价 AlphaGo Zero 如此成功,人工智能离实用还遥远吗?
董远:深度学习是基于数据的,数据是需要标注的。 围棋是一个比较简单的情况,机器通过观察棋子是否被围上就可以断定答案,从而实现非监督学习。 但比如人脸、语音、图像,机器无法断定答案的,所以很难做到完美的非监督学习,所以人工智能里实用还有很长的路要走。
董远:北京邮电大学,教授,博士生导师,1999年获上海交通大学通信与信息系统博士学位,发表学术论文百余篇,专利申请40余项,授权专利16项。
董远工作经历:
2004年-2014年,北京法国电信研发中心有限公司多媒体搜索(Media Search Lab)实验室主任。在法国电信工作的10年期间,主持研发数十项多媒体音频、视频、文本搜索的核心算法为Orange在欧洲和非洲的多媒体内容搜索服务提供软件服务,并为此被授予法国电信集团专家 (France Telecom - Orange Expert),成为法国电信集团在多媒体搜索领域的白皮书(white paper - 战略方向)的制定者之一。
2001-2003年,英国剑桥大学工程系博士后,担任欧盟项目CoreTex剑桥大学方面的主要研发人员,参与了当时世界排名第一的语音识别系统的研发(HTK team, Cambridge, UK)。
1999-2001年,Nokia中国研发中心,任R&D Scientist , 是Nokia手机中文语音识别的主要开发人,即Nokia中文语音拨号。
好文章,需要你的鼓励
最近《Gartner十大战略技术趋势报告(2025)》正式出炉,人工智能众望所归成为焦点,在多个趋势中得到了充分体现。
CIO越来越多地利用云和分析引领数字化变革,尤其是在零售和服务公司,但本质上交叉点是与创收密切相关,在这方面IT优先级也不断提高。
谷歌云(Google Cloud)希望通过推出新的谷歌云人工智能代理生态系统计划,将人工智能代理的销售和客户采用率提升到新的高度,通过新的技术和市场资源帮助合作伙伴建立并共同创新人工智能代理。