国内企业对国际人脸识别测试集LFW和Megaface的刷分榜排名

在人脸识别发展的过程中,标准的评测数据集在其中的重要性不言而喻。有了标准数据集,研究人员可以在固定的标准下,对算法性能做出评估,并以此为方向推动技术发展。

国内企业对国际人脸识别测试集LFW和Megaface的刷分榜排名

作为计算机视觉领域长期的热点研究方向,人脸识别由于其重要的实用价值,一直得到研究人员的重点关注。人脸识别的问题可以描述为:输入场景中的图像或视频,使用人脸数据库辨识(Identification)或验证(Verification)场景中的一个人或多个人。其中,人脸辨识(Face Identification)任务旨在给定一张输入的人脸图像,在数据库中寻找与之身份相同的图像;人脸验证(Face Verification)任务旨在给定两张人脸输入图像,判断两个人脸是否为同一个人。

人脸识别的核心问题是:如何从图像(或视频)中获取有效的人脸特征表达(feature representation)。在人脸识别发展的过程中,标准的评测数据集在其中的重要性不言而喻。有了标准数据集,研究人员可以在固定的标准下,对算法性能做出评估,并以此为方向推动技术发展。

户外标记人脸数据集LFW (Labeled Face in Wild) 是人脸识别研究领域的最重要人脸图像评测集合之一。LFW 人脸图像集合是由美国马萨诸塞大学计算机视觉实验室于2007年发布,图像采集自Yahoo! News, 共包括5749个人,13233张图像,其中1680人有两幅及以上的图像。大多数图像经由Viola-Jones 人脸检测器得到后,被裁剪为固定大小。由于LFW 中的图像均产生于实际场景,具备自然的光照、表情、姿势和遮挡等干扰因素,且考虑到涉及人物多数为公众人物,也涉及到化妆等更复杂的干扰因素。因此,在LFW数据集上验证人脸识别算法理论上更贴近实际应用,对实际场景下的人脸识别研究有一定挑战和借鉴意义。

评测标准允许研究人员使用LFW数据集以外的数据对模型进行训练。目前,在LFW上得分较高的结果均加入了大量的集外数据进行训练。

目前,在LFW官网上可以查到的中国企业的刷分状态是,face++ 99.5% , 商汤 99.53% , 腾讯 99.65% , 百度 99.77%,中科奥森 99.77% , 中科云从 99.5%, 北京飞搜科技 99.67% , 颜鉴99.4%,宇泛智能 99%, 中国平安 99.8% 大华 99.78%, 海鑫 99.68% 等,谷歌针对这个人脸识别数据集的刷榜分数是 99.63% 。

LFW作为目前人脸识别领域最权威的数据库之一,对于人脸识别中的人脸验证任务给出了详细的测试要求和评分标准,其结果在一定程度上能反应人脸识别算法的性能。但是,也有其一定的局限性。首先,LFW的6000对测试集的图像和名人身份都是完全公开的,有可能存在位置公开训练集含有LFW数据的可能,通过对数据进行针对性学习,或者以作弊的方式直接将测试集图片进行过训练,都可以得到很好的结果。其次,LFW的评测不计算时间成本,高得分可以通过硬件堆砌大规模网络来获得,距离实际应用仍然很远。另外,LFW的数据来源于网络,绝大多数是欧美的公众人物,亚洲人的样本较少,同国内实际应用中的人证比对或视频人脸比对相比,数据分布的差异较大,高分的结果也不一定适用于这些实际任务。因此,LFW评测刷得高分,仅能表明具有较强的算法基础,距离实际场景的应用,还有一定距离。仅仅通过LFW的结果就断言机器的识别能力已经超过人眼,是值得商榷的。

人脸识别的另一个重要应用是1:N人脸辨识(Face Identification)任务, 即给定一张人脸图像(probe),在大小为N的图片库中找到与之身份相同的人脸图片。同1:1 人脸验证任务相比,1:N识别任务更适用于实际应用场景中安保、监控视频中的动态人脸识别。

MegaFace 是由华盛顿大学(University of Washington)计算机科学与工程实验室于2015年针对名为 ”MegaFace Challenge” 的挑战而发布并维护的公开人脸数据集,是目前最为权威热门的评价人脸识别性能的指标之一。数据集中的人脸图像均采集自Flickr creative commons dataset,共包含690,572个身份共1,027,060张图像。这是第一个在百万规模级别的人脸识别算法测试标准。

同LFW数据集,MegaFace 数据集中的图像也产生于自然场景,具备光照、表情、姿势和遮挡等干扰因素。但与LFW不同的是,MegaFace数据集中的人物身份均为普通人而非公众人物,并在收集过程中选取了图像的分辨率,并且保证了在图片来源在世界范围内的均匀分布。另外,在评测方法上,MegaFace 着眼于在百万级别的数据库中的1:N搜索性能。因此,相比于LFW数据集,MegaFace更贴近实际应用。

MegaFace挑战将从Flickr Dataset中挑选的百万张人脸图像作为测试时的干扰项(distractors),而使用的搜索测试集(probes)来自于FaceScrub 数据集,共包含530个名人的10万张人脸图像,且性别比例大致相同(男性265人共55,472张,女性265人共52,076张),同一身份间人脸图像的差异也较大。为了保证同LFW的可比性,发布方随机选择了其中80个超过50张图像的身份,共4000张图片,作为最终的搜索测试集。

与LFW相同,MegaFace评测也允许使用数据集以外的图片对模型进行训练。但由于MegaFace的百万人脸数据库均来自于普通人,在训练过程中作弊的难度很大,因此评测结果更加可信。

在2015年10月公布的第一次的MegaFace 挑战结果中,俄罗斯公司NTechLAB以1选的识别准确率73.300%排名第一,谷歌以70.496%排名第二,北京飞搜科技64.803% 排名第三。随后陆续有各个公司和学术组织提交结果,截至2017年11月份,最好的结果已达到91.763%,由俄罗斯的Vocord 公司提交。国内目前最好的结果是腾讯优图实验室提交的83.290%,排名第二,其他较好的4个结果分别为:北京深感科技(81.298%),复旦大学计算机科学实验室(77.982%)和北京飞搜科技(76.661%), Shanghai Tech ( 74.049% )。

诚然,MegaFace 的评测依然不计算时间成本,这使得部分结果的大规模网络模型距离实际应用还有距离,高分并不意味着好产品。但它提出的百万级别1:N 评测方法和指标在行业内均属首创,对于人脸识别的发展依旧做出重要贡献。

LFW和MegaFace均为人脸识别领域重要的评测数据集。LFW是针对早期人脸验证(Face Verification)任务提出评测方法与指标,结果有借鉴意义,但已不代表目前的最难问题。MegaFace提出的关于百万级别的1:N人脸辨识(Face Identification)任务的评测指标,难度更大,是目前学术界的新主流。尽管两个数据集都存在高分数与实际应用需求间的矛盾,但由评测过程中催生出来的新方法,无疑极大的推动了人脸识别的长足进步。

来源:业界供稿

0赞

好文章,需要你的鼓励

2017

11/23

22:52

分享

点赞

邮件订阅
白皮书