澎思核心算法分为三类:
前沿算法细分上,第一个是图像识别方面,我们可以看到很多的算法。
在人脸检测方面、对准、识别到一人一档、FaceID,以后走到哪里,你的脸就是你的ID;面部属性检测包括性别、年龄、人种、美颜、表情、状态、性格等;人体检测包括姿态、姿势、穿着、描述、跟踪、跨境识别/ReID,人的行为检测包括特定行为判断和预测等等。
在安防行业,很多危险行为的判断预测也很重要。一个车发生事故后逃逸,我们只要调动就近的相机就很快抓到这辆车,这对智能交通的管理非常重要。还有其他物体的识别追踪等等,还有语义的理解。
在图像增强方面,有去噪声、去模糊、去抖动、超分辨率,抗反光/抗逆光,还有去雾、去雨、去雪等等。在图像抓拍方面,有新的传感器的出现,比如AI-on-Sensor、AI图像质量评价以及AI的在控捕捉等等。
现在我们谈一下人脸识别的过去、今天以及面临的挑战。
人脸识别不是一个很新的课题,20多年前人脸识别就已经在某些产品里得到应用,用的是过去的机器学习。那个时候公开的数据集基本上都是限制性的人脸,都是近距离或者是光线受到控制的图像。今天我们看到动态监控相机下捕捉的人脸,这个跨度非常大,行人是多姿态的,并且质量没办法控制,尤其是光线,会对识别造成很大的影响。
大家注意到,训练数据级也变化了,从小数据到公开大数据、超级大数据,过去比赛的测试数据都是比对正脸的,即使今天的比赛也如此,一直到最近IJB-C出现多姿态侧脸的竞赛。
但这也不是真正代表安防场景下动态监控视频下的数据。
如果我们谈到人脸识别的迭代变化,2012年是一个分界点。在这之前,算法用的都是传统的手工特征,过去传统的机器学习,我们只能用这些。但是即使在正向的人脸识别里,比如LFW,都达不到90%。
今天的深度学习,一个小模型都可以拿到99%,所以这是两个完全不一样的概念。
2013年到2016年,我们看到特征的变化,以及有LFW数据库的出现,超级大数据以及光线不均匀多姿态的动态测试集,带动了新算法出现。我们也希望看到安防动态监视视频下真正的数据集,能够开放给大家比赛。
当然二维、三维人脸特征的识别和提取,以及人脸的防伪,都对将来FaceID这种功能提出要求。
大家知道无约束人脸的识别,面部姿态变化巨大,有很多遮挡、光线不均匀的情况,表情、像素也不一样。从很远的地方拉近后,失真严重。而且还有静态、动态等情况。
上图是Nist IJB-A比赛的图像,不同的角度、不同的光线,遮挡、戴眼镜,有些字挡住嘴巴,还有不同像素相机拍摄的图片。我们2017年3月团队代表松下参加比赛,拿到冠军奖项。同年5月,松下也发表了这个成果。
这个挑战赛也明确显示了我们的算法在模板比赛下能做出很好的成绩。
下图是算法的总结,我们用了迁移算法,也用了异构多模型的融合,和大家知道的双代理对抗生成网络。当然在此当中,数据怎么样清理、预处理,也起着重要的作用。
这是我们比赛的Leaderboard,红色框里面是我们的成绩。
你可以看到传统的人脸识别算法,以前可能还是第一名、第二名。但是在IJB-A无约束人脸测试集下面,它们的识别率仅仅是20%、50%、60%,这个变化是非常大的,技术在不断发展,性能在不断提高,我们拿到了98%。
从这个图里也可以看到,越小的error越好。尽管那个时候传统的算法都是名列前茅,比如在身份证上和护照测试级上,但是要在一个多姿态、不同光线的人脸测试集下,传统算法的性能可能会下降很大。
再谈一下大数据人脸识别。2017年7月,微软组织的一个百万名人识别大挑战。7月份公布,我们的成绩又拿到双项冠军。
在2018年2月份,松下已经把这项成果应用到产品里,并且在东京召开发布会。从下图中可以看到,我们这种跨年龄、跨姿态以及有遮挡的情况都能检测出来。而且松下的产品不光是人脸识别算法,在摄像头、图像增强方面还可以减低很多传输带宽。也许大家知道,松下的安防产品在日本是第一。
刚才谈到测试数据集,比如现在的LFW在2012年就出现,现在已经饱和了。到今天的MegaFace、微软以及IJB-A/B/C。所有的数据还是一个特点,都是基于网上收集的数据,不是动态监控下采集的数据。所以希望有一天很快到来,我们可以测试这样的数据。
刚才讲到GAN的应用,我分享一下这篇文章。
IJB中的多姿态识别,问题在于我们训练数据集很难拿到很平衡的数据。上图左边是告诉大家,这个训练集里面,左右角度的数据很多,但是角度偏一些数据就减少很大。我们用了这个GAN,右边就产生了较多在侧角度的数据。
我们也做了性能比较,大家可以看下我们自己做的b1、b2、DA-GAN的结果。b1是说我们不加任何多余的训练数据。b2是我们用之前的训练模型加额外的3D人脸合成训练数据。最后一个是我们用自己的DA-GAN来产生的一些平衡数据。我们的GAN相比之下带来明显的性能增加。所以我们GAN的工作也在NIPS-IJCAI-AAAI等学术会议上发表,也用GAN来生成不同年龄的人脸。
刚才讲到动态监控条件下捕捉的人脸,我们除了在人脸识别性能上提高外,我们也考虑别的方式。比如说在源端着手捕捉到更好的图像,还有图像增强的方法,我会在AI图像增强、SoC方面做一些分享。
第一个分享的是去除运动模糊的问题。大家都知道,左边的图像我们常常看不到细节。大家说都用HDR来恢复图像的细节,这个方法是长短曝光多次,合成光线均匀的宽动态范围图像。有个问题是什么呢?在场景当中有运动的物体出现,就没办法做到所谓的普通HDR图像,会很模糊。但是下面这张用我们的算法运动补赏,可以很清晰地看到图像的细节。我们拿到了最佳的Paper,也用在了公司的产品上面。
第二个是关于低光图像增强方法,可以看到上面有两组图像。左边黑漆漆的,但是用了图像增强方法,就可以看到细节。尤其是对人脸来说,右边的人脸就可以识别出来。传统的图像增强方法都有一些限制,今天人们结合深度学习可以做到更高的保真度。
去噪声的方法,大家都知道BN3D是很出名的去噪声方法,但是它总是根据相机的强度而做的,很难做好。我们这篇文章也获得最佳论文,我们用了深度卷积CNN加了LSTM,能够追踪到噪声的相关性,主观和客观质量结构表明,这种方法可以获得很好的图像质量。
下面来谈一下超分辨率,超分辨率不是一个很新的课题,已经很多年了,大家都是用过去传统的方法实现,也包括一些监督的和非监督的方法,这些方法很多。
我们要关心的是什么呢?我们关心的是你怎么评价它,你的评价标准是什么,跟你的应用有关系。我们说,人工智能要跟场景有关。我们比较重视的是人脸,你对人脸的识别保真度如何,这个对我们来讲是非常重要的。
2024-01-16 10:10
2024-01-03 09:52
2023-12-21 10:20
2023-12-08 09:46
2023-11-23 10:08
2023-11-23 10:07
2023-07-27 09:44
2023-07-05 11:40
2023-07-03 14:58
2023-07-03 14:57