做了一段时间的person re-identification,一直想写个综述,趁现在还记得,赶紧写点东西。person re-ID中文名可以叫做行人重识别,近几年在CV各大会议上都是十分火爆,而且随着deep learning在这个领域的运用越来越成熟,其识别率也越来越高,虽然在实际应用中还会有各种各样的问题,但最起码我们已经可以看到这个领域的逐渐成熟。我会根据我自己的理解对这个领域做个简单介绍。详细介绍还得等我的毕业论文完成批改,然后会以英文版放出。
Introduction
如果只考虑image-based person re-ID的话,用一句简单的话来说,person re-ID aims to match the images from non-overlapping cameras or one camera at different time。前面一种情况就是假设我们现在有一片宽广的场地,里面有两个摄像头,每个在这个场地里经过的人都会被这两个摄像头拍到,我们便能得到两组图片,分别来自于两个摄像头,那么re-ID问题其实并不关注每个人是谁,它主要是想根据其中一个摄像头的图片,来找到另一个摄像头中的与其对应的图片,这里的摄像头数量也可以不止是两个;后面的一种情况更多出现在大门的门禁系统中,行人在不同的时间经过同一个摄像头,我们同样要根据一个时刻的图片来进行匹配。后面这种情况其实较少被研究,那些public datasets也主要是研究前一种情况。
除了image based的方法之外,还有video based person re-ID,这个领域我没有进行过具体研究,如果想要了解更多,建议阅读Liang Zheng et al. 的Person Re-identification: Past, Present and Future。
Motivations
说motivation那其实就是说其应用。person re-ID的应用可以说是比较广泛的,因为其主要关注不同camera获得的图片之间的匹配,各种安防系统,大型监控系统,都可以运用此技术。
Methodology
在具体进行研究的时候,往往我们要做的事情是根据一张或多张query image来对gallery images进行rank。一张query的情况是single query,多张query的情况就是multi query。而这里的根据主要是各个图片之间的相似度,具体应用时可以使用图片的feature之间的欧式距离,亦或是学习一个距离度量(XQDA and so on)。也就是:
- feature extration
- metric learning (or use some existed metrics)
- distance measuring and ranking
我画了一张更为详细的流程图: 这个流程图里融合了一些基本特征,来获得一个更为robust的特征,在实际应用中也是十分常见。 然后这里也就可以引出re-ID的两个主要研究方向:
- The choice of feature
- Metric Learning
第一个研究方向主要是寻找对于光照,尺度等外界干扰因素不敏感的特征描述符,第二个研究方向则是学习一个合适的距离度量,来衡量图片之间的相似度。值得一提的是,随着deep learning方法的逐渐成熟,metric learning的重要性已经不复当年,基本现在的re-ID都是先用一个baseline neural network model(resnet比较常用)去提取图片的feature,然后直接用欧式距离进行rank,metric learning能给这种模型带来的提升十分有限。
除了这两种基本方法之外,还有很多的优化方法被提了出来,诸如利用GAN进行data augmentation,re-ranking,迁移学习等,都具有深入研究的价值。
另外,前面假设我们用的都是普通RGB摄像头来采集数据,如果我们用RGB-D摄像头(如kinect)来采集数据的话,除了基本的RGB信息外,我们还可以获得图像的深度信息,那么就可以建立图像的3D点云图,它相比于普通的RGB信息的优点就是更加不容易受光照影响,即使在无光照条件下也能工作,但是考虑到这种摄像头一般只能作用于室内,因此无法大范围应用。
未完待续