http://mp.weixin.qq.com/s?__biz=MzI1NTE4NTUwOQ==&mid=2650325063&idx=1&sn=8430ef3dbd2d871c63f2b7fbac90c0b4&scene=23&srcid=0715pmVjHqYCKS3fnfLYwO8L#rd

前言

    人臉識(shí)別,作為深度學(xué)習(xí)應(yīng)用一個(gè)比較具有難度的方向,近幾年一直得到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。目前大部分人了解到的人臉識(shí)別的性能都是從LFW數(shù)據(jù)庫(kù)說起,大家一談起人臉識(shí)別,都會(huì)認(rèn)為目前人臉識(shí)別已經(jīng)足夠好了,好到確認(rèn)性能已經(jīng)到了 99.77%。但是人臉識(shí)別真的做到了我們看到的數(shù)字那樣完善嗎?遠(yuǎn)遠(yuǎn)沒有!

    

    LFW數(shù)據(jù)庫(kù)僅包含了部分場(chǎng)景的姿態(tài)、背景等變化,而且大部分實(shí)驗(yàn)結(jié)果都是基于嚴(yán)格提取關(guān)鍵點(diǎn)、人臉矯正后的訓(xùn)練樣本和測(cè)試樣本(今年CVPR做face alignment仍然是個(gè)很熱門的方向)得到的。對(duì)于實(shí)際應(yīng)用中的光照、對(duì)比度、抖動(dòng)、焦點(diǎn)、模糊、遮擋、分辨率、姿態(tài)等因素影響人臉識(shí)別的復(fù)雜因素[12]依然沒有得到完全解決。因此,一些更具有挑戰(zhàn)性的人臉數(shù)據(jù)庫(kù)也發(fā)布出來,比如MegaFace、IJB-A等數(shù)據(jù)庫(kù)、微軟百萬名人數(shù)據(jù)庫(kù)(不過這個(gè)數(shù)據(jù)庫(kù)比較noisy)。


    此外,視頻人臉識(shí)別也是目前仍然比較難的一個(gè)方向,今年沒有出現(xiàn)LSTM或者attention model去做視頻中人臉識(shí)別的論文,反倒是光流、LSTM做視頻中Events, Actions, and Activity Recognition的論文比較多。


    本次會(huì)議大家可以關(guān)注人臉的以下幾個(gè)點(diǎn):人臉老齡化預(yù)測(cè)[1]、人臉的表情捕捉和復(fù)現(xiàn)[2]、人臉alignment(偏向于三維alignment、姿態(tài)變化較大情況下的alignment)、同時(shí)訓(xùn)練的級(jí)聯(lián)CNN做人臉檢測(cè)[3]、大規(guī)模人臉檢索問題(度量學(xué)習(xí))[4]、深度度量學(xué)習(xí)(常用于學(xué)習(xí)得到人臉的具有區(qū)分性的特征)[5]、人臉識(shí)別問題[6,7,8,9,10,11]、更具挑戰(zhàn)性的人臉數(shù)據(jù)集MegaFace的提出等。


    接下來對(duì)CVPR2016上與人臉相關(guān)的部分文章進(jìn)行介紹。


一、深度度量學(xué)習(xí)


  1. Deep Metric Learning via Lifted Structured Feature Embedding

    這篇文章來自斯坦福大學(xué) Hyun Oh Song等人的工作。之所以介紹這篇論文,是因?yàn)閐eep metric learning是深度學(xué)習(xí)應(yīng)用于人臉識(shí)別領(lǐng)域的一個(gè)最常用的方法,利用比較好的目標(biāo)函數(shù)可以學(xué)到更具有區(qū)分性的人臉特征。目前比較經(jīng)典的幾篇人臉識(shí)別的論文都有用到deep metric learning的方法,比如facebook公司的DeepFace[13]里面有用到加權(quán)卡方距離和contrastive loss[15]兩種度量方式。香港中文的DeepID2[14]里面有用到contrastive loss的度量。Google公司的Facenet里面有用到triplet loss[16]的度量。而這篇論文作為CVPR2016的oral paper,提出了利用訓(xùn)練的batch里面所有相同label的人臉對(duì)和不同label的人臉對(duì)的信息進(jìn)行語(yǔ)義特征映射,來使得同類之間的距離更小,異類之間的距離更大。

    上圖中,c是作者論文中挑選數(shù)據(jù)的示意圖,紅色表示相同label,藍(lán)色表示不同label。不同于適用于verification的contrastive loss,和利用hard neg和hard positive的做identification的triplet loss,該論文的優(yōu)化目標(biāo)如下圖,可以看到在選擇數(shù)據(jù)進(jìn)行訓(xùn)練的時(shí)候,作者實(shí)際上是利用了pair (i,j)的對(duì)應(yīng)的所有的不同label的人臉信息。這樣我們可以在當(dāng)前batch的優(yōu)化中,挑選出距離當(dāng)前對(duì)(i,j)最小的負(fù)樣本,從而使得其距離最大化。同時(shí),也加了使得同類之間距離最小化的限制。

2. CP-mtML: Coupled Projection Multi-Task Metric Learning for Large Scale Face Retrieval

二、人臉識(shí)別


1. Pose-Aware Face Recognition in the Wild
    
    這篇文章來自南加州大學(xué)Iacopo Masi,主要關(guān)注點(diǎn)在于人臉識(shí)別中的大姿態(tài)變化問題。不同于當(dāng)前大部分利用單一模型通過大量訓(xùn)練數(shù)據(jù),或者矯正人臉到正臉來學(xué)習(xí)姿態(tài)不變性的方法。作者通過使用五個(gè)指定角度模型和渲染人臉圖片的方法處理姿態(tài)變化。作者主要利用的數(shù)據(jù)集是IJB-A數(shù)據(jù)庫(kù),同時(shí)對(duì)比了其與LFW的挑戰(zhàn)性不同。

    給定一個(gè)需要驗(yàn)證的模版對(duì),每張圖片都經(jīng)過一個(gè)姿態(tài)分類器,然后不同的姿態(tài)輸入到不同的CNN模型,從而提取到特征,并且匹配以得到分?jǐn)?shù)。對(duì)于正面和側(cè)面都有一個(gè)平面內(nèi)對(duì)齊,對(duì)于0度角、40獨(dú)角側(cè)面、75度角側(cè)面都有一個(gè)平面外旋轉(zhuǎn)矯正。

2.Multi-view Deep Network for Cross-view Classification
    
    這篇文章來自中科院計(jì)算所山世光老師組Meina Kan的工作。類似于上篇論文,也是針對(duì)人臉識(shí)別中的跨視圖或跨姿態(tài)問題提出對(duì)應(yīng)的解決辦法,這篇論文嘗試移除人臉數(shù)據(jù)之間的跨模態(tài)差異性,并且找尋跨模態(tài)之間的非線性的差異性和模態(tài)不變性表達(dá)。


    作者提出的MvDN模型,由兩個(gè)子網(wǎng)絡(luò)組成。模態(tài)特定子網(wǎng)絡(luò)(view-specific subnetwork)用于移除指定模態(tài)的差異性,注意這里的多個(gè)自網(wǎng)絡(luò)1,2,...,v是多路復(fù)用的方式,也就是說公共子網(wǎng)絡(luò)獨(dú)立的連接到指定模態(tài)的子網(wǎng)絡(luò)。接下來的公共子網(wǎng)絡(luò)(common subnetwork)用于獲取所有模態(tài)的公共特征表達(dá)。作者使用Rayleigh quotient objective來學(xué)習(xí)整個(gè)網(wǎng)絡(luò)。目標(biāo)函數(shù)如下,
    其中樣本類內(nèi)離散度表示為下圖,最小化類內(nèi)離散度矩陣確保了跨模態(tài)之間的同類樣本間的距離更近。
    樣本類間離散度表示為下圖,這樣可以最大化跨模態(tài)不同類之間的距離。

3. Sparsifying Neural Network Connections for Face Recognition

    這篇文章來自香港中文湯曉鷗老師組Yi Sun大神的作品,在此膜一膜。早在DeepID2+里面,作者就做過sparse的一些解釋,認(rèn)為稀疏性對(duì)于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于人臉識(shí)別效果有提升。最近一年多,關(guān)于pruning(英偉達(dá)和斯坦福合作的論文[17])和sparse應(yīng)用于深度學(xué)習(xí)的文章比較多,也是神經(jīng)網(wǎng)絡(luò)優(yōu)化的一個(gè)重要方向。這篇文章實(shí)際上是應(yīng)該有類似于stacked Auto-Encoder的逐層單獨(dú)訓(xùn)練得到初始化參數(shù)的靈感。


    作者以迭代的方式來稀疏convnet,每次僅僅對(duì)其中一層加稀疏限制,得到的整個(gè)模型作為下次迭代的初始化參數(shù)。作者從最后一個(gè)卷積層開始加稀疏限制,并且固定前面幾層的參數(shù)。然后對(duì)倒數(shù)第二層局部連接層加稀疏限制,固定其他層的參數(shù)。依次從后往前。作者之所以先刪除高層的連接的原因是因?yàn)椋B接層和局部連接層在深度模型中有大量的參數(shù),而這些層里面的大量參數(shù)都是冗余的。同時(shí)Yi Sun也提到了具體如何用caffe去實(shí)現(xiàn)相關(guān)操作。

4. The MegaFace Benchmark: 1 Million Faces for Recognition at Scale

    這篇論文來自華盛頓大學(xué)的大規(guī)模人臉識(shí)別測(cè)試數(shù)據(jù)集。MegaFace資料集包含一百萬張圖片,代表690000個(gè)獨(dú)特的人。這是第一個(gè)在一百萬規(guī)模級(jí)別的面部識(shí)別算法測(cè)試基準(zhǔn)。

    現(xiàn)有臉部識(shí)別系統(tǒng)仍難以準(zhǔn)確識(shí)別超過百萬的數(shù)據(jù)量。為了比較現(xiàn)有公開臉部識(shí)別算法的準(zhǔn)確度,華盛頓大學(xué)在去年年底開展了一個(gè)名為“MegaFace Challenge”的公開競(jìng)賽。這個(gè)項(xiàng)目旨在研究當(dāng)數(shù)據(jù)庫(kù)規(guī)模提升數(shù)個(gè)量級(jí)時(shí),現(xiàn)有的臉部識(shí)別系統(tǒng)能否維持可靠的準(zhǔn)確率。

    下圖是人臉識(shí)別常用數(shù)據(jù)庫(kù)的規(guī)模介紹。
5. Latent Factor Guided Convolutional Neural Networks for Age-Invariant Face Recognition

    這篇論文來自中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院,主要介紹如何年齡不變性人臉識(shí)別(AIFR)。作者在幾個(gè)常用的人臉老齡化數(shù)據(jù)集上面做了實(shí)驗(yàn),比如MORPH Album2, FGNET, CACD-VS。在CACD-VS數(shù)據(jù)庫(kù)上超過了人類投票識(shí)別的結(jié)果。


    上圖介紹了作者提出的LF-CNN以及訓(xùn)練過程,前面三個(gè)卷積層是正常的卷積,后面的兩個(gè)卷積層是局部卷積層(最先在deepface論文中提出),作者用的激活函數(shù)是PReLU,同時(shí)使用Latent Identity Analysis (LIA)方法來學(xué)習(xí)全連接層部分的參數(shù)。

    作者分別使用了兩部分?jǐn)?shù)據(jù)來訓(xùn)練這兩個(gè)并行的網(wǎng)絡(luò),第一部分是用于學(xué)習(xí)全連接層參數(shù)標(biāo)注年齡和身份label的數(shù)據(jù),第二部分是用于學(xué)習(xí)卷積層參數(shù)的只標(biāo)注了身份label的數(shù)據(jù)。整個(gè)訓(xùn)練過程中,學(xué)習(xí)卷積層參數(shù)的時(shí)候,全連接層參數(shù)固定,并且最后既使用softmax loss,又使用contrastive loss。在學(xué)習(xí)全連接層參數(shù)的時(shí)候,卷積層的參數(shù)固定。具體的全連接層參數(shù)的學(xué)習(xí)過程可以參見論文以及下圖,具體不做贅述。


三、人臉老齡化

1. Recurrent Face Aging

    這篇文章是意大利特倫托大學(xué)的論文,也是CVPR2016的oral paper,主要是做人臉老齡化預(yù)測(cè)。以下圖是作者論文模型的效果示意圖,最左邊一列是輸入的圖片,其他的幾列分別是模型產(chǎn)生的更老齡化的人臉。


    作者認(rèn)為傳統(tǒng)的將年齡分組成離散組合,然后對(duì)于每個(gè)來源于相鄰的年齡段組成的人臉對(duì)進(jìn)行單步的特征映射方法忽略了相鄰年齡段之間的in-between evolving states。由于人臉老齡化是一個(gè)平緩的過程,所以作者認(rèn)為通過平緩的轉(zhuǎn)換變換更合適。因此,作者利用兩層的門循環(huán)單元作為基本循環(huán)模塊,其中的底層將一個(gè)年輕的人臉編碼成隱式表達(dá),頂層用于將隱式特征表達(dá)解碼成相應(yīng)的更老的人臉。


    作者使用兩個(gè)步驟來進(jìn)行操作。第一步是人臉歸一化,第二步是老齡化模式學(xué)習(xí)。作者通過迭代優(yōu)化特征臉和光流估計(jì)的方法來做人臉歸一化。循環(huán)人臉老化模塊如上圖所示,利用RNN來建模相鄰年齡段之間的老化模塊。RFA通過之前狀態(tài)人臉來產(chǎn)生進(jìn)一步老化的人臉。訓(xùn)練好后,我們可以通過0-5歲年齡段圖片的輸入,一步步得到61-80年齡段的人臉老齡化預(yù)測(cè)結(jié)果。

2. Ordinal Regression With Multiple Output CNN for Age Estimation

四、表情捕捉、復(fù)現(xiàn)


1. Face2Face: Real-time Face Capture and Reenactment of RGB Videos

    先來看段振奮人心的demo展示吧。實(shí)現(xiàn)表情捕捉,然后復(fù)現(xiàn)input video的表情。
http://weibo.com/p/23044490fdc7728d1859aff62fb4ca62f2eba8
[一個(gè)小故事,當(dāng)時(shí)cvpr2016現(xiàn)場(chǎng),作者打算演示下demo,結(jié)果打開visual studio之后,就崩了o(〃'▽'〃)o]  
女生的表情作為輸入源,將其表情map到施瓦辛格臉上。


    這篇論文也是CVPR2016的oral paper。論文中能夠?qū)崟r(shí)重現(xiàn)一個(gè)人說話時(shí)的動(dòng)作和表情,并將其映射到(視頻中)另外一個(gè)人的臉上。該軟件有一個(gè)強(qiáng)大的研究團(tuán)隊(duì),包括來自普朗克信息學(xué)研究所(Max Planck Institute for Informatics)、埃朗根紐倫堡大學(xué)(University of Erlangen-Nuremberg)和斯坦福大學(xué)的研究人員。

    這個(gè)技術(shù)的原理是通過一種密集光度一致性辦法(Dense Photometric Consistency measure),達(dá)到跟蹤源和目標(biāo)視頻中臉部表情的實(shí)時(shí)轉(zhuǎn)換,由于間隔的時(shí)間很短,使得“復(fù)制”面部表情成為可能,但現(xiàn)在還沒辦法實(shí)現(xiàn)聲音也一樣模仿出來。[由于對(duì)這部分不是很了解,所以部分摘自新聞信息(?^?^)?]

五、人臉檢測(cè)

1.Joint Training of Cascaded CNN for Face Detection
2. WIDER FACE: A Face Detection Benchmark

六、人臉對(duì)齊

1. Face Alignment Across Large Poses: A 3D Solution.
2. Unconstrained Face Alignment via Cascaded Compositional Learning.
3. Occlusion-Free Face Alignment: Deep Regression Networks Coupled With De-Corrupt AutoEncoders.
4. Mnemonic Descent Method: A Recurrent Process Applied for End-To-End Face Alignment.
5. Large-Pose Face Alignment via CNN-Based Dense 3D Model Fitting.

七、人臉重建

1. Automated 3D Face Reconstruction From Multiple Images Using Quality Measures.
2. A Robust Multilinear Model Learning Framework for 3D Faces.
3. Adaptive 3D Face Reconstruction From Unconstrained Photo Collections.
4. A 3D Morphable Model Learnt From 10,000 Faces.

結(jié)語(yǔ)

    總的來說,CVPR2016會(huì)議中關(guān)于人臉的論文仍然有很多,涉及到計(jì)算機(jī)視覺,圖形學(xué),深度學(xué)習(xí)等等方面,CVPR的工業(yè)界展示上面,也有很多令人振奮的demo。很多廠商都參展了,比如百度IDL,騰訊優(yōu)圖,商湯,格靈深瞳,曠視科技等。除了本文提到的論文,感興趣的同學(xué)和老師可以在CVPR2016官網(wǎng)查詢更多論文:
    http://cvpr2016.thecvf.com/program/main_conference
    所有pdf版本友善版下載鏈接:
    http://www.cv-foundation.org/openaccess/CVPR2016.py
    已開源的所有論文code的下載鏈接:
    https://tensortalk.com/?cat=conference-cvpr-2016&t=type-code

致謝
本文作者特別感謝中科院計(jì)算所闞美娜副研究員對(duì)本文的修改和建設(shè)性意見。

參考文獻(xiàn)
[1] Wang W, Cui Z, Yan Y, et al. Recurrent Face Aging[J].
[2] Thies J, Zollhöfer M, Stamminger M, et al. Face2face: Real-time face capture and reenactment of rgb videos[J]. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2016, 1.
[3] Qin H, Yan J, Li X, et al. Joint Training of Cascaded CNN for Face Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 3456-3465.
[4]CP-mtML: Coupled Projection Multi-Task Metric Learning for Large Scale Face Retrieval.
[5] Song H O, Xiang Y, Jegelka S, et al. Deep metric learning via lifted structured feature embedding[J]. arXiv preprint arXiv:1511.06452, 2015.
[6] Masi I, Rawls S, Medioni G, et al. Pose-Aware Face Recognition in the Wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4838-4846.
[7] Kan M, Shan S, Chen X. Multi-view Deep Network for Cross-view Classification[J].
[8] Sun Y, Wang X, Tang X. Sparsifying Neural Network Connections for Face Recognition[J]. arXiv preprint arXiv:1512.01891, 2015.
[9] Feng Q, Zhou Y, Lan R. Pairwise Linear Regression Classification for Image Set Retrieval[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4865-4872.
[10] Kemelmacher-Shlizerman I, Seitz S, Miller D, et al. The megaface benchmark: 1 million faces for recognition at scale[J]. arXiv preprint arXiv:1512.00596, 2015.
 [11] Wen Y, Li Z, Qiao Y. Latent Factor Guided Convolutional Neural Networks for Age-Invariant Face Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4893-4901.
[12] Abaza A, Harrison M A, Bourlai T. Quality metrics for practical face recognition[C]//Pattern Recognition (ICPR), 2012 21st International Conference on. IEEE, 2012: 3103-3107.
[13] Taigman Y, Yang M, Ranzato M A, et al. Deepface: Closing the gap to human-level performance in face verification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1701-1708.
[14]Sun Y, Chen Y, Wang X, et al. Deep learning face representation by joint identification-verification[C]//Advances in Neural Information Processing Systems. 2014: 1988-1996.
[15]Hadsell R, Chopra S, LeCun Y. Dimensionality reduction by learning an invariant mapping[C]//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06). IEEE, 2006, 2: 1735-1742.
[16] Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 815-823.
[17] Han S, Pool J, Tran J, et al. Learning both weights and connections for efficient neural network[C]//Advances in Neural Information Processing Systems. 2015: 1135-1143.