http://mp.weixin.qq.com/s?__biz=MzI1NTE4NTUwOQ==&mid=2650325063&idx=1&sn=8430ef3dbd2d871c63f2b7fbac90c0b4&scene=23&srcid=0715pmVjHqYCKS3fnfLYwO8L#rd

前言

    人臉識別,作為深度學習應用一個比較具有難度的方向,近幾年一直得到工業界和學術界的廣泛關注。目前大部分人了解到的人臉識別的性能都是從LFW數據庫說起,大家一談起人臉識別,都會認為目前人臉識別已經足夠好了,好到確認性能已經到了 99.77%。但是人臉識別真的做到了我們看到的數字那樣完善嗎?遠遠沒有!

    

    LFW數據庫僅包含了部分場景的姿態、背景等變化,而且大部分實驗結果都是基于嚴格提取關鍵點、人臉矯正后的訓練樣本和測試樣本(今年CVPR做face alignment仍然是個很熱門的方向)得到的。對于實際應用中的光照、對比度、抖動、焦點、模糊、遮擋、分辨率、姿態等因素影響人臉識別的復雜因素[12]依然沒有得到完全解決。因此,一些更具有挑戰性的人臉數據庫也發布出來,比如MegaFace、IJB-A等數據庫、微軟百萬名人數據庫(不過這個數據庫比較noisy)。


    此外,視頻人臉識別也是目前仍然比較難的一個方向,今年沒有出現LSTM或者attention model去做視頻中人臉識別的論文,反倒是光流、LSTM做視頻中Events, Actions, and Activity Recognition的論文比較多。


    本次會議大家可以關注人臉的以下幾個點:人臉老齡化預測[1]、人臉的表情捕捉和復現[2]、人臉alignment(偏向于三維alignment、姿態變化較大情況下的alignment)、同時訓練的級聯CNN做人臉檢測[3]、大規模人臉檢索問題(度量學習)[4]、深度度量學習(常用于學習得到人臉的具有區分性的特征)[5]、人臉識別問題[6,7,8,9,10,11]、更具挑戰性的人臉數據集MegaFace的提出等。


    接下來對CVPR2016上與人臉相關的部分文章進行介紹。


一、深度度量學習


  1. Deep Metric Learning via Lifted Structured Feature Embedding

    這篇文章來自斯坦福大學 Hyun Oh Song等人的工作。之所以介紹這篇論文,是因為deep metric learning是深度學習應用于人臉識別領域的一個最常用的方法,利用比較好的目標函數可以學到更具有區分性的人臉特征。目前比較經典的幾篇人臉識別的論文都有用到deep metric learning的方法,比如facebook公司的DeepFace[13]里面有用到加權卡方距離和contrastive loss[15]兩種度量方式。香港中文的DeepID2[14]里面有用到contrastive loss的度量。Google公司的Facenet里面有用到triplet loss[16]的度量。而這篇論文作為CVPR2016的oral paper,提出了利用訓練的batch里面所有相同label的人臉對和不同label的人臉對的信息進行語義特征映射,來使得同類之間的距離更小,異類之間的距離更大。

    上圖中,c是作者論文中挑選數據的示意圖,紅色表示相同label,藍色表示不同label。不同于適用于verification的contrastive loss,和利用hard neg和hard positive的做identification的triplet loss,該論文的優化目標如下圖,可以看到在選擇數據進行訓練的時候,作者實際上是利用了pair (i,j)的對應的所有的不同label的人臉信息。這樣我們可以在當前batch的優化中,挑選出距離當前對(i,j)最小的負樣本,從而使得其距離最大化。同時,也加了使得同類之間距離最小化的限制。

2. CP-mtML: Coupled Projection Multi-Task Metric Learning for Large Scale Face Retrieval

二、人臉識別


1. Pose-Aware Face Recognition in the Wild
    
    這篇文章來自南加州大學Iacopo Masi,主要關注點在于人臉識別中的大姿態變化問題。不同于當前大部分利用單一模型通過大量訓練數據,或者矯正人臉到正臉來學習姿態不變性的方法。作者通過使用五個指定角度模型和渲染人臉圖片的方法處理姿態變化。作者主要利用的數據集是IJB-A數據庫,同時對比了其與LFW的挑戰性不同。

    給定一個需要驗證的模版對,每張圖片都經過一個姿態分類器,然后不同的姿態輸入到不同的CNN模型,從而提取到特征,并且匹配以得到分數。對于正面和側面都有一個平面內對齊,對于0度角、40獨角側面、75度角側面都有一個平面外旋轉矯正。

2.Multi-view Deep Network for Cross-view Classification
    
    這篇文章來自中科院計算所山世光老師組Meina Kan的工作。類似于上篇論文,也是針對人臉識別中的跨視圖或跨姿態問題提出對應的解決辦法,這篇論文嘗試移除人臉數據之間的跨模態差異性,并且找尋跨模態之間的非線性的差異性和模態不變性表達。


    作者提出的MvDN模型,由兩個子網絡組成。模態特定子網絡(view-specific subnetwork)用于移除指定模態的差異性,注意這里的多個自網絡1,2,...,v是多路復用的方式,也就是說公共子網絡獨立的連接到指定模態的子網絡。接下來的公共子網絡(common subnetwork)用于獲取所有模態的公共特征表達。作者使用Rayleigh quotient objective來學習整個網絡。目標函數如下,
    其中樣本類內離散度表示為下圖,最小化類內離散度矩陣確保了跨模態之間的同類樣本間的距離更近。
    樣本類間離散度表示為下圖,這樣可以最大化跨模態不同類之間的距離。

3. Sparsifying Neural Network Connections for Face Recognition

    這篇文章來自香港中文湯曉鷗老師組Yi Sun大神的作品,在此膜一膜。早在DeepID2+里面,作者就做過sparse的一些解釋,認為稀疏性對于卷積神經網絡應用于人臉識別效果有提升。最近一年多,關于pruning(英偉達和斯坦福合作的論文[17])和sparse應用于深度學習的文章比較多,也是神經網絡優化的一個重要方向。這篇文章實際上是應該有類似于stacked Auto-Encoder的逐層單獨訓練得到初始化參數的靈感。


    作者以迭代的方式來稀疏convnet,每次僅僅對其中一層加稀疏限制,得到的整個模型作為下次迭代的初始化參數。作者從最后一個卷積層開始加稀疏限制,并且固定前面幾層的參數。然后對倒數第二層局部連接層加稀疏限制,固定其他層的參數。依次從后往前。作者之所以先刪除高層的連接的原因是因為,全連接層和局部連接層在深度模型中有大量的參數,而這些層里面的大量參數都是冗余的。同時Yi Sun也提到了具體如何用caffe去實現相關操作。

4. The MegaFace Benchmark: 1 Million Faces for Recognition at Scale

    這篇論文來自華盛頓大學的大規模人臉識別測試數據集。MegaFace資料集包含一百萬張圖片,代表690000個獨特的人。這是第一個在一百萬規模級別的面部識別算法測試基準。

    現有臉部識別系統仍難以準確識別超過百萬的數據量。為了比較現有公開臉部識別算法的準確度,華盛頓大學在去年年底開展了一個名為“MegaFace Challenge”的公開競賽。這個項目旨在研究當數據庫規模提升數個量級時,現有的臉部識別系統能否維持可靠的準確率。

    下圖是人臉識別常用數據庫的規模介紹。
5. Latent Factor Guided Convolutional Neural Networks for Age-Invariant Face Recognition

    這篇論文來自中國科學院深圳先進技術研究院,主要介紹如何年齡不變性人臉識別(AIFR)。作者在幾個常用的人臉老齡化數據集上面做了實驗,比如MORPH Album2, FGNET, CACD-VS。在CACD-VS數據庫上超過了人類投票識別的結果。


    上圖介紹了作者提出的LF-CNN以及訓練過程,前面三個卷積層是正常的卷積,后面的兩個卷積層是局部卷積層(最先在deepface論文中提出),作者用的激活函數是PReLU,同時使用Latent Identity Analysis (LIA)方法來學習全連接層部分的參數。

    作者分別使用了兩部分數據來訓練這兩個并行的網絡,第一部分是用于學習全連接層參數標注年齡和身份label的數據,第二部分是用于學習卷積層參數的只標注了身份label的數據。整個訓練過程中,學習卷積層參數的時候,全連接層參數固定,并且最后既使用softmax loss,又使用contrastive loss。在學習全連接層參數的時候,卷積層的參數固定。具體的全連接層參數的學習過程可以參見論文以及下圖,具體不做贅述。


三、人臉老齡化

1. Recurrent Face Aging

    這篇文章是意大利特倫托大學的論文,也是CVPR2016的oral paper,主要是做人臉老齡化預測。以下圖是作者論文模型的效果示意圖,最左邊一列是輸入的圖片,其他的幾列分別是模型產生的更老齡化的人臉。


    作者認為傳統的將年齡分組成離散組合,然后對于每個來源于相鄰的年齡段組成的人臉對進行單步的特征映射方法忽略了相鄰年齡段之間的in-between evolving states。由于人臉老齡化是一個平緩的過程,所以作者認為通過平緩的轉換變換更合適。因此,作者利用兩層的門循環單元作為基本循環模塊,其中的底層將一個年輕的人臉編碼成隱式表達,頂層用于將隱式特征表達解碼成相應的更老的人臉。


    作者使用兩個步驟來進行操作。第一步是人臉歸一化,第二步是老齡化模式學習。作者通過迭代優化特征臉和光流估計的方法來做人臉歸一化。循環人臉老化模塊如上圖所示,利用RNN來建模相鄰年齡段之間的老化模塊。RFA通過之前狀態人臉來產生進一步老化的人臉。訓練好后,我們可以通過0-5歲年齡段圖片的輸入,一步步得到61-80年齡段的人臉老齡化預測結果。

2. Ordinal Regression With Multiple Output CNN for Age Estimation

四、表情捕捉、復現


1. Face2Face: Real-time Face Capture and Reenactment of RGB Videos

    先來看段振奮人心的demo展示吧。實現表情捕捉,然后復現input video的表情。
http://weibo.com/p/23044490fdc7728d1859aff62fb4ca62f2eba8
[一個小故事,當時cvpr2016現場,作者打算演示下demo,結果打開visual studio之后,就崩了o(〃'▽'〃)o]  
女生的表情作為輸入源,將其表情map到施瓦辛格臉上。


    這篇論文也是CVPR2016的oral paper。論文中能夠實時重現一個人說話時的動作和表情,并將其映射到(視頻中)另外一個人的臉上。該軟件有一個強大的研究團隊,包括來自普朗克信息學研究所(Max Planck Institute for Informatics)、埃朗根紐倫堡大學(University of Erlangen-Nuremberg)和斯坦福大學的研究人員。

    這個技術的原理是通過一種密集光度一致性辦法(Dense Photometric Consistency measure),達到跟蹤源和目標視頻中臉部表情的實時轉換,由于間隔的時間很短,使得“復制”面部表情成為可能,但現在還沒辦法實現聲音也一樣模仿出來。[由于對這部分不是很了解,所以部分摘自新聞信息(?^?^)?]

五、人臉檢測

1.Joint Training of Cascaded CNN for Face Detection
2. WIDER FACE: A Face Detection Benchmark

六、人臉對齊

1. Face Alignment Across Large Poses: A 3D Solution.
2. Unconstrained Face Alignment via Cascaded Compositional Learning.
3. Occlusion-Free Face Alignment: Deep Regression Networks Coupled With De-Corrupt AutoEncoders.
4. Mnemonic Descent Method: A Recurrent Process Applied for End-To-End Face Alignment.
5. Large-Pose Face Alignment via CNN-Based Dense 3D Model Fitting.

七、人臉重建

1. Automated 3D Face Reconstruction From Multiple Images Using Quality Measures.
2. A Robust Multilinear Model Learning Framework for 3D Faces.
3. Adaptive 3D Face Reconstruction From Unconstrained Photo Collections.
4. A 3D Morphable Model Learnt From 10,000 Faces.

結語

    總的來說,CVPR2016會議中關于人臉的論文仍然有很多,涉及到計算機視覺,圖形學,深度學習等等方面,CVPR的工業界展示上面,也有很多令人振奮的demo。很多廠商都參展了,比如百度IDL,騰訊優圖,商湯,格靈深瞳,曠視科技等。除了本文提到的論文,感興趣的同學和老師可以在CVPR2016官網查詢更多論文:
    http://cvpr2016.thecvf.com/program/main_conference
    所有pdf版本友善版下載鏈接:
    http://www.cv-foundation.org/openaccess/CVPR2016.py
    已開源的所有論文code的下載鏈接:
    https://tensortalk.com/?cat=conference-cvpr-2016&t=type-code

致謝
本文作者特別感謝中科院計算所闞美娜副研究員對本文的修改和建設性意見。

參考文獻
[1] Wang W, Cui Z, Yan Y, et al. Recurrent Face Aging[J].
[2] Thies J, Zollhöfer M, Stamminger M, et al. Face2face: Real-time face capture and reenactment of rgb videos[J]. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2016, 1.
[3] Qin H, Yan J, Li X, et al. Joint Training of Cascaded CNN for Face Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 3456-3465.
[4]CP-mtML: Coupled Projection Multi-Task Metric Learning for Large Scale Face Retrieval.
[5] Song H O, Xiang Y, Jegelka S, et al. Deep metric learning via lifted structured feature embedding[J]. arXiv preprint arXiv:1511.06452, 2015.
[6] Masi I, Rawls S, Medioni G, et al. Pose-Aware Face Recognition in the Wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4838-4846.
[7] Kan M, Shan S, Chen X. Multi-view Deep Network for Cross-view Classification[J].
[8] Sun Y, Wang X, Tang X. Sparsifying Neural Network Connections for Face Recognition[J]. arXiv preprint arXiv:1512.01891, 2015.
[9] Feng Q, Zhou Y, Lan R. Pairwise Linear Regression Classification for Image Set Retrieval[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4865-4872.
[10] Kemelmacher-Shlizerman I, Seitz S, Miller D, et al. The megaface benchmark: 1 million faces for recognition at scale[J]. arXiv preprint arXiv:1512.00596, 2015.
 [11] Wen Y, Li Z, Qiao Y. Latent Factor Guided Convolutional Neural Networks for Age-Invariant Face Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4893-4901.
[12] Abaza A, Harrison M A, Bourlai T. Quality metrics for practical face recognition[C]//Pattern Recognition (ICPR), 2012 21st International Conference on. IEEE, 2012: 3103-3107.
[13] Taigman Y, Yang M, Ranzato M A, et al. Deepface: Closing the gap to human-level performance in face verification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1701-1708.
[14]Sun Y, Chen Y, Wang X, et al. Deep learning face representation by joint identification-verification[C]//Advances in Neural Information Processing Systems. 2014: 1988-1996.
[15]Hadsell R, Chopra S, LeCun Y. Dimensionality reduction by learning an invariant mapping[C]//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06). IEEE, 2006, 2: 1735-1742.
[16] Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 815-823.
[17] Han S, Pool J, Tran J, et al. Learning both weights and connections for efficient neural network[C]//Advances in Neural Information Processing Systems. 2015: 1135-1143.