一、人臉表情識(shí)別技術(shù)目前主要的應(yīng)用領(lǐng)域包括人機(jī)交互、安全、機(jī)器人制造、醫(yī)療、通信和汽車領(lǐng)域等
二、1971年,心理學(xué)家Ekman與Friesen的研究最早提出人類有六種主要情感,每種情感以唯一的表情來(lái)反映人的一種獨(dú)特的心理活動(dòng)。這六種情感被稱為基本情感,由憤怒(anger)、高興(happiness)、悲傷 (sadness)、驚訝(surprise)、厭惡(disgust)和恐懼(fear)組成
人臉面部表情運(yùn)動(dòng)的描述方法---人臉運(yùn)動(dòng)編碼系統(tǒng)FACS (Facial Action Coding System),根據(jù)面部肌肉的類型和運(yùn)動(dòng)特征定義了基本形變單元AU(Action Unit),人臉面部的各種表情最終能分解對(duì)應(yīng)到各個(gè)AU上來(lái),分析表情特征信息,就是分析面部AU的變化情況
FACS有兩個(gè)主要弱點(diǎn):1.運(yùn)動(dòng)單元是純粹的局部化的空間模板;2.沒(méi)有時(shí)間描述信息,只是一個(gè)啟發(fā)式信息
三、人臉表情識(shí)別的過(guò)程和方法
1、表情庫(kù)的建立:目前,研究中比較常用的表情庫(kù)主要有:美國(guó)CMU機(jī)器人研究所和心理學(xué)系共同建立的Cohn-Kanade AU-Coded Facial Expression Image Database(簡(jiǎn)稱CKACFEID)人臉表情數(shù)據(jù)庫(kù);日本ATR建立的日本女性表情數(shù)據(jù)庫(kù)(JAFFE),它是研究亞洲人表情的重要測(cè)試庫(kù)
2、表情識(shí)別:
(1)圖像獲取:通過(guò)攝像頭等圖像捕捉工具獲取靜態(tài)圖像或動(dòng)態(tài)圖像序列。
(2)圖像預(yù)處理:圖像的大小和灰度的歸一化,頭部姿態(tài)的矯正,圖像分割等。
è目的:改善圖像質(zhì)量,消除噪聲,統(tǒng)一圖像灰度值及尺寸,為后序特征提取和分類識(shí)別打好基礎(chǔ)
主要工作è人臉表情識(shí)別子區(qū)域的分割以及表情圖像的歸一化處理(尺度歸一和灰度歸一)
(3)特征提取:將點(diǎn)陣轉(zhuǎn)化成更高級(jí)別圖像表述—如形狀、運(yùn)動(dòng)、顏色、紋理、空間結(jié)構(gòu)等, 在盡可能保證穩(wěn)定性和識(shí)別率的前提下,對(duì)龐大的圖像數(shù)據(jù)進(jìn)行降維處理。
è特征提取的主要方法有:提取幾何特征、統(tǒng)計(jì)特征、頻率域特征和運(yùn)動(dòng)特征等
1)采用幾何特征進(jìn)行特征提取主要是對(duì)人臉表情的顯著特征,如眼睛、眉毛、嘴巴等的位置變化進(jìn)行定位、測(cè)量,確定其大小、距離、形狀及相互比例等特征,進(jìn)行表情識(shí)別
優(yōu)點(diǎn):減少了輸入數(shù)據(jù)量
缺點(diǎn):丟失了一些重要的識(shí)別和分類信息,結(jié)果的精確性不高
2)基于整體統(tǒng)計(jì)特征的方法主要強(qiáng)調(diào)盡可能多的保留原始人臉表情圖像中的信息,并允許分類器發(fā)現(xiàn)表情圖像中相關(guān)特征,通過(guò)對(duì)整幅人臉表情圖像進(jìn)行變換,獲取特征進(jìn)行識(shí)別。
主要方法:PCA和ICA(獨(dú)立主元分析)
PCAè用一個(gè)正交維數(shù)空間來(lái)說(shuō)明數(shù)據(jù)變化的主要方向 優(yōu)點(diǎn):具有較好的可重建性 缺點(diǎn):可分性較差
ICAè可以獲取數(shù)據(jù)的獨(dú)立成份,具有很好的可分性
基于圖像整體統(tǒng)計(jì)特征的提取方法缺點(diǎn):外來(lái)因素的干擾(光照、角度、復(fù)雜背景等)將導(dǎo)致識(shí)別率下降
3)基于頻率域特征提取: 是將圖像從空間域轉(zhuǎn)換到頻率域提取其特征(較低層次的特征)
主要方法:Gabor小波變換
小波變換能夠通過(guò)定義不同的核頻率、帶寬和方向對(duì)圖像進(jìn)行多分辨率分析,能有效提取不同方向不同細(xì)節(jié)程度的圖像特征并相對(duì)穩(wěn)定,但作為低層次的特征,不易直接用于匹配和識(shí)別,常與ANN 或SVM 分類器結(jié)合使用,提高表情識(shí)別的準(zhǔn)確率。
4)基于運(yùn)動(dòng)特征的提?。?/span>提取動(dòng)態(tài)圖像序列的運(yùn)動(dòng)特征(今后研究的重點(diǎn))
主要方法:光流法
光流是指亮度模式引起的表觀運(yùn)動(dòng),是景物中可見(jiàn)點(diǎn)的三維速度矢量在成像平面上的投影,它表示景物表面上的點(diǎn)在圖像中位置的瞬時(shí)變化,同時(shí)光流場(chǎng)攜帶了有關(guān)運(yùn)動(dòng)和結(jié)構(gòu)的豐富信息
光流模型是處理運(yùn)動(dòng)圖像的有效方法,其基本思想是將運(yùn)動(dòng)圖像函數(shù)f (x, y,t)作為基本函數(shù),根據(jù)圖像強(qiáng)度守恒原理建立光流約束方程,通過(guò)求解約束方程,計(jì)算運(yùn)動(dòng)參數(shù)。
優(yōu)點(diǎn):反映了表情變化的實(shí)質(zhì),受光照不均性影響較小
缺點(diǎn):計(jì)算量大
(4)分類判別:包括設(shè)計(jì)和分類決策
在表情識(shí)別的分類器設(shè)計(jì)和選擇階段,主要有以下方法:用線性分類器、神經(jīng)網(wǎng)絡(luò)分類器、支持向量機(jī)、隱馬爾可夫模型等分類識(shí)別方法
1) 線性分類器:假設(shè)不同類別的模式空間線性可分,引起可分的主要原因是不同表情之間的差異。
2) 神經(jīng)網(wǎng)絡(luò)分類器:人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是一種模擬人腦神經(jīng)元細(xì)胞的網(wǎng)絡(luò)結(jié)構(gòu),它是由大量簡(jiǎn)單的基本元件—神經(jīng)元,相互連接成的自適應(yīng)非線性動(dòng)態(tài)系統(tǒng)。將人臉特征的坐標(biāo)位置和其相應(yīng)的灰度值作為神經(jīng)網(wǎng)絡(luò)的輸入,ANN可以提供很難想象的復(fù)雜的類間分界面。
神經(jīng)網(wǎng)絡(luò)分類器主要有:多層感知器、BP網(wǎng)、RBF網(wǎng)
缺點(diǎn):需要大量的訓(xùn)練樣本和訓(xùn)練時(shí)間,不能滿足實(shí)時(shí)處理要求
3) 支持向量機(jī)(SVM)分類算法:泛化能力很強(qiáng)、解決小樣本、非線性及高維模式識(shí)別問(wèn)題方面表、新的研究熱點(diǎn)
基本思想:對(duì)于非線性可分樣本,首先通過(guò)非線性變換將輸入空間變換到一個(gè)高維空間,然后在這個(gè)新空間中求取最優(yōu)線性分界面。這種非線性變換通過(guò)定義適當(dāng)?shù)?/span>內(nèi)積函數(shù)實(shí)現(xiàn),常用的三種內(nèi)積函數(shù)為:多項(xiàng)式內(nèi)積函數(shù)、徑向基內(nèi)積函數(shù)、Sigmoid內(nèi)積函數(shù)
4) 隱馬爾可夫模型(Hidden Markov Models, HMM):特點(diǎn):統(tǒng)計(jì)模型、健壯的數(shù)學(xué)結(jié)構(gòu),適用于動(dòng)態(tài)過(guò)程時(shí)間序列建模,具有強(qiáng)大的模式分類能力,理論上可處理任意長(zhǎng)度的時(shí)序,應(yīng)用范圍非常廣泛。
優(yōu)點(diǎn):運(yùn)用HMM方法能夠比較精確的描繪表情的變化本質(zhì)和動(dòng)態(tài)性能
5) 其他方法:
基于人臉物理模型的識(shí)別方法,將人臉圖像建模為可變形的3D網(wǎng)格表面,把空間和灰度放在一個(gè)3D空間中同時(shí)考慮。
基于模型圖像編碼的方法是使用遺傳算法來(lái)編碼、識(shí)別與合成各種不同的表情
四、研究展望
(1)魯棒性有待提高:
外界因素(主要是頭部偏轉(zhuǎn)及光線變化的干擾)
采用多攝像頭技術(shù)、色彩補(bǔ)償技術(shù)予以解決,有一定效果,但并不理想
(2)表情識(shí)別計(jì)算量有待降低è確保實(shí)時(shí)性的要求
(3)加強(qiáng)多信息技術(shù)的融合
面部表情不是唯一的情感表現(xiàn)方式,綜合語(yǔ)音語(yǔ)調(diào)、脈搏、體溫等多方面信息來(lái)更準(zhǔn)確地推測(cè)人的內(nèi)心情感,將是表情識(shí)別技術(shù)需要考慮的問(wèn)題