zz http://blog.csdn.net/wangweitingaabbcc/article/details/6843889
1 引言
在我們生存的這個地球上,居住着近 65 億人。每個人的面孔都由額頭、眉毛、眼睛、鼻子、嘴巴、雙頰等少數幾個區域組合而成,它們之間的大體位置關系也是固定的,並且每張臉的大小不過七八寸見方。然而,它們居然就形成了那么復雜的模式,即使是面容極其相似的雙胞胎,其家人通常也能夠非常容易地根據他們面孔上的細微差異將他們區分開來。這使得我們不得不承認這個世界上找不出兩張完全相同的人臉!那么,區分如此眾多的不同人臉的“特征”到底是什么?能否設計出具有與人類一樣的人臉識別能力的自動機器?這種自動機器的人臉識別能力是否能夠超越人類自身?對這些問題的分析和解答無疑具有重要的理論和應用價值,這正是眾多從事自動人臉識別研究的研究人員所面臨的挑戰。 然而,對這些問題的回答並不像看起來那么容易。即使在大量來自模式識別、計算機視覺、神經計算、生理學等領域的研究人員對自動人臉識別艱苦工作 40 余年之后,這些最基本的科學問題仍然困惑着研究人員。而退一步講,即使對我們自己,盡管我們每天都在根據面孔區分着親人、同學、朋友、同事等,大多數人卻很難准確地描述出自己到底是如何區分他們的,甚至描述不出自己熟悉的人有什么具體的特征。即使專門從事相關的生理學、心理學、神經科學研究的一些專家,也很難描述清楚人類人臉識別的生理學過程。這意味着基於仿生學的人臉識別研究路線在實踐上是難以操作的。當然,飛機的翅膀並不需要像鳥兒的翅膀一樣煽動,自動人臉識別的計算模型也未必需要模擬“人腦” 。我們也許可以通過另外的途徑,例如建立人臉識別的計算模型,這種計算模型可能是基於仿生神經網絡的,也可能是純粹基於統計的,或者是這二者之外的第三只眼睛,並通過構建實用的自動人臉識別系統來驗證這些計算模型,從而找出對上述基本科學問題的解答。 本文首先給出了人臉識別的一個一般計算模型,然后簡單回顧自動人臉識別的研究歷史,接下來闡述人臉識別的研究現狀並介紹幾種主流的技術方法,簡單介紹計算所人臉識別研究組的研究進展,最后對上述哲學層面的問題作了一些簡單的探討。 2 計算模型初探
通常我們所說的人臉識別是基於光學人臉圖像的身份識別與驗證的簡稱。光學人臉圖像(以下簡稱人臉圖像)是外界光源(包括太陽、室內人造光源和其他物體表面反射)的光線照射在人臉上,經人臉表面反射后傳播到攝像機傳感器的光線強度的度量。不難理解,這一成像過程實際上涉及到
三大類關鍵要素:
1. 人臉內部屬性:包括人臉表面的反射屬性(如反射系數等,通常簡稱為紋理--Texture) 、人臉3D形狀(表面法向量方向) 、人臉表情、胡須等屬性的變化;
2. 外部成像條件:包括光源(位置和強度等) 、其他物體(比如眼鏡、帽子)或者人體其他部件(比如頭發)對人臉的遮擋等;
3. 攝像機成像參數:包括攝像機位置(視點) 、攝像機的焦距、光圈、快門速度等內外部參數
因此,光學人臉圖像的成像過程可以簡單地形式化為:
I = f ( F , L ,C )
(1)其中,函數 f 表示成像函數,F,L 和 C 分別表示人臉內部屬性、外部成像條件和攝像機成像參數這三類要素, I 為生成的人臉圖像。如果我們進一步假設:人臉皮膚的反射屬性滿足朗博(Lambertian)模型,人臉為凸表面結構,光源為無窮遠處的單色點光源,上述成像公式可以進一步改寫.綜上所述,理想情況下,要根據人臉圖像區分出不同的人臉,根本上似乎需要從人臉圖像表觀中分離開人臉穩定不變的本質屬性(3D形狀與表面反射率)與外界條件和攝像參數。然后,從 3D形狀與表面反射率屬性中提取不同人臉的差異信息,饋入到后端的判別分類器中進行識別。設輸入圖像為 I,這一過程可以形式化為以下三個步驟:
1. 屬性分離。分離人臉本質屬性要素與光源條件 s*、攝像參數c*等外部參數要素:
2. 特征提取。從人臉屬性要素中提取能夠體現特定人臉身份的特征:
3. 分類判別。將提取的特征與數據庫中存儲的已知人臉特征進行對比,選擇相似度最大的人臉作為輸入人臉的身份信息:
然而,這一過程並不那么簡單直接:從單一未知光源條件的圖像中恢復 3D 形狀信息和表面反射率是經典的視覺難題,本質上是一個病態的問題。盡管近年來研究人員通過利用各種約束條件和先驗知識可以在一定程度上實現該功能,或者要求多幅不同光照條件下的圖像以便得到更精確的估計結果,但直到現在仍沒有取得本質的突破。除了少數采用特殊設備獲取人臉 3D 結構的系統外,多數系統不得不退而求其次,采用的人臉建模方法仍然停留在圖像表觀層面上,並沒有使用對 3D形狀和紋理進行顯式分離的步驟,而是直接從圖像表觀中提取判別特征並進行分類來完成識別,此時公式(2-4)相應地改.
例如,在基於面部結構幾何特征的人臉識別方法中,T 通常是一個計算面部主要器官(眉毛、眼睛、鼻子、嘴巴和下巴)的大小、形狀、位置和角度關系等幾何度量參數的過程,最終形成的特征 F*是一個反映這些幾何度量的特征向量。對於模板匹配方法而言,T是對人臉圖像進行幾何歸一化和亮度校正的過程,得到的 F*則是一個反映圖像各像素點亮度的二維數據矩陣。再比如對“特征臉”方法而言,T是一個將高維空間中的人臉圖像降維到一個低維子空間中的變換(主成分分析) ,形成的特征 F*是降維后的主成分特征分量。 需要指出的是,近年來布蘭茲(Blanz)和維特(Vetter)等人提出的 3D 變形模型方法是上述理論計算模型的重要嘗試,已經引起了研究人員的高度重視。盡管還存在很多困難,比如速度和恢復精度問題,但相信此方面的工作近期會有更大的突破。
3 研究簡史
人臉識別的研究歷史比較悠久。高爾頓(Galton)早在 1888 年和 1910 年就分別在《Nature》雜志發表了兩篇關於利用人臉進行身份識別的文章,對人類自身的人臉識別能力進行了分析。但當時還不可能涉及到人臉的自動識別問題。最早的AFR1的研究論文見於 1965 年陳(Chan)和布萊索(Bledsoe)在Panoramic Research Inc.發表的技術報告,至今已有四十年的歷史。近年來,人臉識別研究得到了諸多研究人員的青睞,涌現出了諸多技術方法。尤其是 1990 年以來,人臉識別更得到了長足的發展。幾乎所有知名的理工科大學和主要IT產業公司都有研究組在從事相關研究。
表 1 人臉識別發展歷史簡表
人臉識別是一個被廣泛研究着的熱門問題,大量的研究論文層出不窮,在一定程度上有泛濫成“災”之嫌。為了更好地對人臉識別研究的歷史和現狀進行介紹,本文將 AFR 的研究歷史按照研究內容、技術方法等方面的特點大體划分為三個時間階段,如表1 所示。該表格概括了人臉識別研究的發展簡史及其每個歷史階段代表性的研究工作及其技術特點。下面對三個階段的研究進展情況作簡單介紹。
第一階段(1964 年~1990年)
這一階段人臉識別通常只是作為一個一般性的模式識別問題來研究,所采用的主要技術方案是基於人臉幾何結構特征(Geometric feature based)的方法。這集中體現在人們對於剪影(Profile)的研究上,人們對面部剪影曲線的結構特征提取與分析方面進行了大量研究。人工神經網絡也一度曾經被研究人員用於人臉識別問題中。較早從事 AFR 研究的研究人員除了布萊索(Bledsoe)外還有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等。金出武雄於 1973 年在京都大學完成了第一篇 AFR 方面的博士論文,直到現在,作為卡內基-梅隆大學(CMU)機器人研究院的一名教授,仍然是人臉識別領域的活躍人物之一。他所在的研究組也是人臉識別領域的一支重要力量。總體而言,這一階段是人臉識別研究的初級階段,非常重要的成果不是很多,也基本沒有獲得實際應用。
第二階段(1991 年~1997年)
這一階段盡管時間相對短暫,但卻是人臉識別研究的高潮期,可謂碩果累累:不但誕生了若干代表性的人臉識別算法,美國軍方還組織了著名的 FERET 人臉識別算法測試,並出現了若干商業化運作的人臉識別系統,比如最為著名的 Visionics(現為 Identix)的 FaceIt 系統。 美國麻省理工學院(MIT)媒體實驗室的特克(Turk)和潘特(Pentland)提出的“特征臉”方法無疑是這一時期內最負盛名的人臉識別方法。其后的很多人臉識別技術都或多或少與特征臉有關系,現在特征臉已經與歸一化的協相關量(Normalized Correlation)方法一道成為人臉識別的性能測試基准算法。 這一時期的另一個重要工作是麻省理工學院人工智能實驗室的布魯內里(Brunelli)和波基奧
Poggio)於 1992 年左右做的一個對比實驗,他們對比了基於結構特征的方法與基於模板匹配的方法的識別性能,並給出了一個比較確定的結論:模板匹配的方法優於基於特征的方法。這一導向性的結論與特征臉共同作用,基本中止了純粹的基於結構特征的人臉識別方法研究,並在很大程度上促進了基於表觀(Appearance-based)的線性子空間建模和基於統計模式識別技術的人臉識別方法的發展,使其逐漸成為主流的人臉識別技術。
貝爾胡米爾(Belhumeur)等提出的 Fisherface 人臉識別方法是這一時期的另一重要成果。該方法首先采用主成分分析(Principal Component Analysis,PCA,亦即特征臉)對圖像表觀特征進行降維。在此基礎上,采用線性判別分析(Linear Discriminant Analysis, LDA)的方法變換降維后的主成分以期獲得“盡量大的類間散度和盡量小的類內散度”。該方法目前仍然是主流的人臉識別方法之一,產生了很多不同的變種,比如零空間法、子空間判別模型、增強判別模型、直接的 LDA 判別方法以及近期的一些基於核學習的改進策略。 麻省理工學院的馬哈丹(Moghaddam)則在特征臉的基礎上,提出了基於雙子空間進行貝葉斯概率估計的人臉識別方法。該方法通過“作差法”,人臉圖像對的相似度計算問題轉換為一個兩類(類內差和類間差)分類問題,類內差和類間差數據都要首先通過主成分分析(PCA)技術進行降維,計算兩個類別的類條件概率密度,最后通過貝葉斯決策(最大似然或者最大后驗概率)的方法來進行人臉識別。
臉識別中的另一種重要方法——彈性圖匹配技術(Elastic Graph Matching,EGM) 也是在這一階段提出的。其基本思想是用一個屬性圖來描述人臉:屬性圖的頂點代表面部關鍵特征點,其屬性為相應特征點處的多分辨率、多方向局部特征——Gabor變換12特征,稱為Jet;邊的屬性則為不同特征點之間的幾何關系。對任意輸入人臉圖像,彈性圖匹配通過一種優化搜索策略來定位預先定義的若干面部關鍵特征點,同時提取它們的Jet特征,得到輸入圖像的屬性圖。最后通過計算其與已知人臉屬性圖的相似度來完成識別過程。該方法的優點是既保留了面部的全局結構特征,也對人臉的關鍵局部特征進行了建模。近來還出現了一些對該方法的擴展。 局部特征分析技術是由洛克菲勒大學(Rockefeller University)的艾提克(Atick)等人提出的。 LFA在本質上是一種基於統計的低維對象描述方法,與只能提取全局特征而且不能保留局部拓撲結構的PCA 相比,LFA 在全局 PCA 描述的基礎上提取的特征是局部的,並能夠同時保留全局拓撲信息,從而具有更佳的描述和判別能力。LFA技術已商業化為著名的 FaceIt 系統,因此后期沒有發表新的學術進展。 由美國國防部反毒品技術發展計划辦公室資助的 FERET 項目無疑是該階段內的一個至關重要的事件。FERET 項目的目標是要開發能夠為安全、情報和執法部門使用的 AFR 技術。
該項目包括
三部分內容:資助若干項人臉識別研究、創建 FERET 人臉圖像數據庫、組織 FERET人臉識別性能評測。該項目分別於 1994 年,1995年和 1996 年組織了 3 次人臉識別評測,幾種最知名的人臉識別算法都參加了測試,極大地促進了這些算法的改進和實用化。該測試的另一個重要貢獻是給出了人臉識別的進一步發展方向:光照、姿態等非理想采集條件下的人臉識別問題逐漸成為熱點的研究方向。 柔性模型(Flexible Models)——包括主動形狀模型(ASM)和主動表觀模型(AAM)是這一時期內在人臉建模方面的一個重要貢獻。 ASM/AAM 將人臉描述為 2D形狀和紋理兩個分離的部分,分別用統計的方法進行建模(PCA),然后再進一步通過 PCA將二者融合起來對人臉進行統計建模。柔性模型具有良好的人臉合成能力,可以采用基於合成的圖像分析技術來對人臉圖像進行特征提取與建模。柔性模型目前已被廣泛用於人臉特征對准(Face Alignment)和識別中,並出現了很多的改進模型。 總體而言,這一階段的人臉識別技術發展非常迅速,所提出的算法在較理想圖像采集條件、對象配合、中小規模正面人臉數據庫上達到了非常好的性能,也因此出現了若干知名的人臉識別商業公司。從技術方案上看, 2D人臉圖像線性子空間判別分析、統計表觀模型、統計模式識別方法是這一階段內的主流技術。
第三階段(1998 年~現在)
FERET’96 人臉識別算法評估表明:主流的人臉識別技術對光照、姿態等由於非理想采集條件或者對象不配合造成的變化魯棒性比較差。因此,光照、姿態問題逐漸成為研究熱點。與此同時,人臉識別的商業系統進一步發展。為此,美國軍方在 FERET 測試的基礎上分別於 2000 年和 2002年組織了兩次商業系統評測。 基奧蓋蒂斯(Georghiades)等人提出的基於光照錐 (Illumination Cones) 模型的多姿態、多光照條件人臉識別方法是這一時期的重要成果之一,他們證明了一個重要結論:同一人臉在同一視角、不同光照條件下的所有圖像在圖像空間中形成一個凸錐——即光照錐。為了能夠從少量未知光照條件的人臉圖像中計算光照錐,他們還對傳統的光度立體視覺方法進行了擴展,能夠在朗博模型、凸表面和遠點光源假設條件下,根據未知光照條件的 7 幅同一視點圖像恢復物體的 3D 形狀和表面點的表面反射系數(傳統光度立體視覺能夠根據給定的 3 幅已知光照條件的圖像恢復物體表面的法向量方向),從而可以容易地合成該視角下任意光照條件的圖像,完成光照錐的計算。識別則通過計
算輸入圖像到每個光照錐的距離來完成。 以支持向量機為代表的統計學習理論也在這一時期內被應用到了人臉識別與確認中來。支持向量機是一個兩類分類器,而人臉識別則是一個多類問題。通常有三種策略解決這個問題,即:類內
亦稱窗口傅里葉變換或短時傅里葉變換(Short Time FourierTransformation,STFT),1946 年Gabor提出。
差/類間差法、一對多法(one-to-rest)和一對一法(one-to-one)。
布蘭茲(Blanz)和維特(Vetter)等提出的基於 3D變形(3D Morphable Model)模型的多姿態、多光照條件人臉圖像分析與識別方法是這一階段內一項開創性的工作。該方法在本質上屬於基於合成的分析技術,其主要貢獻在於它在 3D形狀和紋理統計變形模型(類似於 2D時候的 AAM)的基礎上,同時還采用圖形學模擬的方法對圖像采集過程的透視投影和光照模型參數進行建模,從而可以使得人臉形狀和紋理等人臉內部屬性與攝像機配置、光照情況等外部參數完全分開,更加有利於人臉圖像的分析與識別。Blanz 的實驗表明,該方法在 CMU-PIE(多姿態、光照和表情)人臉庫和FERET 多姿態人臉庫上都達到了相當高的識別率,證明了該方法的有效性。 2001 年的國際計算機視覺大會(ICCV)上,康柏研究院的研究員維奧拉(Viola)和瓊斯(Jones)展示了他們的一個基於簡單矩形特征和 AdaBoost 的實時人臉檢測系統,在 CIF 格式上檢測准正面
人臉的速度達到了每秒 15 幀以上。該方法的主要貢獻包括:
1)用可以快速計算的簡單矩形特征作為人臉圖像特征;
2)基於 AdaBoost 將大量弱分類器進行組合形成強分類器的學習方法;
3)采用了級聯(Cascade)技術提高檢測速度。目前,基於這種人臉/非人臉學習的策略已經能夠實現准實時的多姿態人臉檢測與跟蹤。這為后端的人臉識別提供了良好的基礎。
沙蘇哈(Shashua)等於 2001 年提出了一種基於商圖像13的人臉圖像識別與繪制技術。該技術是一種基於特定對象類圖像集合學習的繪制技術,能夠根據訓練集合中的少量不同光照的圖像,合成任意輸入人臉圖像在各種光照條件下的合成圖像。基於此,沙蘇哈等還給出了對各種光照條件不變的人臉簽名(Signature)圖像的定義,可以用於光照不變的人臉識別,實驗表明了其有效性。 巴斯里(Basri)和雅各布(Jacobs)則利用球面諧波(Spherical Harmonics)表示光照、用卷積過程描述朗博反射的方法解析地證明了一個重要的結論:由任意遠點光源獲得的所有朗博反射函數的集合形成一個線性子空間。這意味着一個凸的朗博表面物體在各種光照條件下的圖像集合可以用一個低維的線性子空間來近似。這不僅與先前的光照統計建模方法的經驗實驗結果相吻合,更進一步從理論上促進了線性子空間對象識別方法的發展。而且,這使得用凸優化方法來強制光照函數非負成為可能,為光照問題的解決提供了重要思路。
4、商業史
FERET項目之后,涌現了若干人臉識別商業系統。美國國防部有關部門進一步組織了針對人臉識別商業系統的評測FRVT,至今已經舉辦了兩次:FRVT2000 FRVT2002。這兩次測試一方面對知名的人臉識別系統進行了性能比較,例如FRVT2002 測試就表明Cognitec, Identix和Eyematic三個商業產品遙遙領先於其他系統,而它們之間的差別不大。另一方面則全面總結了人臉識別技術發展的現狀:較理想條件下(正面簽證照),針對 37437 人 121,589 幅圖像的人臉識別(Identification)最高首選識別率為 73%,人臉驗證(Verification)的等錯誤率(EER14)大約為 6%。FRVT測試的另一個重要貢獻是還進一步指出了目前的人臉識別算法亟待解決的若干問題。例如,FRVT2002 測試就表明:目前的人臉識別商業系統的性能仍然對於室內外光照變化、姿態、時間跨度等變化條件非常敏感,大規模人臉庫上的有效識別問題也很嚴重,這些問題都仍然需要進一步的努力。 總體而言,目前非理想成像條件下(尤其是光照和姿態)、對象不配合、大規模人臉數據庫上的人臉識別問題逐漸成為研究的熱點問題。而非線性建模方法、統計學習理論、基於Boosting15的學習技術、基於 3D模型的人臉建模與識別方法等逐漸成為備受重視的技術發展趨勢。 從 FRVT2002 看研究現狀 FRVT2002 人臉識別測試集中反映了目前人臉識別理論與應用研究的最高學術水平。該測試所使用的數據庫的規模達到了 37,437人,共 121,589 幅圖像,大多數知名的人臉識別商業系統公司都測試使用的據庫規模達到了 37,437 人的121,589 幅圖像,所有圖像全部由美國國務院(DOS)下屬的領事事務局(Bureau of Consular Affairs)簽證服務處提供。每人至少三幅標准的簽證照,圖像質量很高,采集環境也非常一致。而 MCInt 測試使用的數據庫則既包括室內也包括室外采集的圖像,最長時間跨度為三年。基於這些數據,FRVT2002 測試了身份認證、閉集識別、開集識別三類不同的人臉識別任務的性能,結果表明:本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。