前言:中文期刊網(wǎng)精心挑選了卷積神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì)范文供你參考和學(xué)習(xí),希望我們的參考范文能激發(fā)你的文章創(chuàng)作靈感,歡迎閱讀。
卷積神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì)范文1
關(guān)鍵詞關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);古玩圖片;圖像識(shí)別
DOIDOI:10.11907/rjdk.162768
中圖分類號(hào):TP317.4
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)005017405
0引言
隨著電子商務(wù)的發(fā)展,大批藝術(shù)品交易網(wǎng)站隨之興起,藏品交易規(guī)模也越來(lái)越大。而當(dāng)前的古玩網(wǎng)上交易平臺(tái)還不能夠?qū)崿F(xiàn)對(duì)現(xiàn)有藏品圖片的自動(dòng)分類,客戶在尋找目標(biāo)藏品時(shí)不得不在眾多圖片中一一瀏覽。因此需要一種有效的方法來(lái)完成面向圖像內(nèi)容的分類。
在基于內(nèi)容的圖像檢索領(lǐng)域,常使用人工設(shè)計(jì)的特征-如根據(jù)花瓶、碗、盤(pán)子的不同形態(tài)特征:目標(biāo)輪廓的圓度、質(zhì)心、寬高比等[1],繼而使用BP神經(jīng)網(wǎng)絡(luò)、SVM分類器等對(duì)特征進(jìn)行學(xué)習(xí)分類。文獻(xiàn)[2]基于植物葉片的形狀特征,如葉片形狀的狹長(zhǎng)度、矩形度、球狀性、圓形度、偏心率、周長(zhǎng)直徑比等,利用BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)植物葉片進(jìn)行分類。文獻(xiàn)[3]研究印品圖像的各類形狀缺陷,利用圖像缺陷形狀的輪廓長(zhǎng)度、面積和圓形度等幾何特征,導(dǎo)入SVM分類器進(jìn)行訓(xùn)練,得到分類器模型實(shí)現(xiàn)分類。文獻(xiàn)[4]提出了一種基于Zernike矩的水果形狀分類方法,通過(guò)提取圖像中具有旋轉(zhuǎn)不變性的Zernike矩特征,并運(yùn)用PCA方法確定分類需要的特征數(shù)目,最后將這些特征輸入到SVM分類器中,完成水果形狀的分類。上述方法都要求對(duì)目標(biāo)形狀分割的準(zhǔn)確性,而分割過(guò)程中由于存在目標(biāo)陰影、目標(biāo)分割不完整問(wèn)題,會(huì)影響到人工特征的準(zhǔn)確選取。除了上述人工特征外,最常用的特征是HOG[5,6]、SIFT[7,8]等。HOG的核心思想是所檢測(cè)的局部物體外形能夠被光強(qiáng)梯度或邊緣方向的分布所描述。HOG表示的是邊緣結(jié)構(gòu)特征,因此可以描述局部形狀信息。SIFT在圖像的空間尺度中尋找極值點(diǎn),并提取出其位置、尺度、旋轉(zhuǎn)不變量。SIFT特征對(duì)于旋轉(zhuǎn)、尺度縮放、亮度變化保持不變。但是,這兩種特征在實(shí)際應(yīng)用中,描述子生成過(guò)程冗長(zhǎng)、計(jì)算量太大。而且在上述方法征設(shè)計(jì)需要啟發(fā)式的方法和專業(yè)知識(shí),很大程度上依靠個(gè)人經(jīng)驗(yàn)。
卷積神經(jīng)網(wǎng)絡(luò)不需要手動(dòng)設(shè)計(jì)提取特征,可以直接將圖片作為輸入,隱式地學(xué)習(xí)多層次特征,進(jìn)而實(shí)現(xiàn)分類[9]。相比目前常用的人工設(shè)計(jì)特征然后利用各分類器,具有明顯的優(yōu)勢(shì)。近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)已成為語(yǔ)音、圖像識(shí)別領(lǐng)域研究熱點(diǎn)。它的權(quán)值共享特點(diǎn)使得網(wǎng)絡(luò)復(fù)雜度降低,權(quán)值數(shù)量減少。而且,卷積神經(jīng)網(wǎng)絡(luò)直接將圖片作為輸入,避免了復(fù)雜的特征設(shè)計(jì)和提取,具有一定的平移、縮放和扭曲不變性[10]。本文采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)古玩圖片進(jìn)行分類。首先,將背景分離后的圖片作為網(wǎng)絡(luò)的輸入,相比原圖作為輸入,此方法的網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單。然后,卷積層通過(guò)不同的卷積核對(duì)輸入圖片進(jìn)行卷積得到不同特征圖,采樣層進(jìn)一步對(duì)特征圖進(jìn)行二次提取,最終提取到合適的特征輸入分類器進(jìn)行分類,而在卷積層、采樣層征圖的大小、數(shù)目都會(huì)影響到網(wǎng)絡(luò)的分類能力。因此,本文通過(guò)優(yōu)化網(wǎng)絡(luò)參數(shù),使網(wǎng)絡(luò)達(dá)到較好的分類效果。
1卷積神經(jīng)網(wǎng)絡(luò)
1989年,LECUN等[11]提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN),CNN是一種帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),一般至少有2個(gè)非線性可訓(xùn)練的卷積層、2個(gè)非線性的固定采樣層和1個(gè)全連接層,一共至少5個(gè)隱含層[12]。百度于2012年底將深度學(xué)習(xí)技術(shù)成功應(yīng)用于自然圖像OCR識(shí)別和人臉識(shí)別,此后深度學(xué)習(xí)模型被成功應(yīng)用于一般圖片的識(shí)別和理解。從百度經(jīng)驗(yàn)來(lái)看,深度學(xué)習(xí)應(yīng)用于圖像識(shí)別不但大大提升了準(zhǔn)確性,而且避免了人工特征抽取的時(shí)間消耗,從而大大提高了在線計(jì)算效率[13]。
卷積神經(jīng)網(wǎng)絡(luò)作為一種高效的深度學(xué)習(xí)方法[14],在許多圖像識(shí)別方面取得了很好的成效[1519]。該網(wǎng)絡(luò)作為一種多隱層神經(jīng)網(wǎng)絡(luò),可以提取圖像的多層次特征進(jìn)行識(shí)別。
卷積神經(jīng)網(wǎng)絡(luò)主要包括卷積層和采樣層,卷積層通過(guò)可學(xué)習(xí)的卷積核對(duì)輸入圖片進(jìn)行卷積得到特征圖,卷積操作即加強(qiáng)了輸入圖片的某種特征,并且降低噪聲。卷積之后的結(jié)果通過(guò)激活函數(shù)(通常選擇Sigmoid函數(shù)或Tanh函數(shù))作用輸出構(gòu)成該層的特征圖。特征圖上的每一個(gè)神經(jīng)元只與輸入圖片的一個(gè)局部區(qū)域連接,每個(gè)神經(jīng)元提取的是該局部區(qū)域的特征,所有神經(jīng)元綜合起來(lái)就得到了全局特征,與神經(jīng)元相連接的局部區(qū)域即為局部感受野[20]。而在卷積層中一般存在多張?zhí)卣鲌D,同一張?zhí)卣鲌D使用相同的卷積核,不同特征圖使用不同的卷積核[21],此特點(diǎn)稱為權(quán)值共享,即同一張?zhí)卣鲌D上的所有神經(jīng)元通過(guò)相同的卷積核連接局部感受野。卷積神經(jīng)網(wǎng)絡(luò)的局部感受野和嘀倒蠶硤氐憒蟠蠹跎倭送絡(luò)訓(xùn)練的參數(shù)個(gè)數(shù),降低了網(wǎng)絡(luò)模型的復(fù)雜度。
采樣層對(duì)卷積層提取到的特征圖進(jìn)行局部非重疊采樣,即把特征圖分為互不重疊的N×N個(gè)子區(qū)域,對(duì)每個(gè)子區(qū)域進(jìn)行采樣。卷積神經(jīng)網(wǎng)絡(luò)的采樣方式一般有兩種:最大值采樣和均值采樣。最大值采樣即選取區(qū)域內(nèi)所有神經(jīng)元的最大值作為采樣值,均值采樣為區(qū)域內(nèi)所有神經(jīng)元的平均值作為采樣值。最大值采樣偏向于提取目標(biāo)的特征信息,而均值采樣偏向于提取背景的特征信息[22]。采樣后的特征平面在保留了區(qū)分度高特征的同時(shí)大大減少了數(shù)據(jù)量,它對(duì)一定程度的平移、比例縮放和扭曲具有不變性。
卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積層和采樣層的循環(huán)往復(fù)提取到圖像由低層次到高層次的特征,最后一般通過(guò)全連接層將所有特征圖展開(kāi)得到一維向量,然后輸入到分類器進(jìn)行分類。
卷積神經(jīng)網(wǎng)絡(luò)在處理二維圖像時(shí),卷積層中每個(gè)神經(jīng)元的輸入與上一層的局部感受野相連接,并提取該局部的特征,權(quán)值共享特點(diǎn)又使得各神經(jīng)元保持了原來(lái)的空間關(guān)系,將這些感受不同局部區(qū)域的神經(jīng)元綜合起來(lái)就得到了全局信息。采樣層對(duì)特征圖進(jìn)行局部特征提取,不會(huì)改變神經(jīng)元之間的空間關(guān)系,即二維圖像經(jīng)過(guò)卷積層、采樣層仍然保持二維形式。因此,卷積神經(jīng)網(wǎng)絡(luò)有利于提取形狀方面的特征。雖然卷積神經(jīng)網(wǎng)絡(luò)的局部感受野、權(quán)值共享和子采樣使網(wǎng)絡(luò)大大減少了需要訓(xùn)練參數(shù)的個(gè)數(shù),但是該網(wǎng)絡(luò)作為多隱層神經(jīng)網(wǎng)絡(luò)還是十分復(fù)雜的。對(duì)于不同的數(shù)據(jù)庫(kù),為了達(dá)到比較好的分類效果,網(wǎng)絡(luò)的層數(shù)、卷積層特征圖個(gè)數(shù)以及其它參數(shù)的設(shè)置都需要探究。
2基于卷積神經(jīng)網(wǎng)絡(luò)的古玩圖片分類
2.1特征提取及傳遞
不同古玩的主要區(qū)別在于形狀不同,而花瓶、盤(pán)子和碗在古玩中最常見(jiàn),因此將這3類圖片作為實(shí)驗(yàn)對(duì)象,對(duì)于其它種類的古玩圖片的分類,該網(wǎng)絡(luò)同樣適用。卷積神經(jīng)網(wǎng)絡(luò)采用如下圖所示的5層網(wǎng)絡(luò)結(jié)構(gòu),并對(duì)網(wǎng)絡(luò)各層的特征圖數(shù)目、大小均作了修改。對(duì)于網(wǎng)絡(luò)的輸入,先將原圖像進(jìn)行目標(biāo)與背景分割,然后進(jìn)行灰度化、統(tǒng)一分辨率的處理,最后輸入到卷積神經(jīng)網(wǎng)絡(luò)。由于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的根本目的是提取不同古玩的特征,而背景不是目標(biāo)的一部分,對(duì)古玩識(shí)別來(lái)說(shuō)并不提供任何有用的信息,反而對(duì)特征的提取造成干擾,所以去除背景噪聲后,網(wǎng)絡(luò)結(jié)構(gòu)會(huì)更加簡(jiǎn)單,同時(shí)也利于網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí)。但是因?yàn)檫M(jìn)行了去背景的預(yù)處理,網(wǎng)絡(luò)也失去了對(duì)復(fù)雜背景下圖片的識(shí)別能力,所以使用該網(wǎng)絡(luò)進(jìn)行古玩圖片分類前都要進(jìn)行目標(biāo)分割的預(yù)處理過(guò)程。
卷積神經(jīng)網(wǎng)絡(luò)對(duì)古玩圖片的特征提取過(guò)程如下:
(1)輸入網(wǎng)絡(luò)的圖片為100×100大小的預(yù)處理圖,卷積神經(jīng)網(wǎng)絡(luò)的輸入層之后為卷積層,卷積層通過(guò)卷積核與輸入圖像進(jìn)行卷積得到特征平面,卷積核大小為5×5。如圖2所示,特征平面上每個(gè)神經(jīng)元與原圖像5×5大小的局部感受野連接。卷積核移動(dòng)步長(zhǎng)為1個(gè)像素,因此卷積層C1的特征平面大小為96×96。這種卷積操作在提取到輸入圖像的某一方面特征時(shí),必然會(huì)損失掉圖像的其他特征,而采取多個(gè)卷積核卷積圖像得到多個(gè)特征平面則會(huì)一定程度上彌補(bǔ)這個(gè)缺陷。因此,在卷積層C1中使用了6個(gè)不同的卷積核與輸入圖像進(jìn)行卷積,得到6種不同的特征平面圖。如圖3所示,同一張?zhí)卣鲌D上的所有神經(jīng)元共享一個(gè)卷積核(權(quán)值共享),圖中連接到同一個(gè)特征圖的連接線表示同一個(gè)卷積核,6個(gè)不同的卷積核卷積輸入圖片得到6張不同的特征平面圖。卷積之后的結(jié)果并非直接儲(chǔ)存到C1層特征圖中,而是通過(guò)激活函數(shù)將神經(jīng)元非線性化,從而使網(wǎng)絡(luò)具有更強(qiáng)的特征表達(dá)能力。激活函數(shù)選擇Sigmoid函數(shù)。
卷積層中所使用的卷積核尺寸若過(guò)小,就無(wú)法提取有效表達(dá)的特征,過(guò)大則提取到的特征過(guò)于復(fù)雜。對(duì)于卷積層征圖個(gè)數(shù)的設(shè)置,在一定范圍內(nèi),特征圖的個(gè)數(shù)越多,卷積層提取到越多有效表達(dá)原目標(biāo)信息的特征,但是特征圖個(gè)數(shù)如果過(guò)多,會(huì)使提取到的特征產(chǎn)生冗余,最終使分類效果變差。卷積層的各平面由式(1)決定: Xlj=f(∑i∈MjXl-1j*klij+blj)(1)
式(1)中,Mj表示選擇輸入的特征圖集合,l是當(dāng)前層數(shù),f是激活函數(shù),klij表示不同輸入特征圖對(duì)應(yīng)的卷積核,blj為輸出特征圖對(duì)應(yīng)的加性偏置。
(2)卷積層C1后的采樣層S1由6個(gè)特征平面組成,采樣層對(duì)上一層特征圖進(jìn)行局部平均和二次特征提取。采樣過(guò)程如圖4所示,特征平面上的每個(gè)神經(jīng)元與上一層4×4大小的互不重合的鄰域連接進(jìn)行均值采樣,最終每個(gè)平面的大小為24×24。采樣層的各平面由式(2)決定:
Xlj=f(βljdown(Xl-1j)+blj)(2)
式(2)中,down(.)表示一個(gè)下采樣函數(shù),l是當(dāng)前層數(shù),f是激活函數(shù),βlj表示輸出特征圖對(duì)應(yīng)的乘性偏置,blj為輸出特征圖對(duì)應(yīng)的加性偏置。
(3)卷積層C2與C1層操作方式一樣,唯一區(qū)別的是C2層每個(gè)特征圖由6個(gè)不同的卷積核與上一層6個(gè)特征圖分別卷積求和得到,因此C2層一共有6×6個(gè)不同的卷積核,卷積核大小為5×5,C2層每個(gè)平面大小為20×20,共6個(gè)特征平面。
(4)采樣層S2與S1層操作一樣,對(duì)上一層4×4大小鄰域進(jìn)行均值采樣,輸出6個(gè)5×5大小的特征平面。本文所用的網(wǎng)絡(luò)共包括2個(gè)卷積層、2個(gè)采樣層、1個(gè)全連接層,由于輸入圖片已經(jīng)過(guò)背景分離的預(yù)處理,采樣層S2特征圖大小為5×5,所以圖1所示5層網(wǎng)絡(luò)已經(jīng)有很好的表達(dá)能力。如果直接將原圖作為輸入,那么網(wǎng)絡(luò)的層數(shù)以及特征圖的個(gè)數(shù)將比圖1所示的網(wǎng)絡(luò)更加復(fù)雜。
(5)全連接層將上一層6個(gè)5×5大小的二維平面展開(kāi)成為1×150大小的一維向量輸入Softmax[23]分類器,輸出層一共有3個(gè)神經(jīng)元(即分類的種類數(shù)目),分類器將提取到的特征向量映射到輸出層的3個(gè)神經(jīng)元上,即實(shí)現(xiàn)分類。
2.2網(wǎng)絡(luò)訓(xùn)練
訓(xùn)練方式為有監(jiān)督地訓(xùn)練,網(wǎng)絡(luò)對(duì)盤(pán)子、花瓶和碗共三類圖片進(jìn)行分類,所以分類器輸出一個(gè)3維向量,稱為分類標(biāo)簽。在分類標(biāo)簽的第k維中1表示分類結(jié)果,否則為0。訓(xùn)練過(guò)程主要分為兩個(gè)階段:
第一階段:向前傳播A段。
將預(yù)處理過(guò)的圖片輸入卷積神經(jīng)網(wǎng)絡(luò)計(jì)算得到分類標(biāo)簽。
第二階段:向后傳播階段。
計(jì)算輸出的分類標(biāo)簽和實(shí)際分類標(biāo)簽之間的誤差。根據(jù)誤差最小化的原則調(diào)整網(wǎng)絡(luò)中的各個(gè)權(quán)值。分類個(gè)數(shù)為3,共有N個(gè)訓(xùn)練樣本。那么第n個(gè)樣本的誤差為:
En=12∑3k=1(tnk-ynk)2(3)
式(3)中,tn表示第n個(gè)樣本的網(wǎng)絡(luò)輸出標(biāo)簽,tnk對(duì)應(yīng)標(biāo)簽的第k維,yn表示第n個(gè)樣本的實(shí)際分類標(biāo)簽,ynk對(duì)應(yīng)標(biāo)簽的第k維。為了使誤差變小,利用權(quán)值更新公式(4)更新各層神經(jīng)元的權(quán)值,一直訓(xùn)練直到網(wǎng)絡(luò)誤差曲線收斂。
W(t+1)=W(t)+η?δ(t)?X(t)(4)
式(4)中,W(t)表示算第n個(gè)樣本時(shí)的權(quán)值,W(t+1)表示計(jì)算第n+1個(gè)樣本的權(quán)值,η為學(xué)習(xí)速率,選取經(jīng)驗(yàn)值,δ為神經(jīng)元的誤差項(xiàng),X表示神經(jīng)元的輸入。
3實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)在MatlabR2012a平臺(tái)上完成,CPU 2.30GHz,內(nèi)存4GB,所采用的圖像由相關(guān)古玩網(wǎng)站提供,分辨率統(tǒng)一格式化為100×100。由于盤(pán)子、花瓶和碗在各種古玩種類中它們之間的形狀差別比較明顯,本文實(shí)驗(yàn)對(duì)這三類古玩圖片進(jìn)行分類。對(duì)古玩圖片進(jìn)行了水平翻轉(zhuǎn)處理,增加圖片數(shù)據(jù)量,以加強(qiáng)網(wǎng)絡(luò)對(duì)古玩圖片分類的魯棒性。實(shí)驗(yàn)數(shù)據(jù)如表1所示,圖5列出了3類圖片的部分樣本,實(shí)驗(yàn)所用圖片均與圖5所示圖片類似,背景比較單一,少數(shù)圖片下方有類似陰影。
為了形象表示網(wǎng)絡(luò)各層提取的不同特征,圖6展示了當(dāng)網(wǎng)絡(luò)輸入為盤(pán)子時(shí)的各層特征圖。卷積層C1中6張?zhí)卣鲌D分別提取到了輸入圖片的不同特征,而由于權(quán)值共享,同一張?zhí)卣鲌D中神經(jīng)元的空間關(guān)系保持不變,所以6張?zhí)卣鲌D都抓住了盤(pán)子的圓形特征。采樣層S1對(duì)C1進(jìn)行均值采樣,相當(dāng)于模糊濾波,所以S1層各特征圖看起來(lái)模糊了一些。卷積層C2中每張?zhí)卣鲌D由6個(gè)不同的卷積核卷積S1層各特征圖疊加而成,S2層與S1層處理方式相同。
為了說(shuō)明將背景分離后的圖片作為輸入的網(wǎng)絡(luò)與原圖輸入的網(wǎng)絡(luò)之間的差異,設(shè)計(jì)了如表3所示的兩種網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)CNN4只需要4層網(wǎng)絡(luò)層就可以達(dá)到0.19%的錯(cuò)誤率,而原圖作為輸入的CNN8共6層網(wǎng)絡(luò)層,在網(wǎng)絡(luò)達(dá)到收斂的情況下,錯(cuò)誤率為5.24%。由此可以說(shuō)明,將背景分離后圖片作為輸入的網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單。
網(wǎng)絡(luò)的訓(xùn)練采用了批量訓(xùn)練方式,即將樣本分多批,當(dāng)一批樣本前向傳播完之后才進(jìn)行權(quán)值更新,每批大小為100,訓(xùn)練集共2 200張圖片,網(wǎng)絡(luò)迭代次數(shù)為1時(shí)共進(jìn)行22次權(quán)值更新,所以權(quán)值更新的計(jì)算次數(shù)與迭代次數(shù)有如下關(guān)系:
計(jì)算次數(shù)=22×迭代次數(shù)(5)
圖7為網(wǎng)絡(luò)在訓(xùn)練集上的誤差曲線圖,橫坐標(biāo)為誤差反向傳播的計(jì)算次數(shù),縱坐標(biāo)為訓(xùn)練集上的均方誤差。可以看出,當(dāng)網(wǎng)絡(luò)訓(xùn)練次數(shù)達(dá)到270次(計(jì)算次數(shù)約6 000)時(shí),訓(xùn)練集誤差趨于平緩,網(wǎng)絡(luò)已經(jīng)基本擬合。訓(xùn)練好的網(wǎng)絡(luò)可以用來(lái)對(duì)測(cè)試集圖片進(jìn)行分類,表4為不同迭代次數(shù)下訓(xùn)練的網(wǎng)絡(luò)在測(cè)試集上的分類錯(cuò)誤率,可以看出迭代次數(shù)在達(dá)到270次后,網(wǎng)絡(luò)在測(cè)試集的錯(cuò)誤率收斂,此時(shí)只有2張圖片出現(xiàn)分類錯(cuò)誤。
表5給出了圖像分類算法中常用的人工特征+BP神經(jīng)網(wǎng)絡(luò)、人工特征+SVM分類器以及Hog特征+SVM分類器與CNN方法的性能比較。人工設(shè)計(jì)的特征包括圖片中目標(biāo)輪廓的最大長(zhǎng)寬比、質(zhì)心、圓度等特征。從準(zhǔn)確率方面來(lái)看,CNN方法的準(zhǔn)確率高于其他方法,Hog特征方法的準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于人工特征的方法,說(shuō)明了特征的好壞對(duì)圖像分類效果有著很大程度上的影響,CNN提取到的特征比Hog和人工設(shè)計(jì)的特征更具代表性。從測(cè)試時(shí)間來(lái)看,Hog方法與CNN方法相差不多,采用人工特征的方法時(shí)間最長(zhǎng)。綜合兩個(gè)方面,CNN方法在測(cè)試時(shí)間和HOG方法相近的情況下,準(zhǔn)確率最高。
4結(jié)語(yǔ)
針對(duì)網(wǎng)上古玩圖片分類問(wèn)題,為了克服現(xiàn)有算法中人工設(shè)計(jì)特征困難以及往往依賴個(gè)人專業(yè)經(jīng)驗(yàn)的不足,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的方法。將背景分離后的目標(biāo)圖片作為網(wǎng)絡(luò)輸入,可以實(shí)現(xiàn)自動(dòng)提取特征進(jìn)行分類,背景分離后圖片作為網(wǎng)絡(luò)輸入使得網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單,并且設(shè)置了合適的特征圖個(gè)數(shù)以使網(wǎng)絡(luò)在古玩圖片集上取得較好的分類準(zhǔn)確率。實(shí)驗(yàn)數(shù)據(jù)表明,該方法能夠解決網(wǎng)上古玩圖片的分類問(wèn)題,并且分類準(zhǔn)確率達(dá)到99%,其準(zhǔn)確率優(yōu)于常用的Hog特征以及人工特征方法。另外該方法不僅可以應(yīng)用于網(wǎng)上古玩圖片,還可應(yīng)用于鞋類、服裝等其它商品圖像的分類。
參考文獻(xiàn)參考文獻(xiàn):
[1]K KAVITHA,M.V.SUDHAMANI.Object based image retrieval from database using combined features[C].in Signal and Image Processing (ICSIP),2014.
[2]董紅霞,郭斯羽,一種結(jié)合形狀與紋理特征的植物葉片分類方法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(23):185188.
[3]舒文娉,劉全香,基于支持向量機(jī)的印品缺陷分類方法[J].包裝工程,2014,35(23):138142.
[4]應(yīng)義斌,桂江生,饒秀勤,基于Zernike矩的水果形狀分類[J].江蘇大學(xué)學(xué)報(bào):自然科學(xué)版,2007,28(1):3639.
[5]ZHU Q,YEH M C,CHENG K T,et al.Fast human detection using acascade of histograms of oriented gradients[C].Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006.
[6]M VILLAMIZAR,J SCANDALIANS,A SANFELIU bining colorbased invariant gradient detector with Hog descriptors for robust image detection in scenes under cast shadows[C].In Robotics and Automation,ICRA IEEE International Conference on.Barcelona,Spain:IEEE,2009.
[7]CHEN J,LI Q,PENG Q,et al.CSIFT based localityconstrained linear coding for image classification[J].Formal Pattern Analysis & Applications,2015,18(2):441450.
[8]AHMAD YOUSEF K M,ALTABANJAH M,HUDAIB E,et al.SIFT based automatic number plate recognition[C].International Conference on Information and Communication Systems.IEEE,2015.
[9]LAWRENCE S,GLIES C L,TSOI A C,et al.Face recognition:a convolutional neuralnetwork approach[J].IEEE Transactions on Neural Networks,1997,8(1):98113.
[10]TREVOR HASTIE,ROBERT TIBSHIRANI,J FRIEDMAN.The elements of statistical learning[M].New York:Springer,2001.
[11]Y LECUN,L BOUOU,Y BENGIO.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.
[12]DAHL J V,KOCH K C,KLEINHANS E,et al.Convolutional networks and applications in vision[C].International Symposium on Circuits and Systems (ISCAS 2010),2010:253256.
[13]余凱,賈磊,陳雨強(qiáng),等.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013(09):17991804.
[14]MAIRAL J,KONIUSZ P,HARCHAOUI Z,et al.Convolutional kernel networks[DB/OL].http:///pdf/1406.3332v2.pdf.
[15]Z世杰,楊東坡與劉金環(huán),基于卷積神經(jīng)網(wǎng)絡(luò)的商品圖像精細(xì)分類[J].山東科技大學(xué)學(xué)報(bào):自然科學(xué)版,2014(6):9196.
[16]程文博等,基于卷積神經(jīng)網(wǎng)絡(luò)的注塑制品短射缺陷識(shí)別[J].塑料工業(yè),2015(7):3134,38.
[17]鄧柳,汪子杰,基于深度卷積神經(jīng)網(wǎng)絡(luò)的車型識(shí)別研究[J].計(jì)算機(jī)應(yīng)用研究,2016(4):14.
[18]T JONATAN,S MURPHY,Y LECUN,et al.Realtime continuous pose recovery of human hands using convolutional networks[J].ACM Transaction on Graphics,2014,33(5):3842.
[19]S SKITTANON,A C SURENARAN,J C PLATT,et al.Convolutional networks for speech detection[C].Interspeech.Lisbon,Portugal:ISCA,2004.
[20]HUBEL D H,WIESEL T N.Integrative action in the cat's lateral geniculate body[J].Journal of Physiology,1961,155(2):385398.
[21]JAKE BOUVRIE.Notes on convolutional neural networks[DB/OL].http:///5869/1/cnn_tutorial.pdf.
卷積神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì)范文2
(廣東外語(yǔ)外貿(mào)大學(xué) 金融學(xué)院,廣東 廣州 510006)
摘 要:作為一個(gè)具有巨大應(yīng)用前景研究方向,深度學(xué)習(xí)無(wú)論是在算法研究,還是在實(shí)際應(yīng)用(如語(yǔ)音識(shí)別,自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué))中都表現(xiàn)出其強(qiáng)大的潛力和功能.本文主要介紹這種深度學(xué)習(xí)算法,并介紹其在金融領(lǐng)域的領(lǐng)用.
關(guān)鍵詞 :深度學(xué)習(xí);受限波茲曼機(jī);堆棧自編碼神經(jīng)網(wǎng)絡(luò);稀疏編碼;特征學(xué)習(xí)
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1673-260X(2015)01-0037-03
1 深度學(xué)習(xí)的研究意義
深度學(xué)習(xí)是一類新興的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,因其緩解了傳統(tǒng)訓(xùn)練算法的局部最小性,引起機(jī)器學(xué)習(xí)領(lǐng)域的廣泛關(guān)注.深度學(xué)習(xí)的特點(diǎn)是,通過(guò)一系列邏輯回歸的堆棧作為運(yùn)算單元,對(duì)低層數(shù)據(jù)特征進(jìn)行無(wú)監(jiān)督的再表示(該過(guò)程稱為預(yù)學(xué)習(xí)),形成更加抽象的高層表示(屬性類別或特征),以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示.深度學(xué)習(xí)的這種特性由于與腦神經(jīng)科學(xué)理論相一致,因此被廣泛應(yīng)用于語(yǔ)音識(shí)別、自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等領(lǐng)域.
生物學(xué)研究表明[1]:在生物神經(jīng)元突觸的輸出變化與輸入脈沖的持續(xù)時(shí)間有關(guān),即依賴于持續(xù)一定時(shí)間的輸入過(guò)程,輸出信號(hào)既依賴于輸入信號(hào)的空間效應(yīng)和閾值作用,也依賴于時(shí)間總和效應(yīng).
傳統(tǒng)的深度學(xué)習(xí)方法雖然較好地模擬了生物神經(jīng)元的一個(gè)重要特性——空間總和效應(yīng)上的深度,卻忽視了生物神經(jīng)元的另一個(gè)重要特性——時(shí)間總和效應(yīng)上的寬度[2].因此,對(duì)于連續(xù)的時(shí)間變量問(wèn)題(如語(yǔ)音識(shí)別),傳統(tǒng)深度學(xué)習(xí)方法只能將連續(xù)的時(shí)間函數(shù)關(guān)系轉(zhuǎn)化為空間關(guān)系,即離散化為時(shí)間序列進(jìn)行處理.這樣做有幾個(gè)弊端:
(1)可能造成深度學(xué)習(xí)算法對(duì)時(shí)間采樣頻率的十分敏感,魯棒性較差.這使得,不同時(shí)間尺度下,需要使用不同的數(shù)據(jù)和算法.這無(wú)疑是十分不方便的;
(2)導(dǎo)致深度網(wǎng)絡(luò)規(guī)模過(guò)大,使得計(jì)算開(kāi)銷增大、學(xué)習(xí)效果變差、泛化性能降低;
(3)難以滿足實(shí)際應(yīng)用對(duì)算法的實(shí)時(shí)性的要求,更難以體現(xiàn)連續(xù)輸入信息的累積效應(yīng),大大降低深度學(xué)習(xí)算法的實(shí)用性.
因此,對(duì)傳統(tǒng)的深度學(xué)習(xí)算法進(jìn)行改進(jìn),使其不但具有“深度”,亦能具有“寬度”,能夠?qū)B續(xù)時(shí)變數(shù)據(jù)進(jìn)行更好的特征提取、提高算法效率和實(shí)用性,顯得勢(shì)在必行.基于這個(gè)切入點(diǎn),本項(xiàng)目借鑒時(shí)頻分析與小波分析中的方法,結(jié)合數(shù)學(xué)分析領(lǐng)域中的泛函分析技術(shù),與堆棧自編碼神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出一種新的深度學(xué)習(xí)算法——深度泛函網(wǎng)絡(luò).為了驗(yàn)證算法的有效性及優(yōu)越性,本項(xiàng)目將把新算法應(yīng)用于金融時(shí)間序列的領(lǐng)域.
在目前國(guó)內(nèi)外對(duì)于深度學(xué)習(xí)的研究中,幾乎沒(méi)有任何將深度學(xué)習(xí)技術(shù)運(yùn)用于金融數(shù)據(jù)的研究.通過(guò)提出并運(yùn)用得當(dāng)?shù)纳疃刃蛄袑W(xué)習(xí)方法,我們期望從金融數(shù)據(jù)中抽取更高級(jí)的、具有經(jīng)濟(jì)學(xué)意義或預(yù)測(cè)性意義的高級(jí)特征(與人工設(shè)計(jì)的“技術(shù)指標(biāo)”相對(duì)應(yīng)),并開(kāi)發(fā)相應(yīng)的量化交易策略,并與其它傳統(tǒng)算法進(jìn)行對(duì)比,以說(shuō)明所提算法的可行性和優(yōu)越性.
2 國(guó)內(nèi)外研究現(xiàn)狀
人類感知系統(tǒng)具有的層次結(jié)構(gòu),能夠提取高級(jí)感官特征來(lái)識(shí)別物體(聲音),因而大大降低了視覺(jué)系統(tǒng)處理的數(shù)據(jù)量,并保留了物體有用的結(jié)構(gòu)信息.對(duì)于要提取具有潛在復(fù)雜結(jié)構(gòu)規(guī)則的自然圖像、視頻、語(yǔ)音和音樂(lè)等結(jié)構(gòu)豐富數(shù)據(jù),人腦獨(dú)有的結(jié)構(gòu)能夠獲取其本質(zhì)特征[3].受大腦結(jié)構(gòu)分層次啟發(fā),神經(jīng)網(wǎng)絡(luò)研究人員一直致力于多層神經(jīng)網(wǎng)絡(luò)的研究.訓(xùn)練多層網(wǎng)絡(luò)的算法以BP算法為代表,其由于局部極值、權(quán)重衰減等問(wèn)題,對(duì)于多于2個(gè)隱含層的網(wǎng)絡(luò)的訓(xùn)練就已較為困難[4],這使得實(shí)際應(yīng)用中多以使用單隱含層神經(jīng)網(wǎng)絡(luò)居多.
該問(wèn)題由Hinton[5]所引入的逐層無(wú)監(jiān)督訓(xùn)練方法所解決.具體地,該法對(duì)深度神經(jīng)網(wǎng)絡(luò)中的每一層貪婪地分別進(jìn)行訓(xùn)練:當(dāng)前一層被訓(xùn)練完畢后,下一層網(wǎng)絡(luò)的權(quán)值通過(guò)對(duì)該層的輸入(即前一層的輸出)進(jìn)行編碼(Encoding,詳見(jiàn)下文)而得到.當(dāng)所有隱含層都訓(xùn)練完畢后,最后將使用有監(jiān)督的方法對(duì)整個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)值再進(jìn)行精確微調(diào).在Hinton的原始論文中,逐層貪婪訓(xùn)練是通過(guò)受限波茲曼機(jī)(Restricted Boltzmann Machine,RBM)以及相對(duì)應(yīng)的對(duì)比散度方法(Contrastive Divergence)完成的.與通常的神經(jīng)元不同,RBM是一種概率生成模型,通常被設(shè)計(jì)為具有二元輸入-輸出(稱為Bernoulli-Bernoulli RBM).通過(guò)對(duì)每一層的受限波茲曼機(jī)進(jìn)行自底向上的堆棧(如圖1),可以得到深度信念網(wǎng)(Deep Belief Network,DBN).
除了生成式的RBM,還有其他的深度學(xué)習(xí)結(jié)構(gòu)被廣泛使用和研究.如堆棧自編碼神經(jīng)網(wǎng)絡(luò)(Stacked Auto-Encoder Network,SAEN)[6],以及深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Network)[7]等.前者的優(yōu)勢(shì)在于可以簡(jiǎn)單地采用通常的BP算法進(jìn)行逐層預(yù)訓(xùn)練,并且引入隨機(jī)化過(guò)程的抗噪聲自編碼網(wǎng)絡(luò)(Denoising SAEN)泛化性能甚至超過(guò)DBN[8];而后者則通過(guò)權(quán)值共享結(jié)構(gòu)減少了權(quán)值的數(shù)量,使圖像可以直接作為輸入,對(duì)平移、伸縮、傾斜等的變形具有高度不變性,因此在圖像識(shí)別領(lǐng)域有著廣泛應(yīng)用.
近年來(lái),稀疏編碼(Sparse Encoding)和特征學(xué)習(xí)(Feature Learning)成為了深度學(xué)習(xí)領(lǐng)域較為熱門(mén)的研究方向.B.A.Olshausen[9]等針對(duì)人腦的視覺(jué)感知特性,提出稀疏編碼的概念.稀疏編碼算法是一種無(wú)監(jiān)督學(xué)習(xí)方法,它用來(lái)尋找一組“過(guò)完備”的基向量來(lái)更高效地表示輸入數(shù)據(jù)的特征,更有效地挖掘隱含在輸入數(shù)據(jù)內(nèi)部的特征與模式.針對(duì)稀疏編碼的求解問(wèn)題,H.Lee等在2007年提出了一種高效的求解算法[10],該算法通過(guò)迭代地求解兩個(gè)不同的凸規(guī)劃問(wèn)題以提高效率.同年,H.Lee等發(fā)現(xiàn),當(dāng)訓(xùn)練樣本為圖像時(shí),對(duì)DBN的訓(xùn)練進(jìn)行稀疏性的約束有利于算法學(xué)習(xí)到更高級(jí)的特征[11].例如,對(duì)手寫(xiě)識(shí)別數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),稀疏性約束下的DBN算法自主學(xué)習(xí)到了“筆畫(huà)”的概念.
基于[10,11]的研究成果,R.Raina等[12]提出了“自導(dǎo)師學(xué)習(xí)(Self-Taught Learning)”的概念.與無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning)和半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)不同,自導(dǎo)師學(xué)習(xí)利用大量易獲得的無(wú)標(biāo)簽數(shù)據(jù)(可以來(lái)自不同類別甚至是未知類別),通過(guò)稀疏編碼算法來(lái)構(gòu)建特征的高級(jí)結(jié)構(gòu),并通過(guò)支持向量機(jī)(Support Vector Machine,SVM)作為最終層分類器對(duì)少數(shù)有標(biāo)簽數(shù)據(jù)進(jìn)行分類.這種更接近人類學(xué)習(xí)方式的模式極大提高了有標(biāo)簽數(shù)據(jù)的分類準(zhǔn)確度.與之類似,H.Lee,R.Grosse等[13]提出了一種具有層次結(jié)構(gòu)的特征學(xué)習(xí)算法.該算法將卷積神經(jīng)網(wǎng)絡(luò)與DBN結(jié)合,并通過(guò)稀疏正則化(Sparsity Regularization)的手段無(wú)監(jiān)督地學(xué)習(xí)層次化的特征表征.圖像識(shí)別實(shí)驗(yàn)表明,該算法能夠自主學(xué)習(xí)得出“物體(Object Parts)”的概念,較好體現(xiàn)了人腦視覺(jué)感知的層次性和抽象性.
3 發(fā)展趨勢(shì)
由于信號(hào)處理、語(yǔ)音識(shí)別、金融時(shí)間序列分析、視頻分析等領(lǐng)域的實(shí)時(shí)應(yīng)用需求,研究能夠處理連續(xù)時(shí)變變量、自然體現(xiàn)時(shí)間聯(lián)系結(jié)構(gòu)的深度學(xué)習(xí)算法(即深度序列學(xué)習(xí),Deep Sequence Learning)成為了新的研究熱點(diǎn).G.W.Taylor,G.E.Hinton等[14]提出時(shí)間受限波茲曼機(jī)(Temporal RBM,TRBM).該模型使用二值隱含元和實(shí)值可視元,并且其隱含元和可視元可以與過(guò)去一段歷史的可視元之間可以有向地被相連.同時(shí),該模型被用于人類動(dòng)作識(shí)別,并展現(xiàn)出了優(yōu)秀的性能.針對(duì)TRBM的一些不足,一些改進(jìn)算法也不斷涌現(xiàn),如[15,16].然而,該類深度學(xué)習(xí)模型雖然考慮了動(dòng)態(tài)的時(shí)間變量之間的聯(lián)系,但依然只能處理離散時(shí)間問(wèn)題,本質(zhì)上還是屬于轉(zhuǎn)化為空間變量的化歸法.同時(shí),在自編碼網(wǎng)絡(luò)框架下,依然缺乏較好解決時(shí)間過(guò)程(序列)問(wèn)題的方案.
4 金融時(shí)序數(shù)據(jù)中的應(yīng)用
傳統(tǒng)金融理論認(rèn)為,金融市場(chǎng)中的證券價(jià)格滿足伊藤過(guò)程,投資者無(wú)法通過(guò)對(duì)歷史數(shù)據(jù)的分析獲得超額利潤(rùn).然而,大量實(shí)證研究卻表明,中國(guó)股票價(jià)格波動(dòng)具有長(zhǎng)期記憶性,拒絕隨機(jī)性假設(shè),在各種時(shí)間尺度上都存在的可以預(yù)測(cè)的空間.因此,如何建立預(yù)測(cè)模型,對(duì)于揭示金融市場(chǎng)的內(nèi)在規(guī)律,這無(wú)論是對(duì)于理論研究,還是對(duì)于國(guó)家的經(jīng)濟(jì)發(fā)展和廣大投資者,都具有重要的意義.
股票市場(chǎng)是一個(gè)高度復(fù)雜的非線性系統(tǒng),其變化既有內(nèi)在的規(guī)律性,同時(shí)也受到市場(chǎng),宏觀經(jīng)濟(jì)環(huán)境,以及非經(jīng)濟(jì)原因等諸多因素的影響.目前國(guó)內(nèi)外對(duì)證券價(jià)格進(jìn)行預(yù)測(cè)的模型大致分為兩類:一是以時(shí)間序列為代表的統(tǒng)計(jì)預(yù)測(cè)模型;該類方法具有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)基礎(chǔ),但由于金融價(jià)格數(shù)據(jù)存在高噪聲、波動(dòng)大、高度非線性等特征,使得該類傳統(tǒng)方法無(wú)法提供有效的工具.另一類是以神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等模型為代表的數(shù)據(jù)挖掘模型.該類模型能夠處理高度非線性的數(shù)據(jù),基本上從擬合的角度建模.雖然擬合精度較高,但擬合精度的微小誤差往往和市場(chǎng)波動(dòng)互相抵消,導(dǎo)致無(wú)法捕捉獲利空間甚至導(dǎo)致?lián)p失,外推預(yù)測(cè)效果無(wú)法令人滿意.因此,建立即能夠處理非線性價(jià)格數(shù)據(jù),又有良好泛化能力的預(yù)測(cè)模型勢(shì)在必行.
——————————
參考文獻(xiàn):
〔1〕Zhang L I, Tao H W, Holt C E, et al. A critical window for cooperation and competition among developing retinotectal synapses[J]. Nature, 1998, 395(6697).
〔2〕37-44.歐陽(yáng)楷,鄒睿.基于生物的神經(jīng)網(wǎng)絡(luò)的理論框架——神經(jīng)元模型[J].北京生物醫(yī)學(xué)工程,1997,16(2):93-101.
〔3〕Rossi A F, Desimone R, Ungerleider L G. Contextual modulation in primary visual cortex of macaques[J]. the Journal of Neuroscience, 2001, 21(5): 1698-1709.
〔4〕Bengio Y. Learning deep architectures for AI[J]. Foundations and trends? in Machine Learning, 2009, 2(1):1-127.
〔5〕Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.
〔6〕Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 1096-1103.
〔7〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔8〕Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. The Journal of Machine Learning Research, 2010, 9999: 3371-3408.
〔9〕Olshausen B A, Field D J. Sparse coding with an overcomplete basis set: A strategy employed by V1?[J]. Vision research, 1997, 37(23): 3311-3325.
〔10〕Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[J]. Advances in neural information processing systems, 2007, 19: 801.
〔11〕Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2[C]//NIPS. 2007, 7: 873-880.
〔12〕Raina R, Battle A, Lee H, et al. Self-taught learning: transfer learning from unlabeled data[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 759-766.
〔13〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔14〕Taylor G W, Hinton G E, Roweis S T. Modeling human motion using binary latent variables[J]. Advances in neural information processing systems, 2007, 19: 1345.
卷積神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì)范文3
【關(guān)鍵詞】人臉識(shí)別;人臉檢測(cè);方法
Abstract:Face recognition system is one of the most popular current scientific research,In this paper,the process and prospects of face recognition system to do a simple review.The application of the system to do a simple analysis and the main method of face recognition for the corresponding category.For the future development of face recognition systems were mainly discussed.
Key words:Face Recognition;Face Detection;Methods
一、引言
隨著科學(xué)技術(shù)的突飛猛進(jìn),計(jì)算機(jī)及網(wǎng)絡(luò)的高速發(fā)展,信息的安全性、隱蔽性越來(lái)越重要,如何有效、方便的進(jìn)行身份驗(yàn)證和識(shí)別,已經(jīng)成為人們?nèi)找骊P(guān)心的問(wèn)題。生物認(rèn)證的方法,即利用人類自身的特征來(lái)進(jìn)行身份認(rèn)證,具有傳統(tǒng)方法沒(méi)有的有點(diǎn),也解決了身份認(rèn)證技術(shù)所面臨的一大難題。其具有方便、強(qiáng)化安全、不會(huì)丟失、遺忘或轉(zhuǎn)讓等優(yōu)點(diǎn)。現(xiàn)在人體生物識(shí)別技術(shù)的研究主要針對(duì)人臉、指紋、虹膜、手型、聲音等物理或行為特征來(lái)進(jìn)行。本文主要對(duì)人臉識(shí)別技術(shù)的介紹。
人臉識(shí)別是指給定一個(gè)靜止或動(dòng)態(tài)圖像,利用已有的人臉數(shù)據(jù)庫(kù)來(lái)確認(rèn)圖像中的一個(gè)或多個(gè)人。如同人的指紋一樣,人臉也具有唯一性,也可用來(lái)鑒別一個(gè)人的身份。現(xiàn)在己有實(shí)用的計(jì)算機(jī)自動(dòng)指紋識(shí)別系統(tǒng)面世,并在安檢等部門(mén)得到應(yīng)用,但還沒(méi)有通用成熟的人臉自動(dòng)識(shí)別系統(tǒng)出現(xiàn)。人臉圖像的自動(dòng)識(shí)別系統(tǒng)較之指紋識(shí)別系統(tǒng)、DNA鑒定等更具方便性,因?yàn)樗臃奖悖梢圆唤佑|目標(biāo)就進(jìn)行識(shí)別,從而開(kāi)發(fā)研究的實(shí)際意義更大。另一方面,人臉表情的多樣性;以及外在的成像過(guò)程中的光照,圖像尺寸,旋轉(zhuǎn),姿勢(shì)變化等給識(shí)別帶來(lái)很大難度。因此在各種干擾條件下實(shí)現(xiàn)人臉圖像的識(shí)別,也就更具有挑戰(zhàn)性。
二、人臉識(shí)別系統(tǒng)流程
(1)人臉圖像的獲取:圖像的獲取都是通過(guò)攝像頭攝取,但攝取的圖像可以是真人,也可以是人臉的圖片或者為了相對(duì)簡(jiǎn)單,可以不考慮通過(guò)攝像頭來(lái)攝取頭像,而是直接給定要識(shí)別的圖像。
(2)人臉的檢測(cè):人臉檢測(cè)的任務(wù)是判斷靜態(tài)圖像中是否存在人臉。若存在人臉,給出其在圖像中的坐標(biāo)位置、人臉區(qū)域大小等信息。而人臉跟蹤則需要進(jìn)一步輸出所檢測(cè)到的人臉位置、大小等狀態(tài)隨時(shí)間的連續(xù)變化情況。
圖1 人臉識(shí)別框架
(3)特征提取:通過(guò)人臉特征點(diǎn)的檢測(cè)與標(biāo)定可以確定人臉圖像中顯著特征點(diǎn)的位置(如眼睛、眉毛、鼻子、嘴巴等器官),同時(shí)還可以得到這些器官及其面部輪廓的形狀信息的描述。根據(jù)人臉特征點(diǎn)檢測(cè)與標(biāo)定的結(jié)果,通過(guò)某些運(yùn)算得到人臉特征的描述(這些特征包括:全局特征和局部特征,顯式特征和統(tǒng)計(jì)特征等)。
(4)基于人臉圖像比對(duì)的身份識(shí)別:即人臉識(shí)別問(wèn)題。通過(guò)將輸入人臉圖像與人臉數(shù)據(jù)庫(kù)中的所有已知原型人臉圖像計(jì)算相似度并對(duì)其排序來(lái)給出輸入人臉的身份信息。
(5)基于人臉圖像比對(duì)的身份驗(yàn)證:即人臉確認(rèn)問(wèn)題。系統(tǒng)在輸入人臉圖像的同時(shí)輸入一個(gè)用戶宣稱的該人臉的身份信息,系統(tǒng)要對(duì)該輸入人臉圖像的身份與宣稱的身份是否相符作出判斷。
三、人臉識(shí)別技術(shù)現(xiàn)狀及發(fā)展前景
自1995年以來(lái),國(guó)外一些公司看準(zhǔn)了人臉識(shí)別系統(tǒng)廣闊的應(yīng)用前景,動(dòng)用了大量人力和物力,自己獨(dú)立研發(fā)或與高校合作,開(kāi)發(fā)了多個(gè)實(shí)用的人臉識(shí)別系統(tǒng),例如:加拿大Imagis公司的ID-2000面部識(shí)別軟件,美國(guó)Identix公司1的FaceIt人臉識(shí)別系統(tǒng),德國(guó)Human Scan公司的BioID身份識(shí)別系統(tǒng),德國(guó)Cognitec Systems公司的Face VACS人臉識(shí)別系統(tǒng)等;美國(guó)A4vision公司的3D人臉識(shí)別產(chǎn)品;等等。
國(guó)內(nèi)相關(guān)領(lǐng)域較為出名的公司有上海銀晨智能識(shí)別科技有限公司(IS'vision),他們與中科院計(jì)算所聯(lián)合開(kāi)發(fā)了會(huì)議代表身份認(rèn)證/識(shí)別系統(tǒng)、嫌疑人面像比對(duì)系統(tǒng)、面像識(shí)別考勤/門(mén)禁系統(tǒng)、出人口黑名單監(jiān)控系統(tǒng)等多種自動(dòng)人臉識(shí)別應(yīng)用系統(tǒng)。2008年,北京奧運(yùn)會(huì)開(kāi)幕式正式使用了中國(guó)自主知識(shí)產(chǎn)權(quán)的人臉識(shí)別比對(duì)系統(tǒng);2010年4月1日起,國(guó)際民航組織(ICAO)已確定其118個(gè)成員國(guó)家和地區(qū)必須使用機(jī)讀護(hù)照,人臉識(shí)別技術(shù)是首推識(shí)別模式,該規(guī)定已經(jīng)成為國(guó)際標(biāo)準(zhǔn);2011年,F(xiàn)ace book初次引入人臉識(shí)別技術(shù),登陸人員可以免信息驗(yàn)證而激活頁(yè)面;2012年3月6日,江蘇省公安廳與南京理工大學(xué)日前簽約共建“社會(huì)公共安全重點(diǎn)實(shí)驗(yàn)室”,開(kāi)展“人臉識(shí)別”技術(shù)相關(guān)領(lǐng)域項(xiàng)目攻關(guān)。
到目前為止,雖然有關(guān)自動(dòng)人臉識(shí)別的研究已經(jīng)取得了一些可喜的成果,但在實(shí)際應(yīng)用環(huán)境下仍面臨著許多難以解決的問(wèn)題:人臉的非剛體,表情、姿態(tài)、發(fā)型和化妝的多樣性以及環(huán)境光照的復(fù)雜性都給正確的人臉識(shí)別帶來(lái)了很大的困難。即使在大量來(lái)自模式識(shí)別、計(jì)算機(jī)視覺(jué)、生理學(xué)、心理學(xué)、神經(jīng)認(rèn)知科學(xué)等領(lǐng)域的研究人員對(duì)自動(dòng)人臉識(shí)別艱苦工作40余年之后,其中不少問(wèn)題至今仍然困繞著研究人員,始終找不到完善的解決辦法。
在人臉識(shí)別市場(chǎng),特別是在中國(guó)的市場(chǎng),正經(jīng)歷著迅速的發(fā)展,而且發(fā)展的腳步也將越來(lái)越快。主要有三大原因:
1.是科技界和社會(huì)各個(gè)領(lǐng)域都認(rèn)識(shí)到人臉識(shí)別技術(shù)的重要性,國(guó)家政策對(duì)人臉識(shí)別技術(shù)研究給予了很大支持,使得我國(guó)人臉識(shí)別技術(shù)取得了很大進(jìn)展。國(guó)際上,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)局(NIST)舉辦的Face Recognition Vendor Test 2006(FRVT2006)通過(guò)大規(guī)模的人臉數(shù)據(jù)測(cè)試表明,當(dāng)今世界上人臉識(shí)別方法的識(shí)別精度比2002年的FRVT2002至少提高了一個(gè)數(shù)量級(jí)(10倍)。其中一些方法的識(shí)別精度已經(jīng)超過(guò)人類的平均水平。而對(duì)于高清晰、高質(zhì)量人臉圖像識(shí)別,機(jī)器的識(shí)別精度幾乎達(dá)到100%。
2.各種應(yīng)用需求不斷出現(xiàn)。人臉識(shí)別市場(chǎng)的快速發(fā)展一方面歸功于生物識(shí)別需求的多元化,另一方面則是由于人臉識(shí)別技術(shù)的進(jìn)步。從需求上來(lái)說(shuō),除了傳統(tǒng)的公司考勤、門(mén)禁等應(yīng)用外,視頻監(jiān)控環(huán)境下的身份識(shí)別正成為一種迫切的需求,即在一個(gè)較復(fù)雜的場(chǎng)景中,在較遠(yuǎn)的距離上識(shí)別出特定人的身份,這顯然是指紋識(shí)別的方法不能滿足的,而人臉識(shí)別卻是一個(gè)極佳的選擇。
3.人口基數(shù)因素。人臉識(shí)別系統(tǒng)的市場(chǎng)大小,很大程度上是和人口的數(shù)量大小相關(guān)的。而我國(guó)有13億人口,這從本質(zhì)上說(shuō)明了我國(guó)是世界上規(guī)模最大的生物識(shí)別市場(chǎng)。
四、常用的人臉識(shí)別方法
人臉識(shí)別技術(shù)和方法可分為兩大類:基于幾何特征的方法和基于模板匹配的方法。基于幾何特征方法的思想是首先檢測(cè)出嘴巴,鼻子,眼睛,眉毛等臉部主要部分的位置和大小,然后利用這些部件的總體幾何分布關(guān)系以及相互之間的參數(shù)比例來(lái)識(shí)別人臉。基于模板的方法是利用模板和整個(gè)人臉圖像的像素值之間的自相關(guān)性進(jìn)行識(shí)別,這種方法也叫做基于表象的方法。
本文主要分析了常用的人臉識(shí)別方法為:幾何特征的方法、模型的方法、神經(jīng)網(wǎng)絡(luò)的方法和多分類器集成方法。
1.幾何特征的方法
最早的人臉識(shí)別方法就是Bledsoe提出的基于幾何特征的方法,這種方法以面部特征點(diǎn)之間的距離和比率作為特征通過(guò)最近鄰方法來(lái)識(shí)別人臉。該方法建立的人臉識(shí)別系統(tǒng)是一個(gè)半自動(dòng)系統(tǒng),其面部特征點(diǎn)必須由人手工定位,也正是由于人工的參與,該系統(tǒng)對(duì)光照變化和姿態(tài)變化不敏感。
Kanade首先計(jì)算眼角、鼻孔、嘴巴、下巴等面部特征之間的距離和它們之間的角度以及其它幾何關(guān)系然后通過(guò)這些幾何關(guān)系進(jìn)行人臉的識(shí)別工作在一個(gè)20人的數(shù)據(jù)庫(kù)上識(shí)別率為45%一75%。
Brunelli和Poggio通過(guò)計(jì)算鼻子的寬度和長(zhǎng)度、嘴巴位置和下巴形狀等進(jìn)行識(shí)別,在一個(gè)47人的人臉庫(kù)上的識(shí)別率為90%.然而,簡(jiǎn)單模板匹配方法在同一人臉庫(kù)上的識(shí)別率為100%。
基于幾何特征的方法比較直觀,識(shí)別速度快,內(nèi)存要求較少,提取的特征在一定程度上對(duì)光照變化不太敏感。但是,當(dāng)人臉具有一定的表情或者姿態(tài)變化時(shí),特征提取不精確,而且由于忽略了整個(gè)圖像的很多細(xì)節(jié)信息且識(shí)別率較低,所以近年來(lái)已經(jīng)很少有新的發(fā)展。
2.模型的方法
隱馬爾可夫模型,是一種常用的模型,原HMM的方法首先被用于聲音識(shí)別等身份識(shí)別上,之后被Nefian和Hayrs引人到人臉識(shí)別領(lǐng)域。它是用于描述信號(hào)統(tǒng)計(jì)特性的一組統(tǒng)計(jì)模型。
在人臉識(shí)別過(guò)程中,首先抽取人臉特征,得到后觀察向量,構(gòu)建HMM人臉模型,然后用EM算法訓(xùn)練利用該模型就可以算出每個(gè)待識(shí)別人臉觀察向量的概率,從而完成識(shí)別,HMM方法的魯棒性較好,對(duì)表情、姿態(tài)變化不太敏感,識(shí)別率高。
3.神經(jīng)網(wǎng)絡(luò)的方法
神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別領(lǐng)域有很長(zhǎng)的應(yīng)用歷史,1994年就出現(xiàn)了神經(jīng)網(wǎng)絡(luò)用于人臉處理的綜述性文章。
動(dòng)態(tài)鏈接結(jié)構(gòu)(DLA)是用于人臉識(shí)別系統(tǒng)中最有影響的神經(jīng)網(wǎng)絡(luò)方法。DLA試圖解決傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中一些概念性問(wèn)題,其中最突出的是網(wǎng)絡(luò)中語(yǔ)法關(guān)系的表達(dá)。DLA利用突觸的可塑性將神經(jīng)元集合劃分成若干個(gè)結(jié)構(gòu),同時(shí)保留了神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)。
自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的混合神經(jīng)網(wǎng)絡(luò)方法進(jìn)行人臉識(shí)別。SOM實(shí)現(xiàn)對(duì)圖像的采樣向量降維,且對(duì)圖像樣本的小幅度變形不敏感。卷積網(wǎng)絡(luò)用來(lái)實(shí)現(xiàn)相鄰像素間的相關(guān)性知識(shí),在一定程度對(duì)圖象的平移、旋轉(zhuǎn)、尺度和局部變形也都不敏感。
神經(jīng)網(wǎng)絡(luò)方法較其他人臉識(shí)別方法有著特有的優(yōu)勢(shì),通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練可以獲得其他方法難以實(shí)現(xiàn)的關(guān)于人臉圖像的規(guī)則和特征的隱性表示,避免了復(fù)雜的特征抽取工作,并有利于硬件的實(shí)現(xiàn)。缺點(diǎn)主要在于其方法的可解釋性較弱,且要求多張人臉圖像作為訓(xùn)練集,所以只適合于小型人臉庫(kù)。
4.多分類器集成方法
人臉的表象會(huì)因?yàn)楣庹辗较颉⒆藨B(tài)、表情變化而產(chǎn)生較大的變化,每種特定的識(shí)別器只對(duì)其中一部分變化比較敏感,因此,將可以整合互補(bǔ)信息的多個(gè)分類器集成能夠提高整個(gè)系統(tǒng)的分類準(zhǔn)確率。
Gutta等人提出將集成的RBF與決策樹(shù)結(jié)合起來(lái)進(jìn)行人臉識(shí)別。結(jié)合了全局的模板匹配和離散特征的優(yōu)點(diǎn),在一個(gè)350人的人臉庫(kù)上測(cè)試,取得了較好的實(shí)驗(yàn)結(jié)果。
五、總結(jié)及展望
隨著圖像處理、模式識(shí)別、人工智能以及生物心理學(xué)的研究進(jìn)展,人臉識(shí)別技術(shù)也將會(huì)獲得更大的發(fā)展。面對(duì)這種高新技術(shù),人臉識(shí)別技術(shù)有著不可代替的優(yōu)點(diǎn)。近幾年對(duì)三維模型的人臉識(shí)別研究以成為一個(gè)熱點(diǎn)。從二維模型到三維模型是一個(gè)階躍性的發(fā)展,中間必須克服三維模型的開(kāi)銷大,所占空間大等因素。因此如何增強(qiáng)這類系統(tǒng)的保密性將是人臉識(shí)別系統(tǒng)要考慮的問(wèn)題,它將是這種識(shí)別系統(tǒng)投入使用后人們最關(guān)心的問(wèn)題,同時(shí)也是人臉識(shí)別領(lǐng)域需要研究的新課題。我們期待在不久的將來(lái),人們將告別鑰匙,迎來(lái)人臉開(kāi)門(mén)的新時(shí)代。
參考文獻(xiàn)
[1]李武軍,王崇駿,張煒,等.人臉識(shí)別研究綜述[J].模擬識(shí)別與人工智能,2006,19(1):58-65.
[2]李子青.人臉識(shí)別技術(shù)應(yīng)用及市場(chǎng)分析[J].中國(guó)安防,2007,8:42-46.
[3]柴秀娟,山世光,卿來(lái)云,等.基于3D人臉重建的光照、姿態(tài)不變?nèi)四樧R(shí)別[J] .軟件學(xué)報(bào),2006,17(3):525-534.
卷積神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì)范文4
前 言
雖然目前公眾媒體將無(wú)線通信炒的很熱,但這個(gè)領(lǐng)域從1897年馬可尼成功演示無(wú)線電波開(kāi)始,已經(jīng)有超過(guò)一百年的歷史。到1901年就實(shí)現(xiàn)了跨大西洋的無(wú)線接收,表明無(wú)線通信技術(shù)曾經(jīng)有過(guò)一段快速發(fā)展時(shí)期。在之后的幾十年中,眾多的無(wú)線通信系統(tǒng)生生滅滅。
20世紀(jì)80年代以來(lái),全球范圍內(nèi)移動(dòng)無(wú)線通信得到了前所未有的發(fā)展,與第三代移動(dòng)通信系統(tǒng)(3g)相比,未來(lái)移動(dòng)通信系統(tǒng)的目標(biāo)是,能在任何時(shí)間、任何地點(diǎn)、向任何人提供快速可靠的通信服務(wù)。因此,未來(lái)無(wú)線移動(dòng)通信系統(tǒng)應(yīng)具有高的數(shù)據(jù)傳輸速度、高的頻譜利用率、低功耗、靈活的業(yè)務(wù)支撐能力等。但無(wú)線通信是基于電磁波在自由空間的傳播來(lái)實(shí)現(xiàn)信息傳輸?shù)摹P盘?hào)在無(wú)線信道中傳輸時(shí),無(wú)線頻率資源受限、傳輸衰減、多徑傳播引起的頻域選擇性衰落、多普勒頻移引起的時(shí)間選擇性衰落以及角度擴(kuò)展引起的空間選擇性衰落等都使得無(wú)線鏈路的傳輸性能差。和有線通信相比,無(wú)線通信主要由兩個(gè)新的問(wèn)題。一是通信行道經(jīng)常是隨時(shí)間變化的,二是多個(gè)用戶之間常常存在干擾。無(wú)線通信技術(shù)還需要克服時(shí)變性和干擾本文由收集由于這個(gè)原因,無(wú)線通信中的信道建模以及調(diào)制編碼方式都有所不同。
1.無(wú)線數(shù)字通信中盲源分離技術(shù)分析
盲源分離(bss:blind source separation),是信號(hào)處理中一個(gè)傳統(tǒng)而又極具挑戰(zhàn)性的問(wèn)題,bss指僅從若干觀測(cè)到的混合信號(hào)中恢復(fù)出無(wú)法直接觀測(cè)的各個(gè)原始信號(hào)的過(guò)程,這里的“盲”,指源信號(hào)不可測(cè),混合系統(tǒng)特性事先未知這兩個(gè)方面。在科學(xué)研究和工程應(yīng)用中,很多觀測(cè)信號(hào)都可以看成是多個(gè)源信號(hào)的混合,所謂“雞尾酒會(huì)”問(wèn)題就是個(gè)典型的例子。其中獨(dú)立分量分析ica(independent component analysis)是一種盲源信號(hào)分離方法,它已成為陣列信號(hào)處理和數(shù)據(jù)分析的有力工具,而bss比ica適用范圍更寬。目前國(guó)內(nèi)對(duì)盲信號(hào)分離問(wèn)題的研究,在理論和應(yīng)用方面取得了很大的進(jìn)步,但是還有很多的問(wèn)題有待進(jìn)一步研究和解決。盲源分離是指在信號(hào)的理論模型和源信號(hào)無(wú)法精確獲知的情況下,如何從混迭信號(hào)(觀測(cè)信號(hào))中分離出各源信號(hào)的過(guò)程。盲源分離和盲辨識(shí)是盲信號(hào)處理的兩大類型。盲源分離的目的是求得源信號(hào)的最佳估計(jì),盲辨識(shí)的目的是求得傳輸通道混合矩陣。盲源信號(hào)分離是一種功能強(qiáng)大的信號(hào)處理方法,在生物醫(yī)學(xué)信號(hào)處理,陣列信號(hào)處理,語(yǔ)音信號(hào)識(shí)別,圖像處理及移動(dòng)通信等領(lǐng)域得到了廣泛的應(yīng)用。
根據(jù)源信號(hào)在傳輸信道中的混合方式不同,盲源分離算法分為以下三種模型:線性瞬時(shí)混合模型、線性卷積混合模型以及非線性混合模型。
1.1 線性瞬時(shí)混合盲源分離
線性瞬時(shí)混合盲源分離技術(shù)是一項(xiàng)產(chǎn)生、研究最早,最為簡(jiǎn)單,理論較為完善,算法種類多的一種盲源分離技術(shù),該技術(shù)的分離效果、分離性能會(huì)受到信噪比的影響。盲源分離理論是由雞尾酒會(huì)效應(yīng)而被人們提出的,雞尾酒會(huì)效應(yīng)指的是雞尾酒會(huì)上,有音樂(lè)聲、談話聲、腳步 聲、酒杯餐具的碰撞聲等,當(dāng)某人的注意集中于欣賞音樂(lè)或別人的談話,對(duì)周圍的嘈雜聲音充耳不聞時(shí),若在另一處有人提到他的名字,他會(huì)立即有所反應(yīng),或者朝 說(shuō)話人望去,或者注意說(shuō)話人下面說(shuō)的話等。該效應(yīng)實(shí)際上是聽(tīng)覺(jué)系統(tǒng)的一種適應(yīng)能力。當(dāng)盲源分離理論提出后很快就形成了線性瞬時(shí)混合模型。線性瞬時(shí)混合盲源分離技術(shù)是對(duì)線性無(wú)記憶系統(tǒng)的反應(yīng),它是將n個(gè)源信號(hào)在線性瞬時(shí)取值混合后,由多個(gè)傳感器進(jìn)行接收的分離模型。
20世紀(jì)八、九十年代是盲源技術(shù)迅猛發(fā)展的時(shí)期,在1986年由法國(guó)和美國(guó)學(xué)者共同完了將兩個(gè)相互獨(dú)立的源信號(hào)進(jìn)行混合后實(shí)現(xiàn)盲源分離的工作,這一工作的成功開(kāi)啟了盲源分離技術(shù)的發(fā)展和完善。在隨后的數(shù)十年里對(duì)盲源技術(shù)的研究和創(chuàng)新不斷加深,在基礎(chǔ)理論的下不斷有新的算法被提出和運(yùn)用,但先前的算法不能夠完成對(duì)兩個(gè)以上源信號(hào)的分離;之后在1991年,法國(guó)學(xué)者首次將神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到盲源分離問(wèn)題當(dāng)中,為盲源分離提出了一個(gè)比較完整的數(shù)學(xué)框架。到了1995年在神經(jīng)網(wǎng)絡(luò)技術(shù)基礎(chǔ)上盲源分離技術(shù)有了突破性的進(jìn)展,一種最大化的隨機(jī)梯度學(xué)習(xí)算法可以做到同時(shí)分辨出10人的語(yǔ)音,大大推動(dòng)了盲源分離技術(shù)的發(fā)展進(jìn)程。
1.2 線性卷積混合盲源分離
相比瞬時(shí)混合盲源分離模型來(lái)說(shuō),卷積混合盲源分離模型更加復(fù)雜。在線性瞬時(shí)混合盲源分離技術(shù)不斷發(fā)展應(yīng)用的同時(shí),應(yīng)用中也有無(wú)法準(zhǔn)確估計(jì)源信號(hào)的問(wèn)題出現(xiàn)。常見(jiàn)的是在通信系統(tǒng)中的問(wèn)題,通信系統(tǒng)中由于移動(dòng)客戶在使用過(guò)程中具有移動(dòng)性,移動(dòng)用戶周圍散射體會(huì)發(fā)生相對(duì)運(yùn)動(dòng),或是交通工具發(fā)生的運(yùn)動(dòng)都會(huì)使得源信號(hào)在通信環(huán)境中出現(xiàn)時(shí)間延遲的現(xiàn)象,同時(shí)還造成信號(hào)疊加,產(chǎn)生多徑傳輸。正是因?yàn)檫@樣問(wèn)題的出現(xiàn),使得觀測(cè)信號(hào)成為源信號(hào)與系統(tǒng)沖激響應(yīng)的卷積,所以研究學(xué)者將信道環(huán)境抽象成為線性卷積混合盲源分離模型。線性卷積混合盲源分離模型按照其信號(hào)處理空間域的不同可分為時(shí)域、頻域和子空間方法。
1.3 非線性混合盲源分離
非線性混合盲源分離技術(shù)是盲源分離技術(shù)中發(fā)展、研究最晚的一項(xiàng),許多理論和算法都還不算成熟和完善。在衛(wèi)星移動(dòng)通信系統(tǒng)中或是麥克風(fēng)錄音時(shí),都會(huì)由于乘性噪聲、放大器飽和等因素的影響造成非線性失真。為此,就要考慮非線性混合盲源分離模型。非線性混合模型按照混合形式的不同可分為交叉非線性混合、卷積后非線性混合和線性后非線性混合模型三種類型。在最近幾年里非線性混合盲源分離技術(shù)受到社會(huì)各界的廣泛關(guān)注,特別是后非線性混合模型。目前后非線性混合盲源分離算法中主要有參數(shù)化方法、非參數(shù)化方法、高斯化方法來(lái)抵消和補(bǔ)償非線性特征。
2.無(wú)線通信技術(shù)中的盲源分離技術(shù)
在無(wú)線通信系統(tǒng)中通信信號(hào)的信號(hào)特性參數(shù)復(fù)雜多變,實(shí)現(xiàn)盲源分離算法主要要依據(jù)高階累積量和峭度兩類參數(shù)。如圖一所示,這是幾個(gè)常見(jiàn)的通信信號(hào)高階累積量。
在所有的通信系統(tǒng)中,接收設(shè)備處總是會(huì)出現(xiàn)白色或是有色的高斯噪聲,以高階累積量為準(zhǔn)則的盲源分離技術(shù)在處理這一問(wèn)題時(shí)穩(wěn)定性較強(qiáng),更重要的是對(duì)不可忽略的加性高斯白噪聲分離算法同時(shí)適用。因此,由高階累積量為準(zhǔn)則的盲源分離算法在通信系統(tǒng)中優(yōu)勢(shì)明顯。
分離的另一個(gè)判據(jù)就是峭度,它是反映某個(gè)信號(hào)概率密度函數(shù)分布情況與高斯分布的偏離程度的函數(shù)。峭度是由信號(hào)的高階累積量定義而來(lái)的,是度量信號(hào)概率密度分布非高斯性大小的量值。
卷積神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì)范文5
關(guān)鍵詞人臉識(shí)別;特征提取
1人臉識(shí)別技術(shù)概述
近年來(lái),隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,人臉自動(dòng)識(shí)別技術(shù)得到廣泛研究與開(kāi)發(fā),人臉識(shí)別成為近30年里模式識(shí)別和圖像處理中最熱門(mén)的研究主題之一。人臉識(shí)別的目的是從人臉圖像中抽取人的個(gè)性化特征,并以此來(lái)識(shí)別人的身份。一個(gè)簡(jiǎn)單的自動(dòng)人臉識(shí)別系統(tǒng),包括以下4個(gè)方面的內(nèi)容:
(1)人臉檢測(cè)(Detection):即從各種不同的場(chǎng)景中檢測(cè)出人臉的存在并確定其位置。
(2)人臉的規(guī)范化(Normalization):校正人臉在尺度、光照和旋轉(zhuǎn)等方面的變化。
(3)人臉表征(FaceRepresentation):采取某種方式表示檢測(cè)出人臉和數(shù)據(jù)庫(kù)中的已知人臉。
(4)人臉識(shí)別(Recognition):將待識(shí)別的人臉與數(shù)據(jù)庫(kù)中的已知人臉比較,得出相關(guān)信息。
2人臉識(shí)別算法的框架
人臉識(shí)別算法描述屬于典型的模式識(shí)別問(wèn)題,主要有在線匹配和離線學(xué)習(xí)兩個(gè)過(guò)程組成,如圖1所示。
圖1一般人臉識(shí)別算法框架
在人臉識(shí)別中,特征的分類能力、算法復(fù)雜度和可實(shí)現(xiàn)性是確定特征提取法需要考慮的因素。所提取特征對(duì)最終分類結(jié)果有著決定性的影響。分類器所能實(shí)現(xiàn)的分辨率上限就是各類特征間最大可區(qū)分度。因此,人臉識(shí)別的實(shí)現(xiàn)需要綜合考慮特征選擇、特征提取和分類器設(shè)計(jì)。
3人臉識(shí)別的發(fā)展歷史及分類
人臉識(shí)別的研究已經(jīng)有相當(dāng)長(zhǎng)的歷史,它的發(fā)展大致可以分為四個(gè)階段:
第一階段:人類最早的研究工作至少可追朔到二十世紀(jì)五十年代在心理學(xué)方面的研究和六十年代在工程學(xué)方面的研究。
J.S.Bruner于1954年寫(xiě)下了關(guān)于心理學(xué)的Theperceptionofpeople,Bledsoe在1964年就工程學(xué)寫(xiě)了FacialRecognitionProjectReport,國(guó)外有許多學(xué)校在研究人臉識(shí)別技術(shù)[1],其中有從感知和心理學(xué)角度探索人類識(shí)別人臉機(jī)理的,如美國(guó)TexasatDallas大學(xué)的Abdi和Tool小組[2、3],由Stirling大學(xué)的Bruce教授和Glasgow大學(xué)的Burton教授合作領(lǐng)導(dǎo)的小組等[3];也有從視覺(jué)機(jī)理角度進(jìn)行研究的,如英國(guó)的Graw小組[4、5]和荷蘭Groningen大學(xué)的Petkov小組[6]等。
第二階段:關(guān)于人臉的機(jī)器識(shí)別研究開(kāi)始于二十世紀(jì)七十年代。
Allen和Parke為代表,主要研究人臉識(shí)別所需要的面部特征。研究者用計(jì)算機(jī)實(shí)現(xiàn)了較高質(zhì)量的人臉灰度圖模型。這一階段工作的特點(diǎn)是識(shí)別過(guò)程全部依賴于操作人員,不是一種可以完成自動(dòng)識(shí)別的系統(tǒng)。
第三階段:人機(jī)交互式識(shí)別階段。
Harmon和Lesk用幾何特征參數(shù)來(lái)表示人臉正面圖像。他們采用多維特征矢量表示人臉面部特征,并設(shè)計(jì)了基于這一特征表示法的識(shí)別系統(tǒng)。Kaya和Kobayashi則采用了統(tǒng)計(jì)識(shí)別方法,用歐氏距離來(lái)表征人臉特征。但這類方法需要利用操作員的某些先驗(yàn)知識(shí),仍然擺脫不了人的干預(yù)。
第四階段:20世紀(jì)90年代以來(lái),隨著高性能計(jì)算機(jī)的出現(xiàn),人臉識(shí)別方法有了重大突破,才進(jìn)入了真正的機(jī)器自動(dòng)識(shí)別階段。在用靜態(tài)圖像或視頻圖像做人臉識(shí)別的領(lǐng)域中,國(guó)際上形成了以下幾類主要的人臉識(shí)別方法:
1)基于幾何特征的人臉識(shí)別方法
基于幾何特征的方法是早期的人臉識(shí)別方法之一[7]。常采用的幾何特征有人臉的五官如眼睛、鼻子、嘴巴等的局部形狀特征。臉型特征以及五官在臉上分布的幾何特征。提取特征時(shí)往往要用到人臉結(jié)構(gòu)的一些先驗(yàn)知識(shí)。識(shí)別所采用的幾何特征是以人臉器官的形狀和幾何關(guān)系為基礎(chǔ)的特征矢量,本質(zhì)上是特征矢量之間的匹配,其分量通常包括人臉指定兩點(diǎn)間的歐式距離、曲率、角度等。
基于幾何特征的識(shí)別方法比較簡(jiǎn)單、容易理解,但沒(méi)有形成統(tǒng)一的特征提取標(biāo)準(zhǔn);從圖像中抽取穩(wěn)定的特征較困難,特別是特征受到遮擋時(shí);對(duì)較大的表情變化或姿態(tài)變化的魯棒性較差。
2)基于相關(guān)匹配的方法
基于相關(guān)匹配的方法包括模板匹配法和等強(qiáng)度線方法。
①模板匹配法:Poggio和Brunelli[10]專門(mén)比較了基于幾何特征的人臉識(shí)別方法和基于模板匹配的人臉識(shí)別方法,并得出結(jié)論:基于幾何特征的人臉識(shí)別方法具有識(shí)別速度快和內(nèi)存要求小的優(yōu)點(diǎn),但在識(shí)別率上模板匹配要優(yōu)于基于幾何特征的識(shí)別方法。
②等強(qiáng)度線法:等強(qiáng)度線利用灰度圖像的多級(jí)灰度值的等強(qiáng)度線作為特征進(jìn)行兩幅人臉圖像的匹配識(shí)別。等強(qiáng)度曲線反映了人臉的凸凹信息。這些等強(qiáng)度線法必須在背景與頭發(fā)均為黑色,表面光照均勻的前提下才能求出符合人臉真實(shí)形狀的等強(qiáng)度線。
3)基于子空間方法
常用的線性子空間方法有:本征子空間、區(qū)別子空間、獨(dú)立分量子空間等。此外,還有局部特征分析法、因子分析法等。這些方法也分別被擴(kuò)展到混合線性子空間和非線性子空間。
Turk等[11]采用本征臉(Eigenfaces)方法實(shí)現(xiàn)人臉識(shí)別。由于每個(gè)本征矢量的圖像形式類似于人臉,所以稱本征臉。對(duì)原始圖像和重構(gòu)圖像的差分圖像再次進(jìn)行K-L變換,得到二階本征空間,又稱二階本征臉[12]。Pentland等[13]提出對(duì)于眼、鼻和嘴等特征分別建立一個(gè)本征子空間,并聯(lián)合本征臉子空間的方法獲得了好的識(shí)別結(jié)果。Shan等[14]采用特定人的本征空間法獲得了好于本征臉?lè)椒ǖ淖R(shí)別結(jié)果。Albert等[15]提出了TPCA(TopologicalPCA)方法,識(shí)別率有所提高。Penev等[16]提出的局部特征分析(LFALocalFeatureAnalysis)法的識(shí)別效果好于本征臉?lè)椒ā.?dāng)每個(gè)人有多個(gè)樣本圖像時(shí),本征空間法沒(méi)有考慮樣本類別間的信息,因此,基于線性區(qū)別分析(LDALinearDiscriminantAnalysis),Belhumeur等[17]提出了Fisherfaces方法,獲得了較好的識(shí)別結(jié)果。Bartlett等[18]采用獨(dú)立分量分析(ICA,IndependentComponentAnalysis)的方法識(shí)別人臉,獲得了比PCA方法更好的識(shí)別效果。
4)基于統(tǒng)計(jì)的識(shí)別方法
該類方法包括有:KL算法、奇異值分解(SVD)、隱馬爾可夫(HMM)法。
①KL變換:將人臉圖像按行(列)展開(kāi)所形成的一個(gè)高維向量看作是一種隨機(jī)向量,因此采用K-L變換獲得其正交K-L基底,對(duì)應(yīng)其中較大特征值基底具有與人臉相似的形狀。國(guó)外,在用靜態(tài)圖像或視頻圖像做人臉識(shí)別的領(lǐng)域中,比較有影響的有MIT的Media實(shí)驗(yàn)室的Pentland小組,他們主要是用基于KL變換的本征空間的特征提取法,名為“本征臉(Eigenface)[19]。
②隱馬爾可夫模型:劍橋大學(xué)的Samaria和Fallside[20]對(duì)多個(gè)樣本圖像的空間序列訓(xùn)練出一個(gè)HMM模型,它的參數(shù)就是特征值;基于人臉從上到下、從左到右的結(jié)構(gòu)特征;Samatia等[21]首先將1-DHMM和2-DPseudoHMM用于人臉識(shí)別。Kohir等[22]采用低頻DCT系數(shù)作為觀察矢量獲得了好的識(shí)別效果,如圖2(a)所示。Eickeler等[23]采用2-DPseudoHMM識(shí)別DCT壓縮的JPEG圖像中的人臉圖像;Nefian等采用嵌入式HMM識(shí)別人臉[24],如圖2(b)所示。后來(lái)集成coupledHMM和HMM通過(guò)對(duì)超狀態(tài)和各嵌入狀態(tài)采用不同的模型構(gòu)成混合系統(tǒng)結(jié)構(gòu)[25]。
基于HMM的人臉識(shí)別方法具有以下優(yōu)點(diǎn):第一,能夠允許人臉有表情變化,較大的頭部轉(zhuǎn)動(dòng);第二,擴(kuò)容性好.即增加新樣本不需要對(duì)所有的樣本進(jìn)行訓(xùn)練;第三,較高的識(shí)別率。
(a)(b)
圖2(a)人臉圖像的1-DHMM(b)嵌入式隱馬爾科夫模型
5)基于神經(jīng)網(wǎng)絡(luò)的方法
Gutta等[26]提出了混合神經(jīng)網(wǎng)絡(luò)、Lawrence等[27]通過(guò)一個(gè)多級(jí)的SOM實(shí)現(xiàn)樣本的聚類,將卷積神經(jīng)網(wǎng)絡(luò)CNN用于人臉識(shí)別、Lin等[28]采用基于概率決策的神經(jīng)網(wǎng)絡(luò)方法、Demers等[29]提出采用主元神經(jīng)網(wǎng)絡(luò)方法提取人臉圖像特征,用自相關(guān)神經(jīng)網(wǎng)絡(luò)進(jìn)一步壓縮特征,最后采用一個(gè)MLP來(lái)實(shí)現(xiàn)人臉識(shí)別。Er等[30]采用PCA進(jìn)行維數(shù)壓縮,再用LDA抽取特征,然后基于RBF進(jìn)行人臉識(shí)別。Haddadnia等[31]基于PZMI特征,并采用混合學(xué)習(xí)算法的RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉識(shí)別。神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)是通過(guò)學(xué)習(xí)的過(guò)程獲得對(duì)這些規(guī)律和規(guī)則的隱性表達(dá),它的適應(yīng)性較強(qiáng)。
6)彈性圖匹配方法
Lades等提出采用動(dòng)態(tài)鏈接結(jié)構(gòu)(DLA,DynamicLinkArchitecture)[32]的方法識(shí)別人臉。它將人臉用格狀的稀疏圖如圖3所示。
圖3人臉識(shí)別的彈性匹配方法
圖3中的節(jié)點(diǎn)用圖像位置的Gabor小波分解得到的特征向量標(biāo)記,圖的邊用連接節(jié)點(diǎn)的距離向量標(biāo)記。Wiskott等人使用彈性圖匹配方法,準(zhǔn)確率達(dá)到97.3%。Wiskott等[33]將人臉特征上的一些點(diǎn)作為基準(zhǔn)點(diǎn),構(gòu)成彈性圖。采用每個(gè)基準(zhǔn)點(diǎn)存儲(chǔ)一串具有代表性的特征矢量,減少了系統(tǒng)的存儲(chǔ)量。Wurtz等[34]只使用人臉I(yè)CI部的特征,進(jìn)一步消除了結(jié)構(gòu)中的冗余信息和背景信息,并使用一個(gè)多層的分級(jí)結(jié)構(gòu)。Grudin等[35]也采用分級(jí)結(jié)構(gòu)的彈性圖,通過(guò)去除了一些冗余節(jié)點(diǎn),形成稀疏的人臉描述結(jié)構(gòu)。另一種方法是,Nastar等[36]提出將人臉圖像I(x,y)表示為可變形的3D網(wǎng)格表(x,y,I(x,y)),將人臉匹配問(wèn)題轉(zhuǎn)換為曲面匹配問(wèn)題,利用有限分析的方法進(jìn)行曲面變形,根據(jù)兩幅圖像之間變形匹配的程度識(shí)別人臉。
7)幾種混合方法的有效性
(1)K-L投影和奇異值分解(SVD)相融合的分類判別方法。
K-L變換的核心過(guò)程是計(jì)算特征值和特征向量。而圖像的奇異值具有良好的穩(wěn)定性,當(dāng)圖像有小的擾動(dòng)時(shí),奇異值的變化不大。奇異值表示了圖像的代數(shù)特征,在某種程度上,SVD特征同時(shí)擁有代數(shù)與幾何兩方面的不變性。利用K-L投影后的主分量特征向量與SVD特征向量對(duì)人臉進(jìn)行識(shí)別,提高識(shí)別的準(zhǔn)確性[37]。
(2)HMM和奇異值分解相融合的分類判別方法。
采用奇異值分解方法進(jìn)行特征提取,一般是把一幅圖像(長(zhǎng)為H)看成一個(gè)N×M的矩陣,求取其奇異值作為人臉識(shí)別的特征。在這里我們采用采樣窗對(duì)同一幅圖片進(jìn)行重疊采樣(如圖4),對(duì)采樣所得到的矩陣分別求其對(duì)應(yīng)的前k個(gè)最大的奇異值,分別對(duì)每一組奇異值進(jìn)行矢量標(biāo)準(zhǔn)化和矢量重新排序,把這些處理后的奇異值按采樣順序組成一組向量,這組向量是惟一的[38]。
圖4采樣窗采樣
綜合上述論文中的實(shí)驗(yàn)數(shù)據(jù)表明[39],如表1:
表1人臉識(shí)別算法比較
8)基于三維模型的方法
該類方法一般先在圖像上檢測(cè)出與通用模型頂點(diǎn)對(duì)應(yīng)的特征點(diǎn),然后根據(jù)特征點(diǎn)調(diào)節(jié)通用模型,最后通過(guò)紋理映射得到特定人臉的3D模型。Tibbalds[40]基于結(jié)構(gòu)光源和立體視覺(jué)理論,通過(guò)攝像機(jī)獲取立體圖像,根據(jù)圖像特征點(diǎn)之間匹配構(gòu)造人臉的三維表面,如圖5所示。
圖5三維人臉表面模型圖6合成的不同姿態(tài)和光照條件下二維人臉表面模型
Zhao[41]提出了一個(gè)新的SSFS(SymetricShape-from-Shading)理論來(lái)處理像人臉這類對(duì)稱對(duì)象的識(shí)別問(wèn)題,基于SSFS理論和一個(gè)一般的三維人臉模型來(lái)解決光照變化問(wèn)題,通過(guò)基于SFS的視圖合成技術(shù)解決人臉姿態(tài)問(wèn)題,針對(duì)不同姿態(tài)和光照條件合成的三維人臉模型如圖6所示。
三維圖像有三種建模方法:基于圖像特征的方法[42、43]、基于幾何[44]、基于模型可變參數(shù)的方法[45]。其中,基于模型可變參數(shù)的方法與基于圖像特征的方法的最大區(qū)別在于:后者在人臉姿態(tài)每變化一次后,需要重新搜索特征點(diǎn)的坐標(biāo),而前者只需調(diào)整3D變形模型的參數(shù)。三維重建的系統(tǒng)框圖,如圖7所示。
圖7三維建模的系統(tǒng)框圖
三維人臉建模、待識(shí)別人臉的姿態(tài)估計(jì)和識(shí)別匹配算法的選取是實(shí)現(xiàn)三維人臉識(shí)別的關(guān)鍵技術(shù)。隨著采用三維圖像識(shí)別人臉技術(shù)的發(fā)展,利用直線的三維圖像信息進(jìn)行人臉識(shí)別已經(jīng)成為人們研究的重心。
4總結(jié)與展望
人臉自動(dòng)識(shí)別技術(shù)已取得了巨大的成就,隨著科技的發(fā)展,在實(shí)際應(yīng)用中仍然面臨困難,不僅要達(dá)到準(zhǔn)確、快速的檢測(cè)并分割出人臉部分,而且要有效的變化補(bǔ)償、特征描述、準(zhǔn)確的分類的效果,還需要注重和提高以下幾個(gè)方面:
(1)人臉的局部和整體信息的相互結(jié)合能有效地描述人臉的特征,基于混合模型的方法值得進(jìn)一步深入研究,以便能準(zhǔn)確描述復(fù)雜的人臉模式分布。
(2)多特征融合和多分類器融合的方法也是改善識(shí)別性能的一個(gè)手段。
(3)由于人臉為非剛體性,人臉之間的相似性以及各種變化因素的影響,準(zhǔn)確的人臉識(shí)別仍較困難。為了滿足自動(dòng)人臉識(shí)別技術(shù)具有實(shí)時(shí)要求,在必要時(shí)需要研究人臉與指紋、虹膜、語(yǔ)音等識(shí)別技術(shù)的融合方法。
(4)3D形變模型可以處理多種變化因素,具有很好的發(fā)展前景。已有研究也表明,對(duì)各種變化因素采用模擬或補(bǔ)償?shù)姆椒ň哂休^好的效果。三維人臉識(shí)別算法的選取還處于探索階段,需要在原有傳統(tǒng)識(shí)別算法的基礎(chǔ)上改進(jìn)和創(chuàng)新。
(5)表面紋理識(shí)別算法是一種最新的算法[52],有待于我們繼續(xù)學(xué)習(xí)和研究出更好的方法。
總之,人臉識(shí)別是極富挑戰(zhàn)性的課題僅僅采用一種現(xiàn)有方法難以取得良好的識(shí)別效果,如何與其它技術(shù)相結(jié)合,如何提高識(shí)別率和識(shí)別速度、減少計(jì)算量、提高魯棒性,如何采用嵌入式及硬件實(shí)現(xiàn),如何實(shí)用化都是將來(lái)值得研究的。
參考文獻(xiàn)
[1]O''''TooleAJ,AbdiH,DeffenbacherKA,etal.Alowdimensionalrepresentationoffacesinthehigherdimensionsofspace.[J].JournaloftheOpticalSocietyof2America,1993,10:405~411
[2]張翠萍,蘇光大.人臉識(shí)別技術(shù)綜述.中國(guó)圖像圖形學(xué)報(bào),2000,5(11):885-894
[3]A.Samal,P.A.Iyengar.Automaticrecognitionandanalysisofhumanfacesandfacialexpressions:asurvey[J].PatternRecognition,1992,25(1):65-67
[4]TurkM,PentlandA.Eigenfacesforrecognition[J].JournalofCognitiveNeuroscience,1991,3(1):71~86
[5]BartlettMS,MovellanJR,SejnowskiTJ.FaceRecognitionbyIndependentComponentAnalysis[J].IEEETrans.onNeuralNetwork,2002,13(6):1450-1464
[6]ManjunathBS,ShekharCandChellappaR.Anewapproachtoimagefeaturedetectionwithapplication[J].Patt.Recog,1996,29(4):627-640
[7]ChengY.LiuK,YangJ,etal.Humanfacerecognitionmethodbasedonthestatisticalmodelofsmallsamplesize.SPIEProc,Intell.RobotsandComputerVisionX:AlgorithmsandTechn.1991,1606:85-95
[8]NefianAVEmbeddedBayesianNetworksforFaceRecognition[A].Proceedings.IEEEInternationalConferenceonMultimediaandExpo[C]2002,2:133-136
[9]GuttaS,WechslerH.FaceRecognitionUsingHybridClassifiers[J].PatternRecognition,1997,30(4):539-553
[10]HaddadniaJ,AhmadiM,F(xiàn)aezKAHybridLearningRBFNeuralNetworkforHumanFaceRecognitionwithPseudoZernikeMomentInvariant[A].Proceedingsofthe2002InternationalJointConferenceonNeuralNetworks[C].2002,1:11-16
[11]M.Lades,J.C.Vorbruggen,J.Buhmann,ect.Distortioninvariantobjectrecognitioninthedynamiclinkarchitecture.IEEETrans.onComputer,1993,42(3):300-311
[12]NastarC,MoghaddamBA.FlexibleImages:MatchingandRecognitionUsingLearnedDeformations[J].ComputerVisionandImageUnderstanding,1997,65(2):179-191
[13]羊牧.基于KL投影和奇異值分解相融合人臉識(shí)別方法的研究[D].四川大學(xué).2004,5,1
[14]白冬輝.人臉識(shí)別技術(shù)的研究與應(yīng)用[D].北方工業(yè)大學(xué).2006,5
卷積神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì)范文6
關(guān)鍵詞:語(yǔ)義標(biāo)記;三維人臉;網(wǎng)格標(biāo)記;隨機(jī)森林;正方形切平面描述符
DOIDOI:10.11907/rjdk.171139
中圖分類號(hào):TP317.4
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2017)006-0189-05
0 引言
在計(jì)算機(jī)視覺(jué)與圖像領(lǐng)域,對(duì)于二維圖像人臉的研究(包括人臉識(shí)別、人臉檢測(cè)、人臉特征點(diǎn)標(biāo)記等)非常多,并且取得了很大進(jìn)展。特別是近幾年,隨著深度學(xué)習(xí)算法的應(yīng)用,對(duì)于二維人臉的研究有了極大突破[1]。然而,相對(duì)于二維人臉,人們對(duì)三維人臉研究較少。三維人臉的研究是以人臉的三維數(shù)據(jù)為基礎(chǔ),結(jié)合計(jì)算機(jī)視覺(jué)和計(jì)算機(jī)圖形學(xué),充分利用三維人臉的深度信息和其它幾何信息,解決和克服現(xiàn)有二維人臉研究中面臨的光照、姿態(tài)、表情等問(wèn)題[3]。三維人臉模型標(biāo)記與分割是將三維人臉網(wǎng)格模型上的頂點(diǎn)進(jìn)行分類,將人臉劃分為幾個(gè)區(qū)域,例如眉毛、眼睛、鼻子、嘴等。對(duì)這些區(qū)域的標(biāo)記與分割對(duì)三維人臉重建、特征點(diǎn)定位和表情動(dòng)畫(huà)等方面的研究都起著重要作用。三維人臉的研究是模式識(shí)別和圖形學(xué)領(lǐng)域活躍且極具潛力的研究方向之一,在影視、游戲動(dòng)畫(huà)、人臉識(shí)別、虛擬現(xiàn)實(shí)、人機(jī)交互等方面都有著廣泛應(yīng)用[2-3]。
目前,許多對(duì)三維人臉?lè)矫娴难芯浚ㄈS人臉重建、識(shí)別與跟蹤、姿態(tài)估計(jì)及特征點(diǎn)標(biāo)記等,都是基于深度圖的方法[4-7]。Fanelli等[6-8]提出一種方法,將從深度數(shù)據(jù)估算人臉姿態(tài)表達(dá)為一個(gè)回歸問(wèn)題(Regression Problem),然后利用隨機(jī)森林算法解決該問(wèn)題,完成一個(gè)簡(jiǎn)單深度特征映射到三維人臉特征點(diǎn)坐標(biāo)、人臉旋轉(zhuǎn)角度等實(shí)值參數(shù)的學(xué)習(xí)。通過(guò)訓(xùn)練數(shù)據(jù)集建立隨機(jī)森林,該數(shù)據(jù)集包括通過(guò)渲染隨機(jī)生成姿態(tài)的三維形變模型得到的5萬(wàn)張640*480深度圖像。在實(shí)驗(yàn)部分,對(duì)Fanelli等提出的從深度圖中提取特征的方法與本文的特征提取方法進(jìn)行了對(duì)比。與文獻(xiàn)[6]中的方法相比,Papazov[9]提出了一個(gè)更為復(fù)雜的三角形表面patch特征,該特征是從深度圖重建成的三維點(diǎn)云中計(jì)算獲得的,主要包括兩部分:線下測(cè)試和線上測(cè)試。將三角形表面patch(TSP)描述符利用快速最近鄰算法(FLANN)從訓(xùn)練數(shù)據(jù)中尋找最相似的表面patches。
在計(jì)算機(jī)圖形學(xué)領(lǐng)域,網(wǎng)格理解在建立和處理三維模型中起著重要作用。為了有效地理解一個(gè)網(wǎng)格,網(wǎng)格標(biāo)記是關(guān)鍵步驟,它用于鑒定網(wǎng)格上的每個(gè)三角形屬于哪個(gè)部分,這在網(wǎng)格編輯、建模和變形方面都有著重要應(yīng)用。Shapira等[10]利用形狀直徑函數(shù)作為分割三維模型的一個(gè)信號(hào),通過(guò)對(duì)該信號(hào)的計(jì)算,定義一個(gè)上下文感知的距離測(cè)量,并且發(fā)現(xiàn)眾多目標(biāo)之間的部分相似性;隨后,Sidi等[11]提出一個(gè)半監(jiān)督的聯(lián)合分割方法,利用一個(gè)預(yù)定義的特征集實(shí)現(xiàn)對(duì)目標(biāo)的預(yù)先分割,然后將預(yù)先做好的分割嵌入到一個(gè)普通空間,通過(guò)使用擴(kuò)散映射獲得最終的對(duì)網(wǎng)格集的聯(lián)合分割。網(wǎng)格標(biāo)記的一個(gè)關(guān)鍵問(wèn)題是建立強(qiáng)大的特征,從而提高各類網(wǎng)格模型標(biāo)記結(jié)果的準(zhǔn)確性,增加泛化能力。為了解決該問(wèn)題,Kalogerakis等[12]提出采用一種基于條件隨機(jī)場(chǎng)算法的方法來(lái)標(biāo)記網(wǎng)格。通過(guò)對(duì)已標(biāo)記的網(wǎng)格進(jìn)行訓(xùn)練,成功地學(xué)習(xí)了不同類型的分割任務(wù);Xie等[13]提出一種三維圖形快速分割與標(biāo)記的方法,用一系列特征描述法和極端學(xué)習(xí)器來(lái)訓(xùn)練一個(gè)網(wǎng)格標(biāo)記分類的神經(jīng)網(wǎng)絡(luò);Guo等[14]提出用深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)從一個(gè)大的聯(lián)合幾何特征中學(xué)習(xí)網(wǎng)格表示方式。這個(gè)大的聯(lián)合幾何特征首先被提取出來(lái)表示每個(gè)網(wǎng)格三角形,利用卷積神經(jīng)網(wǎng)絡(luò)的卷積特征,將這些特征描述符重新組織成二維特征矩陣,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行訓(xùn)練與學(xué)習(xí)。
本文提出一種新的幾何特征描述符(正方形切平面描述符)來(lái)表示人臉模型上的頂點(diǎn)特征,利用隨機(jī)森林算法對(duì)三維人臉模型頂點(diǎn)進(jìn)行訓(xùn)練,實(shí)現(xiàn)對(duì)人臉模型上頂點(diǎn)的分類(屬于鼻子或是眼睛區(qū)域等),從而實(shí)現(xiàn)三維人臉模型的區(qū)域標(biāo)記。這種新描述符并非從深度圖提取的簡(jiǎn)單矩形區(qū)域特征,而是直接從三維人臉模型計(jì)算獲得,在人臉的姿勢(shì)、尺寸、分辨率的改變上具有一定魯棒性。因此,訓(xùn)練過(guò)程是在三維人臉模型上執(zhí)行的,這種數(shù)據(jù)相對(duì)于真實(shí)的深度圖數(shù)據(jù)更容易獲取(例如在文獻(xiàn)[6]中使用的訓(xùn)練數(shù)據(jù))。
1 特征描述符與三維人臉區(qū)域分割
1.1 正方形切平面描述符
從一個(gè)三維人臉模型M的所有頂點(diǎn)上隨機(jī)選取一個(gè)種子點(diǎn)P,根據(jù)三維人臉模型的幾何結(jié)構(gòu),計(jì)算該種子點(diǎn)的法向量,此時(shí)根據(jù)一點(diǎn)和法向量即可確定一個(gè)切平面。確定正方形的邊長(zhǎng)L和正方形的方向。正方形的方向(正方形局部坐標(biāo)系)是根據(jù)全局坐標(biāo)系下建立的正方形,通過(guò)法向量轉(zhuǎn)換而成。建立正方形局部坐標(biāo)系,以便于計(jì)算三維人臉上的點(diǎn)到正方形的投影距離,減少程序運(yùn)行時(shí)間,從而可以確定一個(gè)正方形切平面塊S。在這種情況下,根據(jù)正方形切平面塊S,可以計(jì)算出一個(gè)簡(jiǎn)單且具有魯棒性的幾何描述符V。將正方形邊長(zhǎng)分成K等份,正方形則細(xì)分為K2個(gè)小正方形,如圖1(a)所示。模型M上的所有點(diǎn)向正方形切平面塊上投影,如果投影點(diǎn)在正方形內(nèi),此點(diǎn)則肯定在K2個(gè)小正方形中的某一個(gè)正方形內(nèi),稱該點(diǎn)屬于該小正方形或者稱小正方形包含該點(diǎn)。每個(gè)小正方形的描述符是其包含所有點(diǎn)投影距離的平均值。考慮到人臉模型的幾何特征,有些人臉部分存在于正方形上面,有些部分則存在于正方形下面,因此每個(gè)點(diǎn)的投影距離有正負(fù)之分。整個(gè)正方形切平面塊的描述符V是所有小正方形描述符的簡(jiǎn)單串聯(lián)。在實(shí)驗(yàn)部分,本文將對(duì)邊長(zhǎng)L和劃分的小正方形個(gè)數(shù)K2對(duì)分類的準(zhǔn)確率進(jìn)行對(duì)比研究。
使用每個(gè)小正方形包含所有點(diǎn)的平均投影距離作為描述符,使得該描述符對(duì)噪聲、數(shù)據(jù)分解和分辨率上的變化具有魯棒性,這在實(shí)驗(yàn)部分有所體現(xiàn)。許多三維幾何特征已經(jīng)在一些文章中被提出,包括Spin Images(SI)[15]、3D shape context (SC)[16]、 SHOT[17]和MeshHOG[18-19]。這些描述法都根據(jù)局部坐標(biāo)系定義并且依賴于大量的平面法向量,使噪聲數(shù)據(jù)對(duì)結(jié)果產(chǎn)生一定影響。和以上描述法相比,本文描述符取平均投影距離,并且正方形取的足夠大,使描述法更加簡(jiǎn)單、有效且具有魯棒性。除三維幾何特征外,許多文章也對(duì)三維模型投影生成的深度圖進(jìn)行了特征選取和處理。例如,F(xiàn)anelli等[6-8]在深度圖中選取patch,然后在patch中隨機(jī)選取兩個(gè)矩形框F1、F2,如圖2所示。以像素點(diǎn)的深度值和幾何法向量的X、Y、Z值作為隨機(jī)森林的4個(gè)特征通道,F(xiàn)1和F2中所有像素點(diǎn)某個(gè)特征通道平均值的差值作為隨機(jī)森林每棵樹(shù)節(jié)點(diǎn)的二元測(cè)試。二元測(cè)試定義為:
本文在實(shí)驗(yàn)部分對(duì)上述特征選取方式與本文提出的正方形描述符在三維人臉區(qū)域標(biāo)記上的結(jié)果進(jìn)行了比較。
1.2 數(shù)據(jù)庫(kù)與人臉區(qū)域分割
訓(xùn)練階段的正方形切平面描述符均取自于高分辨率的人臉網(wǎng)格模型,這些訓(xùn)練模型由Basel Face Model (BFM)[20]生成。BFM是一個(gè)公開(kāi)、可獲得的基于PCA的三維形變模型,由200個(gè)人臉對(duì)象的高分辨率三維掃描創(chuàng)建而成。通過(guò)從一個(gè)正態(tài)分布取樣的PCA系數(shù),BFM能被用來(lái)生成任意數(shù)量的隨機(jī)網(wǎng)格人臉。此外,在所有生成的人臉網(wǎng)格模型上,對(duì)應(yīng)頂點(diǎn)的索引都是一樣的。例如,在所有訓(xùn)練模型上,在鼻尖的頂點(diǎn)有相同的索引數(shù)字,這將帶來(lái)諸多便利。對(duì)于訓(xùn)練模型,只需在任意一個(gè)BFM人臉模型上進(jìn)行一次人臉區(qū)域的手動(dòng)標(biāo)記,即可知道每個(gè)訓(xùn)練模型要分割的區(qū)域上各點(diǎn)的索引,如每個(gè)模型鼻子區(qū)域的所有頂點(diǎn)索引都是一樣的。
對(duì)訓(xùn)練模型進(jìn)行手動(dòng)分割標(biāo)記(只需分割標(biāo)記一次),將一個(gè)三維人臉模型分割為10個(gè)區(qū)域:左眉毛、右眉毛、左眼睛、右眼睛、左臉頰、右臉頰、鼻子、上嘴唇、下嘴唇、下巴,剩下部分屬于其它區(qū)域。如圖3所示,對(duì)三維人臉模型進(jìn)行區(qū)域分割,不同的分割區(qū)域用不同顏色進(jìn)行標(biāo)記,每個(gè)區(qū)域包含很多三維人臉模型頂點(diǎn)。由于很多三維人臉模型額頭部分包含的頂點(diǎn)相對(duì)較少,特征信息也相對(duì)較少,所以將額頭區(qū)域劃分至其它區(qū)域。人臉模型的每個(gè)區(qū)域包含的所有頂點(diǎn)屬于同一類,根據(jù)上述BFM數(shù)據(jù)庫(kù)特點(diǎn)可知,數(shù)據(jù)庫(kù)中任何一個(gè)人臉模型每個(gè)區(qū)域包含的所有頂點(diǎn)索引都是一致的。
2 隨機(jī)森林算法分類標(biāo)記人臉區(qū)域
2.1 隨機(jī)森林算法
分類回歸樹(shù)[21]是一個(gè)強(qiáng)大的工具,能夠映射復(fù)雜的輸入空間到離散或者分段連續(xù)的輸出空間。一棵樹(shù)通過(guò)分裂原始問(wèn)題到更簡(jiǎn)單、可解決的預(yù)測(cè)以實(shí)現(xiàn)高度非線性映射。樹(shù)上的每一個(gè)節(jié)點(diǎn)包含一個(gè)測(cè)試,測(cè)試的結(jié)果指導(dǎo)數(shù)據(jù)樣本將分到左子樹(shù)或是右子樹(shù)。在訓(xùn)練期間,這些測(cè)試被選擇用來(lái)將訓(xùn)練數(shù)據(jù)分組,這些分組對(duì)應(yīng)著實(shí)現(xiàn)很好預(yù)測(cè)的簡(jiǎn)單模型。這些模型是由訓(xùn)練時(shí)到達(dá)葉子節(jié)點(diǎn)的被標(biāo)記的數(shù)據(jù)計(jì)算而來(lái),并且存儲(chǔ)于葉子節(jié)點(diǎn)。Breiman[22]指出雖然標(biāo)準(zhǔn)的決策樹(shù)單獨(dú)使用會(huì)產(chǎn)生過(guò)擬合,但許多隨機(jī)被訓(xùn)練的樹(shù)有很強(qiáng)的泛化能力。隨機(jī)被訓(xùn)練樹(shù)的隨機(jī)性包括兩方面,一是用來(lái)訓(xùn)練每棵樹(shù)的訓(xùn)練樣本是隨機(jī)選取的,二是每棵樹(shù)上的二元測(cè)試是從使每個(gè)節(jié)點(diǎn)最優(yōu)的測(cè)試集中隨機(jī)選取的。這些樹(shù)的總和稱為隨機(jī)森林。本文將三維人臉模型區(qū)域的標(biāo)記與分割描述為一個(gè)分類問(wèn)題,并利用隨機(jī)森林算法來(lái)有效地解決它。
2.2 訓(xùn)練
訓(xùn)練數(shù)據(jù)集是由BFM生成的50個(gè)三維人臉模型。從每個(gè)模型上隨機(jī)取n=10 000個(gè)頂點(diǎn)樣本,每個(gè)頂點(diǎn)對(duì)應(yīng)一個(gè)正方形切平面塊。本文實(shí)驗(yàn)中森林由100棵樹(shù)建立而成,森林里每個(gè)樹(shù)由隨機(jī)選取的一系列塊(patch){Pi=Vfi,θi}構(gòu)建而成。Vfi是從每個(gè)樣本提取的特征,即正方形切平面描述符,f是特征通道的個(gè)數(shù),正方形劃分為K2個(gè)小正方形,f=K2。實(shí)值θi是這個(gè)樣本所屬的類別,例如鼻子區(qū)域類別設(shè)為數(shù)字1,那么鼻子區(qū)域內(nèi)的頂點(diǎn)樣本所對(duì)應(yīng)的θ=1。建立決策樹(shù)時(shí),在每個(gè)非葉子節(jié)點(diǎn)上隨機(jī)生成一系列可能的二元測(cè)試,該二元測(cè)試定義為:
這里的Pi∈{L,R}是到達(dá)左子樹(shù)或右子樹(shù)節(jié)點(diǎn)上的樣本集合,wi是到左子樹(shù)或右子樹(shù)節(jié)點(diǎn)的樣本數(shù)目和到父節(jié)點(diǎn)樣本數(shù)目的比例,例如:wi=|Pi||P|。
2.3 測(cè)試
通過(guò)BFM生成55個(gè)三維人臉模型,其中50個(gè)人臉模型作為訓(xùn)練數(shù)據(jù),剩下5個(gè)人臉模型作為測(cè)試數(shù)據(jù)。測(cè)試數(shù)據(jù)依然取10 000個(gè)樣本點(diǎn),并且知道每個(gè)樣本點(diǎn)屬于哪一個(gè)區(qū)域,通過(guò)測(cè)試數(shù)據(jù)計(jì)算三維人臉模型網(wǎng)格點(diǎn)分類的準(zhǔn)確率。為了測(cè)試提出方法的有效性,研究過(guò)程中從網(wǎng)上下載獲取了其它三維人臉模型,對(duì)人臉模型上的所有網(wǎng)格點(diǎn)通過(guò)之前訓(xùn)練好的隨機(jī)森林模型進(jìn)行分類。因?yàn)槠渌四樐P团cBFM生成人臉模型的尺寸、坐標(biāo)單位等不一致,所以本研究對(duì)這些測(cè)試模型進(jìn)行了后期處理,對(duì)正方形的邊長(zhǎng)按照模型尺寸的比例M行選取。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境
本文三維人臉標(biāo)記與分割所用的訓(xùn)練和測(cè)試三維人臉模型由BFM生成,50個(gè)模型作為訓(xùn)練數(shù)據(jù),5個(gè)模型作為測(cè)試數(shù)據(jù)。每個(gè)模型包含53 490個(gè)頂點(diǎn)和106 466個(gè)三角形網(wǎng)格,每個(gè)訓(xùn)練模型選取10 000個(gè)頂點(diǎn)樣本。用C++和OpenGL、OpenCV等庫(kù)對(duì)三維人臉模型數(shù)據(jù)進(jìn)行采樣,得到每個(gè)樣本的正方形切平面描述符。在Matlab平臺(tái)下用隨機(jī)森林算法對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行可視化。
3.2 實(shí)驗(yàn)結(jié)果
利用已訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)集上三維人臉模型的所有頂點(diǎn)進(jìn)行分類,計(jì)算頂點(diǎn)分類的準(zhǔn)確率。準(zhǔn)確率(Accuracy Rate)計(jì)算公式為:
準(zhǔn)確率=預(yù)測(cè)正確的頂點(diǎn)個(gè)數(shù)(m)人臉模型上所有頂點(diǎn)個(gè)數(shù)(N)
根據(jù)文獻(xiàn)[10]提出的類似描述符參數(shù)選取以及參數(shù)優(yōu)化策略,經(jīng)過(guò)多次實(shí)驗(yàn),研究發(fā)現(xiàn)正方形邊長(zhǎng)L和正方形劃分的小正方形數(shù)目K2兩個(gè)參數(shù)的選取對(duì)頂點(diǎn)分類準(zhǔn)確率有著一定影響。實(shí)驗(yàn)中選取參數(shù)L∈{60,80,100}、參數(shù)K2∈{9,16,25,36}進(jìn)行對(duì)比,具體對(duì)比結(jié)果如表1、表2所示(其中表1中K2為16,表2中L為80mm)。
根據(jù)上面兩個(gè)表格,可以明顯得出,L=80mm,K2=25時(shí)頂點(diǎn)分類準(zhǔn)確率最高。接下來(lái)對(duì)L=80mm,K2=25情況下的三維人臉模型區(qū)域進(jìn)行標(biāo)記,可視化結(jié)果如圖4所示,上邊是原始三維模型數(shù)據(jù),下邊是標(biāo)記后的結(jié)果。(a)、(b)模型標(biāo)記圖是由BFM生成的三維人臉模型區(qū)域標(biāo)記的結(jié)果,模型有53 490個(gè)頂點(diǎn)。為了驗(yàn)證本文方法的一般性和對(duì)分辨率具有不變性,(c)~(e)模型標(biāo)記圖是非BFM生成的其它三維人臉模型的標(biāo)記結(jié)果,模型約有5 000個(gè)頂點(diǎn)。以上所有圖都是對(duì)三維人臉模型所有頂點(diǎn)進(jìn)行標(biāo)記的結(jié)果。
文獻(xiàn)[6]~[8]中提到的基于深度圖的特征提取方法(見(jiàn)圖1),同樣利用隨機(jī)森林算法進(jìn)行了實(shí)驗(yàn),并與本文的正方形特征描述符的實(shí)驗(yàn)結(jié)果進(jìn)行了比較,如表3所示。將深度圖投影到96*96大小,深度圖patch所取邊長(zhǎng)c深度圖大小的比例和正方形所取邊長(zhǎng)與模型大小的比例相等。
由表3可得,對(duì)三維人臉模型頂點(diǎn)級(jí)分類和區(qū)域標(biāo)記問(wèn)題,本文提出的特征描述符的標(biāo)記結(jié)果優(yōu)于深度圖patch特征選取方法。此外,由于深度圖的一些局限性,直接對(duì)三維模型處理要比對(duì)深度圖處理更有優(yōu)勢(shì)。
3.3 結(jié)果討論與分析
圖4中5個(gè)模型頂點(diǎn)數(shù)目、三角形面數(shù)目和頭部姿勢(shì)都不一樣,驗(yàn)證了本文所提方法對(duì)于姿勢(shì)、模型尺寸和模型分辨率具有較好的魯棒性。并且其對(duì)不同的眉毛、眼睛、臉頰區(qū)域也能進(jìn)行很好的區(qū)分,將左右眉毛、左右眼睛和左右臉頰用同一顏色、不同符號(hào)進(jìn)行顯示。本文提出的描述符和直接對(duì)三維模型處理的方法,與在深度圖上選取特征方法相比具有一定優(yōu)勢(shì)。由于手動(dòng)分割人臉區(qū)域時(shí),很難避免分割粗糙,區(qū)域交界處有的部分頂點(diǎn)沒(méi)有包含進(jìn)去,因此在區(qū)域交界處頂點(diǎn)的分類誤差會(huì)相對(duì)略大,特別是嘴唇之間的部分。另外,三維人臉模型中額頭和下巴的頂點(diǎn)和特征相對(duì)較少,所以相較于其它區(qū)域,這兩個(gè)區(qū)域的頂點(diǎn)分類誤差也會(huì)略大。
4 結(jié)語(yǔ)
本文提出一種基于正方形切平面描述符的三維人臉區(qū)域標(biāo)記方法。將這種幾何特征描述符作為選取樣本的特征,通過(guò)隨機(jī)森林算法,對(duì)三維人臉模型進(jìn)行區(qū)域分類和標(biāo)記。該方法可有效識(shí)別出三維人臉模型的眉毛、眼睛、鼻子、嘴巴和臉頰等區(qū)域,這對(duì)三維人臉特征點(diǎn)的定位及其它三維人臉?lè)矫娴难芯慷季哂兄匾饬x。本文提出的方法對(duì)三維人臉模型頭部姿態(tài)、模型尺寸、模型分辨率具有較好的魯棒性。和基于深度圖的方法相比,本文提出的方法具有更好的泛化能力,是一種行之有效的特征提取方法。
然而,手動(dòng)分割人臉區(qū)域的做法在一定程度上略顯粗糙,特征選取速度亦仍需優(yōu)化。同時(shí),本文僅對(duì)三維模型上所有頂點(diǎn)所屬區(qū)域進(jìn)行標(biāo)記,沒(méi)有將標(biāo)記后的結(jié)果結(jié)合三維分割算法進(jìn)行區(qū)域分割優(yōu)化。如何對(duì)相關(guān)算法加以改進(jìn),將是下一步需要解決的問(wèn)題。
參考文獻(xiàn):
[1]SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[J]. Computer Vision & Pattern Recognition,2013,9(4):3476-3483.
[2]CAO C, WENG Y, LIN S, et al. 3D shape regression for real-time facial animation[J]. Acm Transactions on Graphics, 2013, 32(4):96-96.
[3]CAO C, HOU Q, ZHOU K. Displaced dynamic expression regression for real-time facial tracking and animation[J]. Acm Transactions on Graphics, 2014, 33(4):1-10.
[4]SEEMAN E, NICKEL K, STIEFELHAGEN R. Head pose estimation using stereo vision for human-robot interaction[C].ICAFGR, 2004 Sixth IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 2004: 626-631.
[5]BREITENSTEIN M D, KUETTEL D, WEISE T, et al. Real-time face pose estimation from single range images[C]. Proc.IEEE put.Vis.Pattern Recognit, 2008:1-8.
[6]FANELLI G, GALL J, GOOL L V. Real time head pose estimation with random regression forests[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2011:617-624.
[7]FANELLI G, WEISE T, GALL J, et al. Real time head pose estimation from consumer depth cameras[C].Pattern Recognition Dagm Symposium, Frankfurt/main, Germany, 2011:101-110.
[8]FANELLI G, DANTONE M, GALL J, et al. Random forests for real time 3D face analysis[J]. International Journal of Computer Vision, 2013, 101(3):437-458.
[9]PAPAZOV C, MARKS T K, JONES M. Real-time 3D head pose and facial landmark estimation from depth images using triangular surface patch features[C].IEEE Conference on Computer Vision and Pattern Recognition. 2015:4722-4730.
[10]SHAPIRA L, SHALOM S, SHAMIR A, et al. Contextual part analogies in 3D objects[J]. International Journal of Computer Vision, 2010, 89(2):309-326.
[11]SIDI O, KAICK O V, KLEIMAN Y, et al. Unsupervised co-segmentation of a set of shapes via descriptor-space spectral clustering[C].SIGGRAPH Asia Conference. 2011.
[12]KALOGERAKIS E, HERTZMANN A, SINGH K. Learning 3D mesh segmentation and labeling[J]. Acm Transactions on Graphics, 2010, 29(4):157-166.
[13]XIE Z, XU K, LIU L, et al. 3D shape segmentation and labeling via extreme learning machine[J]. Computer Graphics Forum, 2014, 33(5):85-95.
[14]GUO K, ZOU D, CHEN X. 3D mesh labeling via deep convolutional neural networks[J]. Acm Transactions on Graphics, 2015, 35(1):1-12.
[15]JOHNSON A E, HEBERT M. Using spin images for efficient object recognition in cluttered 3d scenes[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1999, 21(5):433-449.
[16]FROME A, HUBER D, KOLLURI R, et al. Recognizing objects in range data using regional point descriptors[J]. Lecture Notes in Computer Science, 2004.
[17]TOMBARI F, SALTI S, STEFANO L D. Unique signatures of histograms for local surface description[C].European Conference on Computer Vision Conference on Computer Vision. Springer-Verlag, 2010:356-369.
[18]ZAHARESCU A, BOYER E, VARANASI K, et al. Surface feature detection and description with applications to mesh matching[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2009:373-380.
[19]ZAHARESCU A, BOYER E, HORAUD R. Keypoints and local descriptors of scalar functions on 2D manifolds[J]. International Journal of Computer Vision, 2012, 100(1):78-98.
[20]PAYSAN P, KNOTHE R, AMBERG B, et al. A 3D face model for pose and illumination invariant face recognition[C].IEEE International Conference on Advanced Video & Signal Based Surveillance. IEEE Computer Society, 2009:296-301.
[21]BREIMAN, LEO. Classification and regression trees[M].Classification and regression trees /. Chapman & Hall/CRC, 1984:17-23.
[22]MITCHELL. Machine learning[M]. McGraw-Hill, 2003.