前言:中文期刊網精心挑選了卷積神經網絡的特性范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
卷積神經網絡的特性范文1
1 引言
人們的內心想法通常都會表現在面部表情上,然而在一些極端環境下,人們為了壓抑自己的真實內心情感時,他們的面部變化十分微小,我們通常稱之為微表情。在刑偵、醫學、教育、心理和國防等領域上,微表情的應用前景十分遠大, 不過即便是經過訓練的人也很難用肉眼來準確的檢測和識別微表情。其主要原因就是它的持續時間短,僅為1/5~1/25s,而且動作幅度很小。
人臉表情識別技術早已發展到一定程度了,甚至不少研究團隊提出的方法針對6種基本表情的識別率已經達到90%。然而微表情識別技術的研究在近幾年來才剛剛開始,如Pfister等提出了一種結合時域插值模型和多核學習的方法來識別微表情; Wu等設計了一種使用Gabor特征和支持向量機的微表情識別系統;唐紅梅等在LTP做出改進而提出的MG-LTP算法,然后采用極限學習機對微表情進行訓練和分類;Wang等提出了基于判別式張量子空間分析的特征提取方法,并利用極限學習機訓練和分類微表情。
上述的識別技術都是基于傳統機器學習的方法,而近幾年來,利用深度學習技術來解決圖像識別問題是當前的研究熱點。在ILSVRC-2012圖像識別競賽中,Krizhevsky等利用深度卷積神經網絡的自適應特征提取方法,其性能遠遠超過使用人工提取特征的方法,并且在近幾年內的ImageNet大規模視覺識別挑戰比賽中連續刷新了世界紀錄。
本文決定使用卷積神經網絡(CNN)來提取人臉微表情特征,它能讓機器自主地從樣本數據中學習到表示這些微表情的本質特征,而這些特征更具有一般性。由于微表情的特性,要充分利用微表情的上下文信息才能更為精確的識別微表情,這里我們采用長短時記憶網絡(LSTM),它是遞歸神經網絡(RNN)中的一種變換形式,它能夠充分的利用數據的上下文信息,在對序列的識別任務中表現優異,近幾年來它被充分的利用到自然語言處理、語音識別機器翻譯等領域。綜上所述,本文提出一種CNN和LSTM結合的微表情識別方法。
2 相關工作
2.1 卷積神經網絡模型
卷積神經網絡模型(CNN)最早是由LeCun等在1990年首次提出,現已在圖像識別領域取得巨大成功,它能夠發現隱藏在圖片中的特征,相比人工提取的特征更具有區分度,而且不需要對原始數據做過多的預處理。
卷積神經網絡(CNN)通過三種方式來讓網絡所學習到的特征更具有魯棒性:局部感受野、權值共享和降采樣。局部感受野是指每一個卷積層的神經元只能和上一層的一部分神經元連接,而不是一般神經網絡里所要求的全連接,這樣每一個神經元能夠感受到局部的視覺特征,然后在更高層將局部信息進行整合,進而得到整個圖片的描述信息。權值共享是指每一個神經元和上一層的部分神經元所連接的每一條邊的權值,和當前層其他神經元和上一層連接的每一條邊的權值是一樣的,首先@樣減少了需要訓練的參數個數,其次我們可以把這種模式作為提取整個圖片特征的一種方式。降采樣是指通過將一定范圍內的像素點壓縮為一個像素點,使圖像縮放,減少特征的維度,通常在卷積層之后用來讓各層所得到的特征具有平移、縮放不變形,從而使特征具有更強的泛化性。
2.2 長短時記憶型遞歸神經網絡模型
長短時記憶(LSTM)模型是由Hochreiter提出,它解決了傳統RNN在處理長序列數據時存在的梯度消失問題,這一切都要歸結于LSTM結構的精心設計。一個常規的LSTM結構如圖1所示。
每一個LSTM結構都有一個記憶單元Ct(t表示當前時刻),它保存著這個時刻LSTM結構的內部狀態,同時里面還有三個門來控制整個結構的變化,它們分別是輸入門(xt),忘記門(ft)和輸出門(ht),它們的定義如下所示:
(1)
(2)
(3)
(4)
(5)
(6)
其中σ是一個sigmod函數,而則表示輸入數據的非線性變化,W和b是模型需要訓練得到的參數。等式5展示了當前的記憶單元是由忘記門和上一時刻的內部狀態所控制的,ft決定了上一時刻的內部狀態對當前時刻的內部狀態的影響程度,而it則確定了輸入數據的非線性變換得到的狀態對當前時刻記憶單元的影響程度。等式6展示了輸出門和當前時刻的內部狀態決定了該LSTM的輸出。正因為這個巧妙的設計,LSTM就能處理長序列的數據,并且能夠從輸入序列中獲取時間上的關聯性,這一特性對于微表情的識別尤為重要。
3 網絡結構調優和改進
3.1 卷積神經網絡設計
本文針對輸入大小為96×96的灰度圖,構建了4個卷積層(C1,C2,C3,C4),4個池化層(S1,S2,S3,S4),1個全連接層(FC1)和1個Softmax層組成的卷積神經網絡結構,如圖2所示。卷積核(C1,C2,C3,C4)的大小分別為3×3,3×3,5×5,5×5,分別有32,32,32,64個。池化層的降采樣核大小均為2×2,并且全部采用的是最大采樣,每一個池化層都在對應的卷積層之后,而在所有的卷積層之后,連接了一個包含256個神經元的全連接層,為了盡可能的避免過擬合問題,本文在全連接層后加入一個p=0.75的Dropout層,除了softmax層,其余層的激活函數全部是采用ReLU,CNN的參數訓練都是采用隨機梯度下降算法,每一批次包含100張圖片,并設置沖量為0.9,學習速率為0.001。
3.2 長短時記憶型遞歸神經網絡設計
盡管CNN已經從人臉微表情圖片從學習到了特征,但是單一的CNN模型忽略了微表情在時域上的信息。于是我們提出通過LSTM來學習不同人臉表情在時域上的關聯特征。我們構建了多個LSTM層,以及一個softmax層。
我們首先先訓練好CNN的參數,然后把訓練好的CNN模型,作為一個提取人臉微表情的工具,對于每一幀圖片,我們把最后一個全連接層的256維的向量輸出作為提取的特征。那么給定一個時間點t,我們取之前的W幀圖片([t-W+1,t])。然后將這些圖片傳入到訓練好的CNN模型中,然后提取出W幀圖片的特征,如果某一個序列的特征數目不足,那么用0向量補全,每一個特征的維度為256,接著將這些圖片的特征依次輸入到LSTM的節點中去,只有t時刻,LSTM才會輸出它的特征到softmax層。同樣LSTM網絡的參數訓練還是采用隨機梯度下降算法,每一批次為50個序列,沖量為0.85,學習速率為0.01。
4 實驗
4.1 微表情數據集
該實驗的訓練數據和測試數據均來自于中國科學院心理研究所傅小蘭團隊的第2代改進數據庫CASMEII。該數據庫從26名受試者中捕捉到近3000個面部動作中選取的247個帶有微表情的視頻,并且給出了微表情的起始和結束時間以及表情標簽,由于其中悲傷和害怕表情的數據量并不多,因此本文選取了里面的5類表情(高興,惡心,驚訝,其他,中性),由于數據庫中的圖片尺寸不一樣并且是彩色圖片,因此先將圖片進行灰度處理,并歸一化到 大小作為網絡的輸入。本實驗采用5折交叉驗證的方法,選取245個微表情序列等分成5份,每個序列的圖片有10張到70張不等,每份均包含5類表情。
4.2 CNN+LSTM和CNN的對比實驗
從圖2中可以看出不同策略在五類表情里的識別率。當我們采用單一的CNN模型來對人臉微表情進行分類時,我們采取了dropout策略和數據集擴增策略來防止CNN過擬合。CNN+D表示采取了dropout策略的CNN模型,CNN+A表示采取了數據擴增策略的CNN模型, 即對每一張圖片進行了以下四種變換:旋轉、水平平移、垂直平移、水平翻轉。從而能將數據集擴增至4倍。CNN+AD表示采取了兩種策略的CNN模型。CNN+LSTM表示結合了CNN和LSTM的網絡模型。
從表1中我們可以看出,添加了策略的CNN,在人微表情識別上的表現要好于沒有添加策略的CNN,這可能是因為訓練圖片較少,而CNN網絡層次較深,導致沒有添加策略的CNN在訓練參數的過程中很容易就過擬合了。而對于CNN+LSTM的表現要好于單一的CNN模型,這說明LSTM的確能夠充分利用時域上的特征信息,從而能夠更好識別序列數據,這證明了CNN+LSTM的模型可以用于識別人臉微表情的可行性。從表1中,我們還可以看出高興和驚訝的表情識別率較高,而其他的則相對較低,這可能是因為高興和驚訝的區分度較大,并且樣本較多。
4.3 LSTM的參數調整
下面我們逐一的研究不同參數對CNN+LSTM模型的微表情識別率的影響程度。
圖4顯示輸入的序列個數為100左右能夠擁有相對較高的準確率,這說明只有充分利用每一個微表情序列的時域信息,這樣,訓練出的模型才更加具有一般性。
圖5顯示出當LSTM隱層的神經元個數為128時,此時的微表情平均識別率最高,這說明隱層需要足夠多的神經元才能保留更長的時域信息,對于微表情識別來說,能夠擁有更高的精度。
圖6顯示了LSTM隱層的個數為5時,該模型擁有最好的識別率,這說明較深的LSTM網絡才能充分挖掘特征的時域信息。因此經過以上實驗,我們得到了一個由5層LSTM,每一層包含128個神經元,并能夠處理長度為100的特征序列的模型。
4.4 和非深度學習算法的實驗對比
為了比較傳統機器學習算法和深度學習算法孰優孰劣,我們使用傳統機器學習算法在Casme2進行了一樣的實驗,從表2中可以看出,本文所提出的CNN+LSTM模型相對于這些傳統機器學習模型,有著較為優異的表現。
本文中的實驗均是基于Google的開源機器學習庫TensorFlow上進行的,硬件平臺是dell工作站:Intel(R) Core(TM) i7-5820K CPU、主頻3.3GHZ,內存64GB、Nvida GeForce GTX TITAN X GPU、顯存12GB。
5 結束語
本文針對傳統方法對微表情識別率低,圖片預處理復雜的情況,提出了采用卷積神經網絡和遞歸神經網絡(LSTM)結合的方式,通過前面的卷積網絡層來提取微表情的靜態特征,省去了傳統機器學習方法,需要人工提取特征的過程,簡化了特征提取的工作。然后再通過后面的遞歸神經網路,充分利用表情特征序列的上下文信息,從而在序列數據中發現隱藏在其中的時域信息,從實驗結果中可以看出,利用了時域信息的CNN+LSTM比單純使用CNN的識別率更高,而且相對于傳統機器學習方法也更為優秀。但是當數據量越大時,如果網絡的層次比較深的話,模型的訓練時間就會很長,并且極度依賴硬件設備,這算是深度學習通有的弊病。為了進一步投入到應用中去,接下來還得提高微表情的識別率,以及在實時環境下,如何能夠動態和準確的識別微表情,這些都將會是以后研究的重點。
參考文獻
[1]PORTER S,TEN BRINKE L.Reading between the Lies Identifying Concealed and Falsified Emotions in Universal Facial Expressions[J].Psychological Science,2008,19(05):508-514.
[2]Pfister T,Li X,Zhao G,Pietikainen M (2011) Recognising spontaneous facial micro-expressions.2011 Proc IEEE Int Conf Comput Vis (ICCV): IEEE.pp.1449-1456.
[3]Wu Q,Shen X,Fu X (2011) The Machine Knows What You Are Hiding: An Automatic Micro-expression Recognition System.In: D’Mello S,Graesser A,Schuller B,Martin J-C,editors.Affect Comput Intell Interact.Springer Berlin/ Heidelberg. pp.152-162.
[4]唐紅梅,石京力,郭迎春,韓力英,王霞. 基于MG-LTP與ELM的微表情識別[J].電視技術,2015,39(03):123-126.
[5]WANG S J,CHEN H L,YAN W J,et al. Face Recognition and Micro-Expression Recognition Based on Discriminant Tensor Subspace Analysis Plus Extreme Learning Machine[J].Neural Processing Letters,2014,39(01):25-43.
[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks. In:Advances in Neural Information Processing Systems 25.Lake Tahoe, Nevada,USA:Curran Associates,Inc., 2012.1097?1105
[7]DENG J,DONG W,SOCHER R,et al.Imagenet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.
[8]BENGIO Y,DELALLEAU O.On the expressive power of deep archi-tectures[C]//Proc of the 14th International Conference on Discovery Science.Berlin:Springer-Verlag,2011:18-36.
[9]LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recogni- tion with a back-propagation network. In: Proceedings of Advances in Neural Information Processing Systems 2. San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404.
[10]S可.卷積神經網絡在圖像識別上的應用研究[D].杭州:浙江大學[學位論文],2012.
[11]Hochreiter S,Sehmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(08):1735-1780
[12]LUCEY P,COHN J F,KANADE T,et al.The Extended Cohn-Kanade Dataset ( CK + ): A complete dataset for ac- tion unit and emotion-specified expression [C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New York:IEEE,2010:94-101.
[13]Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press, 2001.
[14]YAN W J, LI X, WANG S J, et al. CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluation [J].Plos One, 2014,9(01):1-8.
[15]Yandan Wang,John See,Raphael C-W Phan,Yee-Hui Oh. Efficient Spatio-Temporal Local Binary Patterns for Spontaneous Facial Micro-Expression Recognition[J].PLOS ONE,2013,10(05): 11-12
[16]張軒閣,田彥濤,郭艷君,王美茜.基于光流與LBP-TOP特征結合的微表情識別[J].吉林大學學報:信息科學版, 2015,33(05):521-522.
[17]Martín Abadi, Paul BarhamJianmin, Chen el.TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].https:///abs/1605.08695.
卷積神經網絡的特性范文2
(廣東外語外貿大學 金融學院,廣東 廣州 510006)
摘 要:作為一個具有巨大應用前景研究方向,深度學習無論是在算法研究,還是在實際應用(如語音識別,自然語言處理、計算機視覺)中都表現出其強大的潛力和功能.本文主要介紹這種深度學習算法,并介紹其在金融領域的領用.
關鍵詞 :深度學習;受限波茲曼機;堆棧自編碼神經網絡;稀疏編碼;特征學習
中圖分類號:TP181 文獻標識碼:A 文章編號:1673-260X(2015)01-0037-03
1 深度學習的研究意義
深度學習是一類新興的多層神經網絡學習算法,因其緩解了傳統訓練算法的局部最小性,引起機器學習領域的廣泛關注.深度學習的特點是,通過一系列邏輯回歸的堆棧作為運算單元,對低層數據特征進行無監督的再表示(該過程稱為預學習),形成更加抽象的高層表示(屬性類別或特征),以發現數據的分布式特征表示.深度學習的這種特性由于與腦神經科學理論相一致,因此被廣泛應用于語音識別、自然語言處理和計算機視覺等領域.
生物學研究表明[1]:在生物神經元突觸的輸出變化與輸入脈沖的持續時間有關,即依賴于持續一定時間的輸入過程,輸出信號既依賴于輸入信號的空間效應和閾值作用,也依賴于時間總和效應.
傳統的深度學習方法雖然較好地模擬了生物神經元的一個重要特性——空間總和效應上的深度,卻忽視了生物神經元的另一個重要特性——時間總和效應上的寬度[2].因此,對于連續的時間變量問題(如語音識別),傳統深度學習方法只能將連續的時間函數關系轉化為空間關系,即離散化為時間序列進行處理.這樣做有幾個弊端:
(1)可能造成深度學習算法對時間采樣頻率的十分敏感,魯棒性較差.這使得,不同時間尺度下,需要使用不同的數據和算法.這無疑是十分不方便的;
(2)導致深度網絡規模過大,使得計算開銷增大、學習效果變差、泛化性能降低;
(3)難以滿足實際應用對算法的實時性的要求,更難以體現連續輸入信息的累積效應,大大降低深度學習算法的實用性.
因此,對傳統的深度學習算法進行改進,使其不但具有“深度”,亦能具有“寬度”,能夠對連續時變數據進行更好的特征提取、提高算法效率和實用性,顯得勢在必行.基于這個切入點,本項目借鑒時頻分析與小波分析中的方法,結合數學分析領域中的泛函分析技術,與堆棧自編碼神經網絡相結合,提出一種新的深度學習算法——深度泛函網絡.為了驗證算法的有效性及優越性,本項目將把新算法應用于金融時間序列的領域.
在目前國內外對于深度學習的研究中,幾乎沒有任何將深度學習技術運用于金融數據的研究.通過提出并運用得當的深度序列學習方法,我們期望從金融數據中抽取更高級的、具有經濟學意義或預測性意義的高級特征(與人工設計的“技術指標”相對應),并開發相應的量化交易策略,并與其它傳統算法進行對比,以說明所提算法的可行性和優越性.
2 國內外研究現狀
人類感知系統具有的層次結構,能夠提取高級感官特征來識別物體(聲音),因而大大降低了視覺系統處理的數據量,并保留了物體有用的結構信息.對于要提取具有潛在復雜結構規則的自然圖像、視頻、語音和音樂等結構豐富數據,人腦獨有的結構能夠獲取其本質特征[3].受大腦結構分層次啟發,神經網絡研究人員一直致力于多層神經網絡的研究.訓練多層網絡的算法以BP算法為代表,其由于局部極值、權重衰減等問題,對于多于2個隱含層的網絡的訓練就已較為困難[4],這使得實際應用中多以使用單隱含層神經網絡居多.
該問題由Hinton[5]所引入的逐層無監督訓練方法所解決.具體地,該法對深度神經網絡中的每一層貪婪地分別進行訓練:當前一層被訓練完畢后,下一層網絡的權值通過對該層的輸入(即前一層的輸出)進行編碼(Encoding,詳見下文)而得到.當所有隱含層都訓練完畢后,最后將使用有監督的方法對整個神經網絡的權值再進行精確微調.在Hinton的原始論文中,逐層貪婪訓練是通過受限波茲曼機(Restricted Boltzmann Machine,RBM)以及相對應的對比散度方法(Contrastive Divergence)完成的.與通常的神經元不同,RBM是一種概率生成模型,通常被設計為具有二元輸入-輸出(稱為Bernoulli-Bernoulli RBM).通過對每一層的受限波茲曼機進行自底向上的堆棧(如圖1),可以得到深度信念網(Deep Belief Network,DBN).
除了生成式的RBM,還有其他的深度學習結構被廣泛使用和研究.如堆棧自編碼神經網絡(Stacked Auto-Encoder Network,SAEN)[6],以及深度卷積神經網絡(Deep Convolutional Network)[7]等.前者的優勢在于可以簡單地采用通常的BP算法進行逐層預訓練,并且引入隨機化過程的抗噪聲自編碼網絡(Denoising SAEN)泛化性能甚至超過DBN[8];而后者則通過權值共享結構減少了權值的數量,使圖像可以直接作為輸入,對平移、伸縮、傾斜等的變形具有高度不變性,因此在圖像識別領域有著廣泛應用.
近年來,稀疏編碼(Sparse Encoding)和特征學習(Feature Learning)成為了深度學習領域較為熱門的研究方向.B.A.Olshausen[9]等針對人腦的視覺感知特性,提出稀疏編碼的概念.稀疏編碼算法是一種無監督學習方法,它用來尋找一組“過完備”的基向量來更高效地表示輸入數據的特征,更有效地挖掘隱含在輸入數據內部的特征與模式.針對稀疏編碼的求解問題,H.Lee等在2007年提出了一種高效的求解算法[10],該算法通過迭代地求解兩個不同的凸規劃問題以提高效率.同年,H.Lee等發現,當訓練樣本為圖像時,對DBN的訓練進行稀疏性的約束有利于算法學習到更高級的特征[11].例如,對手寫識別數據集進行訓練時,稀疏性約束下的DBN算法自主學習到了“筆畫”的概念.
基于[10,11]的研究成果,R.Raina等[12]提出了“自導師學習(Self-Taught Learning)”的概念.與無監督學習(Unsupervised Learning)和半監督學習(Semi-supervised Learning)不同,自導師學習利用大量易獲得的無標簽數據(可以來自不同類別甚至是未知類別),通過稀疏編碼算法來構建特征的高級結構,并通過支持向量機(Support Vector Machine,SVM)作為最終層分類器對少數有標簽數據進行分類.這種更接近人類學習方式的模式極大提高了有標簽數據的分類準確度.與之類似,H.Lee,R.Grosse等[13]提出了一種具有層次結構的特征學習算法.該算法將卷積神經網絡與DBN結合,并通過稀疏正則化(Sparsity Regularization)的手段無監督地學習層次化的特征表征.圖像識別實驗表明,該算法能夠自主學習得出“物體(Object Parts)”的概念,較好體現了人腦視覺感知的層次性和抽象性.
3 發展趨勢
由于信號處理、語音識別、金融時間序列分析、視頻分析等領域的實時應用需求,研究能夠處理連續時變變量、自然體現時間聯系結構的深度學習算法(即深度序列學習,Deep Sequence Learning)成為了新的研究熱點.G.W.Taylor,G.E.Hinton等[14]提出時間受限波茲曼機(Temporal RBM,TRBM).該模型使用二值隱含元和實值可視元,并且其隱含元和可視元可以與過去一段歷史的可視元之間可以有向地被相連.同時,該模型被用于人類動作識別,并展現出了優秀的性能.針對TRBM的一些不足,一些改進算法也不斷涌現,如[15,16].然而,該類深度學習模型雖然考慮了動態的時間變量之間的聯系,但依然只能處理離散時間問題,本質上還是屬于轉化為空間變量的化歸法.同時,在自編碼網絡框架下,依然缺乏較好解決時間過程(序列)問題的方案.
4 金融時序數據中的應用
傳統金融理論認為,金融市場中的證券價格滿足伊藤過程,投資者無法通過對歷史數據的分析獲得超額利潤.然而,大量實證研究卻表明,中國股票價格波動具有長期記憶性,拒絕隨機性假設,在各種時間尺度上都存在的可以預測的空間.因此,如何建立預測模型,對于揭示金融市場的內在規律,這無論是對于理論研究,還是對于國家的經濟發展和廣大投資者,都具有重要的意義.
股票市場是一個高度復雜的非線性系統,其變化既有內在的規律性,同時也受到市場,宏觀經濟環境,以及非經濟原因等諸多因素的影響.目前國內外對證券價格進行預測的模型大致分為兩類:一是以時間序列為代表的統計預測模型;該類方法具有堅實的統計學基礎,但由于金融價格數據存在高噪聲、波動大、高度非線性等特征,使得該類傳統方法無法提供有效的工具.另一類是以神經網絡、支持向量機等模型為代表的數據挖掘模型.該類模型能夠處理高度非線性的數據,基本上從擬合的角度建模.雖然擬合精度較高,但擬合精度的微小誤差往往和市場波動互相抵消,導致無法捕捉獲利空間甚至導致損失,外推預測效果無法令人滿意.因此,建立即能夠處理非線性價格數據,又有良好泛化能力的預測模型勢在必行.
——————————
參考文獻:
〔1〕Zhang L I, Tao H W, Holt C E, et al. A critical window for cooperation and competition among developing retinotectal synapses[J]. Nature, 1998, 395(6697).
〔2〕37-44.歐陽楷,鄒睿.基于生物的神經網絡的理論框架——神經元模型[J].北京生物醫學工程,1997,16(2):93-101.
〔3〕Rossi A F, Desimone R, Ungerleider L G. Contextual modulation in primary visual cortex of macaques[J]. the Journal of Neuroscience, 2001, 21(5): 1698-1709.
〔4〕Bengio Y. Learning deep architectures for AI[J]. Foundations and trends? in Machine Learning, 2009, 2(1):1-127.
〔5〕Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.
〔6〕Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 1096-1103.
〔7〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔8〕Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. The Journal of Machine Learning Research, 2010, 9999: 3371-3408.
〔9〕Olshausen B A, Field D J. Sparse coding with an overcomplete basis set: A strategy employed by V1?[J]. Vision research, 1997, 37(23): 3311-3325.
〔10〕Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[J]. Advances in neural information processing systems, 2007, 19: 801.
〔11〕Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2[C]//NIPS. 2007, 7: 873-880.
〔12〕Raina R, Battle A, Lee H, et al. Self-taught learning: transfer learning from unlabeled data[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 759-766.
〔13〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔14〕Taylor G W, Hinton G E, Roweis S T. Modeling human motion using binary latent variables[J]. Advances in neural information processing systems, 2007, 19: 1345.
卷積神經網絡的特性范文3
基金項目:甘肅省自然科學基金資助項目(1014RJZA009);甘肅省教育廳碩士生導師基金資助項目(0803-07)。
作者簡介:王燕(1971-),女,甘肅蘭州人,副教授,碩士,主要研究方向:模式識別、圖像處理、智能信息處理; 公維軍(1987-),男,甘肅張掖人,碩士研究生,主要研究方向:模式識別。
文章編號:1001-9081(2011)07-1822-03doi:10.3724/SP.J.1087.2011.01822
(蘭州理工大學 計算機與通信學院, 蘭州 730050)
()
摘 要:提出了一種基于雙閾值的兩級級聯分類器的人臉檢測加速方法。該方法首先應用Gabor濾波器提取經模板匹配保留的似人臉樣本特征,經主成分分析(PCA)降維后的特征作為第一級BP神經網絡輸入進行檢測,在輸出端應用雙閾值對人臉/非人臉進行粗檢測,然后把介于雙閾值之間的人臉/非人臉模塊作為第二級AdaBoost算法設計的輸入并再次進行精檢測,從而在提高檢測速度的同時達到提高檢測率和降低誤檢率的目的。實驗表明,應用雙閾值進行級聯分類加速檢測后,該方法的檢測精度要優于基于簡單閾值的分類器。
關鍵詞:人臉檢測;雙閾值;分類器;級聯;加速
中圖分類號:TP391.4文獻標志碼:A
Accelerated algorithm of face detection based on
dual-threshold cascade classifiers
WANG Yan,GONG Wei-jun
(School of Computer and Communication, Lanzhou University of Technology, Lanzhou Gansu 730050, China)
Abstract: The paper proposed an accelerating way of face detection based on dual-threshold cascade classifiers. First, it applied Gabor filter to extract the face-like features that were retained by template matching, then put eigenvectors extracted by the way of Principal Component Analysis (PCA) into the BP neural network as first classifier, then used dual-threshold to decide face or non-face on output end, and put the face or non-face of midway between up and down threshold into the AdaBoost classifier as the second classifier to decide. In this way, it can improve the detection rate and reduce the false rate while speeding up the detection speed. The experimental results prove that the precision of cascade classifier of face detection based on dual-threshold is superior to the classifier of single threshold.
Key words: face detection; dual-threshold; classifier; cascade; acceleration
0 引言
人臉作為人類視覺中常見而復雜的模式,它所表現的信息在人與人的交流及人機交互領域都有著重要的意義。對人臉進行檢測在安保視頻監控,目標身份檢測、門禁系統、智能人機接口和偵查犯罪等諸多領域都有著廣泛的應用背景。人臉檢測可描述為對一幅給定的圖像(靜態或者視頻),采用一定的方法和策略對其進行搜索以確定其中是否含有人臉以及人臉在圖像中出現的位置。
人臉是一類非剛性的自然形體,雖然具有很強的共性,但由于個體表情、光照、遮掩以及成像角度等因素的影響,使得人臉具有比較復雜而細致的模式變化。如果能夠很好地提取關鍵特征及設計良好的分類器,將為解決后續跟蹤識別及相似的復雜模式檢測問題提供有益的指導,所以人臉檢測是當前模式識別領域的一個熱點研究課題。
之前不少學者提出了各種綜合算法以及一些改進算法,Rowley等人[1]提出了使用神經網絡算法設計的人臉檢測模型,Viola等人[2]等人提出了用簡單特征訓練級聯人臉檢測器的AdaBoost方法,這之后又有學者在此基礎上提出了改進算法,如Lienhart等人提出的擴展特征的旋轉人臉檢測[3]、支持向量機[4]等。還有學者提出各種模型算法,如膚色模型的人臉檢測[5-6]等。上述基于單一分類器的人臉檢測在一定程度上提高了檢測精度,但是由于自身特點的局限性,并且分類閾值的單一性等造成了進一步提升精度和降低報警率的困難。本文通過級聯分類這種粗細檢測的原則,提出了一種基于雙閾值的級聯分類器的加速人臉檢測方法。與以往級聯的方法不同,本方法結合基于知識與統計的方法[7],先應用模板匹配將大量背景去除,只將其中很少的似人臉送入第一級BP神經網絡構成的分類器進行雙閾值初檢,將介于上下閾值的人臉/非人臉送入應用Haar特征的AdaBoost算法的第二級分類器進行精確判別。實驗證明該方法能夠有效提高檢測率,降低誤檢率并提高檢測速度。
1 兩級分類器的構建
1.1 基于Gabor小波的BP神經網絡分類器
1.1.1 Gabor小波特征提取
Gabor小波變換(加窗傅里葉變換)由于其小波核函數具有和人腦大腦皮層簡單細胞的二維反射區相類似的特性,使其在空間頻率、方向選擇及空間位置的局部信息上有著良好的采集和分辨能力,因此在以生物學和視覺特性為背景的圖像學和人臉檢測等多方面得到了廣泛的應用。
二維Gabor濾波器函數形式為:
Gj(w)exp(-)[exp(ikjw)-exp(-)](1)
其中:kj,φuu?,w(x,y);δ為高斯窗口的尺度因子,控制濾波器的帶寬和尺度;φu與ωv控制濾波器的調制方向和頻率。只要選擇合適的δ、φu和ωv,就可以使Gabor小波濾波器構成Gabor濾波器組來一同作用于圖像,從而實現目標圖像的Gabor小波分解,得到我們所要的特征。在本文中通過檢測窗口與Gabor濾波器組卷積即可得到我們所要提取的特征。
1.1.2 BP神經網絡
BP神經網絡是一種基于誤差修正學習規則的網絡,它實現一種由輸入到輸出的非線性空間的一種映射,它的模型一般由輸入層、隱層、輸出層組成,隱層可以由一層或多層組成。該算法學習的目的是對網絡的連接權值進行調整,使得對任意輸入都能得到所謂期望的輸出[8],它采用了優化的梯度下降算法,直到調整的誤差滿足需求為止。
1.2 基于AdaBoost算法的人臉檢測分類器
1.2.1 Haar特征模板和積分圖像
應用AdaBoost學習算法的特征級聯人臉檢測方法是由Viola和Jones提出來的,該方法采用一種“積分圖像”的表示方法,能快速從人臉中計算出所用到的人臉特征。
Haar型特征是Viola等人提出的一種簡單的矩形矩陣。Haar型特征的值是指圖像上兩個或者多個形狀大小相同的矩形內部所有像素灰度值之和的差值。這些以圖像灰度值為自變量的矩形特征在邊緣檢測方面有著很好的表現能力,對人臉臉部的各種特征有很好的提取和編碼能力,檢測速度很快。
Haar型特征的計算是通過引入積分圖像實現的,見圖1。對于一個灰度圖像I,它的積分圖像i的定義為圖像中(x,y)點左上部分所有像素點的累加:
I(x,y)∑x′≤x,y′≤yi(x′,y′)(2)
圖1 積分圖像
這時,1、2、3、4的積分圖的值分別為A、A+B、A+C、A+B+C+D,D點的矩形特征可以通過4+1-(2+3)計算得出,這樣,只要對圖像遍歷一次,就可以得到積分圖,就可以在恒定的時間內得到任意尺度下的圖像的特征。
1.2.2 AdaBoost學習算法
AdaBoost學習算法選擇少量而又非常重要的矩形特征來構造一系列弱分類器,然后將這些弱分類器級聯起來構成一個強分類器。算法通過選擇最能區分正負樣本的矩形特征。對于每一個特征,弱分類器給定一個最優的分類函數的閾值,使得最少的樣本被錯誤分類。一個弱分類器hj(x)包含矩形特征fj,閾值θj和用于控制不等式方向的pj:
hj(x)1, pjfj(x)≤pjθj
0, 其他 (3)
具體學習算法如下:
設(X1,Y1)、(X2,Y2)、…、(Xn,Yn)為具體輸入的圖像,用Yj0,1來標記正負樣本,T為循環次數。
1)初始化權值w1,對正樣本(Yj1)和負樣本(Yj0)有I1/(2m),1/(2n)。
2)當t1,2,…,T時:
①標準化權值,wt,i
②對每一個特征j,訓練相應的分類器hj使該分類器對該特征進行分類,誤差為εj∑Tt1wt|hj(x)-yi|。
③選擇最小誤差分類的分類器。
④更新權值wt+1,twt,jβ1-eit,若Xi被正確地分類,則ei0;反之,ei1,βt(1-ei)/t。
⑤最終的強分類器為:
h(x)1, ∑Tt1αtht(x)≥∑Tt1αt
0, 其他 (4)
其中αtlb (1/βt)。
2 基于雙閾值的級聯分類器的加速算法
2.1 系統構造框架
為了解決基于傳統的檢測方法中無論是單分類器還是級聯分類器均由單一閾值造成漏檢與誤檢之間的矛盾,本文在兼顧速度的同時通過利用雙閾值設置檢測緩沖區,達到提高檢測率與降低誤檢率和漏檢率的目的。具體流程如圖2所示。
圖2 人臉檢測系統框架
2.2 樣本選取和圖像預處理
該系統所用的人臉訓練樣本來自MIT、ORL訓練圖庫。為了便于訓練,統一將其裁剪為21×18的樣本圖像進行相應的分類器訓練,在訓練當中可以根據后期檢測結果適時添加一些非人臉樣本,減少一定的盲目性。
無論在訓練還是在檢測前,為了減少圖像由于光照、背景以及采集設備等造成的影響,都將進行一定的預處理。在本系統中,我們采用了連續性能更好的Gamma光照補償,這樣當原始圖像分布不均勻,并且主要集中在較低范圍灰度級時,經過均衡處理后,圖像的灰度動態范圍變大,對比度增強,人臉特征更加突出。這樣可以進一步減少光照等因素帶來的影響,從而更有利于提取人臉特征。
2.3 系統加速算法設計
傳統基于滑動窗的檢測方法在待測圖像中依次滑動,通過將每一個窗口送入訓練好的神經網絡分類器進行判別,而經實驗測試一張21×18的圖片在本文所訓練的神經網絡分類器中運行時間為0.07s左右,若進行全部窗口測試,計算量相當大,這也是時間復雜度相對較高的原因之一。基于此,本文對基于歐氏距離的模板匹配算法[9]進行模板改進,去除眼睛模板,在應用多尺度壓縮的圖像金字塔方法的測試圖片上進行整體模板匹配[10],通過保留與人臉相似度大的窗口位置進行神經網絡分類器測試進而將大量背景去除,通過這種加速處理方法來提高前期算法的效率。
2.4 雙閾值級聯分類器
第一級分類器我們采用神經網絡的方法[11-12]。它是通過主成分分析(Principal Component Analysis,PCA)降維[13]后進行BP神經網絡訓練得到的分類器,由于傳統BP神經網絡在應用時存在一些問題,如容易形成局部最小問題、收斂速度問題而不能保證全局最小結果[14],因此本文在訓練BP神經網絡時采用具有自適應能力的動量項對BP神經網絡進行優化設計。對隱層的神經元來說:
Δwji(n)αΔwji(n-1)+ηδj(n)yj(n)(5)
對于輸出層來說:
Δwji(n)αΔwji(n-1)+ηδk(n)yj(n)(6)
在式(5)和式(6)中,α為動量因子,調節范圍在(0,1),其中式中第二項相當于ηδ(n)y(n)-η,可以根據這一項來判斷誤差曲面的趨勢以進行自適應調整,從而不至于過大造成過沖或過小造成收斂速度慢,從而起到一定的穩定作用。根據具體實驗效果,得出了以下自適應因子數據參照表,見表1。
表1 自適應因子參照表
通過自適應因子來調節學習速度進而控制反饋回路。通過應用優化設計的BP網絡,其收斂速度和魯棒性得到了很大的提高。
將達到一定程度的匹配模塊經過Gabor特征提取輸入第一級分類器,在應用神經網絡進行粗檢測時,如果高于雙閾值中的上閾值則直接判別為人臉,不再送入細檢測分類器;而低于下閾值的直接判別為非人臉,直接剔除;而由于訓練集范圍的有限性及光照,遮掩等各種原因,在介于高閾值和低閾值之間的范疇中,有存在人臉的可能性。因此,把介于這兩個閾值之間的人臉與部分非人臉圖像塊再輸入基于Haar特征的AdaBoost分類算法的第二級分類器進行再次判別,由于只檢測第一級分類器輸出介于雙閾值之間的人臉或非人臉的小尺寸圖像,所以在此進一步進行加速檢測。
由于第二級分類器采用灰度級上的積分特征提取,所以能夠快速地對介于雙閾值中的人臉/非人臉從灰度級上進行確認。最后通過這兩級級聯分類器的最終確認并合并人臉中心位置以確定最終位置,從而得到檢測后最終的人臉圖像。
2.5 算法描述
根據粗細檢測的原則,對檢測圖片進行分類器級聯檢測,由第一級神經網絡分類器進行粗檢測,在與第二級分類器級聯時,通過設置雙閾值接口算法來進行細檢測從而達到既降低計算復雜度又提高精度的目的。具體算法描述如下:
1)初始化分類器,預處理測試集圖片
2)FOR i1:n//n為測試集圖片數
Input classifier_gabor&bp( )//進入第一級分類器
FOR j1:m //m為第一級分類器初檢圖像塊數
IF wj>Threshold_up
yj+1 accept//加入到人臉集
ELSE IF
(wjThreshold_down)
Input classifier_adaboost( )//進入第二級分類器
IF (wj>Threshold_adaboost)
yj+1 accept//再次確認加入到人臉集
ELSE discard
ELSE discard
END
END
Threshold_up與Threshold_down為系統第一級分類器的上下閾值。
3 系統測試結果與分析
為了驗證該算法的加速性能與檢測率,采用2組實驗進行檢測,第一組采用一張320×240的標準視頻的一幀靜態多人臉圖像進行速度檢測,驗證本文算法的加速性能;第二組進行識別率檢測,首先對CMU實驗室的CMU_PIE中的gallery圖庫中的68張簡單背景正面人臉進行檢測,由于背景單一且為單人臉,檢測率最高達到了100%,同時為了進一步驗證算法設計的有效性,我們對部分MIT+CMU的測試圖片以及室外收集的部分圖片進行了測試(包含120張圖片,235個人臉,其中包括部分不超過±20°的側面人臉),并對單一使用AdaBoost算法檢測人臉與BP神經網絡、Gabor+BP神經網絡人臉檢測方法做了對比實驗,實驗1和實驗2的結果如下所示,圖4為應用雙閾值級聯分類器的對比效果。
表2 不同算法檢測速度和檢測率
圖3 部分測試圖片檢測效果
圖4 雙閾值級聯分類效果對比
通過以上實驗結果表明,本文提出的算法在精確度和魯棒性上有了明顯的提高,從表2的檢測速度上來看,雖然本文提出的算法相比AdaBoost算法較慢,但比傳統算法有很大幅度的提高,有進一步提升的潛力;同時從圖4中可以清晰地看出,應用雙閾值粗細檢測方法能進一步降低誤檢率,精度有相對較大的提升。
4 結語
本文提出了一種基于雙閾值的兩級級聯分類器的人臉加速檢測方法,通過模板匹配方法來降低在分類器中的計算時間,同時在兩級級聯分類器之間設置雙閾值接口進行級聯檢測,并在第一級分類器的收斂性上做了一定的改進,在加速的同時更加提高了精度。通過應用雙閾值級聯分類器的加速算法判斷人臉/非人臉,解決了基于傳統閾值分類器在檢測當中的矛盾問題,速度也有相應的提高,誤檢率進一步降低,系統整體性能得到了提升。
參考文獻:
[1] ROWLEY H A, BALUJA S, KANADA T. Neural network-based face detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(1):23-38.
[2] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2001:511-518.
[3] LIENHART R, MAYDT J. An extended set of haar-like features for rapid object detection[C]// Proceedings of the International Conference in Image Processing. New York:IEEE, 2002:900-903.
[4] HEISELE B, SERRE T, POGGIO T. A component-based framework for face detection and identification[J]. International Journal of Computer Vision, 2007, 74(2):167-181.
[5] HSU R L, ABDEL-MOTTALEB M, JAIN A K. Face detection in color images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5):696-706.
[6] 月書仁,梁昔明,葉吉祥,等.基于臉部信息和支持向量機的人臉檢測[J].計算機應用,2006,26(5):1032-1034.
[7] 梁路宏,艾海舟,徐光佑,等.人臉檢測研究綜述[J].計算機學報,2002,25(5) :449-458.
[8] 王志良,孟秀艷.人臉工程學[M].北京:機械工業出版社,2008.
[9] 梁路宏,艾海舟,徐光佑,等.基于模板匹配與人工神經網確認的人臉檢測[J].電子學報,2001,29(6):744-747.
[10] 林宇生,楊靜宇. 基于Gabor濾波特征和支持向量機的人臉檢測[J]. 計算機工程與應用, 2007, 43(1):33-34.
[11] 聶祥飛,郭軍.基于Gabor小波的人臉檢測[J].計算機工程,2006,32(21):44-46.
[12] 頊改燕,徐華,翟忠武,等.基于Gabor濾波器和BP神經網絡的人臉皮膚皺紋區域自動識別[J].計算機應用,2010,30(2):430-432.
卷積神經網絡的特性范文4
前 言
雖然目前公眾媒體將無線通信炒的很熱,但這個領域從1897年馬可尼成功演示無線電波開始,已經有超過一百年的歷史。到1901年就實現了跨大西洋的無線接收,表明無線通信技術曾經有過一段快速發展時期。在之后的幾十年中,眾多的無線通信系統生生滅滅。
20世紀80年代以來,全球范圍內移動無線通信得到了前所未有的發展,與第三代移動通信系統(3g)相比,未來移動通信系統的目標是,能在任何時間、任何地點、向任何人提供快速可靠的通信服務。因此,未來無線移動通信系統應具有高的數據傳輸速度、高的頻譜利用率、低功耗、靈活的業務支撐能力等。但無線通信是基于電磁波在自由空間的傳播來實現信息傳輸的。信號在無線信道中傳輸時,無線頻率資源受限、傳輸衰減、多徑傳播引起的頻域選擇性衰落、多普勒頻移引起的時間選擇性衰落以及角度擴展引起的空間選擇性衰落等都使得無線鏈路的傳輸性能差。和有線通信相比,無線通信主要由兩個新的問題。一是通信行道經常是隨時間變化的,二是多個用戶之間常常存在干擾。無線通信技術還需要克服時變性和干擾本文由收集由于這個原因,無線通信中的信道建模以及調制編碼方式都有所不同。
1.無線數字通信中盲源分離技術分析
盲源分離(bss:blind source separation),是信號處理中一個傳統而又極具挑戰性的問題,bss指僅從若干觀測到的混合信號中恢復出無法直接觀測的各個原始信號的過程,這里的“盲”,指源信號不可測,混合系統特性事先未知這兩個方面。在科學研究和工程應用中,很多觀測信號都可以看成是多個源信號的混合,所謂“雞尾酒會”問題就是個典型的例子。其中獨立分量分析ica(independent component analysis)是一種盲源信號分離方法,它已成為陣列信號處理和數據分析的有力工具,而bss比ica適用范圍更寬。目前國內對盲信號分離問題的研究,在理論和應用方面取得了很大的進步,但是還有很多的問題有待進一步研究和解決。盲源分離是指在信號的理論模型和源信號無法精確獲知的情況下,如何從混迭信號(觀測信號)中分離出各源信號的過程。盲源分離和盲辨識是盲信號處理的兩大類型。盲源分離的目的是求得源信號的最佳估計,盲辨識的目的是求得傳輸通道混合矩陣。盲源信號分離是一種功能強大的信號處理方法,在生物醫學信號處理,陣列信號處理,語音信號識別,圖像處理及移動通信等領域得到了廣泛的應用。
根據源信號在傳輸信道中的混合方式不同,盲源分離算法分為以下三種模型:線性瞬時混合模型、線性卷積混合模型以及非線性混合模型。
1.1 線性瞬時混合盲源分離
線性瞬時混合盲源分離技術是一項產生、研究最早,最為簡單,理論較為完善,算法種類多的一種盲源分離技術,該技術的分離效果、分離性能會受到信噪比的影響。盲源分離理論是由雞尾酒會效應而被人們提出的,雞尾酒會效應指的是雞尾酒會上,有音樂聲、談話聲、腳步 聲、酒杯餐具的碰撞聲等,當某人的注意集中于欣賞音樂或別人的談話,對周圍的嘈雜聲音充耳不聞時,若在另一處有人提到他的名字,他會立即有所反應,或者朝 說話人望去,或者注意說話人下面說的話等。該效應實際上是聽覺系統的一種適應能力。當盲源分離理論提出后很快就形成了線性瞬時混合模型。線性瞬時混合盲源分離技術是對線性無記憶系統的反應,它是將n個源信號在線性瞬時取值混合后,由多個傳感器進行接收的分離模型。
20世紀八、九十年代是盲源技術迅猛發展的時期,在1986年由法國和美國學者共同完了將兩個相互獨立的源信號進行混合后實現盲源分離的工作,這一工作的成功開啟了盲源分離技術的發展和完善。在隨后的數十年里對盲源技術的研究和創新不斷加深,在基礎理論的下不斷有新的算法被提出和運用,但先前的算法不能夠完成對兩個以上源信號的分離;之后在1991年,法國學者首次將神經網絡技術應用到盲源分離問題當中,為盲源分離提出了一個比較完整的數學框架。到了1995年在神經網絡技術基礎上盲源分離技術有了突破性的進展,一種最大化的隨機梯度學習算法可以做到同時分辨出10人的語音,大大推動了盲源分離技術的發展進程。
1.2 線性卷積混合盲源分離
相比瞬時混合盲源分離模型來說,卷積混合盲源分離模型更加復雜。在線性瞬時混合盲源分離技術不斷發展應用的同時,應用中也有無法準確估計源信號的問題出現。常見的是在通信系統中的問題,通信系統中由于移動客戶在使用過程中具有移動性,移動用戶周圍散射體會發生相對運動,或是交通工具發生的運動都會使得源信號在通信環境中出現時間延遲的現象,同時還造成信號疊加,產生多徑傳輸。正是因為這樣問題的出現,使得觀測信號成為源信號與系統沖激響應的卷積,所以研究學者將信道環境抽象成為線性卷積混合盲源分離模型。線性卷積混合盲源分離模型按照其信號處理空間域的不同可分為時域、頻域和子空間方法。
1.3 非線性混合盲源分離
非線性混合盲源分離技術是盲源分離技術中發展、研究最晚的一項,許多理論和算法都還不算成熟和完善。在衛星移動通信系統中或是麥克風錄音時,都會由于乘性噪聲、放大器飽和等因素的影響造成非線性失真。為此,就要考慮非線性混合盲源分離模型。非線性混合模型按照混合形式的不同可分為交叉非線性混合、卷積后非線性混合和線性后非線性混合模型三種類型。在最近幾年里非線性混合盲源分離技術受到社會各界的廣泛關注,特別是后非線性混合模型。目前后非線性混合盲源分離算法中主要有參數化方法、非參數化方法、高斯化方法來抵消和補償非線性特征。
2.無線通信技術中的盲源分離技術
在無線通信系統中通信信號的信號特性參數復雜多變,實現盲源分離算法主要要依據高階累積量和峭度兩類參數。如圖一所示,這是幾個常見的通信信號高階累積量。
在所有的通信系統中,接收設備處總是會出現白色或是有色的高斯噪聲,以高階累積量為準則的盲源分離技術在處理這一問題時穩定性較強,更重要的是對不可忽略的加性高斯白噪聲分離算法同時適用。因此,由高階累積量為準則的盲源分離算法在通信系統中優勢明顯。
分離的另一個判據就是峭度,它是反映某個信號概率密度函數分布情況與高斯分布的偏離程度的函數。峭度是由信號的高階累積量定義而來的,是度量信號概率密度分布非高斯性大小的量值。
卷積神經網絡的特性范文5
本文作者:工作單位:安徽埃夫特智能裝備有限公司
從控制系統設計角度來說,可以采用辯證法內外因基本原理來分析影響重載機器人控制品質的因素,首先,如果系統存在動力學耦合、柔性等非線性因素,僅僅采用傳統的線性控制很難獲得良好的控制品質,底層伺服回路的控制缺陷是影響機器人控制品質的內因。第二,如果運動規劃環節處理不當,傳輸給底層運動控制回路的運動指令不合理,即存在位置不連續,速度不連續,加速度躍變等情況,對系統會產生嚴重的沖擊,即便底層伺服控制設計再優秀,同樣也會嚴重影響系統控制品質,這就是所謂的外因。下面就從內外因角度對目前在機器人運動規劃和底層伺服控制方面的相關進展進行綜述。機器人運動規劃方法運動規劃與軌跡規劃是指根據一定規則和邊界條件產生一些離散的運動指令作為機器人伺服回路的輸入指令。運動規劃的輸入是工作空間中若干預設點或其他運動學和動力學的約束條件;運動規劃的輸出為一組離散的位置、速度和加速度序列。運動規劃算法設計過程中主要需要考慮以下三個問題:(1)規劃空間的選取:通常情況下,機器人軌跡規劃是在全局操作空間內進行的,因為在全局操作空間內,對運動過程的軌跡規劃、避障及幾何約束描述更為直觀。然而在一些情況下,通過運動學逆解,運動規劃會轉換到關節空間內完成。在關節空間內進行運動規劃優點如下:a.關節空間內規劃可以避免機構運動奇異點及自由度冗余所帶來種種問題[1-4];b.機器人系統控制量是各軸電機驅動力矩,用于調節各軸驅動力矩的軸伺服算法設計通常情況也是在關節空間內的,因此更容易將兩者結合起來進行統一考慮[5,6];c.關節空間運動規劃可以避免全局操作空間運動規劃帶來的每一個指令更新周期內進行運動規劃和運動學正逆計算帶來的計算量,因為如果指令更新周期較短,將會對CPU產生較大的計算負荷。(2)基礎函數光滑性保證:至少需要位置指令C2和速度指令C1連續,從而保證加速度信號連續。不充分光滑的運動指令會由于機械系統柔性激起諧振,這點對高速重載工業機器人更為明顯。在產生諧振的同時,軌跡跟蹤誤差會大幅度增加,諧振和沖擊也會加速機器人驅動部件的磨損甚至損壞[7]。針對這一問題,相關學者引入高次多項式或以高次多項式為基礎的樣條函數進行軌跡規劃,其中Boryga利用多項式多根的特性,分別采用5次、7次和9次多項式對加速度進行規劃,表達式中僅含有一個獨立參數,通過運動約束條件,最終確定參數值,并比較了各自性能[8]。Gasparetto采用五次B樣條作為規劃基礎函數,并將整個運動過程中加速度平方的積分作為目標函數進行優化,以確保運動指令足夠光滑[9]。劉松國基于B樣條曲線,在關節空間內提出了一種考慮運動約束的運動規劃算法,將運動學約束轉化為樣條曲線控制頂點約束,可保證角度、角速度和角加速度連續,起始點和終止點角速度和角加速度可以任意配置[10]。陳偉華則在Cartesian空間內分別采用三次均勻B樣條,三次非均勻B樣條,三次非均勻有理B樣條進行運動規劃[11]。(3)運動規劃中最優化問題:目前常用的目標函數主要為運行時間、運行能耗和加速度。其中關于運行時間最優的問題,較為經典是Kang和Mckay提出的考慮系統動力學模型以及電機驅動力矩上限的時間最優運動規劃算法,然而該算法加速度不連續,因此對于機器人來說力矩指令也是不連續的,即加速度為無窮大,對于真實的電驅伺服系統來說,這是無法實現的,會對系統產生較大沖擊,大幅度降低系統的跟蹤精度,對機械本體使用壽命也會產生影響[12]。針對上述問題Constantinescu提出了解決方法,在考慮動力學特性的基礎上,增加對力矩和加速度的約束,并采用可變容差法對優化問題進行求解[13]。除了以時間為優化目標外,其他指標同樣被引入最優運動規劃模型中。Martin采用B函數,以能耗最少為優化目標,并將該問題轉化為離散參數的優化問題,針對數值病態問題,提出了具有遞推格式的計算表達式[14]。Saramago則在考慮能耗最優的同時,將執行時間作為優化目標之一,構成多目標優化函數,最終的優化結果取決于兩個目標的權重系數,且優化結果對于權重系數選擇較為敏感[15]。Korayem則在考慮機器人負載能力,關節驅動力矩上限和彈性變形基礎上,同時以在整個運行過程中的位置波動,速度波動和能耗為目標,給出了一種最優運動規劃方法[6],然而該方法在求解時,收斂域較小,收斂性較差,計算量較大。
考慮部件柔性的機器人控制算法機器人系統剛度是影響動態性能指標重要因素。一般情況下,電氣部分的系統剛度要遠遠大于機械部分。雖然重載工業機器人相對于輕型臂來說,其部件剛度已顯著增大,但對整體質量的要求不會像輕型臂那么高,而柔性環節仍然不可忽略,原因有以下兩點:(1)在重載情況下,如果要確保機器人具有足夠的剛度,必然會增加機器人部件質量。同時要達到高速高加速度要求,對驅動元件功率就會有很高的要求,實際中往往是不可實現(受電機的功率和成本限制)。(2)即使驅動元件功率能夠達到要求,機械本體質量加大會導致等效負載與電機慣量比很大,這樣就對關節剛度有較高的要求,而機器人關節剛度是有上限的(主要由減速器剛度決定)。因此這種情況下不管是開鏈串聯機構還是閉鏈機構都會體現出明顯的關節柔性[16,17],在重載搬運機器人中十分明顯。針對柔性部件帶來的系統控制復雜性問題,傳統的線性控制將難以滿足控制要求[17-19],目前主要采用非線性控制方法,可以分成以下幾大類:(1)基于奇異攝動理論的模型降階與復合控制首先針對于柔性關節控制問題,美國伊利諾伊大學香檳分校著名控制論學者MarkW.Spong教授于1987年正式提出和建立柔性關節的模型和奇異攝動降階方法。對于柔性關節的控制策略絕大多數都是在Spong模型基礎上發展起來的。由于模型的階數高,無法直接用于控制系統設計,針對這個問題,相關學者對系統模型進行了降階。Spong首先將奇異攝動理論引入了柔性關節控制,將系統分成了慢速系統和邊界層系統[20],該方法為后續的研究奠定了基礎。Wilson等人對柔性關節降階后所得的慢速系統采用了PD控制律,將快速邊界層系統近似為二階系統,對其阻尼進行控制,使其快速穩定[21]。針對慢速系統中的未建模非線性誤差,Amjadi采用模糊控制完成了對非線性環節的學習[22]。彭濟華在對邊界層系統提供足夠阻尼的同時,將神經網絡引入慢速系統控制,有效的克服了參數未知和不確定性問題。連桿柔性會導致系統動力學方程階數較高,Siciliano和Book將奇異攝動方法引入柔性連桿動力學方程的降階,其基本思想與將奇異攝動引入柔性關節系統動力學方程一致,都將柔性變形產生的振動視為暫態的快速系統,將名義剛體運動視為準靜態的慢速系統,然后分別對兩個系統進行復合控制,并應用于單柔性連桿的控制中[23]。英國Sheffield大學A.S.Morris教授領導的課題組在柔性關節奇異攝動和復合控制方面開展了持續的研究。在2002年利用Lagrange方程和假設模態以及Spong關節模型建立柔性關節和柔性連桿的耦合模型,并對奇異攝動理論降階后的慢速和快速子系統分別采用計算力矩控制和二次型最優控制[24]。2003年在解決柔性關節機器人軌跡跟蹤控制時,針對慢速系統參數不確定問題引入RBF神經網絡代替原有的計算力矩控制[25].隨后2006年在文獻[24]所得算法和子系統模型的基礎上,針對整個系統穩定性和魯棒性要求,在邊界層采用Hinf控制,在慢速系統采用神經網絡算法,并給出了系統的穩定性分析[26]。隨著相關研究的開展,有些學者開始在奇異攝動理論與復合控制的基礎上作出相應改進。由于奇異攝動的數學復雜性和計算量問題,Spong和Ghorbel提出用積分流形代替奇異攝動[27]。針對奇異攝動模型需要關節高剛度假設,在關節柔度較大的情況下,劉業超等人提出一種剛度補償算法,拓展了奇異攝動理論的適用范圍[28]。(2)狀態反饋和自適應控制在采用奇異攝動理論進行分析時,常常要同時引入自適應控制律來完成對未知或不精確參數的處理,而采用積分流形的方式最大的缺點也在于參數的不確定性,同樣需要結合自適應控制律[29,30]。因此在考慮柔性環節的機器人高動態性能控制要求下,自適應控制律的引入具有一定的必要性。目前對于柔性關節機器人自適應控制主要思路如下:首先根據Spong模型,機器人系統階數為4,然后通過相應的降階方法獲得一個二階的剛體模型子系統,而目前的大多數柔性關節自適應控制律主要針對的便是二階的剛體子系統中參數不確定性。Spong等人提出了將自適應控制律引入柔性關節控制,其基于柔性關節動力學奇異攝動方程,對降階剛體模型采用了自適應控制律,主要采用的是經典的Slotine-Li自適應控制律[31],并通過與Cambridge大學Daniel之間互相糾正和修改,確立一套較為完善的基于奇異攝動模型的柔性關節自適應控制方法[32-34]。(3)輸入整形控制輸入整形最原始的思想來自于利用PosicastControl提出的時滯濾波器,其基本思想可以概括為在原有控制系統中引入一個前饋單元,包含一系列不同幅值和時滯的脈沖序列。將期望的系統輸入和脈沖序列進行卷積,產生一個整形的輸入來驅動系統。最原始的輸入整形方法要求系統是線性的,并且方法魯棒性較差,因此其使用受到限制。直到二十世紀九十年初由MIT的Signer博士大幅度提高該方法魯棒性,并正式將該方法命名為輸入整形法后[35],才逐漸為人們重視,并在柔性機器人和柔性結構控制方面取得了一系列不錯的控制效果[36-39]。輸入整形技術在處理柔性機器人控制時,可以統一考慮關節柔性和連桿柔性。對于柔性機器人的點對點控制問題,要求快速消除殘余振蕩,使機器人快速精確定位。
這類問題對于輸入整形控制來說是較容易實現的,但由于機器人柔性環節較多,呈現出多個系統模態,因此必須解決多模態輸入整形問題。相關學者對多模態系統的輸入整形進行了深入研究。多模態系統的輸入整形設計方法一般有:a)級聯法:為每個模態設計相應的濾波器,然后將所有模態的時滯濾波器進行級聯,組合成一個完整的濾波器,以抑制所有模態的振蕩;b)聯立方程法:直接根據系統的靈敏度曲線建立一系列的約束方程,通過求解方程組來得到濾波器。這兩種方法對系統的兩種模態誤差均有很好的魯棒性。級聯法設計簡單,且對高模態的不敏感性比聯立方程法要好;聯立方程法比較直接,濾波器包含的脈沖個數少,減少了運行時間。對于多模態輸入整形控制Singer博士提出了一種高效的輸入整形方法,其基本思想為:首先在靈敏度曲線上選擇一些滿足殘留振蕩最大幅值的頻段,在這些特定的頻帶中分別選擇一些采樣頻率,計算其殘留振蕩;然后將各頻率段的殘留振蕩與期望振蕩值的差平方后累加求和,構成目標函數,求取保證目標函數最小的輸入整形序列。將頻率選擇轉化為優化問題,對于多模態系統,則在每個模態處分別選擇頻率采樣點和不同的阻尼系數,再按上述方法求解[40]。SungsooRhim和WayneBook在2004年針對多模態振動問題提出了一種新的時延整形濾波器,并以控制對象柔性模態為變量的函數形式給出了要消除殘余振動所需最基本條件。同時指出當濾波器項數滿足基本條件時,濾波器的時延可以任意設定,消除任何給定范圍內的任意多個柔性振動模態產生的殘余振動,為輸入整形控制器實現自適應提供了理論基礎[41],同時針對原有輸入整形所通常處理的點對點控制問題進行了有益補充,M.C.Reynolds和P.H.Meckl等人將輸入整形應用于關節空間的軌跡控制,提出了一種時間和輸入能量最優的軌跡控制方法[42]。(4)不基于模型的軟計算智能控制針對含有柔性關節機器人動力學系統的復雜性和無法精確建模,神經網絡等智能計算方法更多地被引入用于對機器人動力學模型進行近似。Ge等人利用高斯徑向函數神經網絡完成柔性關節機器人系統的反饋線性化,仿真結果表明相比于傳統的基于模型的反饋線性化控制,采用該方法系統動態跟蹤性能較好,對于參數不確定性和動力學模型的變化魯棒性較強,但是整個算法所用的神經網絡由于所需節點較多,計算量較大,并且需要全狀態反饋,狀態反饋量獲取存在一定困難[43]。孫富春等人對于只具有關節傳感器的機器人系統在輸出反饋控制的基礎上引入神經網絡,用于逼近機器人模型,克服無法精確建模的非線性環節帶來的影響,從而提高機器人系統的動態跟蹤性能[44]。A.S.Morris針對整個柔性機器人動力學模型提出了相應的模糊控制器,并用GA算法對控制器參數進行了優化,之后在模糊控制器的基礎上,綜合了神經網絡的逼近功能對剛柔耦合運動進行了補償[45]。除采用神經網絡外,模糊控制也在柔性機器人控制中得以應用。具有代表性的研究成果有V.G.Moudgal設計了一種具有參數自學習能力的柔性連桿模糊控制器,對系統進行了穩定性分析,并與常規的模糊控制策略進行了實驗比較[46]。Lin和F.L.Lewis等人在利用奇異攝動方法基礎上引入模糊控制器,對所得的快速子系統和慢速子系統分別進行模糊控制[4748]。快速子系統的模糊控制器采用最優控制方法使柔性系統的振動快速消退,慢速子系統的模糊控制器完成名義軌跡的追蹤,并對單柔性梁進行了實驗研究。Trabia和Shi提出將關節轉角和末端振動變形分別設計模糊控制器進行控制,由于對每個子系統只有一個控制目標,所以模糊規則相對簡單,最后將兩個控制器的輸出進行合成,完成復合控制,其思想與奇異攝動方法下進行復合控制類似[49]。隨后又對該算法進行改進,同樣采用分布式結構,通過對輸出變量重要性進行評估,得出關節和末端點的速度量要比位置量更為重要,因此將模糊控制器分成兩部分,分別對速度和位置進行控制,并利用NelderandMeadSimplex搜索方法對隸屬度函數進行更新[50]。采用基于軟計算的智能控制方法相對于基于模型的控制方法具有很多優勢,特別是可以與傳統控制方法相結合,完成對傳統方法無法精確建模的非線性環節進行逼近,但是目前這些方法的研究絕大部分還處于仿真階段,或在較簡單的機器人(如單自由度或兩自由度機器人)進行相關實驗研究。其應用和工程實現受限的主要原因在于計算量大,但隨著處理器計算能力的提高,這些方法還有廣泛的應用前景。
卷積神經網絡的特性范文6
關鍵詞: 動態紋理分類; 慢特征分析; 深度學習; 堆棧降噪自動編碼網絡模型
中圖分類號: TN919?34 文獻標識碼: A 文章編號: 1004?373X(2015)06?0020?05
Dynamic texture classification method based on stacked denoising autoencoding model
WANG Cai?xia, WEI Xue?yun, WANG Biao
(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)
Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.
Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model
0 引 言
動態紋理是指具有空間重復性、并隨時間變化的視覺模式,這種模式形成了一系列在時間域上具有某種不變性的圖像序列[1]。不同的動態紋理可能具有相似的外觀,但是卻具有不同的運動形式,所以表觀和運動是動態紋理特征的兩大方面。在目前的動態視頻分析系統中,最關鍵的步驟是如何提取有效的動態紋理特征描述符。在過去幾十年里,對紋理的研究大部分都集中在靜態紋理特征的研究,動態紋理的研究相對靜態紋理而言起步要晚的多。動態紋理的研究最早始于20世紀90年代初,由Nelson和Polana采用建立線性系統模型的方法對其進行研究[2],并且將視覺運動劃分為三類[3]:行為、運動事件以及動態紋理。隨后,Szummer 和 Picard提出采用時空自回歸模型(Spatio?Temporal Auto Regressive,STAR)[4]對動態紋理序列進行建模。基于光流的識別法是目前比較流行的動態紋理識別法,因為其計算效率高,并且以一種很直觀的方式來描述圖像的局部動態紋理特征,Fazekas和Chetverikov總結出,正則性(Regulated)全局流與普通流(Normal Flow)相比,普通流可以同時包含動態特性和形狀特性[5]。基于LBP的動態紋理方法是最近幾年才提出的一種有效算法,典型的是Zhao等人提出的兩種時空域上的描述子:時空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地結合“運動”和“外觀”特征。2007―2008年是動態紋理研究最多的兩年,各大期刊雜志連續刊登有關動態紋理的研究文章。
本文試圖解決動態自然場景的分類問題(例如:煙火、河流、風暴、海洋、雪花等)。在計算機視覺領域,過去采用較多的是手動提取特征來表示物體運動信息(例如:HOF、基于STIP的HOG算法等),實驗表明該類方法對人體行為識別非常有效。但是由于自然環境比較復雜,動態紋理表現不穩定,易受光照、遮擋等影響,而手動選取特征非常費力,需要大量的時間進行調節,所以該類方法并不適用于動態場景分類。Theriault等人提出利用慢特征分析的方法來提取動態視頻序列的特征[8]。該方法雖然能有效表示動態紋理特征,但是其提取的特征維數較高。深度學習是機器學習研究中一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,近幾年深度學習網絡模型在大尺度圖像分類問題中成功應用使得其得到越來越多人的重視。卷積神經網絡、深度置信網絡和堆棧自編碼網絡是三種典型的深度學習網絡模型,而堆棧自編碼網絡模型不僅對高維數據有很好的表示,而且采用非監督的學習模式對輸入數據進行特征提取,這對于傳統的手動提取特征。利用堆棧自編碼網絡模型對慢特征進行進一步學習,不僅能降低數據維度,而且還能提取出數據更有效的特征表示。
1 基于堆棧自編碼網絡模型的慢特征分析法
1.1 慢特征分析法
文獻[9?10]中提到,慢特征分析算法的目標是從不斷變化的輸入信號中學習不變量,即除了無意義的常值信號外,最具不變性質的信息,其實質也就是從快速變化的信號中提取緩慢變化的信號特征,這種特征是從混合信號中提取出來的源信號的高級表示,表征信號源的某些固有屬性[11]。
實驗證明,慢特征分析法在人體行為識別中有很好的描述作用,這為動態紋理分類提供了一個很好的選擇。慢特征分析算法的核心思想是相關矩陣的特征值分解,其本質是在經過非線性擴展特征空間對目標函數進行優化,尋找最優解的線性組合。
給定一個時域輸入信號序列:
[vt=v1t,v2t,…,vDtT]
目標就是學習一組映射函數:
[Sv=S1v,S2v,…,SMv]
使得輸出信號[yt=y1t,y2t,…,yMtT]的各個分量[yj=Sjvt]的變化盡可能緩慢,而且仍然保留相關的重要信息。選用時域信號一階導數的均方值來衡量輸出信號個分量的變化率:
[minSj<y?2j>t] (1)
且滿足以下條件:
(1) [<yj>t=0];
(2) [<y2j>t=1];
(3) [?j<j':<yj,yj'>t=0]。
其中:[<y>t]是[y]的時域平均值;[y?j]是[yj]的時域一階導數。這三個約束條件保證慢特征分析的輸出信號的各分量的變化率盡可能小,其中條件1和條件2確保輸出沒有無意義的常信號值,條件3確保輸出各分量之間是非相關的,且不同慢特征承載著不同信息。值得注意的是,函數[Sv]是輸入信號的瞬時函數,所以輸出結果不能看成是通過低通濾波器的結果,慢特征處理速度要比低通濾波器快很多。如圖1所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t1.tif>
圖1 時域輸入信號慢特征的提取
輸出信號各分量按照變化率從小到大排列,且互不相關,其最優解問題可以看成以下公式的解特征值問題:
[Sj:<v?v?T>tSj=λjSj] (2)
求解得到的特征值按從小到大的順序排列,即[λ1≤λ2≤???≤λM],輸出信號的慢特征和最小特征值息息相關。輸入信號[vt]可以是多種模式的圖像特征(例如色彩,梯度,SIFT特征,HOG特征)。
這里采用的是v1特征[12?13],該特征對圖像有很好的表示,確保預先學習到的慢特征能達到最優。
1.2 堆棧自動編碼模型
自動編碼器模型是深度學習網絡模型之一,其盡可能復現輸入信號,捕捉代表輸入信號的主要成分。
如圖2所示,對于給定輸入信號[x],根據式(2)得到輸出[y],此過程為編碼過程:
[y=fθx=sWx+b] (3)
式中:[sx=11+θ-x];[W]是[d′×d]維權重矩陣;[b]是偏移向量。
為了驗證輸出[y]是否準確表達原輸入信號,利用式(2)對其進行重構,得到重構信號[z]。此過程為解碼/重構過程:
[gθ′y=sW′y+b′] (4)
從輸入到輸出的權值記為[θ=W,b],從輸出到輸入的權值記為[θ′=W′,b′]。逐層進行參數[θ]和[θ′]的優化,式(5)為其目標函數:
[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)
調整參數,使得重構誤差達到最小,因此可以得到[x]的第一層表示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t2.tif>
圖2 普通DA和降噪DA
降噪自動編碼器(Denoising Auto Encoder,Dae)是在自動編碼器的基礎上給訓練數據加入噪聲,編碼器需要學習去除噪聲而獲得沒有被噪聲污染的輸入信號,因此獲得輸入信號更加魯棒的表達。堆棧自動編碼模型(Sda)是將多個Dae堆疊起來形成的一種深度網絡模型。利用優化后的參數[θ]得到當前層的輸出[y](即下一層的輸入),將得到的[y]作為新一層的輸入數據,逐層進行降噪自動編碼的過程,直到到達多層神經網絡中間隱層的最后一層為止,算出該層輸出,即為輸出特征,如圖3所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t3.tif>
圖3 多層神經網絡結構圖
1.3 基于Sda的慢特征分析法
基于Sda的慢特征分析方法利用慢特征分析法預先學習動態視頻序列的慢特征,將該特征作為模型輸入,進行多層降噪自動編碼網絡模型參數的學習,最后使用SVM分類器對該模型的輸出特征進行分類,具體步驟如圖4所示。
2 實 驗
2.1 實驗數據集與評估準則
實驗所用數據由10類動態場景構成(包括海灘,電梯,森林煙火,高速公路,閃電,海洋,鐵路,河流,云,街道),且每一個類別由30個250×370 pixels大小的彩序列構成。這些視頻序列全部來自于加拿大約克大學計算機視覺實驗室于2012年的YUPENN動態場景數據集[14],該數據庫主要強調的是對象和表層在短時間內場景的實時信息。如圖5所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t4.tif>
圖4 基于Sda的慢特征分析步驟圖
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t5.tif>
圖5 YUPENN動態數據庫
將所有彩序列進行尺度縮放,分別放大和縮小1.2倍,1.4倍,1.6倍,并且在每一個尺度上進行旋轉,旋轉角度分別為[2°,4°,6°,-2°,-4°,-6°]。所以樣本總數為(10×30)×(6×6)=10 800個。實驗性能使用混淆矩陣(Confusion Matrix)進行衡量。混淆矩陣是多分類問題中常用的衡量準則,它使得分類結果一目了然并能指出錯誤預測的影響。分類矩陣通過確定預測值是否與實際值匹配,將模型中的所有事例分為不同的類別。然后會對每個類別中的所有事例進行計數,并在矩陣中顯示總計。實驗中一共有14個類別的數據集,所以最后會產生一個大小為14×14的混淆矩陣。
2.2 實驗結果與分析
實驗選用線性SVM分類器,采用Leave?One?Out 分析法進行分類。所有視頻序列全部轉換成灰度視頻進行慢特征分析,輸出大小為4 032維的慢特征向量作為Sda網絡模型的輸入數據。
2.2.1 Sda網絡模型大小
堆棧降噪自動編碼器網絡層數以及每一層的大小對輸出特征的魯棒性和SVM分類結果有重要的影響。當網絡層數不一樣時,模型學習到的特征也就不一樣,網絡層數過低,學習力度可能不夠,特征達不到最佳表示效果,網絡層數太高,可能會出現過擬合現象,隱層的大小和最后的分類結果也息息相關,所以選取不同網絡層數和隱層大小分別進行實驗,如圖6所示,選取網絡層數分別為1,2,3,隱層大小分別為500,1 000,2 000。由圖6可知,當隱層大小為500時的分類得分顯然比1 000和2 000時高很多;在隱層大小為500時,隨著網絡層數不斷增加,實驗結果不斷提升,當網絡層數由2層上升到3層時,實驗結果已經非常接近(網絡層數為2時score=95.9%,網絡層數為3時score=96.3%)。可以得知,隨著網絡層數不斷增加,分類的效果逐漸提高,當網絡層數為3時,分類結果已非常接近。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t6.tif>
圖6 不同網絡層數和隱層大小的分類結果
2.2.2 噪聲
Sdae對每一層的輸入加入噪聲,編碼器自動學習如何去除噪聲而獲得更加魯棒的動態紋理特征,因此每一層所加入的噪聲的大小對提取的特征有很大的影響。因此,選取不同大小的噪聲分別進行實驗,如圖7所示,選取噪聲大小分別為10%,15%,20%,25%,30%,35%,40%,45%,50%,固定網絡層大小為[500,500,500];由圖可知,加入噪聲對分類得分的影響呈類似拋物線形狀,對每一層輸入數據加入25%的噪聲時score=0.964為最大值。
2.2.3 混淆矩陣以及實驗與現有方法的比較
圖8為實驗最優參數所計算出的混淆矩陣,由圖可知,海灘、電梯、高速公路以及海洋的分類效果達到100%,噴泉(Fountain)的分類效果雖然最差,但也已經達到83%左右,其容易被誤分成森林火災(17%錯誤分類)。由該混淆矩陣可以得知,實驗所用方法能夠達到將近96.4%平均得分。表1是本文所用方法與現有幾個比較常用的動態紋理特征提取方法的比較,分別有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是幾個方法中效果最好的,可以達到76.7%的分類效果,而本文所用方法SFA+Sda比SFA方法提高了將近20%的分類得分,并且在每一個動態場景中分類效果總是優于其他幾種方法。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t7.tif>
圖7 加入不同噪聲的分類結果
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t8.tif>
圖8 混淆矩陣
表1 本實驗與現有方法比較
3 結 語
本文提出一種基于多層降噪自動編碼網絡模型的動態紋理分類方法:預先學習動態視頻序列的慢特征,以此作為多層降噪自編碼網絡模型的輸入數據進行非監督的深度學習,網絡最頂層的輸出即為所提取的動態紋理特征,采用SVM分類器對該特征進行分類。本文對實驗中的各種影響參數如網絡模型的深度、每一層的大小以及加入噪聲的大小做了充分的研究,實驗證明,該方法所提取的特征對動態紋理有很好的表示作用,分類效果不錯,在動態場景分類問題中有很大的應用價值。
參考文獻
[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.
[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.
[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.
[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.
[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.
[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.
[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.
[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.
[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.
[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.
[11] 馬奎俊,韓彥軍,陶卿,等.基于核的慢特征分析算法[J].模式識別與人工智能,2011(2):79?84.
[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.
[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.
[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.
[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.