張學峰,陳 渤,王鵬輝,文 偉,劉宏偉
(西安電子科技大學雷達信號處理國家重點實驗室,陜西西安 710071)
無限最大間隔Beta過程因子分析模型
張學峰,陳 渤,王鵬輝,文 偉,劉宏偉
(西安電子科技大學雷達信號處理國家重點實驗室,陜西西安 710071)
針對多模分布數據的分類問題,文中提出了一種無限最大間隔Beta過程因子分析模型.該模型利用Beta過程因子分析模型挖掘數據低維的隱含信息.同時借鑒混合專家思想,采用Dirichlet混合模型將數據在隱空間劃分成“無限”個子集,并在每個子集上訓練一個線性的最大間隔分類器實現全局非線性的復雜分類器.由于將數據降維、子集劃分以及分類器統一在貝葉斯框架下,文中模型在充分挖掘數據結構的同時保證數據的可分性.文中采用非參數貝葉斯技術避免了模型選擇問題,利用Gibbs采樣技術簡便有效地估計了模型參數.基于公共數據集和實測雷達高分辨距離像數據的實驗驗證了文中方法的有效性.
Beta過程因子分析模型;混合專家;Dirichlet混合模型;最大間隔分類器
因子分析(Factor Analysis,FA)模型是一種生成模型,可以描述數據在低維隱空間的信息[1-3].在分類任務中,FA模型常被用于數據的降維、特征提取以及概率分布描述.然而,在這些應用中沒有利用對分類有益的類別信息.與之相對的,判別模型則通常在最小分類誤差的約束下,用帶有類別信息的訓練樣本來訓練分類器,并將樣本映射到其對應的類別.判別模型相比于生成模型具有更好的分類能力,而生成模型則具有更好的數據描述能力,可以挖掘數據內在的信息.因此,可以將FA模型與判別模型相結合,以期得到具有良好可分性的低維隱空間特征,從而在保留FA模型對數據描述能力的同時提升其分類性能.
支撐向量機(Support Vector Machine,SVM)是人們最為熟知的判別模型[4],它是一種最大間隔分類器,具有良好的分類和推廣性能.然而,傳統SVM模型中的最大間隔約束難以應用于概率框架.文獻[5]開發了一種隱變量SVM(Latent Variable representation for SVMs,LVSVM)模型.該模型通過引入隱變量,將SVM的優化準則表達為條件高斯線性模型,從而可以將SVM與概率模型有機地結合在一起.
現有的一些研究也采用了將生成模型與判決模型(特別是SVM)相結合來提高模型分類性能的思想.在文獻[6-7]中,研究者將SVM引入隱含Dirichlet分配(Latent Dirichlet Allocation,LDA)模型.其中文獻[7]采用了LVSVM,從而將整個最大間隔主題模型統一在概率框架下,進而可以采用Gibbs采樣技術[8]對模型參數進行簡單有效的估計.文獻[9]將線性分類器與隱變量模型相結合提出了ILSVM(Infinite Latent SVM)模型.模型中利用非參數貝葉斯先驗來確定隱變量個數,解決了模型選擇問題.然而,該模型隱變量為二值變量,這限制了其分類性能.以上這些方法均為線性模型,不能處理復雜數據.
對于具有多模結構的數據,采用單一的分類器進行分類,一方面會增加分類器的設計復雜度,另一方面會忽略數據的內在結構而不利于分類.文獻[10-12]中的模型均為無限混合專家模型,在利用Dirichlet過程(Dirichlet Process,DP)混合模型將數據劃分為“無限”個子集的同時,在每個子集上訓練一個簡單的線性分類器,以解決全局非線性分類問題.與傳統方法相比,該類方法既不用預先確定子集個數,又可以將子集劃分與后端的分類任務相結合,保證了各個子集的可分性,提高了全局分類性能.
筆者將無限混合專家思想引入到FA模型中,在充分挖掘數據的隱含結構的同時,在隱空間采用多個簡單的分類器實現非線性分類.具體地,采用FA模型對數據在隱空間(特征空間)描述,同時利用DP混合模型將特征空間劃分為“無限”個子集,并且在每個子集上學習一個LVSVM分類器.為了解決FA的因子個數選擇(即模型選擇)問題,文中采用Beta過程因子分析(Beta Process Factor Analysis,BPFA)模型[13],該模型將Beta過程(Beta Process,BP)先驗引入FA模型來自動選擇因子個數.因而,文中將整個模型稱為無限最大間隔Beta過程因子分析(Infinite Max-Margin BPFA,IMMBPFA)模型.IMMBPFA模型將數據表達、子集劃分及分類器聯合學習,一定程度上使得各個子集中樣本分布一致且線性可分.由于采用LVSVM作為分類器,整個模型是全共軛的,可以利用Bayesian估計方法對參數進行簡單有效的估計.與文獻[11-12]中的模型相比,該模型是在特征空間進行子集劃分和分類器學習的,更加靈活且可以降低冗余信息對分類性能的影響.基于公共數據集和實測數據的實驗結果表明,文中模型可以在避免模型選擇問題的同時有效提高分類性能.
因子分析(FA)模型是一種常用的概率隱空間模型,它將觀測數據映射到由一組基構成的子空間中,并用隱變量表征數據的隱空間特征.FA假設P維觀測樣本x是由一個K(K
FA模型對數據描述時,其因子個數K是未知的,且需要預先設置.如果設置得過大或者過小會引起模型的過匹配或者欠匹配.為了解決該模型選擇問題,文獻[13]利用非參數貝葉斯技術,將Beta過程引入FA模型,提出了BPFA模型,該模型可以根據數據自動確定所需因子個數.BPFA模型的結構為

2.1隱變量SVM模型

其中,γ稱為調和參數,為正常數.

由此可以將LVSVM與概率生成模型(如FA等)進行有機結合,從而將監督信息引入到這些模型中,增強其分類性能[7,11].另外,SVM為兩類分類器,在處理多類問題時可以采用一對多策略[4]進行擴展.
2.2最大間隔Dirichlet過程混合模型
對于多模分布特性的數據,若使用所有的樣本來訓練一個分類器,則會增加分類器的訓練復雜度,且容易忽視樣本的內在結構.為此,文中引入混合專家模型,將數據集劃分為若干子集,然后在各個子集上分別訓練簡單的分類器來構建全局非線性分類器.這樣可以避免設計復雜分類器,大大簡化分類器的設計難度.筆者在隱空間對數據進行聚類(劃分子集),同時在每個聚類上學習一個LVSVM分類器.如此可以將聚類與后端的分類任務相結合,在一定程度上使得各個聚類上的樣本局部可分,從而提高了全局的可分性.
不同于傳統的聚類方法(如K-means),文中采用DP混合模型對數據隱變量進行聚類,避免了需要預先設定聚類個數的模型選擇問題.Dirichlet過程是一種應用于非參數貝葉斯中的隨機過程,它是一種基于分布的分布[14].若G服從DP,則記為G~DP(G0,α),其中G0為基分布,α為聚集參數.在DP混合模型中,G作為sn分布參數Θn的先驗分布.基于Stick-breaking[15]構造的DP混合模型有如下結構:

可以看到,在DP混合模型中,整個參數空間被劃分為無限可數(通常用較大值C進行截斷)個離散點集合,共享同一個分布參數Θc的樣本具有相同的分布,自動地劃歸為一個聚類.若假設每個聚類的樣本服從高斯分布,則設定Θ={μ,Σ},其中μ表示均值,Σ表示協方差矩陣,此時基分布G0采用Normal-Wishart分布[4].
進一步地,為了保證各個聚類的可分性,在每個聚類中學習一個以為輸入的LVSVM分類器,從而構建了一種最大間隔DP混合模型.根據式(3)和式(4)可以推導出其參數的聯合偽后驗分布為

3.1無限最大間隔因子分析模型
筆者將BPFA模型和最大間隔DP混合模型相結合,提出了無限最大間隔Beta過程因子分析模型(IMMBPFA),來處理多模分布數據的分類問題.IMMBPFA模型具有以下優勢:①采用BPFA模型來挖掘數據的隱含結構,相比于基于原始空間的算法靈活性更高,且降低了有效特征維度,減少了冗余信息;②兩次利用非參數貝葉斯方法解決模型選擇問題,即利用BP先驗解決FA模型因子個數選擇問題,以及利用DP混合模型解決子集劃分問題;③采用LVSVM作為分類器,并將分類器的學習與數據描述、子集劃分聯合在一起,期望在特征空間得到可分性較好的數據聚類,從而提高全局的分類性能.由式(1)和式(5)可以得到IMMBPFA模型參數的聯合偽后驗分布為

3.2基于IMMBPFA模型的識別系統
如圖1所示,筆者構建了一個基于IMMBPFA的識別系統.整個系統包括兩部分:實線框內的訓練階段,即模型學習階段和虛線框內的測試階段.下面對這兩個階段進行介紹.

圖1 基于IMMBPFA模型的目標識別系統框圖
訓練階段,主要是對模型進行參數估計.如式(6)所示,由于采用LVSVM作為分類器,IMMBPFA模型整個層次化結構是完全共軛的,因而可以利用Gibbs采樣技術對參數進行估計.在Gibbs采樣的每次迭代中,所有參數均是從其條件后驗分布的采樣中獲取的.由式(6)可以推導出所有參數的后驗分布.其中,
(1)隱變量sn的條件后驗分布為

(2)因子選擇變量znk的條件后驗分布為

(3)樣本聚類標記on的條件后驗分布為

其中,{μc,Σc}表示第c個聚類中樣本的分布參數.
(4)第c個聚類的分類平面ωc的條件后驗分布為

(5)隱變量λn的條件后驗分布為

其中,IG(·)表示逆高斯分布.
從式(7)~式(9)中3個變量的條件后驗分布形式可以看出,LVSVM可以將監督信息傳遞到數據描述(特征提取和特征選擇)模型,從而使得整個模型更加適用于分類任務.其他參數的條件后驗分布可根據文獻[5,12-15]比較容易得出.根據Gibbs采樣技術,由參數的條件后驗分布可以構建一個馬爾科夫鏈,在給定所有參數的初始值后,對參數的條件后驗分布進行循環采樣,從而得到IMMBPFA模型的所有參數的估計值.在預熱階段結束后,繼續對參數進行循環采樣,并從中抽取T0次采樣進行存儲.
分別在Benchmark數據集以及實測雷達高分辨距離像(High Resolution Range Profile,HRRP)數據上進行實驗,來驗證IMMBPFA模型的有效性.實驗中將文中模型與5種模型進行了比較:單個線性SVM (SVM)與ILSVM兩種線性模型以及K-means+線性SVM(K m+SVM)、DPMNL模型[11]和DPLVSVM模型[12]3種混合專家模型.
4.1Benchmark數據集
實驗采用的數據集為從UCI Machine Learning Repository中獲取的Benchmark數據集,并從中選取了Heart、Splice、Image、Twonorm這4個分布較復雜的數據.實驗中采用原始數據作為模型輸入,共重復10次,每次實驗中隨機地劃分訓練樣本集和測試樣本集且樣本個數比例為7∶3.表1給出了數據的信息以及6種不同方法的分類結果.

表1 6種方法的分類結果對比
混合專家模型在每個數據子集上學習一個線性SVM分類器,構建了一個全局非線性的分類器,因而其分類性能總體上優于單個線性SVM分類器.由于ILSVM為線性模型而且其隱變量為二值變量,這使得其性能大部分情況下較差.然而由于ILSVM利用分類器和隱變量模型聯合學習隱空間特征來保證隱空間特征的可分性,這使得其在Heart和Twonorm兩個數據上有了較好的表現.DPMNL、DPLVSVM與IMMBPFA模型由于在劃分子集的同時優化了分類器,使得每個子集具有很好的可分性,其分類性能優于子集劃分與分類器學習相互獨立的K m+SVM模型.DPMNL、DPLVSVM在原始空間對數據進行聚類和分類器學習,不僅受到冗余信息的影響,而且缺乏靈活性.相比之下,IMMBPFA模型利用BPFA模型對數據進行了特征提取和選擇,在監督信息的指導下通過BP先驗獲得有利于分類的特征子集,因而更加靈活,而且降低了冗余信息對分類性能的影響.表1中IMMBPFA一欄括號中的數值為模型在各個數據中樣本所選因子個數(有效特征的維數)的平均值.可以看出,IMMBPFA所提的特征維度小于數據原始維度,減少了冗余信息.由于特征提取、聚類和分類器學習同時進行,BPFA所提的特征較原始特征更具有可分性.從表中可以看到IMMBPFA模型在各個數據集上均取得了最好的分類結果.
4.2HRRP數據集
基于雷達高分辨距離像(HRRP)的目標識別是雷達自動目標識別領域研究的熱點[2-3,11].本節實驗對象為C波段雷達對三類飛機目標的實測HRRP數據.數據具體介紹見文獻[2-3,11].實驗中采用模2范數歸一的方法消除HRRP的幅度敏感性,并提取功率譜特征消除其平移敏感性.為了檢驗模型的推廣性能,文中采用與文獻[2-3,11]相同的訓練樣本集與測試樣本集,并從中選擇600個訓練樣本和2 400個測試樣本.
實驗中設定K=50,即BPFA模型的因子個數設定為50.每個樣本由模型自動選擇相應的因子子集來對自身進行表達.圖2給出了訓練集和測試集樣本選擇的因子個數的分布情況.由于訓練階段為有監督的,而測試階段為無監督的,因此,訓練集和測試集樣本選擇的因子個數分布有所差異.然而,這兩個分布基本上是相似的,其中大部分樣本選擇的因子個數均在30~37之間.從而證明了IMMBPFA模型在訓練階段和測試階段的一致性(訓練過程沒有過匹配).

圖2 訓練集樣本及測試集樣本所選擇因子個數的分布
HRRP數據維度較高,其中包含了大量與識別無益的冗余信息,可以通過降維方法減少冗余信息.表1中給出了不同方法對HRRP的識別結果.與SVM和K m+SVM相比,DPMNL和DPLVSVM的識別結果雖然有所提高,然而,由于受到冗余信息的影響,其識別性能仍受到限制.IMMBPFA則采用BPFA發掘HRRP數據的低維隱空間信息,利用BP先驗進一步選擇對分類有益的特征子集.實驗中,HRRP樣本平均選擇的因子個數為33.2.可見,最終用于識別的有效特征的維數遠小于其原始數據的維數,這大大降低了冗余信息對最終識別效果的影響,因而IMMBPFA模型獲得了最高的識別率.
針對目標識別中具有多模分布特性的復雜數據,文中提出了一種IMMBPFA模型.該模型利用BPFA提取數據低維隱空間特征,并在該特征空間采用混合專家模型進行分類.不同于傳統方法,IMMBPFA模型將數據降維(特征提取)、聚類以及分類器學習統一在概率框架下聯合學習,不僅可以充分挖掘數據內在的分布結構,而且保證了各個聚類中樣本的可分性.通過在公共數據集以及雷達實測數據上的實驗,表明了IMMBPFA模型具有良好的分類性能.
[2]DU L,LIU H W,BO Z.Radar HRRP Statistical Recognition:Parametric Model and Model Selection[J].IEEE Transactions on Signal Processing,2008,56(5):1931-1943.[3]DU L,LIU H W,WANG P H,et al.Noise Robust Radar HRRP Target Recognition Based on Multitask Factor Analysis with Small Training Data Size[J].IEEE Transactions on Signal Processing,2012,60(7):3546-3559.
[4]BISHOP C.Pattern Recognition and Machine Learning[M].New York:Springer Science+Business Media,2007.
[5]POLSON N G,SCOTT S L.Data Augmentation for Support Vector Machines[J].Bayesian Analysis,2011,6(1): 1-24.
[6]ZHU J,AHMED A,XING E P.Med LDA:Maximum Margin Supervised Topic Model[J].The Journal of Machine Learning Research,2012,13(1):2237-2278.
[7]ZHU J,CHEN N,PERKINS H,et al.Gibbs Max-margin Topic Models with Data Augmentation[J].The Journal of Machine Learning Research,2014,15(1):1073-1110.
[8]BLEI D M,JORDAN M I.Variational Inference for Dirichlet Process Mixtures[J].Bayesian Analysis,2006,1(1): 121-144.
[9]ZHU J,CHEN N,XING E P.Bayesian Inference with Posterior Regularization and Applications to Infinite Latent SVMs[J].The Journal of Machine Learning Research,2014,15(1):1799-1847.
[10]ZHU J,CHEN N,XING E P.Infinite SVM:a Dirichlet Process Mixture of Large-margin Kernel Machines[C]// Proceedings of the 28th International Conference on Machine Learning.New York:ACM,2011:617-624.
[11]SHAHBABA B,NEAL R.Nonlinear Models Using Dirichlet Process Mixtures[J].The Journal of Machine Learning Research,2009,10(4):1829-1850.
[12]張學峰,陳渤,王鵬輝,等.一種基于Dirichlet過程隱變量支撐向量機模型的目標識別方法[J].電子與信息學報,2015,37(1):29-36. ZHANG Xuefeng,CHEN Bo,WANG Penghui,et al.A Target Recognition Method Based on Dirichlet Process Latent Variable Support Vector Machine Model[J].Journal of Electronics&Information Technology,2015,37(1):29-36
[13]PAISLEY J,CARIN L.Nonparametric Factor Analysis with Beta Process Priors[C]//Proceedings of the 26th International Conference on Machine Learning.New York:ACM,2009:777-784.
[14]FERGUSON T S.A Bayesian Analysis of Some Nonparametric Problems[J].The Annals of Statistics,1973,1(2): 209-230.
[15]SETHURAMAN J.A Constructive Definition of Dirichlet Priors[J].Statistica Sinica,1994,4(2):639-650.
(編輯:李恩科)
Infinite max-margin Beta process factor analysis model
ZHANG Xuefeng,CHEN Bo,WANG Penghui,WEN Wei,LIU Hongwei
(National Key Lab.of Radar Signal Processing,Xidian Univ.,Xi’an 710071,China)
An infinite max-margin Beta process factor analysis(IMMBPFA)model is developed to deal with the classification problem on multimodal data.In this model,BPFA is utilized to capture the latent feature of data.With the idea of mixture experts,IMMBPFA divides the data into‘infinite”clusters via the Dirichlet process(DP)mixture model in the low-dimensional latent space and meanwhile learns a linear max-margin classifier on each cluster to construct a complex nonlinear classifier.Since the proposed model jointly learns BPFA,clustering and max-margin classifier in a unified Bayesian framework,it exhibits superior performance in both data description and discrimination.With the help of nonparametric Bayesian inference and the Gibbs sampler,we avoid the model selection problem and can estimate the parameters simply and effectively.Based on the experimental data obtained from Benchmark and measured radar high resolution range profile(HRRP)dataset,the effectiveness of proposed method is validated.
Beta process factor analysis(BPFA);mixture-of-experts;Dirichlet process mixture(DPM) model;max-margin classifiers
TN959.1+7
A
1001-2400(2016)03-0013-06
10.3969/j.issn.1001-2400.2016.03.003
2015-02-10
時間:2015-07-27
國家自然科學基金資助項目(61372132,61201292);國家青年千人計劃資助項目;新世紀優秀人才支持計劃資助項目(NCET-13-0945);航空科學基金資助項目(20142081009);中央高?;究蒲袠I務費專項資金資助項目(K5051302010)
張學峰(1987-),男,西安電子科技大學博士研究生,E-mail:zxf0913@163.com.
http://www.cnki.net/kcms/detail/61.1076.TN.20150727.1952.003.html