王凱明 李榮鵬 肖玉柱 宋學力
(長安大學理學院 陜西 西安 710064)
在大數據時代,伴隨著信息技術的快速發展和數據獲取手段的多樣化,產生了大量的多模態高維數據。多模態高維數據的關聯分析實現模態間信息的互補,可提高數據的使用價值。然而在進行多模態高維數據關聯分析時,對不同模態數據進行簡單的整合并不能保證挖掘任務的有效性,且經常出現過擬合現象。因此,研究有效的模型在防止過擬合的同時實現多模態數據的關聯分析,然后得到多模態高維數據中的重要信息,支撐后續的決策、預測,具有重要的現實意義,也是現階段大數據研究關注的重要課題之一[1-2]。
在統計學習中,線性回歸(Linear Regression,LR)和典型相關分析(Canonical Correlation Analysis,CCA)是研究變量間關系的兩個常用統計模型。其中,線性回歸主要針對單模態數據,研究變量組與響應變量之間的線性依賴關系;而典型相關分析主要針對兩模態數據,通過典型變量的相關性來刻畫變量之間相關性[3]。然而,現實任務中的單模態或者多模態數據,經常會存在樣本特征維度(或屬性維度)遠大于樣本數的現象,這會導致統計學習的嚴重過擬合或者維數災難問題,所以需要從樣本的高維特征空間里提取或者選擇較少的“重要”的特征來解決或者緩解過擬合問題以及維數災難問題。利用某些向量范數(如l1范數)的稀疏性能,通過對目標進行正則懲罰來實現特征選擇,是近年來研究者們常用的方法[4-5]。稀疏線性回歸(Sparse Linear Regression,SLR)[4]和稀疏典型相關分析(Sparse Canonical Correlation Analysis,SCCA)[5]就是基于這個思想發展的具有特征提取功能和統計分析功能的新模型。針對已知響應變量數據的多模態數據,兼顧響應變量的監督作用和兩模態數據的關聯性背景,結合SLR與SCCA進行多模態數據的特征選擇[6-7]可以實現有監督的多模態數據特征提取以及相關關系研究。文獻[6]組合了SLR與SCCA模型得到協同回歸模型(Collaborative Regression,CoReg),并用于乳腺癌多模態數據的特征選擇,得到與乳腺癌多模態數據及其響應變量保持一致的重要特征。文獻[7]組合上述兩個模型得到多任務協同回歸模型(Multi-Task Collaborative Regression,MT-CoReg),并應用于精神分裂癥多模態數據的特征選擇,該模型對變量進行分組,在多模態數據之間,以及多模態數據與響應變量之間進行“強迫”回歸,提高了特征選擇的準確度。值得注意的是,在CoReg模型和MT-CoReg模型中均假設所有樣本數據分布規律相同,然而實際問題中,數據往往來自不同狀態的樣本,并且不同狀態的樣本數據之間存在顯著的差異[8](例如:來自不同疾病狀態病人的數據分布不同;來自不同年齡段個體的數據分布亦可能存在顯著差異)。因此,在模型中考慮不同類樣本數據的分布差異性更適合實際數據的分布規律,也有利于類相關特征選擇。一種簡單的想法就是對樣本分類,對每一類樣本單獨處理。這樣可進行類相關信息的選擇,但是導致可用的樣本數量較少,增加了學習難度并且容易忽略不同類樣本數據之間的共同信息的選擇,使得其實際應用受到限制。因此,本文考慮對不同種類樣本進行聯合分析,通過多類多模態數據信息的互補實現類相關特征選擇。
針對上述問題,本文考慮Fused lasso[9]的融合作用,在文獻[6]中模型的基礎上加入Fused lasso懲罰構建本文的模型。文獻[9]中Fused lasso懲罰通過對回歸系數中相鄰元素之差進行l1懲罰達到回歸系數融合的目的,可保證回歸系數具有光滑性。本文考慮對不同類樣本的典型向量進行Fused lasso懲罰,使得不同的典型向量之差具有稀疏性,不同典型向量中相同坐標分量之間具有光滑性。就是通過Fused lasso懲罰實現了K類樣本的聯合。
本文首先構建聯合協同回歸模型(Joint Collaborative Regression,Joint-CoReg),其主要思想為:根據先驗信息(如年齡、疾病狀態等)將樣本分為K類,通過協同回歸模型進行變量之間以及變量與標簽之間的相關性分析,然后使用Fused lasso實現K類樣本之間的聯合作用,最后使用l1范數得到類相關的稀疏典型向量。求解其中一模態數據的一個典型向量,另一模態數據的K個不同典型向量有兩方面的原因。一方面,考慮模型在實際問題中的應用。例如影像遺傳學研究中,通常采集腦圖像數據和基因數據來研究某些疾病(如精神分裂癥、阿爾茨海默病等),研究人員希望找到與疾病相關的共同病變腦區和導致不同疾病狀態的不同致病基因[10],此時共同病變腦區和不同致病基因正好分別對應我們模型中的一模態數據的一個典型向量和另一模態數據的K個不同典型向量。另一方面,限制其中一模態數據屬于共同類克服了多類樣本直接組合的數據不匹配問題,提高了模型求解的穩定性。
設X=[X1;X2;…;Xn]與Z=[Z1;Z2;…;Zn]為已標準化的兩模態樣本數據,其中Xi∈R1×p,Zi∈R1×q表示樣本的第i個分量數據,i=1,2,…,n;Y∈Rn為樣本的響應變量數據。
數據X與其響應變量數據Y之間的回歸模型可以表示為:
在Xω和Zν方差確定的條件下,兩模態數據X和Z的典型相關分析模型可以表示為:
然而,對于常見的高維度、小樣本的問題,以上模型通常會出現過擬合現象,導致模型無法求解。文獻[5,8]考慮l1范數的稀疏作用,在上述模型中加入l1范數稀疏懲罰,構造基于稀疏懲罰的回歸模型和典型相關分析模型。
數據X與其響應變量數據Y之間的稀疏回歸模型可以表示為:
式中:λ為待定參數。通過求解稀疏回歸系數ω挖掘數據X和Y之間的稀疏線性關系。
在Xω和Zν方差確定的條件下,兩模態數據X和Z的稀疏典型相關分析模型可以表示為:

文獻[6]結合稀疏回歸模型和稀疏典型相關分析模型提出協同回歸模型,其目標函數如下:
該模型在響應變量數據Y的監督下得到兩模態數據X和Z之間具有最大相關性的稀疏典型向量,但是忽略了不同類樣本數據的分布信息性,增加了類相關特征選擇的難度。
考慮包含多類樣本的兩模態數據X∈Rn×p,Z∈Rn×q。按樣本種類將數據分為X=[X1;X2;…;XK],Z=[Z1;Z2;…;ZK],Xk∈Rnk×p,Zk∈Rnk×q表示第k類樣本,k=1,2,…,K。對X、Z、Y進行聯合協同回歸,建立目標函數:
(1)
式中:ω∈Rp×1,υk∈Rq×1,k=1,2,…,K,分別是X和Zk對應的典型向量,a、λ1、λ2為可調參數,λ1、λ2用于調節ω、υk的稀疏程度。通過求解目標函數分別得到關于X和Zk(k=1,2,…,K)的典型相關變量。
不同類樣本之間的聯合,使用以下Fused lasso懲罰項實現:
Fused lasso懲罰項對不同類的典型向量之差進行稀疏懲罰,保證不同典型向量的相同分量之間具有光滑性。通過Fused lasso懲罰和l1范數懲罰得到類相關稀疏典型向量。參數a控制υk(k=1,2,…,K)之間的融合程度。特別地,當a=0時,各類樣本之間無融合作用,此時模型等價于對K類樣本分別協同回歸;當a=∞時,所有類別的樣本被視為一類,其對應的典型向量υk完全相同,此時模型等價于將K類樣本作為整體協同回歸。
為了保證聯合協同回歸模型(1)解的唯一性,我們對典型向量ω、νk的范數(或長度)加以約束,將優化問題(1)轉化為以下約束優化問題:
(2)
將式(2)中的l2范數按照向量內積展開,去掉展開式中常數項(常數項不含決策變量,不影響優化問題求解最小值),優化問題轉化為如下形式:
(3)

(4)

(5)


(6)

(7)
式中:c為非負參數,當c=0時標簽數據變為0,此時模型只進行協變量(多模態數據)之間的相關性分析,模型相當于聯合典型相關分析模型[8]。隨著c的增大,T中絕對值較大的元素變化幅度較大。因此在參數選擇中選擇合適的c有利于樣本中較重要特征的選擇[14]。
由以上推導,式(2)的求解可以轉化為式(5)求解(當K=2時,使用式(7)代替式(5))。式(5)(或式(7))中ω、vk為決策變量,固定ω,式(5)(或式(7))為另一決策變量vk的凸函數,反之亦然。可以使用塊坐標下降法對式(5)(或式(7))分式(8)-式(9)兩步進行迭代求解:
(8)
(9)
為求解式(8)和式(9),引入如下引理。


(10)
(11)
式(10)為Fused lasso信號逼近的一種特殊情況。通過融合、稀疏和正則化三步對其進行求解,由文獻[15]得到式(10)求解算法。優化問題(8)和問題(9)可分別應用引理1和引理2得以求解。下面給出聯合協同回歸模型詳細求解算法[6,13],如算法1所示。
算法1Joint-CoReg算法
輸入:標準化數據:X∈Rn×p,Xk∈Rnk×p,Zk∈Rnk×q,Y∈Rn×1,可調參數a,λ1,λ2
輸出:ω和υk
(1) 初始化ω∈Rp×1,υk∈Rq×1,k=1,2,…,K







(9) 重復步驟(2)-步驟(8),直到算法收斂
多模態高維數據關聯分析模型,在防止高維數據過擬合的同時,通過模態間信息的互補挖掘數據中隱藏的價值,具有重要的現實意義。本文建立聯合協同回歸模型,該模型可有效地防止過擬合,且進行多模態數據的關聯分析,最終得到數據的重要信息。數據的重要信息在模型中則表現為稀疏典型變量中非零元素。通過數據的重要信息可以進一步進行分類、預測等諸多任務,其應用范圍非常廣泛。
為了驗證本文模型得到的重要信息有效性,將模型用于特征選擇,直接對比本文模型求得的實驗結果和真值,二者越接近說明模型越有效。


式中:I為示性函數;m1為給定閾值;Sωi為選擇特征的集合。對于Zk的典型向量,給定閾值m2,利用同樣的方法進行特征選擇。
考慮包含兩類樣本的兩模態數據,每一類樣本包含n個樣例。數據構造方法與文獻[5,8]中數據構造方法相類似。首先構造潛變量hk={hki|i=1,2,…,n},hk∈Rn×1,hki~N(μk,δ)(k=1,2,…,K),不同的μk來構造不同類別的樣本;其次產生X和Yk的典型向量α和βk,α∈R1×p,βk∈R1×q,α和βk中分別包含m和r個非零的元素,其中非零元素為需要選擇的特征;最后得到Xk和Zk:Xk=hkα,Zk=hkβk。不失一般性,此處給定兩類樣本,且μ1=-1,μ2=1,n=100,特征數p=q=500,典型向量的稀疏度m=r=150。
該模型有四個可調參數λ1、λ2、a、c(兩類樣本的情況考慮參數c),其中λ1,λ2控制典型向量的稀疏程度,a控制各Zk的典型向量的相似程度,c的大小反映響應變量數據的重要程度。為了保證模型的穩定性,本文分兩步進行參數選擇:第一步,根據文獻[16]指出的參考解的稀疏程度進行參數選取。本文根據需要保留的特征數量指導λ1、λ2的選取。第二步:在參數λ1、λ2確定的情況下,給定a和c的備選區間[10-2,10-1,100,101,102],使用自助法(bootstrapping)從已有的樣本中產生M組不同的訓練樣本和測試樣本,用網格搜索的方法,選擇使得測試集和訓練集相關系數平均絕對誤差取得最小值的一組參數a和c,作為參數a和c的最優值,模型使用的參數值在實驗部分均給出。測試集和訓練集相關系數平均絕對誤差計算公式如下:
式中:corrtrain為訓練集上的Pearson相關系數,corrtest為測試集上的Pearson相關系數。
聯合協同回歸模型在保證典型變量之間有較高相關性的前提下通過典型向量選擇重要特征,本文在實驗部分從典型變量的相關性和特征選擇準確率兩方面驗證模型的有效性。其中典型變量之間的相關性使用Pearson相關系數描述,特征選擇準確性使用ROC曲線來描述。給定特征向量的稀疏度(λ1、λ2給定),研究參數a和c對典型變量的相關性和特征選擇準確率的影響(不同參數a和c將模型轉化為其他模型,相當于對比實驗)。
表2給定最優參數λ1、λ2、a,研究參數c的變化對典型變量相關性的影響,c分別取值0、50、100、150。實驗結果表明,c取值為50和100時相關性略高于c取值為0和150時的相關性,但是在四個取值下所得相關性相差不大。表3給定參數λ1、λ2、c,研究參數a的變化對典型變量相關性的影響。a分別取值0、10、20、1 000,實驗結果表明a取值為0時取得最大的相關性,在a的四個取值下所得相關性相差不大。所以,表1和表2表明特征選擇稀疏度給定(λ1、λ2給定)的情況典型變量相關性對參數a、c不敏感,說明本文模型可以保證多模態數據之間(協變量之間)的相關性。

表1 參數c對數據相關性影響對比

表2 參數a對數據相關性影響對比
ROC曲線反映了在不同參數下模型選擇特征的準確度,其中ROC曲線越靠近(0,1)點,說明特征選擇準確率越高。圖1給定最優參數λ1、λ2、a,研究參數c的變化對樣本數據X的特征選擇準確性的影響,ROC圖像表明c=50和c=100時模型選擇特征的準確度明顯高于c=50和c=150時特征選擇的準確性。c=0時響應變量的取值為零,此時去掉了表型變量數據對特征選擇影響,特征選擇準確率降低,由此說明在表型變量數據的監督下可提高模型特征選擇的準確性;c=100時加大了響應變量數據的作用,減小了協變量的影響,降低了Joint-CoReg模型特征選擇的準確率。圖1說明響應變量數據在一定程度上影響特征選擇的準確率,對響應變量數據給定合適的權重可以提高模型特征選擇的準確率。

圖1 不同參數c對應數據X中特征選擇的ROC曲線
圖2和圖3反映了在最優參數λ1、λ2、c下,不同的參數a對樣本數據Z的特征選擇的準確性的影響。可以看出a=10和a=20時特征選擇的準確度相差不大,a=0和a=1 000時模型的特征選擇準確性明顯低于a=10和a=20的準確度。a=0時Joint-CoReg模型對各類樣本的典型向量無融合作用,此時模型相當于對各類樣本分別協同回歸,a=1 000時Joint-CoReg模型使得各樣本的典型向量完全融合為一類,此時相當于將所有樣本數據視為同類,圖2和圖3說明Joint-CoReg模型特征選擇準確率高于CoReg模型特征選擇準確率,Joint-CoReg模型具有選擇類特征信息的能力。

圖2 不同參數a對應變量Z1特征選擇的ROC曲線

圖3 不同參數a對應變量Z2特征選擇的ROC曲線
本文建立了聯合協同回歸模型用于多模態高維數據的關聯分析。 該模型在協同回歸模型中加入Fused lasso懲罰來實現多類樣本之間的聯合作用, 實驗結果中類相關特征的選擇表明Fused lasso可以有效地實現多類樣本的聯合作用。模型求解部分對模型進行必要的簡化,得到高效的迭代求解算法,該簡化過程可保證模型的有效性,對于高維數據的模型求解具有重要參考意義。實驗構造模擬數據,通過特征選擇的準確率驗證模型有效性,使用ROC曲線對比不同模型特征選擇的準確率。實驗結果表明,Joint-CoReg模型在保證變量相關性的同時實現了類相關特征選擇,較CoReg模型有更高的特征選擇準確率。模型建立過程中,在標簽變量數據引入參數,并在實驗部分討論該參數變化對模型的影響,通過對比實驗得出結論:對標簽變量數據給定合適權重可提高模型性能。