聯(lián)合學(xué)習(xí)動態(tài)半?yún)?shù)概率圖模型*

2018-06-19 06:10:54黃飛虎陳松燦

計算機與生活 2018年6期

黃飛虎，陳松燦

南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，南京 211106

1 引言

無向概率圖模型是一類用于刻畫一組隨機變量之間條件相關(guān)性的強大統(tǒng)計工具，目前已被廣泛應(yīng)用于機器學(xué)習(xí)、計算機視覺、生物信息學(xué)與社會學(xué)等領(lǐng)域[1-4]。高斯圖模型（Guassian graphical model，GGM）為一類流行的無向概率圖模型，能很好地刻畫一組正態(tài)分布隨機變量的條件相關(guān)性。具體地，假設(shè)隨機向量x=(x1,x2,…,xp)T∈Rp服從多元正態(tài)分布N(μ,Σ)，與之對應(yīng)的無向圖為G(V,E)，其中V={x1,x2,…,xp}為頂點集，E=V×V代表邊集，那么對于任意(i,j)?E，xi⊥xj|x(i,j)表示隨機變量xi與xj條件獨立。對于(i,j)?E當(dāng)且僅當(dāng)(Σ-1)ij=0，即協(xié)方差矩陣逆（也稱為精度矩陣）的(i,j)元素為0。因此，精度矩陣的稀疏模式能刻畫圖模型的結(jié)構(gòu)。由此可知，概率圖模型結(jié)構(gòu)的估計可等價于稀疏精度矩陣的估計。目前已存在大量對于圖模型與精度矩陣估計的工作[5-9]，它們大致可分為三類：第一類通過利用其他變量來稀疏擬合每個變量而得到每個點的近鄰。例如，文獻[5]通過利用套索模型（Lasso[10]）擬合每個變量而提出了近鄰選擇估計器，該方法可視為一種偽似然估計方法。第二類通過直接最小化?1范數(shù)懲罰的負對數(shù)似然。例如，文獻[3,6]通過直接求解?1范數(shù)懲罰的負對數(shù)似然估計高斯圖模型。文獻[7]利用有效的塊坐標(biāo)下降方法求解該?1范數(shù)懲罰的對數(shù)似然問題，提出了著名的圖套索（graphical Lasso）。第三類通過利用樣本協(xié)方差直接估計稀疏精度矩陣。例如，文獻[8]通過求解一系列稀疏線性規(guī)劃問題估計稀疏精度矩陣。文獻[9]提出了一個帶約束的?1范數(shù)最小估計器（constrained?1-minimization for inverse matrix estimation，CLIME）估計稀疏精度矩陣。

盡管GGM能很好地刻畫正態(tài)分布的數(shù)據(jù)，但其要求正態(tài)分布假設(shè)過于苛刻。事實上，人們所采集到的數(shù)據(jù)往往面臨兩類問題：（1）數(shù)據(jù)很少嚴格服從正態(tài)分布；（2）數(shù)據(jù)通常含有少量噪聲。為了處理問題（1），文獻[11]將正態(tài)分布推廣到非參數(shù)正態(tài)分布（non-parameter normal distribution，nonparanormal），進而提出了一類半?yún)?shù)概率圖模型。具體地，如果存在一些單變量的單調(diào)可微函數(shù){fi}p i=1，有f(x)=(f1(x1),f2(x2),…,fp(xp))T服從多元正態(tài)分布N(0,Σ)，那么x=(x1,x2,…,xp)T服從非參數(shù)正態(tài)分布NPN(0,Σ,f)。同時，由單變量函數(shù){fi}p i=1的單調(diào)可微性，稀疏精度矩陣Σ-1同樣刻畫了隨機變量(x1,x2,…,xp)的相關(guān)性，即給定其他變量xi與xj條件獨立當(dāng)且僅當(dāng)(Σ-1)ij=0。為了同時解決問題（1）與（2），文獻[12-13]采用基于非參排序的統(tǒng)計量（Spearman’s rho 或Kendall’s tau）估計相關(guān)矩陣，提出了魯棒的估計方法用于學(xué)習(xí)半?yún)?shù)概率圖模型。總之，這些半?yún)D模型的估計方法的基本流程為：首先利用基于截斷的正態(tài)計分（normal scoring[11]）或基于非參排序的統(tǒng)計量[12-13]估計出相關(guān)矩陣，然后把它代入現(xiàn)有圖模型估計器，學(xué)習(xí)出稀疏的精度矩陣，即得到相應(yīng)的圖結(jié)構(gòu)。

到目前為止，上述圖模型的建立均基于同一分布數(shù)據(jù)，因此不適合刻畫異構(gòu)性或動態(tài)性的數(shù)據(jù)。例如，采集了包含正常與病狀的腦影像數(shù)據(jù)[14]，如果利用上述圖模型分別構(gòu)建正常大腦與病狀大腦的各自腦網(wǎng)絡(luò)，則會忽略它們的共性結(jié)構(gòu)；如果利用上述圖模型總體估計單個腦網(wǎng)絡(luò)，則會忽略它們之間的差異結(jié)構(gòu)。因此，為了能更好地挖掘這些異構(gòu)數(shù)據(jù)的結(jié)構(gòu)信息，聯(lián)合學(xué)習(xí)多個圖模型已成為一個研究主題，典型的工作有文獻[14-20]。例如，文獻[15]利用層次稀疏結(jié)構(gòu)懲罰能很好學(xué)習(xí)出多個圖模型的共性結(jié)構(gòu)。文獻[16]通過利用組套索（group Lasso）[21]與兩兩融合套索（fused Lasso）[22]的結(jié)構(gòu)懲罰學(xué)習(xí)多個圖模型的共性結(jié)構(gòu)，提出了聯(lián)合圖套索（joint graphical Lasso）。同時，文獻[14]利用有序融合套索聯(lián)合學(xué)習(xí)多個有序的概率圖模型。為了使這些聯(lián)合圖模型能更好地勝任矩陣變量的數(shù)據(jù)，如腦功能性磁共振成像（functional magnetic resonance imaging，fMRI）數(shù)據(jù)及股票交易數(shù)據(jù)等，文獻[20]提出了聯(lián)合矩陣變量的高斯圖模型。另外，針對隨著時間光滑變化的異構(gòu)數(shù)據(jù)，目前工作[23-25]提出了相應(yīng)的動態(tài)GGM學(xué)習(xí)動態(tài)的條件相關(guān)性。總體上，這些工作均利用核光滑方法估計出相應(yīng)的協(xié)方差矩陣，再把已估計的協(xié)方差矩陣代入已有的圖模型估計器得到相應(yīng)的動態(tài)圖結(jié)構(gòu)。

同樣地，盡管上述聯(lián)合或動態(tài)的圖模型能較好地分析異構(gòu)數(shù)據(jù)的條件相關(guān)性，但是它們均建立在嚴格的正態(tài)分布假設(shè)下。由于當(dāng)前高維的異構(gòu)數(shù)據(jù)通常很難嚴格服從正態(tài)分布且常含噪聲，上述聯(lián)合的與動態(tài)的圖模型仍然很難勝任這些異構(gòu)數(shù)據(jù)。例如，對于采集不同病狀下的腦影像數(shù)據(jù)，由于疾病的易變性通常使其服從一些尾部較重的分布。另外，在采集數(shù)據(jù)過程中由于儀器不穩(wěn)定，再加上志愿者頭部的運動及呼吸心跳的影響，往往采集到的數(shù)據(jù)都帶有一定噪聲。為了處理上述問題，本文提出聯(lián)合半?yún)?shù)圖模型學(xué)習(xí)這些異構(gòu)數(shù)據(jù)的條件相關(guān)性。同時，針對光滑變化的異構(gòu)數(shù)據(jù)（如時序的fMRI數(shù)據(jù)），提出聯(lián)合的動態(tài)半?yún)?shù)圖模型。在建模上，將基于非參排序的相關(guān)矩陣估計方法與結(jié)構(gòu)融合圖套索方法相結(jié)合，提出了半?yún)?shù)融合圖套索估計器。特別針對動態(tài)圖模型，提出了一種新的核光滑Kendall’s tau相關(guān)矩陣。總之，本文主要貢獻如下：

（1）提出了聯(lián)合的半?yún)?shù)圖模型用于學(xué)習(xí)非正態(tài)分布異構(gòu)數(shù)據(jù)的條件相關(guān)性，且其較目前已有的聯(lián)合圖模型更靈活、魯棒。

（2）進一步針對光滑變化的動態(tài)異構(gòu)數(shù)據(jù)，提出了聯(lián)合動態(tài)半?yún)?shù)圖模型。

（3）采用了有效的ADMM（alternating direction method of multipliers）方法對提出的模型進行求解。

（4）利用一些人工數(shù)據(jù)與真實數(shù)據(jù)（如腦影像、股票交易數(shù)據(jù)）同時驗證了模型的有效性。

2 相關(guān)工作

本文首先介紹非參數(shù)正態(tài)分布與半?yún)?shù)概率圖模型。存在一系列單值單調(diào)且可微函數(shù){fi}p i=1與對稱正定矩陣Σ且diag(Σ)=I，那么稱隨機向量x=(x1,x2,…,xp)T服從非參數(shù)正態(tài)分布NPN(0,Σ,f)，當(dāng)且僅當(dāng)f(x)=(f1(x1),f2(x2),…,fp(xp))服從多元正態(tài)分布N(0,Σ)。文獻[12-14]證明矩陣Ω=Σ-1的稀疏模式能刻畫x=(x1,x2,…,xp)T的條件相關(guān)性（即Ωij=0?xi⊥xj|x{}i,j），且基于該非參數(shù)正態(tài)分布提出了半?yún)?shù)圖模型。

下面介紹半?yún)?shù)圖模型的估計方法。文獻[11]提出了基于正態(tài)計分的半?yún)?shù)圖模型估計方法，而文獻[12-13]提出了一類基于非參排序方法估計該半?yún)?shù)模型，其不僅比基于正態(tài)計分的方法具有更優(yōu)的收斂率，且更加魯棒。具體地，首先利用基于非參排序的統(tǒng)計量（Spearman’s rho 或Kendall’s tau）估計相關(guān)矩陣Σ，然后將它代入已有圖模型估計精度矩陣Ω=Σ-1，即半?yún)?shù)圖稀疏結(jié)構(gòu)。例如，基于非參排序的Kendall’s tau相關(guān)系數(shù)τkl估計如下：

然后相關(guān)矩陣Σ=(Σkl)通過Kendall’s tau相關(guān)系數(shù)矩陣Γ?=(τ?kl)估計得到[26-27]，其中：

3 聯(lián)合半?yún)?shù)圖模型

下面提出聯(lián)合半?yún)?shù)圖模型用于學(xué)習(xí)非正態(tài)分布異構(gòu)數(shù)據(jù)的條件相關(guān)性。該問題等價于學(xué)習(xí)多個具有一些共性結(jié)構(gòu)的半?yún)?shù)圖模型。事實上，本文研究聯(lián)合半?yún)?shù)圖模型的動機源于一些重要的應(yīng)用。例如，利用一些來自同一種病多種亞型的腦影像數(shù)據(jù)[14]，通過聯(lián)合學(xué)習(xí)不同病狀的腦網(wǎng)絡(luò)可挖掘出疾病的發(fā)展情況。

具體地，給定K類獨立同分布樣本服從非參數(shù)正態(tài)分布NPN(0,Σk,fk)，[K]={1,2,…,K}。通常為了獲得稀疏的圖結(jié)構(gòu)，求解下面的?1范數(shù)懲罰的負對數(shù)似然問題：

其中為的樣本協(xié)方差矩陣。函數(shù)為存在且未知的隱函數(shù)，因此不能直接求得相關(guān)矩陣那么類似于文獻[12-13]采用基于非參排序方法直接估計它。具體地，可通過上述Kendall’s tau統(tǒng)計量估計每類的相關(guān)矩陣

考慮到多個半?yún)?shù)圖模型共享一些結(jié)構(gòu)，即精度矩陣共享一些稀疏結(jié)構(gòu)，因此提出了半?yún)?shù)融合圖套索方法聯(lián)合估計這些圖模型。具體地，求解如下的結(jié)構(gòu)正則化的負對數(shù)似然問題：

其中，為負對數(shù)似然項；為稀疏懲罰項，使得每個圖模型稀疏；P(Ω)=為有序融合套索懲罰項，使得相鄰的圖模型更相似。這里λ1與λ2為非負的正則化參數(shù)，其中λ1控制每個圖的稀疏率，而λ2控制相鄰的圖相似程度。當(dāng)λ2=0時，問題（1）可解耦為K個稀疏正則化的負對數(shù)似然問題，那么該聯(lián)合模型退化為半?yún)?shù)圖模型[12-13]。

4 聯(lián)合動態(tài)半?yún)?shù)圖模型

下面提出聯(lián)合動態(tài)半?yún)?shù)圖模型用于學(xué)習(xí)光滑變化的非正態(tài)分布異構(gòu)數(shù)據(jù)的條件相關(guān)性，其動機源于一些有意義的應(yīng)用。例如，利用時序的fMRI數(shù)據(jù)學(xué)習(xí)人類不同年齡段的腦網(wǎng)絡(luò)[25]，以了解大腦發(fā)育情況。首先，定義一類新的動態(tài)半?yún)?shù)概率圖模型。

定義1（動態(tài)半?yún)?shù)圖模型）如果隨機變量對(X,T)服從動態(tài)半?yún)?shù)概率圖模型，其相應(yīng)的動態(tài)圖為G(t)=(V,E(t))，那么其滿足如下條件：

（1）X|T=t～NPN(0,Σ(t),f)，其中T～g(t)為定義在[0,1]上的連續(xù)函數(shù)；

（2）動態(tài)圖G(t)=(V,E(t))包括固定點集合V，動態(tài)邊集合E(t)，其中邊的權(quán)重隨著時間變量t∈[0,1]變化，且其圖結(jié)構(gòu)也可以隨之改變，即精度矩陣Ω(t)隨著時間t變化；

（3）xi⊥xj|{x{i,j},T=t}當(dāng)且僅當(dāng) (i,j)?E(t)。

人們感興趣的時間變量T屬于有界區(qū)間，因此其可以轉(zhuǎn)化到區(qū)間[0,1]。不失一般性，本文均假設(shè)t∈[0,1]。接下來，為了估計該動態(tài)半?yún)?shù)圖模型，利用一種新的核光滑Kendall’s tau相關(guān)系數(shù)矩陣Γ(t)=(τkl(t))。具體地，當(dāng)每個時間點t∈[0,1]（即每個分布）只采一個樣本時，核光滑Kendall’s tau相關(guān)系數(shù)τkl(t)估計如下：

其中，ω(t,ti,tj)=Kh(t-ti)Kh(t-tj)。

當(dāng)每個時間點t∈[0,1]采m≥2個獨立同分布樣本時，核光滑Kendall’s tau相關(guān)系數(shù)τkl(t)估計如下：

這里，Kh(·)=K(·/h)為對稱核函數(shù)，其中h>0 為帶寬參數(shù)。例如，高斯核，其中帶寬參數(shù)h控制圍繞時間點ti的窗口。具體地，較小的h表明估計的圖模型隨時間變化的頻率較高，而較大的h表明估計的圖模型隨時間變化的頻率較低。然后，相關(guān)矩陣Σ(t)由核光滑Kendall’s tau相關(guān)系數(shù)矩陣Γ?(t)=(τ?kl(t))估計可得，具體為：

最后，把已估計出的相關(guān)矩陣代入已有的圖模型估計器（如graphical lasso[7]或CLIME[9]）可以得到稀疏精度矩陣Ω(t)，即動態(tài)圖結(jié)構(gòu)。

考慮到動態(tài)圖模型隨著時間變化依然保持一定的共性結(jié)構(gòu)，本文采用上文的聯(lián)合學(xué)習(xí)思想，提出聯(lián)合的動態(tài)半?yún)?shù)圖模型。具體為，把已估計出的相關(guān)矩陣 {Σ?(tk)}K k=1代入上文提出的半?yún)?shù)融合圖套索估計器（1），可以聯(lián)合估計多個時間點的精度矩陣即稀疏圖結(jié)構(gòu)。

5 模型優(yōu)化

本文利用交替方向乘子方法（ADMM[28]）求解問題（1）。ADMM是一類非常適用于求解帶等式約束問題的優(yōu)化方法，可表示如下：

其中，λ為拉格朗日乘子；ρ為懲罰參數(shù)。首先給出上述問題（2）的增廣拉格朗日函數(shù)：

那么ADMM采用Gauss-Seidel迭代求解問題（2），在第t+1步迭代表示如下：

下面應(yīng)用ADMM具體求解問題（1）。首先把問題（1）改寫為如下等式約束問題：

問題（3）的增廣拉格朗日函數(shù)可表示如下：

然后利用ADMM求解問題（3），在第t+1步迭代表示如下：

接下來，將分別介紹問題（4a）與（4b）的具體求解。首先對于問題（4a），其可以分解為K個獨立問題。對于k∈[K]：

然后對其目標(biāo)函數(shù)微分得到：

易知Ωk與矩陣Ak=Σ?k-Λk-ρZk共享特征向量，且其特征值滿足如下關(guān)系：

其中，{αi}ip=1為矩陣Ωk的特征值；{βi}ip=1為矩陣Ak的特征值。因此，對矩陣Ak進行特征值分解為Ak=UkBkUk，那么可得Ωk=UkDkUk，其中Dk為特征值{αi}ip=1組成的對角矩陣。

同樣，問題（4b）可以分解p2個獨立的融合套索問題。

對于1≤i,j≤p：

且子問題（5）可用標(biāo)準(zhǔn)融合套索的近似算子求解[29]。由于{Zk}為對稱矩陣，只要求解個子問題（5）。由于問題（4a）與（4b）均可分解為獨立的子問題，可以考慮利用并行框架來加速本文算法。

6 人工數(shù)據(jù)實驗

下面利用一些人工數(shù)據(jù)驗證本文模型的有效性。具體地，對于學(xué)習(xí)異構(gòu)數(shù)據(jù)的條件相關(guān)性，即學(xué)習(xí)多個半?yún)?shù)概率圖模型（semi-parameter probability graphical model，SPGM），本文的聯(lián)合半?yún)?shù)圖模型（joint semi-parameter graphical Lasso，JSPGL）將與標(biāo)準(zhǔn)的半?yún)?shù)圖模型[12-13]（semi-parameter graphical Lasso，SPGL）及聯(lián)合的GGM[14,16]（joint graphical Lasso，JGL）比較。對于動態(tài)的異構(gòu)數(shù)據(jù)條件相關(guān)性，即學(xué)習(xí)多個動態(tài)半?yún)?shù)概率圖模型（dynamic semi-parameter probability graphical model，DSPGM），本文的聯(lián)合動態(tài)半?yún)?shù)圖模型（joint dynamic semi-parameter graphical Lasso，JDSPGL）將與動態(tài)半?yún)?shù)圖模型（dynamic semiparameter graphical Lasso，DSPGL）及動態(tài)的GGM[21-23]（dynamical graphical Lasso，DGL）比較。

在實驗中，為了突出本文模型的有效性，讓DGL與融合圖套索框架結(jié)合來參與比較。文中所有模型參數(shù)通過十重交叉驗證得到。同時，所有實驗均重復(fù)50次，下面報告的實驗結(jié)果為其平均值。另外，上述所有動態(tài)圖模型，均選擇帶寬參數(shù)h=1。最后，所有算法均在Matlab軟件平臺上運行，且在英特爾i5-3470處理器、16 GB內(nèi)存的計算機上執(zhí)行。

6.1 人工數(shù)據(jù)的生成

本節(jié)介紹一些人工數(shù)據(jù)的生成。不失一般性，本文只關(guān)注學(xué)習(xí)Erd?s-Rényi（ER）網(wǎng)絡(luò)。具體地，首先生成一個稀疏率92%的ER網(wǎng)絡(luò)，然后由生成的ER網(wǎng)絡(luò)復(fù)制K份，再對每個網(wǎng)絡(luò)隨機減少p/4個邊，最后得到多個具有一定相似結(jié)構(gòu)的網(wǎng)絡(luò)，其相應(yīng)的鏈接矩陣為為了使得這些鏈接矩陣符合精度矩陣，進行如下賦值：

其中，Ek,k∈[K]表示圖邊集合。最后，在矩陣的對角元素加上相應(yīng)的正數(shù)以保證它們對稱正定。為了方便，令n=n1=n2=…=nK。接下來，讓每個正態(tài)分布生成n個數(shù)據(jù)點為了驗證本文模型對正態(tài)分布假設(shè)的放松，與文獻[12]類似，再對數(shù)據(jù)進行高斯累積分布函數(shù)轉(zhuǎn)化，如下：

其中為標(biāo)準(zhǔn)的高斯累積分布函數(shù)。因此，得到轉(zhuǎn)化數(shù)據(jù)服從非參數(shù)正態(tài)分布f)，k∈[K]。

下面介紹產(chǎn)生動態(tài)半?yún)?shù)圖模型的過程。同樣地，首先生成一個稀疏率92%的ER網(wǎng)絡(luò)，然后由生成的ER網(wǎng)絡(luò)復(fù)制n個，再對每個網(wǎng)絡(luò)隨機減少p/4個邊，最后得到多個具有一定相似結(jié)構(gòu)的網(wǎng)絡(luò)，其相應(yīng)的鏈接矩陣為為了使得這些鏈接矩陣符合動態(tài)結(jié)構(gòu)，對其進行如下賦值：

其中，t∈[0,1]。同時在矩陣{Ω(tk)}n k=1的對角元素加上相應(yīng)的正數(shù)以保證它們對稱正定。接下來，讓每個正態(tài)分布N(0,Ω(tk)-1)，k∈[n]生成1個數(shù)據(jù)點xk。因此，得到一些獨立非同分布的樣本{xk}n k=1，即每個樣本服從各自的分布。同樣地，與上述類似把它們轉(zhuǎn)化為獨立非同分布的樣本{yk}n k=1，即它們服從NPN(0,(Ωk)-1,f)。

6.2 評價標(biāo)準(zhǔn)

本節(jié)給出對圖模型結(jié)構(gòu)恢復(fù)的真陽性率（TPR）與假陽性率（FPR）來評價所有模型的性能。假定為已估計出的稀疏精度矩陣為真實的精度矩陣，給出指標(biāo)TPR與FPR的定義如下：

其中，為指標(biāo)函數(shù)。同時，為了驗證本文模型的魯棒性，考慮對這些人工數(shù)據(jù)加一些噪聲。具體地，在每個樣本矩陣隨機選取[nr]個元素用5或-5代替，其中0≤r≤1為噪聲率。

6.3 實驗結(jié)果

在實驗中，利用4個半?yún)?shù)概率圖模型的學(xué)習(xí)作為評估模型效果，即K=4。同時，對于動態(tài)半?yún)?shù)概率圖模型的學(xué)習(xí)在n個時間點隨機選取4個時間點聯(lián)合估計作為評估模型效果。

由圖1可知，在學(xué)習(xí)非正態(tài)分布異構(gòu)數(shù)據(jù)的相關(guān)性時，本文的JSPGL優(yōu)于JGL與SPGL，也更加魯棒。由圖2可知，本文聯(lián)合模型在小樣本情況下依然優(yōu)于JGL與SPGL。由圖3可知，在學(xué)習(xí)動態(tài)的非正態(tài)分布異構(gòu)數(shù)據(jù)的相關(guān)性時，本文的JDSPG優(yōu)于DSPGL與DGL，也更加魯棒。同樣地，由圖4可知，本文聯(lián)合動態(tài)圖模型在小樣本情況下依然優(yōu)于其他方法。從圖3、圖4可知，JDSPGL并非很顯著地優(yōu)于DSPGL。由于這兩種方法估計相關(guān)性矩陣Σ(t)均用核光滑方法，它們在估計相關(guān)性矩陣時已經(jīng)把每個時間點的信息考慮進去了，即已經(jīng)用了聯(lián)合學(xué)習(xí)思想。

Fig.1 ROC curves of estimating multiple SPGMs at different noise contamination levels(n=200 and p=200)圖1 多個半?yún)?shù)圖模型在不同程度噪聲污染下估計的ROC曲線（n=200與p=200）

Fig.2 ROC curves of estimating multiple SPGMs at different noise contamination levels(n=100 and p=200)圖2 多個半?yún)?shù)圖模型在不同程度噪聲污染下估計的ROC曲線（n=100與p=200）

Fig.3 ROC curves of estimating DSPGMs at different noise contamination levels(n=200 and p=200)圖3 動態(tài)半?yún)?shù)圖模型在不同程度噪聲污染下估計的ROC曲線（n=200與p=200）

Fig.4 ROC curves of estimating DSPGMs at different noise contamination levels(n=100 and p=200)圖4 動態(tài)半?yún)?shù)圖模型在不同程度噪聲污染下估計的ROC曲線（n=100與p=200）

7 真實數(shù)據(jù)實驗

本文利用真實的腦影像數(shù)據(jù)與股票交易數(shù)據(jù)分別驗證提出的聯(lián)合半?yún)?shù)圖模型（JSPGL）與聯(lián)合動態(tài)半?yún)?shù)圖模型（JDSPGL）的有效性。

腦影像數(shù)據(jù)（http://adni.loni.ucla.edu/）采集于32個老年癡呆（Alzheimer’s disease，AD）大腦、71個認知障礙（mild cognitive impairment，MCI）大腦與62個正常（normal control，NC）大腦，且所有數(shù)據(jù)包括116個特征，每個特征代表每個解剖興趣區(qū)域。對于腦影像數(shù)據(jù)，將利用JSPGL聯(lián)合構(gòu)建三類大腦網(wǎng)絡(luò)，其為AD腦網(wǎng)絡(luò)、MCI腦網(wǎng)絡(luò)與NC腦網(wǎng)絡(luò)。通過估計這些腦網(wǎng)絡(luò)找到它們的共性與差異（見圖5）。

股票交易數(shù)據(jù)（http://finance.yahoo.com/）收集于標(biāo)準(zhǔn)普爾500指數(shù)公司從2003年1月到2008年1月每天股票交易數(shù)據(jù)。該數(shù)據(jù)包括452家公司的1 258條收盤價格。考慮到該股票交易數(shù)據(jù)隨著時間較光滑變化，本文利用JDSPGL學(xué)習(xí)這452家公司在股票交易中動態(tài)的條件相關(guān)性。

這些真實數(shù)據(jù)沒有已知的結(jié)構(gòu)信息，因此本文類似于文獻[7]利用Kullback-Leible（KL）損失定量地驗證模型估計的性能。對于多類數(shù)據(jù)如腦影響數(shù)據(jù)，首先把每類數(shù)據(jù)[nk]劃分為M份{D1,D2,…,DM}，然后定義KL-loss如下：

其中，是在訓(xùn)練樣本（[nk]減去Dm）上估計得到的；Sm為測試樣本Dm的樣本協(xié)方差矩陣。對于動態(tài)數(shù)據(jù)如股票交易數(shù)據(jù)，首先把所有數(shù)據(jù)[n]劃分為{D1,D2,…,DM}，然后定義KL-loss如下：

其中是在訓(xùn)練樣本（[n]減去Dm）上估計得到的。

由表1可知，在腦影像數(shù)據(jù)實驗上，本文JSPGL的性能優(yōu)于SPGL與JGL。同時，由圖5可知，NC腦網(wǎng)絡(luò)與MCI腦網(wǎng)絡(luò)的差異要小于NC腦網(wǎng)絡(luò)與AD腦網(wǎng)絡(luò)，因此JSPGL學(xué)習(xí)得到的腦網(wǎng)絡(luò)同時具有較好的解釋性。由表2可知，在股票交易數(shù)據(jù)上，本文JDSPGL的性能優(yōu)于DSPGL與DGL。

Table 1 5-flod KL-loss on brain imaging dataset表1 圖模型在腦影像數(shù)據(jù)上的5重KL-loss

Table 2 5-flod KL-loss on stock trading dataset表2 圖模型在股票數(shù)據(jù)上的5重KL-loss

Fig.5 Brain networks estimated by joint semi-parameter graphical model圖5 聯(lián)合半?yún)?shù)圖模型估計的腦網(wǎng)絡(luò)

8 總結(jié)

本文提出了聯(lián)合半?yún)?shù)概率圖模型用于學(xué)習(xí)非正態(tài)分布異構(gòu)數(shù)據(jù)的條件相關(guān)性。同時，針對光滑變化的異構(gòu)數(shù)據(jù)，提出了聯(lián)合動態(tài)半?yún)?shù)圖模型。將基于非參排序的相關(guān)矩陣估計方法與結(jié)構(gòu)融合圖套索方法相結(jié)合，提出了一類半?yún)?shù)融合圖套索方法來估計提出的模型。特別針對動態(tài)半?yún)?shù)圖模型，提出了一種新的核光滑Kendall’s tau相關(guān)矩陣。由于放寬了正態(tài)分布的假設(shè)，使得本文模型比當(dāng)前聯(lián)合高斯圖模型更靈活。由于采用了基于非參排序的相關(guān)矩陣估計方法，使得本文模型更魯棒。在未來工作中，將提出的聯(lián)合動態(tài)圖模型推廣到混合變量的半?yún)?shù)圖模型[30]。

：

[1]Lauritzen S L.Graphical models[M].Oxford:Oxford University Press,1996.

[2]Liu Jianwei,Cui Lipeng,Luo Xionglin.Survey on the sparse learning of probabilistic graphical model[J].Chinese Journal of Computers,2016,39(8):1597-1611.

[3]Banerjee O,Ghaoui L E,d'Aspremont A.Model selection through sparse maximum likelihood estimation for multivariate Gaussian or binary data[J].Journal of Machine Learning Research,2008,9:485-516.

[4]Huang Shuai,Li Jing,Sun Liang,et al.Learning brain connectivity of Alzheimer’s disease from neuroimaging data[C]//Proceedings of the 23rd Annual Conference on Neural Information Processing Systems,Vancouver,Dec 7-10,2009.Red Hook:CurranAssociates,2009:808-816.

[5]Meinshausen N,Bühlmann P.High-dimensional graphs and variable selection with the Lasso[J].The Annals of Statistics,2006,34(3):1436-1462.

[6]Yuan Ming,Lin Yi.Model selection and estimation in the Gaussian graphical model[J].Biometrika,2007,94(1):19-35.

[7]Friedman J,Hastie T,Tibshirani R.Sparse inverse covariance estimation with the graphical Lasso[J].Biostatistics,2008,9(3):432-441.

[8]Yuan Ming.High dimensional inverse covariance matrix estimation via linear programming[J].Journal of Machine Learning Research,2010,11:2261-2286.

[9]Cai T,Liu Weidong,Luo Xi.A constrained?1 minimization approach to sparse precision matrix estimation[J].Journal of the American Statistical Association,2011,106(494):594-607.

[10]Tibshirani R.Regression shrinkage and selection via the Lasso[J].Journal of the Royal Statistical Society:Series B Methodological,1996,58(1):267-288.

[11]Liu Han,Lafferty J D,Wasserman LA.The nonparanormal:semiparametric estimation of high dimensional undirected graphs[J].Journal of Machine Learning Research,2009,10(3):2295-2328.

[12]Liu Han,Han Fang,Yuan Ming,et al.High-dimensional semiparametric Gaussian copula graphical models[J].The Annals of Statistics,2012,40(4):2293-2326.

[13]Xue Lingzhou,Zou Hui.Regularized rank-based estimation of high-dimensional nonparanormal graphical models[J].The Annals of Statistics,2012,40(5):2541-2571.

[14]Yang Sen,Lu Zhaosong,Shen Xiaotong,et al.Fused multiple graphical Lasso[J].SIAM Journal on Optimization,2015,25(2):916-943.

[15]Guo Jian,Levina E,Michailidis G,et al.Joint estimation of multiple graphical models[J].Biometrika,2011,89(1):1-15.

[16]Danaher P,Wang Pei,Witten D M.The joint graphical Lasso for inverse covariance estimation across multiple classes[J].Journal of the Royal Statistical Society:Series B Statistical Methodology,2014,76(2):373-397.

[17]Zhu Yunzhang,Shen Xiaotong,Pan Wei.Structural pursuit over multiple undirected graphs[J].Journal of the American StatisticalAssociation,2014,109(508):1683-1696.

[18]Lee W,Liu Yufeng.Joint estimation of multiple precision matrices with common structures[J].Journal of Machine Learning Research,2015,16:1035-1062.

[19]Cai T,Li Hongzhe,Liu Weidong,et al.Joint estimation of multiple high-dimensional precision matrices[J].Statistica Sinica,2016,26(2):445-464.

[20]Huang Feihu,Chen Songcan.Joint learning of multiple sparse matrix Gaussian graphical models[J].IEEE Transactions on Neural Networks and Learning Systems,2015,26(11):2606-2620.

[21]Yuan Ming,Lin Yi.Model selection and estimation in regression with grouped variables[J].Journal of the Royal Statistical Society:Series B Statistical Methodology,2006,68(1):49-67.

[22]Tibshirani R,Saunders M,Rosset S,et al.Sparsity and smoothness via the fused Lasso[J].Journal of the Royal Statistical Society:Series B Statistical Methodology,2005,67(1):91-108.

[23]Zhou Shuheng,Lafferty J D,Wasserman LA.Time varying undirected graphs[J].Machine Learning,2010,80(2):295-319.

[24]Kolar M,Xing E P.On time varying undirected graphs[C]//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics,Fort Lauderdale,Apr 11-13,2011:407-415.

[25]Qiu Huitong,Han Fang,Liu Han,et al.Joint estimation of multiple graphical models from high dimensional time series[J].Journal of the Royal Statistical Society:Series B Statistical Methodology,2016,78(2):487-504.

[26]Fang Hongbin,Fang Kaitai,Kotz S.The meta-elliptical distributions with given marginal[J].Journal of Multivariate Analysis,2002,82(1):1-16.

[27]Kruskal W H.Ordinal measures of association[J].Journal of the American Statistical Association,1958,53(284):814-861.

[28]Boyd S,Parikh N,Chu E,et al.Distributed optimization and statistical learning via the alternating direction method of multipliers[J].Foundations&Trends in Machine Learning,2011,3(1):1-122.

[29]Hoefling H.A path algorithm for the fused Lasso signal approximator[J].Journal of Computational and Graphical Statistics,2010,19(4):984-1006.

[30]Fan Jianping,Liu Han,Ning Yang,et al.High dimensional semiparametric latent graphical model for mixed data[J].Journal of the Royal Statistical Society:Series B Statistical Methodology,2017,79(2):405-421.

附中文參考文獻:

[2]劉建偉,崔立鵬,羅雄麟.概率圖模型的稀疏化學(xué)習(xí)[J].計算機學(xué)報,2016,39(8):1597-1611.