權重概率主成分分析模型的建立及應用研究*

2018-12-29 03:58:18哈爾濱醫科大學公共衛生學院衛生統計學教研室150081

中國衛生統計 2018年6期

哈爾濱醫科大學公共衛生學院衛生統計學教研室(150081)

高兵孫琳謝彪王文佶曲思楊劉美娜△ 張秋菊△

【提要】目的建立權重概率主成分分析模型,通過模擬實驗進行模型評價,選擇最優模型進行代謝組學數據分析,為代謝組學數據分析提供降噪優化的分析方法。方法使用折刀抽樣法計算變量載荷的置信區間和變異系數,利用變量載荷的變異信息設計倒數式、開根式、對數式三種加權方式進行原始數據中的變量加權,結合概率主成分分析模型建立權重概率主成分分析模型;通過模擬實驗從第一主成分載荷的估計和預測效能進行模型評價,選擇最優權重概率主成分分析模型;繪制代謝組學數據主成分得分圖,利用中心距離比較權重概率主成分分析模型與概率主成分分析模型在可視化分組效果。結果倒數式加權概率模型在第一主成分載荷的估計和模型預測方面優于另外兩種權重概率模型。在可視化方面,權重概率主成分分析不僅縮小了模型估計的不確定性，而且增大組間的中心距離。結論構建了權重概率主成分分析模型,不僅結果解釋和可視化優于概率主成分分析模型,而且為差異變量的篩選提供了一個較小的參考范圍。

在高維組學數據分析中,權重主成分分析(weighted principal component analysis,WPCA)[1]是根據變量或觀測的相對重要性等一些先驗信息,賦予變量或觀測不同縮放比例的權重,削弱噪聲變量或干擾因素對分析結果的影響。概率主成分分析[2]模型將概率框架引入主成分分析,保留主成分分析對高維數據降維的特點,同時利用期望最大化算法(EM)對模型參數進行估計[3];主成分得分的概率分布可以直觀體現模型分析結果的不確定性,通過折刀法計算出的模型的載荷置信區間,識別對數據分析影響較大的變量。概率主成分分析雖然在可視化方面凸顯了模型分析結果的不確定性,但模型參數的極大似然估計與主成分一致[4],分析過程并未有效控制噪聲變量對數據分析的影響。

本文在概率主成分分析和權重主成分分析的基礎上提出權重概率主成分分析模型(weighted probabilistic principal component analysis,WPPCA),保留概率主成分分析在可視化方面的優點,借鑒權重主成分分析加權的思想,降低噪聲變量對數據分析的影響,增強數據可視化效果,提供更小差異變量篩選的參考范圍。

模型介紹

1.概率主成分分析模型

概率主成分分析最早由Tipping和Bishop提出[2],在高斯潛變量模型的基礎上將概率框架引入主成分分析。模型表達式如下:

Xi=Wui+μ+εi

Xi=(xi1,…,xip)T代表觀測i的原始變量,ui=(ui1,…,uiq)T代表降維之后與之相對應的潛變量,W是一個p×q的載荷矩陣,μ是一個均數向量。εi代表觀測i的殘差項,p(εi)=MVNp(0,σ2I),I代表單位矩陣。

假定潛變量ui滿足多元高斯分布,即p(ui)=MVNq(0,I),在給定潛變量后觀測變量的條件分布為:p(xi|ui)=MVNp(Wui+μ,σ2I)。由p(ui)和p(xi|ui)可知觀測i的分布為p(xi)=MVNp(μ,WWT+σ2I),根據貝葉斯原理在給定原始觀測后潛變量滿足如下分布:p(ui|xi)=MVNq(M-1WT(xi-μ),σ2M-1),M=WTW+σ2I。概率主成分模型中的參數W,μ和σ2可以通過期望最大化算法進行估計,其最大的優點是不僅通過E(ui)=M-1WT(xi-μ)實現了數據的降維,減小了數據的復雜性,而且通過σ2M-1估計了潛變量的變異范圍。

2.權重主成分分析

在對組學數據分析時,有時存在一些與組學數據相關的先驗信息。權重主成分分析將這些先驗信息轉化為權重,納入數據分析。權重主成分分析通過最小化其損失函數實現數據分析[5-7],其損失函數h如下:

構建權重概率主成分分析模型

在主成分分析中,通過各主成分所對應的載荷向量可以判斷每一原始變量對數據結構的影響,解釋數據特征。在主成分分析中由于各個原始變量所對應的載荷不為零的特點,當數據的變量數遠遠大于觀測數時,大量噪聲變量的存在很難根據各主成分的載荷向量對數據特征進行解釋。在主成分分析的基礎上引入概率模型雖然進一步增強模型結果的解釋能力,放寬模型分析對數據的要求,但在分組方面與主成分分析相比卻沒有實質上的差別,因此本文利用權重主成分思想結合概率主成分模型構建權重概率主成分分析模型(WPPCA模型)。

構建權重概率主成分分析模型的基本思想:在某主成分中,當某一變量的載荷置信區間包含零時,則該變量對此主成分可能是噪聲變量。相反若載荷的置信區間不包含零,則該變量可能為潛在差異變量,根據這些變量的載荷變異信息,對原始變量賦予不同的權重W,X′=XWTL,L1×p=[1,…,1],對X′進行概率主成分分析。該方法既可以保留概率主成分分析在可視化方面的優點,減弱噪聲變量對數據結構特征的影響,增強數據可視化效果,同時也為差異變量提供了一個較小的參考范圍。

1.權重的確定

關于權重的選擇,對于載荷置信區間不包括零的變量,為了加強其對數據分析的作用,按載荷變異信息利用程度賦予不同的權重[1]:

方法(1):Wj=SV(Wj)-1+1。

方法(3):Wj=lnSV(Wj)-1+1。

方法(1)直接利用載荷變異系數的倒數對變量進行加權;方法(2)采用變異系數倒數的平方根加權;方法(3)采用變異系數倒數的自然對數加權。對于載荷置信區間包括零的變量,為了弱化噪聲變量對數據結構的影響,對其施加的權重為1/max(Wj)。

2.折刀法抽樣對參數置信區間的估計

模擬實驗

本研究通過各個權重模型在載荷估計和模型預測能力等方面分別進行數據模擬實驗并與PCA對比,選擇最優模型。

模擬實驗數據設置如下:

1.載荷估計

表1 模擬實驗結果:PCA與WPPCA對第一主成分載荷的估計

2.模型預測

表2給出測試樣本方差中位數及其中位完全偏差:WPPCA模型的預測效能優于PCA;三種不同權重的WPPCA模型,方法(1)在各種條件的情況下均優于方法(2)和方法(3),尤其在n

實例應用

本研究選取課題組絕經期婦女骨質疏松8人、非骨質疏松8人,測得其血漿代謝圖譜,每個研究對象包含350個質譜色譜數據。結合實際代謝組學數據,繪制各觀測的前兩個主成分得分散點圖。圖1為PPCA模型前兩個主成分得分的散點圖,數據結構可視化方面不僅保留了主成分分析在不同維度上進行變異的最大化分解的特點,而且提供主成分的變異信息,可以直觀地理解數據模型分析結果的可靠性。PPCA模型的載荷矩陣與得分矩陣的最大期望值與PCA保持一致,在分組方面兩者效果相同,兩組間第一主成分的中心距離為2.87;圖2為WPPCA模型前兩個主成分得分的散點圖,組間分布的中心距離增大,兩組間第一主成分的中心距離為3.87,更加清晰地揭示數據分組情況,同時也縮小參數的置信區間,使對主成分得分的估計更精確。

表2 模擬實驗結果:PCA與WPPCA對模型預測能力的比較

圖1 PPCA的主成分得分圖

圖2 WPPCA的主成分得分圖

通過折刀法估計因子載荷95%的可信區間確定非零載荷,結果顯示在350個變量中有70個變量的第一因子載荷的置信區間不包括零。圖3為繪制變量載荷的頻率圖,選擇因子載荷大于0.8的變量為兩組間潛在差異變量的參考范圍;圖4為所選差異變量第一主成分載荷的均值及95%置信區間;圖5為與之相對應的權重。主成分分析一般只注重前幾個變異信息較大的主成分,根據前幾個主成分中載荷較大的變量對數據進行解釋,忽略了那些載荷較小變量。然而研究發現這些載荷較小的變量可能在圖像分析有重要的意義[11],WPPCA模型對因子載荷變異較小的變量有時賦予較高的權重,見圖5。

圖3 載荷頻率圖

圖4 第一主成分中因子載荷大于0.8的變量的載荷及其置信區間

圖5 第一主成分因子載荷大于0.8的變量的權重

討論

權重概率主成分分析直接利用折刀抽樣法所獲得變量載荷變異系數的倒數給原始變量賦予不同的權重,一方面有效地控制了噪聲變量對數據分析的影響,減小主成分得分的置信區間,使模型的參數估計更加

穩健;另一方面增強了潛在差異變量對數據結構的影響,使樣本主成分得分的組間距離增大,模型估計的結果更加準確。本研究實際數據中組間距離的增大,驗證模型中權重的選擇、差異變量篩選的合理性。此外，權重概率主成分分析作為一種概率模型能夠與其他模型相結合,增強模型的可拓展性,模型中期望最大化算法在數據含有缺失值情況下也可進行參數估計[3],增強了模型的數據適應性。

主成分分析本質上是觀察變量到潛變量的一種線性投影[12],當這種線性假設不成立,即觀測數據中存在潛在的分類結構時,基于單個權重概率主成分分析所進行的數據分析獲得的可能是虛假數據結構特征,并不能揭示數據中觀測的真正分組情況。如果將幾個權重概率主成分分析模型相結合形成混合權重概率主成分分析模型,在數據分析過程中降低噪聲變量對數據分析影響的同時,實現觀測樣本的確切分組和數據降維,這將是下一步的研究方向。