999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

權重概率主成分分析模型的建立及應用研究*

2018-12-29 03:58:18哈爾濱醫科大學公共衛生學院衛生統計學教研室150081
中國衛生統計 2018年6期
關鍵詞:分析模型

哈爾濱醫科大學公共衛生學院衛生統計學教研室(150081)

高 兵 孫 琳 謝 彪 王文佶 曲思楊 劉美娜△ 張秋菊△

【提 要】 目的 建立權重概率主成分分析模型,通過模擬實驗進行模型評價,選擇最優模型進行代謝組學數據分析,為代謝組學數據分析提供降噪優化的分析方法。方法 使用折刀抽樣法計算變量載荷的置信區間和變異系數,利用變量載荷的變異信息設計倒數式、開根式、對數式三種加權方式進行原始數據中的變量加權,結合概率主成分分析模型建立權重概率主成分分析模型;通過模擬實驗從第一主成分載荷的估計和預測效能進行模型評價,選擇最優權重概率主成分分析模型;繪制代謝組學數據主成分得分圖,利用中心距離比較權重概率主成分分析模型與概率主成分分析模型在可視化分組效果。結果 倒數式加權概率模型在第一主成分載荷的估計和模型預測方面優于另外兩種權重概率模型。在可視化方面,權重概率主成分分析不僅縮小了模型估計的不確定性,而且增大組間的中心距離。結論 構建了權重概率主成分分析模型,不僅結果解釋和可視化優于概率主成分分析模型,而且為差異變量的篩選提供了一個較小的參考范圍。

在高維組學數據分析中,權重主成分分析(weighted principal component analysis,WPCA)[1]是根據變量或觀測的相對重要性等一些先驗信息,賦予變量或觀測不同縮放比例的權重,削弱噪聲變量或干擾因素對分析結果的影響。概率主成分分析[2]模型將概率框架引入主成分分析,保留主成分分析對高維數據降維的特點,同時利用期望最大化算法(EM)對模型參數進行估計[3];主成分得分的概率分布可以直觀體現模型分析結果的不確定性,通過折刀法計算出的模型的載荷置信區間,識別對數據分析影響較大的變量。概率主成分分析雖然在可視化方面凸顯了模型分析結果的不確定性,但模型參數的極大似然估計與主成分一致[4],分析過程并未有效控制噪聲變量對數據分析的影響。

本文在概率主成分分析和權重主成分分析的基礎上提出權重概率主成分分析模型(weighted probabilistic principal component analysis,WPPCA),保留概率主成分分析在可視化方面的優點,借鑒權重主成分分析加權的思想,降低噪聲變量對數據分析的影響,增強數據可視化效果,提供更小差異變量篩選的參考范圍。

模型介紹

1.概率主成分分析模型

概率主成分分析最早由Tipping和Bishop提出[2],在高斯潛變量模型的基礎上將概率框架引入主成分分析。模型表達式如下:

Xi=Wui+μ+εi

Xi=(xi1,…,xip)T代表觀測i的原始變量,ui=(ui1,…,uiq)T代表降維之后與之相對應的潛變量,W是一個p×q的載荷矩陣,μ是一個均數向量。εi代表觀測i的殘差項,p(εi)=MVNp(0,σ2I),I代表單位矩陣。

假定潛變量ui滿足多元高斯分布,即p(ui)=MVNq(0,I),在給定潛變量后觀測變量的條件分布為:p(xi|ui)=MVNp(Wui+μ,σ2I)。由p(ui)和p(xi|ui)可知觀測i的分布為p(xi)=MVNp(μ,WWT+σ2I),根據貝葉斯原理在給定原始觀測后潛變量滿足如下分布:p(ui|xi)=MVNq(M-1WT(xi-μ),σ2M-1),M=WTW+σ2I。概率主成分模型中的參數W,μ和σ2可以通過期望最大化算法進行估計,其最大的優點是不僅通過E(ui)=M-1WT(xi-μ)實現了數據的降維,減小了數據的復雜性,而且通過σ2M-1估計了潛變量的變異范圍。

2.權重主成分分析

在對組學數據分析時,有時存在一些與組學數據相關的先驗信息。權重主成分分析將這些先驗信息轉化為權重,納入數據分析。權重主成分分析通過最小化其損失函數實現數據分析[5-7],其損失函數h如下:

構建權重概率主成分分析模型

在主成分分析中,通過各主成分所對應的載荷向量可以判斷每一原始變量對數據結構的影響,解釋數據特征。在主成分分析中由于各個原始變量所對應的載荷不為零的特點,當數據的變量數遠遠大于觀測數時,大量噪聲變量的存在很難根據各主成分的載荷向量對數據特征進行解釋。在主成分分析的基礎上引入概率模型雖然進一步增強模型結果的解釋能力,放寬模型分析對數據的要求,但在分組方面與主成分分析相比卻沒有實質上的差別,因此本文利用權重主成分思想結合概率主成分模型構建權重概率主成分分析模型(WPPCA模型)。

構建權重概率主成分分析模型的基本思想:在某主成分中,當某一變量的載荷置信區間包含零時,則該變量對此主成分可能是噪聲變量。相反若載荷的置信區間不包含零,則該變量可能為潛在差異變量,根據這些變量的載荷變異信息,對原始變量賦予不同的權重W,X′=XWTL,L1×p=[1,…,1],對X′進行概率主成分分析。該方法既可以保留概率主成分分析在可視化方面的優點,減弱噪聲變量對數據結構特征的影響,增強數據可視化效果,同時也為差異變量提供了一個較小的參考范圍。

1.權重的確定

關于權重的選擇,對于載荷置信區間不包括零的變量,為了加強其對數據分析的作用,按載荷變異信息利用程度賦予不同的權重[1]:

方法(1):Wj=SV(Wj)-1+1。

方法(3):Wj=lnSV(Wj)-1+1。

方法(1)直接利用載荷變異系數的倒數對變量進行加權;方法(2)采用變異系數倒數的平方根加權;方法(3)采用變異系數倒數的自然對數加權。對于載荷置信區間包括零的變量,為了弱化噪聲變量對數據結構的影響,對其施加的權重為1/max(Wj)。

2.折刀法抽樣對參數置信區間的估計

模擬實驗

本研究通過各個權重模型在載荷估計和模型預測能力等方面分別進行數據模擬實驗并與PCA對比,選擇最優模型。

模擬實驗數據設置如下:

1.載荷估計

表1 模擬實驗結果:PCA與WPPCA對第一主成分載荷的估計

2.模型預測

表2給出測試樣本方差中位數及其中位完全偏差:WPPCA模型的預測效能優于PCA;三種不同權重的WPPCA模型,方法(1)在各種條件的情況下均優于方法(2)和方法(3),尤其在n

實例應用

本研究選取課題組絕經期婦女骨質疏松8人、非骨質疏松8人,測得其血漿代謝圖譜,每個研究對象包含350個質譜色譜數據。結合實際代謝組學數據,繪制各觀測的前兩個主成分得分散點圖。圖1為PPCA模型前兩個主成分得分的散點圖,數據結構可視化方面不僅保留了主成分分析在不同維度上進行變異的最大化分解的特點,而且提供主成分的變異信息,可以直觀地理解數據模型分析結果的可靠性。PPCA模型的載荷矩陣與得分矩陣的最大期望值與PCA保持一致,在分組方面兩者效果相同,兩組間第一主成分的中心距離為2.87;圖2為WPPCA模型前兩個主成分得分的散點圖,組間分布的中心距離增大,兩組間第一主成分的中心距離為3.87,更加清晰地揭示數據分組情況,同時也縮小參數的置信區間,使對主成分得分的估計更精確。

表2 模擬實驗結果:PCA與WPPCA對模型預測能力的比較

圖1 PPCA的主成分得分圖

圖2 WPPCA的主成分得分圖

通過折刀法估計因子載荷95%的可信區間確定非零載荷,結果顯示在350個變量中有70個變量的第一因子載荷的置信區間不包括零。圖3為繪制變量載荷的頻率圖,選擇因子載荷大于0.8的變量為兩組間潛在差異變量的參考范圍;圖4為所選差異變量第一主成分載荷的均值及95%置信區間;圖5為與之相對應的權重。主成分分析一般只注重前幾個變異信息較大的主成分,根據前幾個主成分中載荷較大的變量對數據進行解釋,忽略了那些載荷較小變量。然而研究發現這些載荷較小的變量可能在圖像分析有重要的意義[11],WPPCA模型對因子載荷變異較小的變量有時賦予較高的權重,見圖5。

圖3 載荷頻率圖

圖4 第一主成分中因子載荷大于0.8的變量的載荷及其置信區間

圖5 第一主成分因子載荷大于0.8的變量的權重

討 論

權重概率主成分分析直接利用折刀抽樣法所獲得變量載荷變異系數的倒數給原始變量賦予不同的權重,一方面有效地控制了噪聲變量對數據分析的影響,減小主成分得分的置信區間,使模型的參數估計更加

穩健;另一方面增強了潛在差異變量對數據結構的影響,使樣本主成分得分的組間距離增大,模型估計的結果更加準確。本研究實際數據中組間距離的增大,驗證模型中權重的選擇、差異變量篩選的合理性。此外,權重概率主成分分析作為一種概率模型能夠與其他模型相結合,增強模型的可拓展性,模型中期望最大化算法在數據含有缺失值情況下也可進行參數估計[3],增強了模型的數據適應性。

主成分分析本質上是觀察變量到潛變量的一種線性投影[12],當這種線性假設不成立,即觀測數據中存在潛在的分類結構時,基于單個權重概率主成分分析所進行的數據分析獲得的可能是虛假數據結構特征,并不能揭示數據中觀測的真正分組情況。如果將幾個權重概率主成分分析模型相結合形成混合權重概率主成分分析模型,在數據分析過程中降低噪聲變量對數據分析影響的同時,實現觀測樣本的確切分組和數據降維,這將是下一步的研究方向。

猜你喜歡
分析模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 视频二区中文无码| 久草美女视频| 国产va免费精品| 久久精品视频一| 好紧好深好大乳无码中文字幕| 丁香婷婷综合激情| 女人18毛片水真多国产| 超清人妻系列无码专区| 真实国产精品vr专区| 国产精品嫩草影院av | 国产电话自拍伊人| 国产精品久线在线观看| 国产杨幂丝袜av在线播放| 91最新精品视频发布页| 久久精品欧美一区二区| 国产精品永久久久久| 国产精品亚洲一区二区三区在线观看| 在线免费观看AV| 久久不卡国产精品无码| 亚洲天堂视频在线观看免费| 国产亚洲精品无码专| 亚洲三级影院| 亚洲精品少妇熟女| 亚洲无码在线午夜电影| 国产精欧美一区二区三区| 在线国产91| 亚洲嫩模喷白浆| 国产免费精彩视频| 亚洲国产精品国自产拍A| 99久久亚洲精品影院| 中文成人无码国产亚洲| 五月婷婷综合在线视频| 婷婷色一区二区三区| 国产成人精彩在线视频50| 精品伊人久久久香线蕉 | 欧美国产日产一区二区| 91久久精品日日躁夜夜躁欧美| 91成人在线观看视频| 亚洲日韩精品综合在线一区二区| 国产精品亚欧美一区二区三区| 欧美视频在线不卡| 女人av社区男人的天堂| 欧美午夜在线观看| 国产欧美综合在线观看第七页| 亚洲综合九九| 激情无码字幕综合| 久久精品丝袜高跟鞋| 91视频区| 成人国产小视频| 99热亚洲精品6码| 最近最新中文字幕在线第一页| 久久精品无码国产一区二区三区| 成人字幕网视频在线观看| 成人一级免费视频| 手机精品福利在线观看| 超薄丝袜足j国产在线视频| 欧美精品亚洲日韩a| 亚洲黄色片免费看| 成人精品视频一区二区在线| 国产麻豆精品手机在线观看| 亚洲国产精品不卡在线| 国产区成人精品视频| 男人天堂亚洲天堂| av在线5g无码天天| 精品国产香蕉在线播出| 国产欧美日韩视频怡春院| 99视频精品全国免费品| 国产免费久久精品99re丫丫一| 99久久精品久久久久久婷婷| 亚洲精品亚洲人成在线| 91系列在线观看| 美女一级免费毛片| 日本人又色又爽的视频| 91 九色视频丝袜| 亚洲日本一本dvd高清| 69精品在线观看| 亚洲色图欧美视频| 精品亚洲国产成人AV| 国内丰满少妇猛烈精品播| 亚洲高清在线天堂精品| 毛片网站在线播放| 尤物特级无码毛片免费|