999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基因表達譜缺失數據填補估計方法的研究進展與探討*

2014-08-14 11:27:36伍亞舟綜述審校
重慶醫學 2014年14期
關鍵詞:分析方法

伍亞舟 綜述,易 東 審校

(第三軍醫大學衛生統計學教研室,重慶 400038)

基因芯片能為基因組學研究提供海量的基因表達譜數據,這些數據反映了基因在不同組織細胞的不同生長發育階段或不同生理狀態下表達水平的變化[1-2]。但是,由于基因表達譜的海量性、復雜性、噪聲性和高維性特點,特別是缺失數據值的大量存在[3-5],給后續的數據分析帶來了較大困難,也產生了一些問題:觀察到的數據與缺失數據間的差異所產生的偏倚,嚴重影響后續分析結果的客觀性和正確性,從而導致后續分析質量的可靠性和穩健性降低,使得整個分析效率降低;另外,由于缺失數據的存在,經常得出難以解釋的結果。因此,如何根據基因表達譜數據信息的特性進行有效的缺失值估計與填補是生物數據分析中重難點,并對后續基因表達譜的不同分析目的(如差異表達基因篩選、基因功能聚類、腫瘤組織分類)將產生重要的生物學影響[6-9]。本文針對基因表達譜缺失數據的特性,就當前國內外基因表達譜缺失數據的處理方法進行簡要概述,在分析其各自優缺點基礎上,提出并探討一種新的填補估計方法。

1 基因表達譜缺失數據的產生原因與特性分析

微陣列數據通常以大規模矩陣的形式存在,該矩陣表示某個基因在不同試驗條件(列)下的基因表達水平(行),但在實際情況中,實驗獲得的數據陣列通常是不完整的,即含有缺失值。缺失數據產生原因有多種,包括:不充分的實驗方案,圖像損壞,芯片上的灰塵或劃痕等;另外,用來制造芯片的機械也可能系統地產生缺失數據。

事實上,基因表達譜缺失數據的缺失產生機制(完全隨機缺失、隨機缺失和非隨機缺失)、缺失模式(單調缺失和任意缺失)、數據集序列類型(時間序列型、非時間序列型和混合序列型)、缺失率大小等特性,以及后續不同分析目的及其填補分析方法的要求,都會對缺失值填補與估計的準度產生較大影響。

2 常用的填補估計方法及其特點

缺失數據的估計與填補是在不增加實驗次數情況下降低缺失數據對后續分析影響的有效方法。近年國內外學者在缺失數據的估計方面進行了有益的探索:(1)將存在缺失數據的行(基因)或實驗條件(列)簡單地從矩陣中剔除,以得到一個完備的數據集,稱之為列表式刪除;(2)直接在缺失數據集上進行數據挖掘,或利用一個特定的缺省值來填補;(3)利用統計學方法進行填補估計[3-5,9-16]:行均值,K近鄰法(KNN),奇異值分解(SVD),貝葉斯PCA(BPCA),高斯混合聚類(GMC),最小二乘(LLS),支持向量回歸,加權回歸估計,極大似然估計(MLE),多重填補(MI)等。

2.1 常用填補估計方法

2.1.1 行均值法 實驗表明,具有相似功能的基因在相同的微陣列雜交實驗中會產生相似的表達模式。因此,依實驗序列,同類中的基因表達模式極為相似,某個基因在某些條件下的缺失值,用缺失數據所在行的其他條件下的數據的平均值進行填補估計,即為行均值法。該方法簡單易行,但并沒有考慮數據間的關聯性,其估計的準確度大大受影響。

2.1.2 K鄰近法 K近鄰法基本思路:首先計算每一個含有缺失值的基因和所有其他基因的歐式距離;在計算過程中,如果在同一個實驗條件下兩個基因有一個具有缺失值,則這個實驗條件就不參與歐式距離的計算;再根據所計算得到的具有缺失值的基因和其他基因的歐式距離,選取和它最近的K個基因,Brettingham-Moore等[1]分析發現 K選取10~20比較合理。通過如下公式計算得到待補的缺失值:

Di表示基因G與第i個近鄰基因的歐式距離,Wi表示為第i個近鄰基因的權重,Gi表示第i個近鄰基因的表達值。G通過KNN法計算得到的填補的缺失數據值。

2.1.3 馬氏距離法 馬氏距離方法是在KNN法基礎上,通過基因之間的馬氏距離來選擇最近鄰居基因,并將已得到的估計值應用到后續的估計過程中,然后采用信息論中熵值的概念計算最近鄰居的加權系數,其相應位置的加權平均值即為缺失數據的估計值。該方法不僅考慮了觀測變量之間的相關性,而且也考慮到了各個觀測指標取值的差異程度,能更好地描述基因之間的相似程度。

2.1.4 隨機回歸填補法 隨機回歸填補是由單元的缺失項對觀測項的回歸,用預測值代替缺失值。通常由觀測變量及缺失變量都有觀測的單元進行回歸計算。填補中還可以給填補值增加一個隨機成分。它是用回歸填補值加上一個隨機項,預測出一個缺失值的替代值,該隨機項反映所預測的值的不確定性影響。該方法能夠較好的利用數據提供的信息,解決因預測變量高度相關引起的共線性問題。

2.1.5 極大似然估計法 極大似然估計法是在總體分布類型已知情況下的一種參數估計方法。在模型假定正確的情況下,若缺失機制為隨機缺失,通過已觀測數據的邊際分布可以對未知參數進行極大似然估計,得到未知參數的準確估計值。該方法需要有足夠大的樣本保證得到似然估計值是無偏的;另外,似然函數是基于完整數據某個假定的參數模型。實際應用中,如果模型假定錯誤,基于似然法的估計可能穩定也可能不穩定。

2.1.6 多重填補法 多重填補法由Stekhoven等[17]首先提出,該方法已被越來越多地應用于生物醫學、統計學和機器學習等領域[18-20]。與單一填補(SI)的不同之處在于,MI方法對每一個缺失值用某一可能值的集合進行填補,重復p次,故叫多重填補,從而產生若干個完整數據集;然后,用針對完整數據集的統計方法對每一個填補數據集分別進行統計分析,把得到的結果進行綜合,進而產生最終的統計推斷。

MI方法的推斷原理及主要步驟:首先,采用適當的填補方法模型,為每個缺失數據值產生一套可能的填補估計值,這些值反映了缺失值的不確性;每一個值都被用來填補數據集中的缺失值,產生若干個完整數據集(p次);其次,用針對完整數據集的統計方法對每一個填補數據集進行統計分析,得到每個缺失數據的均值和方差;最后,對來自于各個填補數據集的結果(缺失數據的均值和方差)以某種方法進行綜合,從而產生最終的統計推斷結果。

在MI出現以前,列表式刪除和SI法是處理缺失值的主要方法,但是它們沒有考慮到缺失數據的不確定性以及缺失數據與觀察到的數據間可能存在的系統性差異,所以難以提供關于總體參數的準確估計。MI彌補了單一填補和列表式刪除等方法的缺陷,該方法能夠反映出由于數據缺失造成的統計推斷結果的不確定性,優化了多重填補方法的置信區間和相對效率。

2.2 常用填補估計方法的不足 基因表達譜缺失數據估計方法進展較快,但還存在許多難點和問題:(1)目前,很多估計方法多是SI,即用一個可行的估計值對缺失數據進行一次填補,其優點是簡單、速度快,適合于缺失率較低的表達譜數據,缺點是導致標準誤降低和P值減小,使得犯Ⅰ類錯誤的概率升高,容易引起系統偏倚,且不能反映缺失數據值的不確定性,因此,用SI法計算出的治療效應置信區間會失去它本來的真實性;(2)一些填補方法的應用條件相對較苛刻(如KNN法受變量類型限制,通常只適用于連續型變量)[2];(3)零或行均值法等沒有考慮到數據本身的屬性和數據間的相互聯系;(4)直接刪除會消除大量有效基因信息或使某個類消失,嚴重影響到后續分析結果的客觀性和正確性。

3 基于支持向量回歸的非參多重填補新融合方法

MI方法雖然有無法替代的優點,但也有其缺陷。一方面,MI在應用時,假設缺失機制是隨機缺失,這種假設可以很方便地避開一些復雜的概率模型;另一方面,目前的具體多重填補模型參數方法都是要求數據集的分布已知,且對數據集的要求更為嚴格,如完整性、正態性和方差齊性等,實際上,由于在真實基因表達譜數據集中往往具有復雜數據結構,很難也幾乎不可能精確地預測出缺失數據和可觀測數據的關系,而且對將要處理的數據集沒有任何先驗知識。參數填補模型方法對此就束手無策或效果并不理想,而非參數模型方法在對數據分布未知的情況下卻能取得很好的效果,比如基于核函數選擇的支持向量機方法并結合回歸分析的技術。因此,作者提出一種基于核函數的支持向量回歸的非參多重填補(SVR-NPMI)的新融合方法,對基因表達譜缺失數據進行填補。

SVR-NPMI方法將支持向量機和回歸分析融合于多重填補的過程中,對缺失數據集進行多次填補(p次),最后利用參數和非參數統計方法進行綜合估計,以達到填補缺失數據的目的。該方法中有兩個問題需要注意:(1)填補次數p的確定要根據γ(γ為對總體參數缺失的部分信息的估計)來確定;(2)具體多重填補模型方法的確定,對于單調缺失模式,如針對連續型變量的預測均數匹配法和趨勢得分法,針對離散型變量的判別分析和Logistic回歸;對于復雜的缺失模式,可以采用馬爾科夫鏈蒙特卡羅方法方法。

簡要介紹基于SVR的非參多重填補融合方法的基本原理:

設某個非線性可分的基因表達譜數據集:

這里xi(i=1,2,…,m,m為基因個數)為第i個基因的表達輸入值,zi為第i個基因的對應的目標輸出值。

引入核函數K,

常用的核函數有線性核、多項式核、高斯核、徑向基核和sigmoid核等,核函數可以根據數據集的分布進行選擇,從而達到最佳的效果。

于是ε-支持向量回歸可以表示為如下最優化問題:

其中C表示正則化參數,用來對模型復雜度和訓練誤差進行折中。引入拉格朗日乘子α和α*,將支持向量回歸的原始問題轉化為它的對偶形式:

在上述每個原始數據集G中,在不包含缺失數據的基因中,以隨機化原則抽取不同的基因數k(k≤m)構建訓練數據集Gtrain(p個)進行訓練,從而對包含缺失數據的基因構成的測試數據集Gtest進行測試,得到最后的填補數據的估計值f(x),從而實現了缺失數據的預測。

4 結論與展望

本文針對基因表達譜缺失數據的特性,就當前國內外基因表達譜缺失數據的處理方法進行簡要綜述,在分析其各自優缺點基礎上,提出并探討一種新的填補估計方法——SVRNPMI。該方法將多重填補、基于核函數選擇的SVM和回歸分析有機地融合在一起,具有明顯優點:(1)彌補了SI的缺陷,該法能夠反映出由于數據缺失造成的統計推斷結果的不確定性,優化了MI的置信區間和相對效率;(2)將SI與MI綜合運用、參數與非參數統計方法相結合,使得新的融合方法受到數據分布的限制性更小、應用性更為廣泛,可以解決表達譜數據本身的缺陷等問題;(3)該方法以與目標基因具有較高相似性的完全基因子集為訓練集使用SVR算法(該算法具有非線性和魯棒性,適于求解這種非線性的估計值問題)建立回歸模型對缺失值進行估計,提高估計的準確性和穩定性,為基因表達譜缺失數據值的有效填補提供一種全新的思路方法。

在后續研究中,將利用基因表達譜公共數據集和自實驗室數據集,證實基于SVR-NPM法對基因表達譜缺失數據進行估計的可靠性和有效性,建立一種基于不同序列數據集、不同分析目的、不同缺失率等情況下的缺失填補策略,并進一步闡明缺失填補方法對基因表達譜后續不同分析目的的生物學影響。

[1]Brettingham-Moore KH,Duong CP,Heriot AG,et al.U-sing gene expression profiling to predict response and prognosis in gastrointestinal cancers-the promise and the perils[J].Ann Surg Oncol,2011,18(5):1484-1491.

[2]Lee WP,Tzou WS.Computational methods for discovering gene networks from expression data[J].Brief Bioinform,2009,10(4):408-423.

[3]Troyanskaya O,Cantor M,Sherlock G,et al.Missing value estimation methods for DNA microarrays[J].Bioinformatics,2001,17(6):520-525.

[4]Dorri F,Azmi P,Dorri F.Missing value imputation in DNA microarrays based on conjugate gradient method[J].Comput Biol Med,2012,42(2):222-227.

[5]Little R,Rubin D.Statistical analysis with missing data[M].New York:John Wiley and Sons Inc,1987.

[6]Oh S,Kang DD,Brock GN,et al.Biological impact of missing-value imputation on downstream analyses of gene expression profiles[J].Bioinformatics,2011,27(1):78-86.

[7]Celton M,Malpertuy A,Lelandais G,et al.Comparative analysis of missing value imputation methods to improve clustering and interpretation of microarray experiments[J].BMC Genomics,2010,11(1):15-30.

[8]Sun Y,Braga-Neto U,Dougherty ER.Impact of missing value imputation on classification for DNA microarray gene expression data--a model-based study[J].EURASIP J Bioinform Syst Biol,2009,2009:504069.

[9]Oba S,Sato MA,Takemasa I,et al.A bayesian missing value estimation method for gene expression profile data[J].Bioinformatics,2003,19(16):2088-2096.

[10]Ouyang M,Welsh WJ,Georgopoulos P.Gaussian mixture clustering and imputation of microarray data[J].Bioinformatics,2004,20(6):917-923.

[11]Kim H,Golub GH,Park H.Missing value estimation for DNA microarray gene expression data:local least squares imputation[J].Bioinformatics,2005,21(2):187-198.

[12]Wang X,Li A,Jiang Z,et al.Missing value estimation for DNA microarray gene expression data by Support Vector Regression imputation and orthogonal coding scheme[J].BMC Bioinformatics,2006,7(1):32-35.

[13]Berthoumieux S,Brilli M,de Jong H,et al.Identification of metabolic network models from incomplete highthroughput datasets[J].Bioinformatics,2011,27(13):i186-i195.

[14]Tuikkala J,Elo L,Nevalainen OS,et al.Improving missing value estimation in microarray data with gene ontology[J].Bioinformatics,2006,22(5):566-572.

[15]邱浪波,王廣云,王正志.基因表達缺失值的加權回歸估計算法[J].國防科技大學學報,2007,29(1):111-115,125.

[16]楊濤,駱嘉偉,王艷,等.基于馬氏距離的缺失值填充算法[J].計算機應用,2005,25(12):2868-2871.

[17]Stekhoven DJ,Bühlmann P.MissForest--non-parametric missing value imputation for mixed-type data[J].Bioinformatics,2012,28(1):112-118.

[18]Ryan R,Vernon S,Lawrence G,et al.Use of Name recognition software,census data and multiple imputation to predict missing data on ethnicity:application to Cancer registry records[J].BMC Med Inform Decis Mak,2012,12(1):1-8.

[19]Habbous S,Chu KP,Qiu X,et al.The changing incidence of human papillomavirus-associated oropharyngeal Cancer using multiple imputation from 2000to 2010at a Comprehensive Cancer Centre[J].Cancer Epidemiol,2013,37(6):820-829.

[20]Fong DY,Rai SN,Lam KS.Estimating the effect of multiple imputation on incomplete longitudinal data with application to a randomized clinical study[J].J Biopharm Stat,2013,23(5):1004-1022.

猜你喜歡
分析方法
隱蔽失效適航要求符合性驗證分析
學習方法
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 国产欧美日韩视频怡春院| 人人妻人人澡人人爽欧美一区| 国产精品毛片一区| 国产精品亚洲欧美日韩久久| 她的性爱视频| 亚洲开心婷婷中文字幕| 成人亚洲天堂| 无码免费视频| 国产精品成人AⅤ在线一二三四| 国产乱视频网站| 黄色片中文字幕| 四虎永久免费地址| 永久在线精品免费视频观看| 国产精品深爱在线| 久久青草精品一区二区三区| 99视频免费观看| 91在线精品麻豆欧美在线| 亚洲中字无码AV电影在线观看| 国产精品30p| 亚洲女同欧美在线| 超薄丝袜足j国产在线视频| 精品久久香蕉国产线看观看gif| 欧美成人综合在线| 亚洲欧美天堂网| 六月婷婷激情综合| 亚洲天堂成人| 亚洲天堂网站在线| 国产成人精品综合| 欧美日韩专区| 91免费观看视频| 无码人中文字幕| 色首页AV在线| 91人人妻人人做人人爽男同| 日韩视频免费| 亚洲69视频| 欧美黄色a| 九九热精品视频在线| 欧美综合成人| 亚洲精品麻豆| 国产精品伦视频观看免费| 久久黄色一级片| 日日碰狠狠添天天爽| AV色爱天堂网| 永久毛片在线播| 亚洲第一天堂无码专区| 亚洲黄色成人| 日韩成人免费网站| 宅男噜噜噜66国产在线观看| 无码AV日韩一二三区| 女人毛片a级大学毛片免费| 99热亚洲精品6码| 中文字幕欧美日韩| 精品久久综合1区2区3区激情| 五月综合色婷婷| 欧美日韩高清在线| 在线另类稀缺国产呦| 欧美亚洲国产日韩电影在线| 成人91在线| 日本午夜在线视频| 熟妇丰满人妻| 91亚瑟视频| 亚洲最大福利网站| 亚洲欧美另类中文字幕| 久久精品女人天堂aaa| 中文成人无码国产亚洲| 狠狠色香婷婷久久亚洲精品| 亚洲毛片一级带毛片基地| 国产成人亚洲无码淙合青草| 网久久综合| 国产成人福利在线| 不卡的在线视频免费观看| 国产精品美女免费视频大全| 精品国产香蕉在线播出| 国产三级毛片| 国产网站黄| 97se亚洲综合不卡| 亚洲国产欧洲精品路线久久| 91久久精品日日躁夜夜躁欧美| 97视频精品全国在线观看| 亚洲无线一二三四区男男| 在线播放国产99re| 欧美日韩国产综合视频在线观看|