999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成分量的基因微陣列數據分類方法的研究

2012-09-26 02:26:22宋紅勝
電子設計工程 2012年7期
關鍵詞:分類方法系統

宋紅勝,孔 薇

(上海海事大學 信息工程學院,上海 201306)

自Golub等于1999年開創了基于基因表達譜的腫瘤分類領域以來,研究者已經提出許多基于基因表達譜的分類方法,這一領域也迅速成為生物信息學的主要研究方向之一,如,人 工 神 經 網 絡 (Artificial Neural Network,ANN)、 貝 葉 斯(Bayesian)、決策樹(Decision Tree)和支持向量機機(Supporting Vector Machine,SVM)等經典的分類器。由于微陣列數據集高維、小樣本和高噪聲等特點,對建立高精度的分類模型提出了挑戰,而且基于實驗表明不同的分類器對同一數據集分類效果不同,即使對同一數據集運用同一種分類器分析,隨著提取特征基因的不同,實驗結果會有很大差別。因此,為了提高分類模型的分類性能、穩定性以及泛化能力,研究人員把很多分類器集成起來,并采用某種決策策略對多個分類器的分類結果進行判定以決定最終的分類結果。

自從Sebestyen于1962年在其書中提出層疊多分類器集成系統的設計思路以來,集成分類系統的研究直到90年代才受到重視,許多學者也紛紛加入對其的研究,如Hansen和Salamon通過投票法將所有的神經網絡結合起來解決問題,發現其性能比最好的個體神經網絡的性能還好[1];Schapire也在自己的論文中證明了通過構建多分類器集成系統,弱分類器可以與強分類器等價[2];并且研究者也設計不少優秀的集成系統算法,如 Bagging、Boosting、AdaBoost、Random Forest、Rotation Forest、Wagging和Arcing等,這些方法已經被廣泛應用于生物信息學等各個領域中。

從不同的角度可以得到不同的集成分類器方法,由于這些方法所選擇的分類特征不同,因此分類器本身就具有差異性,在獨立成分分析集成算法中獨立分量的選擇的標準有很多,在Liu提出基于獨立分量集成方法的論文中,是利用遺傳算法提取獨立分量[3],而本文中對獨立分量系數矩陣A的hinton圖進行生物學分析比較,選取獨立分量。

為了得到差異性就大的分類器,文中選取不同方法進行特征基因選擇,并對選取的特征基因集進行ICA變換,以獲得一組獨立分量集,隨之根據矩陣A選擇出一組較優的獨立分量集。為了比較算法,本文還構建基于PCA和NMF的集成系統,該算法框架與集成獨立分量選擇系統相同。

1 基于集成分量的分類系統設計

分類器集成比單個分類器更有效的充分必要條件不僅是集成中的分類器的精確性而且是其錯誤差異性,因此,對于初始數據的特征提取與選擇方法是一個重要環節,它的優劣將極大影響著分類器的設計和性能。

1.1 基于小波包變換的去噪處理

原始DNA微陣列數據不可避免包括大量的實驗隨機誤差和系統誤差,所以為了反映生物本質的分類結果,在進行基因表達譜分類之前必須進行去噪處理。文中分類系統中選用小波包對數據進行去噪[4]。小波包變換(Wavelet Packet Transform,WPT)的概念是由Wickethauser M V和Cnifinan R R等人在小波變換的基礎上進一步提出來的,小波包分析屬于線性時頻分析法,它具有良好的視頻定位特性以及對信號的自適應能力,因而能夠對各種時變信號進行有效的分解。

1.2 特征基因初選

特征基因初選可以基于統計分析來選取相關基因,即對原始基因集合基于某種記分準則對基因進行排序,基因分值大小反映了基因的重要程度和分類能力,設定一定的閾值選取對基因表達譜分類具有較大貢獻的信息基因。常用的基因特征記分準則有:

2)修訂的特征記分準則(Revised Feature Score Criterion,RFSC):

3)Fisher判別(Fisher Discriminant Ratio,FDR):

1.3 集成分量的選擇方法

在的初選基因集合后,需要對其進一步特征提取和選擇,常用的特征提取方法主分量(Principal Component Analysis,PCA)、因子分析(Factor Analysis,FA)、獨立分量分析(Indepen-Dent Component Analysis,ICA)、非負矩陣分解(Non-gegative Matrix Factorization,NMF)和線性判別分析(Linear Discriminant analysis,LDA)等,筆者使用PCA、NMF和 ICA對初選基因集進行變換,以獲得分量,接著運用下面方法從該分量集選擇出一組較優的分量子集,每個分量子集分別用于基分類器的訓練,從而獲得一組基分類器。

1.3.1 基于PCA的分量選擇

PCA作為多元統計分析中應用廣泛的數據降維方法,是一種基于目標統計特性的最優正交變換,其目的是尋找任意統計分別的數據集合中的主要分量的子集[6]。選擇主分量的方法如下:

1)對矩陣X中的數據進行標準化處理(即使均值為0,方差為1),所得到的標準化后的矩陣為X1,計算矩陣X1的相關系數矩陣R;

3)根據特征值,選擇ω個主分量,從而達到特征提取的目的。

1.3.2 基于NMF的分量選擇

NMF是由Lee和Seung于1999年在《Nature》上提出的[7],NMF是在矩陣中所有元素均為非負數約束條件之下的矩陣分解方法,它的基本思想是將一個非負矩陣近似分解為兩個非負矩陣的乘積,來反映數據潛在的線性結構,數學描述為:對于非負矩陣 Vm×n,近似分解為非負矩陣 Wm×k與 Hk×n的乘積,即:V≈WH,其中k已知或未知,W為基矩陣,H為系數矩陣,且這兩個矩陣必須都是非負的。從生物意義上看,經過非負分解所得W的每一列可以對應著某一生物過程,矩陣V的每一項可以看成對應的基因在各生物過程中表達模式的加權和,權向量即為H的對應列,H矩陣之所以能區分樣本的不同屬性是由于集合基因在每一個樣本中表達值有差異。因此,可根據W矩陣提取分量,具體方法如下[8]:

1)確定k值,再運用NMF算法對基因表達數據進行分解,k值由最大的共表型相關系數對應的k值來確定;

2)將W矩陣的各個列分別兩兩求商,并用一個矩陣S保存結果,將S矩陣各列的值按照從大到小的順序進行排列,值越大的基因表明它在正常組織與疾病組織中差異表達越明顯;

3)設定合適的閾值,提取一定數量的顯著差異表達基因,組成子基因集。

1.3.3 基于ICA的分量選擇

ICA的概念是由法國學者Jutten和Herault J等人于1986年提出[9],最初是用來解決盲源信號分離(BSS)問題,其基本思想是在特種空間上尋找最能使的數據互相獨立的方向。對應的混合與分離模型可用以下公式表示:

X=AS;U=S=A-1X=WX, 其中 Xn×p是基因表達譜矩陣,Sn×p稱為n個獨立成分 (Independent Component,IC), 表示源矩陣,即每一行變量即為相應的獨立分量,而An×n為混合矩陣,可以描述為基因表達數據集X是一個獨立分量集S與一個未知的線性混合矩陣A的線性混合。混合矩陣A中各列的值是一個值得研究的問題,而且可能揭示一些隱含的生物特征,文中將對混合矩陣A從生物意義上來分析,提出一種基于混合矩陣A的Hinton圖 (一種對矩陣權重進行可視化的方法)選擇獨立分量子集的方法。從生物意義角度來看,經ICA變換所得的S矩陣每一行為一個獨立成分,每一列表示一個樣本,X每列為一個樣本,也可看成是一組信息基因(獨立成分)的線性組合,而混合矩陣A的每列的值確定這種線性組合的系數。因此,A矩陣之所以能區分樣本的不同屬性是由于不同的獨立成分在每個樣本中表達值不同,即線性組合時系數的不同,因此,認為由于基因對個獨立成分的數值上貢獻的不同,導致了獨立成分在不同的樣本中表達值不同。對獨立成分貢獻有明顯差異的基因,被認為是與疾病發生有密切關系的差異表達基因。提取獨立分量得具體方法如下:

從表7可以看出,錫石多金屬硫化礦主要礦石礦物的吸波能力存在顯著差異,其中,脆硫銻鉛礦的吸波能力最強,其次是黃鐵礦,再次是錫石,閃鋅礦和脈石礦物的吸波能力最差。因此,錫石多金屬硫化礦主要礦石礦物的吸波能力差異奠定了錫石多金屬硫化礦的微波選擇性加熱的基礎。

1)對初選的基因表達譜數據進行初始值不同的ICA變換;

2)根據混合矩陣A的Hinton圖選取獨立分量;

3)設定合適閾值,提取特征基因。

2 基于集成分量的分類系統模型

集成分類器比單個優秀的分類器更加有效,主要原因是組成集成分類器之間的差異性,即它們產生的錯誤分布在不同的數據空間中,一個分類器產生的錯誤能夠被集成系統中其他分類器補償,集成才有效[10],因此,可以先生成大量基分類器,然后選擇其中部分基分類器集成。圖1為基于集成分量的分類系統流程圖,首先對訓練集預處理后,按某種準則對基因排序,進行降維,隨后對初選集進行PCA、NMF或ICA變換,使用上文的方法選取分量子集訓練基分類器。為了增大基分類器之間的差異性,還構建了混合集成分量分類系統,此系統和集成分量系統主要差別是對同一訓練集,采用不同的變換方法,將生成不同的初選集,然后對這些初選集進行變換,這樣得到的基分類器會有很大的差異度,直接集成這些分類器可以構造一個穩定的集成分類系統,具體流程如圖2所示。

3 實驗結果與分析

3.1 實驗數據

文中實驗使用GEO數據庫上兩個基因表達譜數據:GDS 2519(早期帕金森癥數據集)和GDS2771(肺癌數據集),對于這些數據集中,所有樣本都預先被劃分為訓練樣本和測試樣本,文中每次隨機將數據集劃分為2:1的比例,其中1/3樣本作為測試數據,另外2/3樣本作為訓練集合。

3.2 實驗結果比較分析

圖1 集成分類系統Fig.1 Ensemble classification system

圖2 混合集成分類系統Fig.2 Mix-ensemble classification system

1)對于單個分類器,集成分類的方法獲得的分類準確率更高,對于不同的數據集,不同的集成分量方法得到的結果會有所差異,如在表中,數據集GDS2519的EICA方法比ENMF和EPCA效果更好,但在數據集GDS2771中情況有所不同,如在對GDS2771數據進行FDR和RFSC特征提取后的集成結果顯示,ENMF比EICA準確率更高。如果將EPCA與EICA的結果相比,顯然EICA在兩個數據集上都獲得了明顯優于EPCA的結果,其原因是,相對于PCA,ICA更適合基因表達譜的分析。

2)對同一數據,不同的特征提取方法得到的結果也有所不同,在單個分類系統中,SAM方法都獲得相對較高的結果,在同一種集成分量的方法中,SAM方法也獲得了相對較高的結果。

3)對于混合集成分類系統,可能其分類的準確率不一定高于集成分量系統,但比較它們的標準差,我們可以發現,單個分類器的準確率的值浮動很大,集成分量系統的值浮動較小,混合集成系統的準確率浮動最小,這是由于在集成分量系統中,訓練基分類器的初選集是由同一種方法變換得到的,基分類器之間的差異性并不是很大,而混合集成分量系統中的訓練基分類器的初選集是由不同準則變換得到的,由此獲得的分量子集差別較大,因此,訓練得到的基分類器差別也較大,這樣在準確率方面,相互之間可以彌補,從而構造一個穩健的集成系統。

表1 分類結果Tab.1 Results of classifiction

4 結束語

實驗數據表明集成分量系統可以提高微陣列數據在分類問題中的準確性,其分類準確性優于單個分類器。文中構建的不同種類集成分量系統具備一定的可行性,對于篩選差異表達基因的方法還可以嘗試更多有效的方法,對于混合集成分量系統,如何構造一個準確率高而且穩健的集成系統,則有待進一步的深入探討。

[1]Hansen L K,Salamon P.Nenral network ensembles[J].IEEE Transactions on Pattern Analysis and Machine Inteligence.1990,12(10):993-1001.

[2]Schapire R E.The strength of weak learnability[J].Machine Learning.1990,5(2):197-227.

[3]LIU Kun-hong,LI Bo,ZHANG Jun,et al.Ensemble component selection for improving ICA based microarray data prediction model[J].Pattern Recognition,2009(42):1274-1283.

[4]YANG Yong-ming,LU Cheng-hong.The application of wavelet packet analysis in getting rid of noise in one-way and twoways signals[J].Xi’an Univ.of Arch.&Tech,2004(36):3.

[5]Tusher V G,Tibshirani R,Chu G.Significance analysis of microarrys applied to the ionizing radiation response[J].PNAS,2001,98(9):5116-5121.

[6]YOU Wen-jie,JI Guo-li,YUAN Ming-shun.Feature reduction on high-dimensional small-sample data[J].Computer Engineering and Applications,2009,45(36):165-169.

[7]Lee D D,Seung H S.Learning the parts of objects by nonnegative matrix factorization[J].Nature,1999(401):788.

[8]杜芳,饒妮妮.基于非負矩陣因子分解算法提取胃癌差異表達基因[EB/OL].(2009-04-08).http://www.paper edu.cn/index.php/default/releasepaper/comment_paper/200904-253.

[9]Herault J,Jutten C.Space or time adaptive signal processing by neural network models[C]//AIP Conference Proceedinys,1986(151):206-211.

[10]LIU K H,HUANG D S,ZHANG J.Microarraydata prediction by evolutionary classifier ensemble system[C]//IEEE Congress on Evolutionary Computation (CEC),Singapore,2007:3215-3220.

猜你喜歡
分類方法系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
分類算一算
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲无码久久久久| 婷婷99视频精品全部在线观看| 91人妻日韩人妻无码专区精品| 亚洲男人的天堂久久香蕉| 国产jizzjizz视频| 色亚洲成人| 国产美女精品一区二区| 又黄又爽视频好爽视频| 91外围女在线观看| 亚欧美国产综合| 免费看a毛片| 老司机aⅴ在线精品导航| 国产玖玖视频| 国产精品任我爽爆在线播放6080| 理论片一区| 欧美精品1区2区| 在线精品视频成人网| 黄色在线不卡| 国产99视频在线| 在线中文字幕网| 一级香蕉人体视频| 欧美色99| 国产18页| 91亚洲视频下载| 国产高清在线观看91精品| 高清大学生毛片一级| 婷婷99视频精品全部在线观看| 91久久偷偷做嫩草影院| 99热国产在线精品99| 青青草欧美| 国产麻豆91网在线看| 激情六月丁香婷婷| 热久久这里是精品6免费观看| 欧美a在线看| 18禁黄无遮挡免费动漫网站| 亚洲成A人V欧美综合| 在线日韩日本国产亚洲| 特级做a爰片毛片免费69| 欧美日韩免费观看| 国产青青操| 18禁色诱爆乳网站| 欧美成人影院亚洲综合图| 色综合激情网| 国产精品第一区在线观看| 国产啪在线91| 婷婷伊人久久| 日韩在线网址| 久久久久久久97| 日韩成人高清无码| a免费毛片在线播放| 91无码人妻精品一区| 九九九九热精品视频| 国产69囗曝护士吞精在线视频 | 青青热久免费精品视频6| 亚洲欧洲一区二区三区| 天堂岛国av无码免费无禁网站| 国产99久久亚洲综合精品西瓜tv| 日韩在线第三页| 伊人天堂网| 91丝袜乱伦| 午夜一区二区三区| 高潮毛片免费观看| 欧美亚洲第一页| 国产精品欧美在线观看| a级毛片毛片免费观看久潮| 999国内精品视频免费| 手机精品福利在线观看| 国产aaaaa一级毛片| 国产福利免费在线观看| 亚洲人成网站观看在线观看| 久久国产精品夜色| 无码'专区第一页| 日韩毛片基地| 无码'专区第一页| 亚洲国产精品不卡在线| 拍国产真实乱人偷精品| 国产精品久久精品| 日韩AV无码免费一二三区| 欧美午夜小视频| 国产在线八区| 呦系列视频一区二区三区| 9丨情侣偷在线精品国产|