999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Fisher準(zhǔn)則和多類相關(guān)矩陣分析的腫瘤基因特征選擇方法

2016-08-05 08:03:34
計算機應(yīng)用與軟件 2016年7期
關(guān)鍵詞:特征實驗方法

胡 洋 李 波

(武漢科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院 湖北 武漢 430065) (智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室 湖北 武漢 430065)

?

基于Fisher準(zhǔn)則和多類相關(guān)矩陣分析的腫瘤基因特征選擇方法

胡洋李波

(武漢科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院湖北 武漢 430065) (智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室湖北 武漢 430065)

摘要腫瘤特征基因的選擇是腫瘤基因表達數(shù)據(jù)分類的研究熱點之一。針對傳統(tǒng)的腫瘤特征基因選擇方法無法很好地剔除冗余基因,提出一種混合型的特征選擇方法。在所提出的方法中,首先將標(biāo)簽相同的樣本劃分到同一個矩陣,在所有矩陣中,當(dāng)且僅當(dāng)特征間的相關(guān)系數(shù)均大于特定閾值時,即判定這幾個特征是相關(guān)特征,并對這些相關(guān)的特征進行聚類。然后在每個聚類中選擇Fisher比最大的特征,對這些特征根據(jù)評價函數(shù)篩選得到最優(yōu)特征子集。最后采用SVM分類器對這些最優(yōu)特征子集進行類別預(yù)測。在四個標(biāo)準(zhǔn)的腫瘤DNA微陣列數(shù)據(jù)集的測試結(jié)果證明所提出的腫瘤基因特征選擇方法的穩(wěn)定性和高效性。

關(guān)鍵詞特征選擇Fisher準(zhǔn)則多類相關(guān)矩陣分析SVM

0引言

隨著生物信息技術(shù)的飛速發(fā)展,生物數(shù)據(jù)——如DNA微陣列數(shù)據(jù)被廣泛地應(yīng)用于腫瘤基因的鑒別,有效地分析和處理這些高維數(shù)據(jù)能為腫瘤疾病的診斷提供輔助。

對于DNA微陣列數(shù)據(jù)集,考慮到采集腫瘤樣本的成本很高,所以采集的樣本數(shù)量相對較少,因此樣本的基因數(shù)遠遠大于樣本的個數(shù),造成的高維小樣本問題對基于機器學(xué)習(xí)的方法來預(yù)測腫瘤亞型帶來了挑戰(zhàn)。常用的腫瘤基因表達數(shù)據(jù)的降維方法主要包括特征提取和特征選擇,特征提取與選擇方法的優(yōu)劣極大地影響著分類效果[1]。

為了提高分類效率,各種各樣的特征選擇方法被提出。按照特征子集的形成方式,特征選擇的方法分為窮舉法、啟發(fā)法和隨機法三類[2]。窮舉法指遍歷特征空間的所有特征組合,選取最優(yōu)特征組合的方法,其優(yōu)點是一定能尋找到最優(yōu)特征子集,但是計算復(fù)雜度巨大。啟發(fā)式方法為一種近似算法,具有很強的主觀傾向,方法簡單快速,應(yīng)用廣泛,如向前(向后)選擇、 決策樹法[3]、Relief方法[4]及其變體[5,6]等,但是不一定能得到最優(yōu)解。隨機方法是一種很新的方法,有完全隨機和概率隨機兩種,這類方法的參數(shù)設(shè)置是一個值得研究的問題。但是,這些傳統(tǒng)的特征選擇方法在剔除冗余基因時,僅僅依據(jù)特征間的相關(guān)性,并沒有考慮到特征在不同類別間的差異性,造成有一些與腫瘤高度相關(guān)的基因被剔除掉,影響了最終腫瘤亞型的預(yù)測效果。

因此,本文提出一種混合型的特征選擇方法,綜合考慮多類相關(guān)矩陣。首先按照樣本所屬的類別對基因矩陣進行劃分,計算劃分矩陣的相關(guān)矩陣,然后對冗余基因聚類,從每個聚類中選擇類間方差和類內(nèi)方差之比最大的特征,將得到的特征組合成新的基因矩陣,最后對剔除冗余基因后的矩陣篩選得到最優(yōu)特征子集。

1方法

本文目的是在高維的基因集合中選擇最有利于分類結(jié)果的基因子集,然后對選擇的基因子集用支持向量機(SVM)方法分類測試。對于腫瘤DNA微陣列數(shù)據(jù)矩陣,它的每一行代表一個樣本,每一列代表一個基因的表達數(shù)據(jù),受實驗環(huán)境和實驗成本等因素的限制,DNA微陣列數(shù)據(jù)普遍含有噪聲數(shù)據(jù)和冗余基因,而且具有高維、小樣本等特點,如神經(jīng)膠質(zhì)瘤(Gliomas)[7]數(shù)據(jù)的DNA微陣列數(shù)據(jù)由50個樣本組成,每個樣本含有12 625個基因。

一般地,鑒別能力較強的特征的類間離差與類內(nèi)離差的比值較大,本文采用Fisher比作為度量準(zhǔn)則。

1.1Fisher準(zhǔn)則

(1)

(2)

用式(1)計算基因矩陣每列的Fisher比,然后將基因矩陣的列按照Fisher比值從大到小重新排列,得到新的基因矩陣。

相關(guān)矩陣是統(tǒng)計學(xué)中用來度量向量間相關(guān)性的一種方法,下面用相關(guān)矩陣度量特征間的冗余度。

1.2相關(guān)矩陣

設(shè)A=(x1,x2,…,xn)是一個m×n的矩陣,xi與xj的相關(guān)系數(shù)為ρij,則以ρij為元素的n階方陣稱為矩陣A的相關(guān)矩陣[9],即:

(3)

其中:

(4)

1.3結(jié)合樣本標(biāo)簽的相關(guān)性度量準(zhǔn)則

本文方法主要用來處理腫瘤基因分類中的二分類問題,在剔除冗余特征這一步,假設(shè)特征間的相關(guān)系數(shù)越大,則冗余度越大。在度量特征間的冗余度時根據(jù)樣本的類別標(biāo)簽,將原樣本矩陣劃分為兩個矩陣,依次求出得到的兩個矩陣的相關(guān)矩陣,同時分析這些相關(guān)矩陣,當(dāng)且僅當(dāng)特征間的相關(guān)系數(shù)在這兩個相關(guān)矩陣中均大于0.8時,才認(rèn)為這些特征是相關(guān)的。通過對相關(guān)矩陣分析剔除數(shù)據(jù)集的冗余特征,對剔除冗余后的新樣本矩陣,根據(jù)設(shè)計的評價函數(shù)選擇最優(yōu)特征,最終得到最優(yōu)特征子集。現(xiàn)將具體算法描述如下:

算法1最優(yōu)子集生成算法

輸入:基因矩陣G,規(guī)模為m×n,由m個樣本組成,每個樣本含n個基因;樣本的標(biāo)簽L=[L1,L2,…,Lm],Li=±1(i=1,2,…,m)。

輸出: 特征子集F。

算法:

第1步:特征重排

1.1 根據(jù)公式(1)計算矩陣G的每一列的Fisher比值;

1.2 將矩陣G的列按照Fisher比值從大到小的順序重新排列;

第2步:樣本分割

2.1 根據(jù)樣本標(biāo)簽L將矩陣G劃分為兩類,記為A和B,分別表示腫瘤樣本矩陣和正常樣本矩陣。

第3步:剔除冗余

3.1 根據(jù)公式(3)計算矩陣A,B的相關(guān)矩陣,記為R1,R2;

3.2 將R1,R2的下三角陣及對角線元素設(shè)為0,對其他元素取絕對值;

3.3 從矩陣R1,R2的第1行開始,依次找出該行中元素的值同時超過0.8的元素,并將R1,R2中與這些元素在同一列的所有元素更新為0;

3.4 將矩陣R1的對角線元素改為1,找出矩陣R1中列和為0的所有列的索引,在矩陣G中將這些列刪除;

第4步:特征選擇

4.1 將G的第1列加入F,用SVM分類器對F中的m個樣本留一法交叉驗證實驗m次取平均精度記為acc;

4.2 循環(huán)將G的下一列加入F,同樣用4.1的方法得到精度acc′,若acc′>acc,令acc=acc′,否則從F中刪除新加入的這一列,循環(huán)直到acc=1或遍歷至G的最后一列;

第5步:最優(yōu)子集

5.1 輸出最優(yōu)特征子集F。

2實驗結(jié)果與分析

在這一節(jié),我們將用原特征分類方法,啟發(fā)法(Wrapper方法)[2]和本文方法分別對四個公開發(fā)表的腫瘤DNA微陣列數(shù)據(jù)集做測試,實驗工具為matlab 2012a,分類器選用matlab自帶的SVM分類器,分類器的核函數(shù)選擇線性核。

這四個數(shù)據(jù)集分別是急性白血病(Leukemia)數(shù)據(jù)集[10],神經(jīng)膠質(zhì)瘤數(shù)據(jù)集[7],彌漫性大B細(xì)胞淋巴瘤(DLBCL)數(shù)據(jù)集[11]和結(jié)腸癌(Colon)數(shù)據(jù)集[12]。這幾個數(shù)據(jù)集均具有高維和小樣本的特征,樣本均僅含兩類,具體介紹如表1所示。

表1 實驗數(shù)據(jù)集

表2給出了用這三種方法對這四個數(shù)據(jù)集進行留一法交叉驗證(LOO-CV)的實驗表現(xiàn)。

表2 不同數(shù)據(jù)留一交叉驗證(LOO-CV)結(jié)果(%)

將樣本按根據(jù)表3的方法劃分為訓(xùn)練集和測試集,在所有樣本中選擇1/3做測試集,余下2/3做訓(xùn)練集,保證訓(xùn)練集和測試集中兩類樣本數(shù)量的比例大致相同。

表3 樣本訓(xùn)練集和測試集劃分方法

將表1中的四個數(shù)據(jù)集的樣本按照表3的方法劃分訓(xùn)練集和測試集,然后分別用這三種方法測試,實驗得到的準(zhǔn)確率(Accuracy)和F指標(biāo)(F1-Score)[13]見表4所示。

表4 樣本按表3劃分訓(xùn)練集和測試集的實驗結(jié)果(%)

從表2可以看出,用三種方法分別對這四個數(shù)據(jù)集進行留一法交叉驗證,本文方法的表現(xiàn)優(yōu)于Wrapper方法和原始特征分類方法,并且該實驗結(jié)果不存在隨機性,證明了本文方法實驗表現(xiàn)效果較好。

從表4可以看出,對于數(shù)據(jù)集Leukemia,DLBCL和Colon,本文方法的分類準(zhǔn)確率和F指標(biāo)較高,對于數(shù)據(jù)集Gliomas,本文方法的分類準(zhǔn)確率和F指標(biāo)略低于Wrapper方法。因此,綜合考慮表2和表4的實驗結(jié)果可以看出,本文方法在不同的數(shù)據(jù)集上表現(xiàn)都同樣穩(wěn)定,而且分類的準(zhǔn)確率也比較高,從而證明該方法的有效性。

3結(jié)語

DNA微陣列數(shù)據(jù)為腫瘤疾病的診斷開辟了新的思路,受實驗環(huán)境和實驗成本等因素的限制,DNA微陣列數(shù)據(jù)普遍含有噪聲數(shù)據(jù)和冗余基因,而且具有高維、小樣本等特點,這些特點使得傳統(tǒng)的機器學(xué)習(xí)算法無法在微陣列數(shù)據(jù)上發(fā)揮高效的作用。本文提出了一種混合型的特征選擇的方法,并將該方法應(yīng)用于高維腫瘤DNA微陣列數(shù)據(jù)的分類,對于高維的腫瘤基因數(shù)據(jù),基因之間必然存在冗余性和不相關(guān)性,剔除冗余基因能大大降低矩陣的維數(shù)。本文方法在剔除冗余基因的時候獨創(chuàng)性地考慮了樣本的標(biāo)簽,綜合分析多類相關(guān)矩陣以剔除冗余特征,最終通過評價函數(shù)篩選得到最優(yōu)特征子集。通過實驗結(jié)果可以看出,本文提出的方法是有價值的。

參考文獻

[1] 李波.基于流形學(xué)習(xí)的特征提取方法及其應(yīng)用研究[D].安徽:中國科學(xué)技術(shù)大學(xué),2008.

[2] 王娟,慈林林,姚康澤.特征選擇方法綜述[J].計算機工程與科學(xué),2005,27(12):68-71.

[3] 張琳,陳燕,李桃迎.決策樹分類算法研究[J].計算機工程,2011,37(13):66-70.

[4] 張翔,鄧趙紅,王士同.極大熵Relief特征加權(quán)[J].計算機研究與發(fā)展,2011,48(6):1038-1048.

[5] Zhang F P,Qiu Z G,Feng X T.Non-complete Relief Method for Measuring Surface Stresses in Surrounding Rocks[J].J.Cent.South Univ,2014,21(9):3665-3673.

[6] 范文兵,王全全,雷天友.基于Q-relief的圖像特征選擇算法[J].計算機應(yīng)用,2011,31(3):724-728.

[7] Nutt C L,Mani D R,Betensky R A.Gene Expression-Based Classification of Malignant Gliomas Correlates Better with Survival than Histological Classification[J].Cancer Res,2003,63(7):1602-1607.

[8] 鮮曉東,樊宇星.基于Fisher比的梅爾倒譜系數(shù)混合特征提取方法[J].計算機應(yīng)用,2014,34(2):558-561.

[9] 章舜仲,王樹梅.相關(guān)系數(shù)矩陣與多元線性相關(guān)分析[J].大學(xué)數(shù)學(xué),2011,27(2):195-198.

[10] Golub T R,Slonim D K,Tamayo P.Molecular Classification of Cancer:Class Discovery and Class Prediction by Gene Expression Monitoring[J].Science,1999,286(15):531-537.

[11] Alizadeh A A,Eisen M B,Davis R E.Distinct types of diffuse large B-cell lymphoma identified by gene expression pmrdillg[J].Nature,2000,403(6769):503-511.

[12] Alon U,Barkai N,Notterman D A.Broad Patterns of Gene Expression Revealed by Clustering Analysis of Tumor and Normal Colon Tissues Probed by Oligonucleotide Arrays[J].Proc Natl Acad Sci USA,1999,96(12):6745-6750.

[13] 劉誠.蛋白質(zhì)相互作用界面中熱點殘基預(yù)測方法的研究[D].湖北:武漢科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院,2012.

收稿日期:2014-11-25。國家自然科學(xué)基金項目(61273303,6127 3225,61373109);中國博士后科學(xué)基金項目(20100470613,201104173);湖北省自然科學(xué)基金項目(2010CDB03302);湖北省教育廳科研基金項目(Q20121115);模式識別國家重點實驗室開放課題(201104212)。胡洋,碩士生,主研領(lǐng)域:生物信息學(xué),機器學(xué)習(xí)。李波,副教授。

中圖分類號TP181

文獻標(biāo)識碼A

DOI:10.3969/j.issn.1000-386x.2016.07.018

A FEATURE SELECTION METHOD FOR TUMOUR GENE BASED ON FISHER CRITERION AND MULTICLASS CORRELATION MATRIX ANALYSIS

Hu YangLi Bo

(SchoolofComputerScienceandTechnology,WuhanUniversityofScienceandTechnology,Wuhan430065,Hubei,China) (HubeiKeyLaboratoryofIntelligentInformationProcessingandReal-timeIndustrialSystem,Wuhan430065,Hubei,China)

AbstractThe selection of tumour feature gene is one of the hot research topics in classification of gene expression data. In this paper, we propose a hybrid feature selection method aiming at that traditional tumour feature gene selection method cannot well remove the redundant genes. In the method, first we divide the samples with same labels into same matrix, and in all the matrixes, if and only if the correlation coefficients between the features are all greater than the specific threshold, then these features are regarded as the relevant features and will be clustered afterwards. Secondly, we select the features with maximum Fisher ratio from every cluster and sift these features according to evaluation function to obtain the optimal feature subsets. Finally, we use SVM classifier to do class prediction on these optimal feature subsets. The results of tests on four standard tumour DNA microarray datasets prove the stability and efficiency of the proposed method.

KeywordsFeature selectionFisher criterionMulticlass correlation matrix analysisSVM

猜你喜歡
特征實驗方法
記一次有趣的實驗
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
抓住特征巧觀察
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产91九色在线播放| 欧美啪啪一区| 国产成本人片免费a∨短片| 国产18在线播放| 麻豆国产精品一二三在线观看| 亚洲日韩AV无码一区二区三区人| 亚洲一区二区三区在线视频| 国产原创自拍不卡第一页| 福利小视频在线播放| 中文国产成人久久精品小说| 91色国产在线| 亚洲欧美日韩中文字幕在线| 亚洲欧美综合另类图片小说区| 欧美日韩国产高清一区二区三区| 无码网站免费观看| 在线观看免费国产| 精品国产三级在线观看| 在线观看91香蕉国产免费| 激情五月婷婷综合网| 色综合久久88色综合天天提莫 | 午夜福利无码一区二区| 2021亚洲精品不卡a| 亚洲无码一区在线观看| 午夜性刺激在线观看免费| 欧美综合在线观看| 精品一區二區久久久久久久網站| 97视频在线精品国自产拍| 久久婷婷国产综合尤物精品| 456亚洲人成高清在线| 成人毛片免费在线观看| 亚洲男人的天堂在线观看| 欧美中出一区二区| 无码人妻免费| 19国产精品麻豆免费观看| 久久综合九色综合97婷婷| 性色一区| 亚洲国产清纯| 午夜a级毛片| 欧美成人午夜视频| 国产第一福利影院| 国产成人艳妇AA视频在线| 国产办公室秘书无码精品| 熟女成人国产精品视频| 精品无码人妻一区二区| 国产99在线观看| 人妻夜夜爽天天爽| 国产超碰在线观看| 亚洲天堂网视频| 99性视频| 久久99国产乱子伦精品免| 四虎国产在线观看| 青青草原国产| 国产在线视频自拍| 国产白浆在线| 怡春院欧美一区二区三区免费| 欧美在线伊人| 五月婷婷丁香综合| 国产精品毛片在线直播完整版 | A级毛片高清免费视频就| 欧美日韩午夜视频在线观看 | 国产尹人香蕉综合在线电影 | 欧美激情伊人| 日本91视频| 国内黄色精品| 久久久久国产精品免费免费不卡| 久久中文无码精品| 天天综合天天综合| 日本一区二区三区精品视频| 91精品国产91久久久久久三级| 曰韩人妻一区二区三区| 国产亚洲精品自在线| 欧美在线导航| JIZZ亚洲国产| 波多野结衣视频一区二区| 欧美在线导航| 亚洲精品国偷自产在线91正片| 精品三级在线| 国产区网址| 亚洲无码视频一区二区三区| 日韩a级片视频| 天天综合色天天综合网| 永久免费无码成人网站|