999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BQPSO算法的癌癥特征基因選擇與分類

2015-10-21 01:19:00范方云孫俊
服裝學報 2015年1期
關鍵詞:分類特征優(yōu)化

范方云, 孫俊

(江南大學物聯(lián)網(wǎng)工程學院,江蘇無錫214122)

基于BQPSO算法的癌癥特征基因選擇與分類

范方云, 孫俊*

(江南大學物聯(lián)網(wǎng)工程學院,江蘇無錫214122)

提出了基于二進制編碼的量子行為粒子群優(yōu)化算法(BQPSO)的癌癥特征基因選擇方法,利用BQPSO對樣本數(shù)據(jù)進行特征選擇。使用選出的特征基因訓練支持向量機進行留一法交叉驗證。實驗結果表明,基于BQPSO算法的癌癥特征基因選擇方法是一種行之有效的方法。

微陣列數(shù)據(jù);特征基因;二進制編碼的量子行為粒子群優(yōu)化算法;支持向量機;留一法交叉驗證

現(xiàn)代社會,癌癥已經(jīng)成為威脅人類生命的重要因素之一。漏診和誤診使很多患者錯過了最佳治療時機。因此,人們迫切需要更多可靠的輔助方法,結合醫(yī)療診斷,最大限度地提高癌癥診斷的正確率。隨著信息科學和分子生物科學的飛速發(fā)展,基因芯片技術因其微型化,高通量等特點為人們提供了大量的微陣列DNA表達數(shù)據(jù),被廣泛應用于癌癥診斷、臨床檢驗等方面。然而,DNA微陣列數(shù)據(jù)維度高,樣本量很少,且分布不均勻。過多的分類特征不一定能夠得到較好的分類結果,而且增加了計算復雜度。為此,在利用DNA微陣列表達數(shù)據(jù)進行癌癥分類之前必須進行特征選擇,選擇出對分類有積極作用的特征基因。

目前常用的特征選擇方法可以從兩方面進行分類[1],即評價準則和搜索策略。在基于評價準則劃分的特征選擇方法中,又可根據(jù)特征選擇是否獨立于后續(xù)的學習算法分為過濾式(Filter)和封裝式(W rapper)兩種。Filter與后續(xù)學習算法無關,而W rapper利用后續(xù)學習算法的訓練準確率評估特征子集。在基于搜索策略劃分特征選擇方法時,按照特征子集的形成過程,可分為全局搜索,隨機搜索和啟發(fā)式搜索3種。一個具體的搜索算法會采用兩種或多種基本搜索策略[2-4]。張靖等[5]利用信噪比指標過濾無關基因,再采用迭代Lasso方法進行冗余基因的剔除,結合SVM分類器在數(shù)據(jù)集Leukemia,Prostate,colon上分別獲得了98.61%, 96.08%,90.32%的分類正確率。張煥萍等[6]提出了離散粒子群和支持向量機封裝模式的BPSO-SVM特征基因選擇方法,在數(shù)據(jù)集colon上用34個特征基因子集獲得了89.67%的平均正確率。目前結合多種特征選擇方法雖比單獨使用有一定改善,但存在的問題依然很明顯,如第二階段的纏繞過程如何在特征子集規(guī)模、所選特征的分類能力和其他約束條件等多個目標下求得最優(yōu)解。

文中提出的基于BQPSO的癌癥特征基因選擇方法屬于全局搜索和啟發(fā)式搜索的結合,依靠改變BQPSO的初始搜索空間的大小和BQPSO的強搜索能力,本方法在分類正確率上獲得了較大的提高,同時也得到了規(guī)模更小的特征子集。

1 二進制編碼的量子行為粒子群優(yōu)化算法

1.1 粒子群優(yōu)化算法

粒子群優(yōu)化算法(Particle Swarm Optimization, PSO)[7]是在1995年由Kennedy和Eberhart提出的基于群體智能理論的優(yōu)化算法,它模擬了鳥群的覓食過程,通過個體間的合作與競爭產(chǎn)生的群體智能指導優(yōu)化搜索。PSO算法首先初始化一組隨機解,通過迭代搜尋最優(yōu)值。每個優(yōu)化問題的解視為搜索空間的一只鳥,稱為“粒子”。所有的粒子對應一個優(yōu)化問題的適應值,粒子的速度決定其飛行的方向和距離,粒子通過追尋群體中的最優(yōu)粒子來完成在解空間的搜索。

1.2 量子行為粒子群優(yōu)化算法

在PSO算法的基礎上,Efron B等[8]從量子力學的角度出發(fā),提出了一種新的PSO算法模型,即量子行為粒子群優(yōu)化算法(Quantum-Bahaved Particle Swarm Optimization,QPSO)。QPSO的量子模型,參考量子物理學,將粒子的運動狀態(tài)用波動函數(shù)表示。同時,在QPSO算法的模型中,利用波動函數(shù)φ給定的概率密度函數(shù)確定粒子在某個時刻某個位置出現(xiàn)的概率。

1.3 二進制編碼的量子行為粒子群優(yōu)化算法

其中,dH(·)是計算Hamming距離的函數(shù),它的值為兩個位串對應位的不同值的總個數(shù)。

與文獻[9]中式(2)不同,在BQPSO中,平均最優(yōu)位置mbest的每個二進制位由群體中每個粒子最優(yōu)個體pbesti對應的二進制位上0,1出現(xiàn)的情況決定。具體為:統(tǒng)計所有粒子pbesti二進制串每一位上0,1出現(xiàn)的次數(shù)。如果出現(xiàn)0的次數(shù)多,則mbest對應位為0;反之,則為1。若0,1出現(xiàn)的次數(shù)相同,mbest對應位隨機出現(xiàn)0或者1。將獲得mbest的函數(shù)記為

輸入為粒子最優(yōu)個體pbest;輸出為平均最優(yōu)位置mbest。

在BQPSO算法中,父代粒子最優(yōu)個體pbesti和群體最優(yōu)個體gbest隨機交叉產(chǎn)生粒子的局部吸引子,即Pi。Pi值的函數(shù)表示為

而粒子的新位置Xid由Pid變異而來。變異的概率為

式中:ld為粒子第d維的長度;

其中,β為BQPSO算法的系數(shù)。由于Hamming距離為整數(shù),對b值[·]取整再使用[7]。計算Xid的函數(shù)表示為

BQPSO算法的步驟[9]如下:

1)用二進制位串的形式初始化群體中的每個粒子Xi,并使得pbesti=Xi;

2)根據(jù)方程mbest=Get_mbest(pbest)計算群體平均最優(yōu)位置mbest的值;

3)根據(jù)適應度函數(shù)值(例如最大化問題)計算群體中每一個粒子的適應值,并與前次的粒子最優(yōu)值比較,如果f(Xi)?f(pbesti),則pbesti=Xi;反之,則不更新;

4)計算群體中全局最優(yōu)粒子pbestg,并與前次的全局最優(yōu)值gbest比較,f(pbestg)>f(gbest),則gbest= pbestg;反之,則不更新;

5)根據(jù)方程Pi=Get_P(pbesti,gbest),計算局部吸引子Pi的值;

計算pr的值;

7)根據(jù)方程Xid=Transf(Pid,pr)計算Xid的值,并連接生成X;

8)重復2)~7),直到滿足算法結束條件。

2 實驗設計

2.1 數(shù)據(jù)集

實驗采用BRB-ArrayTools[10]主頁上公開的3個DNA微陣列基因表達譜數(shù)據(jù)集,分別為急性白血病數(shù)據(jù)集Leukemia,前列腺癌數(shù)據(jù)集Prostate和結腸癌數(shù)據(jù)集Colon。這3個數(shù)據(jù)集均可以從如下的地址下載:http://linus.nci.nih.gov/~brb/DataArchive_ New.htm l

數(shù)據(jù)集中每個樣本一定屬于兩類中的一種,根據(jù)SVM分類器的要求,分別將兩類標識為0和1。每個數(shù)據(jù)集情況見表1。

表1 實驗數(shù)據(jù)集描述Tab.1 Description of experim ental datasets

2.2 預處理

首先,對數(shù)據(jù)進行標準化處理,消除量綱對分類的影響,再對所有的特征進行T檢驗。取P值較小的前d個特征進行初步篩選,結果作為BQPSO算法的全局搜索空間。文中分別對d=20,30,40,50進行實驗比較,為不同的數(shù)據(jù)集找出合適的d值。因為在BQPSO算法中,初始特征的個數(shù)就是粒子的二進制編碼長度,若不用T檢驗進行初步篩選,粒子的二進制串長度會有幾千甚至上萬,這樣不僅增加了計算復雜度,而且影響B(tài)QPSO的搜索效果。因為初始的搜索空間越大,BQPSO最終選擇出的特征基因越多。所以,在保證較好的分類效果的同時,為每個數(shù)據(jù)集選擇出盡量小的d值,以選擇出最少的特征基因,同時具有較高的分類正確率。

2.3 BQPSO算法選擇特征基因

用BQPSO算法對這d個基因進行第二次篩選,提取出真正具有分類信息的基因。根據(jù)數(shù)據(jù)集樣本數(shù)量較少的特點,為了得到可靠穩(wěn)定的分類模型,使用SVM分類器進行留一交叉驗證(Leave-One-Out Cross-Validation,LOOCV)。采用數(shù)據(jù)集的留一分類正確率作為BQPSO的適應值,即f(·)等于SVM采用留一法分類數(shù)據(jù)集得到的分類正確率。若一個數(shù)據(jù)集有n個樣本,留一交叉驗證是指只使用所有樣本中的一個作為預測集,剩下n-1個樣本作為訓練集,訓練SVM并預測。重復,直到所有的樣本都被當做一次預測集。留一分類正確率就是這n次分類正確率的均值。

實驗設計群體共有20個粒子,每個粒子只有1個決策變量,即粒子的維數(shù)為1。每個粒子的長度為d(d=20,30,40,50),即每個粒子用長度為d的0,1串表示,1代表選中該特征,0代表沒有選中。初始時,隨機產(chǎn)生20個長度為d的0,1串Xi(i=1,2,…, 20),且設初始粒子最優(yōu)位置

用函數(shù) mbest=Get_mbest(pbest)

計算群體平均最優(yōu)位置mbest。根據(jù)每個粒子適應值是否增大維護粒子最優(yōu)位置pbesti,即如果本次迭代中f(Xi)>f(pbesti),則更新pbesti=Xi,否則不更新。根據(jù)所有的pbesti更新全局最優(yōu)位置gbest。

如果f(pbestg)>f(gbest),更新gbest=pbestg。更新完pbesti和gbest之后,采用函數(shù)

計算局部吸引子。根據(jù)

計算的概率,在局部吸引子上進行變異,得到新的粒子種群。其中l(wèi)為粒子二進制表示的長度,即l= d。將以上過程重復進行200代,或者當f(gbest)>99.99%時退出迭代。

3 結果分析

對每個數(shù)據(jù)集,取d為20,30,40,50分別進行實驗,每個實驗重復50次,記錄這50個LOOCV分類正確率的最高值和平均值。得到如圖1所示的不同d值時的最高和平均分類正確率。

由圖1可以看出,在分類不同的數(shù)據(jù)集時,得到最優(yōu)結果時的d值不盡相同。數(shù)據(jù)集Leukemia中,當d為40時,數(shù)據(jù)集Prostate中,當d為50時,數(shù)據(jù)集Colon中,當d為20時,平均正確率和最好正確率都可達到最優(yōu)。

表2給出了3個數(shù)據(jù)集在最優(yōu)d值下經(jīng)過BQPSO進一步篩選后提取的基因數(shù)和正確率。這里的基因個數(shù)是50次實驗結果的平均值。最高、平均正確率同樣來自這50次實驗。

將實驗結果與其他方法相比較,具體結果見表3。

圖1 不同d值時的最高和平均分類正確率Fig.1 Best and the average classification accuracy w ith different d

表2 BQPSO特征選擇實驗結果Tab.2 Experimental results of gene selection based on BQPSO

表3 不同方法實驗結果分類正確率的比較Tab.3 Com parison of experiment results from differentmethods 單位:%

由表3可知,對于數(shù)據(jù)集Leukemia,文中提出的BQPSO+SVM方法得到的LOOCV分類正確率,與GA+SVM方法一樣都能達到100%,且優(yōu)于迭代Lasso+SVM方法的98.61%;對于Prostate數(shù)據(jù)集,文中得到的最高和平均分類正確率均高于迭代Lasso+SVM方法得到的96.08%的正確率;對于colon數(shù)據(jù)集,文中得到的LOOCV正確率與GA+ SVM方法相同,高于迭代Lasso+SVM得到的90.32%,也高于BPSO+SVM得到的最高正確率。

由上述分析可知,文中提出的基于BQPSO的癌癥特征基因選擇方法在特征選擇效果上具有明顯的優(yōu)勢。

4 結 語

提出了基于BQPSO的用于高維微陣列數(shù)據(jù)的特征基因選擇與分類方法。并且將實驗結果與迭代Lasso+SVM、BPSO+SVM和GA+SVM相比較。T檢驗結合BQPSO+SVM的方法從微陣列數(shù)據(jù)成千上萬的基因中選擇出了10~20個最具分類信息的基因,并且得到了較高的分類正確率。由此可知,基于BQPSO算法的微陣列數(shù)據(jù)特征基因選擇與分類方法是一種行之有效的方法。

[1]姚旭,王曉丹,張玉璽,等.特征選擇方法綜述[J].控制與決策,2012,27(2):161-166.

YAO Xu,WANG Xiaodan,ZHANG Yuxi,et al.Summary of feature selection algorithms[J].Control and Decision,2012,27(2): 161-166.(in Chinese)

[2]劉金勇,鄭恩輝,陸慧娟.基于聚類和微粒群優(yōu)化的基因選擇方法[J].數(shù)據(jù)采集與處理,2014,29(1):83-89.

LIU Jinyong,ZHENG Enhui,LU Huijuan.Gene selection based on clusteringmethod and particle swarm optimization[J].Journal of Data Acquisition and Processing,2014,29(1):83-89.(in Chinese)

[3]于彬,張巖.基于GA-SVM方法的結腸癌基因表達譜數(shù)據(jù)分析[J].青島科技大學學報:自然科學版,2013,33(6): 587-592.

YU Bin,ZHANG Yan.Analysis of colon cancer gene expression profiles based on GA-SVM method[J].Journal of Qingdao University of Science and Technology:Natutral Science Edition,2013,33(6):587-592.(in Chinese)

[4]徐久成,徐天賀,孫林,等.基于鄰域粗糙集和粒子群優(yōu)化的腫瘤分類特征基因選取[J].小型微型計算機系統(tǒng),2014,35 (11):2528-2532.

XU Jiucheng,XU Tianhe,SUN Lin,et al.Feature celection for cancer classification based on neighborhood rough set and particle swarm optimization[J].Journal of Chinese Computer Systems,2014,35(11):2528-2532.

[5]張靖,胡學鋼,李培培,等.基于迭代Lasso的腫瘤分類信息基因選擇方法研究[J].模式識別與人工智能,2014,27(1): 49-59.

ZHANG Jing,HU Xuegang,LIPeipei,etal.Informative gene selection for tumor classification based on iterative lasso[J].Pattern Recognition and Artificial Intelligence,2014,27(1):49-59.(in Chinese)

[6]張煥萍,宋曉峰,王惠南.基于離散粒子群和支持向量機的特征基因選擇算法[J].計算機與應用化學,2007,24(9): 1159-1162.

ZHANG Huanping,SONG Xiaofeng,WANG Huinan.Feature gene selection based on binary particle swarm optimization and support vectormachine[J].Computers and Applied Chemistry,2007,24(9):1159-1162.(in Chinese)

[7]孫俊,方偉,吳小俊,等.量子行為粒子群優(yōu)化:原理及其應用[M].北京:清華大學出版社,2011.

[8]SUN Jun,FENG Bin,XUWenbo.Particle swarm optimization with particles having quantum behavior[C]//The 2004 Congress on Evolutionary Computation.Oregon:IEEE,2004:325-331.

[9]奚茂龍,孫俊,吳勇.一種二進制編碼的量子粒子群優(yōu)化算法[J].控制與決策,2010,25(1):99-104.

XIMaolong,SUN Jun,WU Yong.Quantum-behaved particle swarm optimization with binary encoding[J].Control and Decision, 2010,25(1):99-104.(in Chinese)

[10]Efron B,Hastie T,Johnstone I,et al.Least angle regression[J].The Annals of Statistics,2004,32(2):407-499.

[11]LIS,WU X,HU X.Gene selection using genetic algorithm and support vectorsmachines[J].Soft Computing,2008,12(7):693-698.

(責任編輯:邢寶妹)

Cancer Feature Gene Selection and Classification Based on BQPSO A lgorithm

FAN Fangyun, SUN Jun*
(School of Internet of Things Engineering,Jiangnan University,Wuxi214122,China)

In this paper,the cancer feature gene selectionmethod based on BQPSO(Quantum-Behaved Particle Swarm Optimization with Binary Encoding)is proposed where BQPSO algorithm is applied to select feature genes from example data and feature genes selected are used to train SVM classifiers and to make LOOCV(leave-one-out cross-validation).The experiment results show that the cancer feature selectionmethod based on the BQPSO algorithm is effective.

microarray data,feature gene,BQPSO,SVM,LOOCV

*通信作者:孫 俊(1971—),男,江蘇無錫人,副教授,碩士生導師。主要從事智能計算、圖像處理與模式識別等研究。Email:sunjun_wx@hotmail.com

TP 181

A

1671-7147(2015)01-0011-05

book=15,ebook=18

2014-08-15;

2014-10-16。

國家自然科學基金項目(61170119)。

范方云(1989—),女,江蘇揚州人,計算機科學與技術專業(yè)碩士研究生。

猜你喜歡
分類特征優(yōu)化
超限高層建筑結構設計與優(yōu)化思考
民用建筑防煙排煙設計優(yōu)化探討
關于優(yōu)化消防安全告知承諾的一些思考
分類算一算
一道優(yōu)化題的幾何解法
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 国内精品一区二区在线观看| 九九热免费在线视频| 玖玖精品在线| 天天摸夜夜操| 中文字幕中文字字幕码一二区| 高清不卡一区二区三区香蕉| 国产乱子伦无码精品小说| 欧美一区精品| 欧美有码在线| 亚洲a级在线观看| 激情综合五月网| 国产精品免费久久久久影院无码| 中文字幕人成乱码熟女免费| 在线免费不卡视频| 无码中文字幕精品推荐| 欧美A级V片在线观看| 97影院午夜在线观看视频| 日本午夜三级| 亚洲天堂自拍| 狼友av永久网站免费观看| 国产91色在线| 91久久国产综合精品女同我| 国产h视频免费观看| 成人中文字幕在线| 夜夜高潮夜夜爽国产伦精品| 欧美福利在线观看| 亚洲国产日韩在线成人蜜芽| 欧美亚洲网| 幺女国产一级毛片| 欧美精品1区2区| 99视频在线免费| 天堂成人av| 色网在线视频| 乱码国产乱码精品精在线播放| 中文国产成人精品久久| 国产午夜精品一区二区三区软件| 天堂在线www网亚洲| 亚洲无码高清一区二区| 亚洲有码在线播放| 色综合狠狠操| 中文成人无码国产亚洲| 一本一道波多野结衣一区二区 | 高清无码不卡视频| 成人午夜视频免费看欧美| 特级精品毛片免费观看| 久久久久久久久久国产精品| 国产精品久久久久鬼色| 久久亚洲日本不卡一区二区| 婷婷六月综合| 在线观看免费黄色网址| 在线免费观看AV| 91亚洲精选| 国产呦精品一区二区三区网站| 激情乱人伦| 夜夜爽免费视频| 成人午夜视频在线| 国产精品片在线观看手机版| 国产第一福利影院| 美美女高清毛片视频免费观看| 激情爆乳一区二区| 欧美日韩免费| 国产精品3p视频| 制服丝袜亚洲| 麻豆精选在线| 亚洲欧美成人| 国产色图在线观看| 伊在人亚洲香蕉精品播放| 国产成人综合久久精品尤物| 欧美在线中文字幕| 亚洲国产精品无码久久一线| 国产日韩精品欧美一区喷| 国产成人亚洲毛片| 国产精品999在线| 91亚洲国产视频| 日韩专区欧美| 亚洲精品你懂的| 97视频在线精品国自产拍| 第九色区aⅴ天堂久久香| 国产草草影院18成年视频| 日韩毛片免费| 国产成人无码久久久久毛片| 日韩精品欧美国产在线|