999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

核多元基因選擇和極限學習機在微陣列分析中的應用

2016-06-24 01:59:30董洪偉薛燕娜
傳感器與微系統 2016年5期

楊 勤,董洪偉,薛燕娜

(江南大學 物聯網工程學院,江蘇 無錫 214122)

核多元基因選擇和極限學習機在微陣列分析中的應用

楊勤,董洪偉,薛燕娜

(江南大學 物聯網工程學院,江蘇 無錫 214122)

摘要:針對微陣列數據樣本量少、維度高的特點,結合當前數據降維方法中沒有考慮特征與特征之間相關性的缺點,提出一種核最小二乘的特征基因選擇方法。將解釋變量空間通過非線性映射轉換到高維空間上,再在高維空間上進行最小二乘回歸,并采用極限學習機進行訓練和預測。結果表明:對三種經典數據集的分類精度分別達到90.47 %,88.89 %,88.23 %,高于傳統的機器學習算法,充分表明本方法的優越性。

關鍵詞:微陣列分類;基因選擇;核最小二乘;極限學習機

0引言

隨著人類基因組計劃的逐步實施和分子生物學迅猛發展,基因數據正在以前所未有的速度增長。微陣列技術就是順應這一科學發展的產物,并且廣泛應用于生物學、醫學等領域[1]。微陣列數據是大數據時代的又一突破,但其樣本少而維度高的特點極易給數據分析帶來"維度災難"。研究者們在數據降維上提出了多種方法,如典型相關分析(CCA)、主成分分析(PCA)等[2],但是這些降維方法仍達不到高精度生物學的研究目的。普通的單變量法具有低復雜度、高性能的優點,但它忽略了特征之間的聯系,會丟棄一些有用的特征。而傳統的多變量是基于條件熵之間的相交信息,仍然丟棄了一些被判定為冗余變量的特征,會對結果產生影響[3]。

偏最小二乘(PLS)綜合了CCA和PCA的優點,常用于樣本值遠大于樣本數的情況。傳統的PLS只是在原始空間利用線性回歸捕獲基因間的線性關系,在實際應用中,線性方法常常不能捕獲所有的基因信息。本文提出的基于核的PLS方法則通過將原始數據隱射到高位空間來揭示原始數據間的內在關系來提取有效的特征基因,并且利用極限學習機(ELM)[4]來對特征基因進行訓練,從而對待測數據進行預測。

1微陣列分析概述

隨著基因微陣列技術的快速發展,生物學家可以在某一個實驗中檢測到成千上萬的基因表達水平,DNA基因序列通過轉錄變為mRNA,將細胞中的mRNA定量雜交配種可以得到cDNA或者寡核苷酸陣列,這些體現細胞中相關mRNA平均分子數的數據即為微陣列數據[5]。微陣列數據通常被表示成矩陣形式,m個基因在n個mRNA雜交樣本上的基因表達數據以一個m×n矩陣表示,每列表示一個基因,每行表示一個mRNA樣本[6]。在微陣列數據的分析中,研究者通常采用有監督的分類方法,比如K近鄰算法(KNN)、樸素貝葉斯或者支持向量機(SVM)[7]等方法。本文采用ELM對三個數據集分類,分類精度都高于目前研究中的經典算法。

2核最小二乘和極限學習機

2.1核最小二乘算法

當原始數據和類標簽存在線性關系時,可運用偏最小二乘回歸(PLS)來分析數據。對于非線性關系和復雜關系,偏最小二乘卻難以湊效。將核函數引入到PLS中,將其應用到非線性領域,這樣改善了PLS只能用于線性模型分析的局限性,還能在一定程度上提高預測準確率。

在本文中,X∈RN·D表示N維輸入數據矩陣(樣本),Y∈RN·C表示相應的C維響應矩陣(標簽)。假設X和Y都是零均值數據。PLS的目的是針對

avgmax‖v‖=1,‖c‖=1cov(t,u)=cov(Xv,Yc)

(1)

優化問題使用迭代方法計算v(X權重),c(Y權重),t(X貢獻值),u(Y貢獻值),其中,t=Xv,u=Yc分別是指X和Y的成分。當第一組成分t1和u1給定,第二組成分t2和u2則分別可以通過殘差Ex=X-t1pT和EY=Y-t1qT計算出來,p和q指t針對X和Y的荷載,當滿足一定條件時,這個過程才停止。本文提出的核最小二乘(KLS)利用非線性變換Φ將基因表達數據映射到高維的核空間K,不需要知道非線性映射的具體數學表達,只需要在滿足Merser條件的情況下在原始空間上進行點積運算。為了在算法中實現點積操作,將v約束在這些點的一個線性跨度內,表達為

(2)

(3)

設Kx(xi,xj)為特征空間的格拉姆矩陣,h為期望的成分數。KLS的第一個成分是平方核矩陣βΦ的特征值,βΦλ=KYKXβΦ,λ為特征值。無論原始矩陣中的X和Y中有多少變量,這些核矩陣不受影響。可見基于核的PLS是一個強大的能迅速解決問題的算法。

2.2極限學習機

針對普通前饋神經網絡存在網絡結構不穩定、學校效率低、容易產生過擬合等問題,黃廣斌提出了極限學習機,已經證明在神經網絡中隱含層節點的參數隨機賦值能夠大大提高網絡學習的效率,因而,本文在對微陣列數據分類中直接應用極限學習機,并與先前研究者用的SVM,KNN和ANN等分類算法進行比較。ELM模型表述如下:

普通前饋神經網絡中,N個樣本(xi,ti)∈Rm×Rn,m和n分別為輸入和輸出樣本的維度,隱含層節點個數為M,M≦N,所選擇的激活函數為g(·),因此,普通單層前饋網的模型為

(4)

式中(wi,bi)為隱含層神經元的參數值,βi為輸出權值,j=1,2,…,N,則上述式(4)可以寫成

Hβ=T

(5)

式中

(6)

為隱含層節點的輸出矩陣,其第i列表示第i個隱含層神經元關于輸入x1,x2,…,xN的輸出值

(7)

由文獻[8]知,當M=N時,一旦給定(wi,bi)的值,輸出矩陣H可逆,這時,ELM可以以很小的誤差逼近各種學習樣本,但是一般情況M遠大于N,H為M×N的矩陣,這就要求所求H的廣義逆H+,可采用奇異值分析法來求解廣義逆矩陣,此時,可由式(3)求解

(8)

使用ELM時一個重要的過程是對激活函數的選取,激活函數有sigmoid,sin,RBF等,文獻[8]中將這些激活函數應用于同一非線性樣本數據上并作對比,發現sin函數在效率和精確度上最佳,因此,本文也選用sin作為ELM的激活函數。

3實驗與結果分析

3.1實驗數據準備

在先前的研究中,使用最多的微陣列數據是白血病(Leukemia)、乳腺癌(Breast)和結腸癌(Lung)三個數據集,它們包括二分類和多分類,其相關信息如表1所示。

表1 本文使用的微陣列數據

分類器而言分類精度都最大,因此,在基因選擇數為25時,對數據集Leukemia中的選擇基因與文獻[9]進行比較,發現重疊率達到76 %,說明本文提出的特征選擇方法是有效的,如表2所示(其中黑體表示本文選取的特征基因與文獻[9]重疊的基因名稱)。

表2 對Leukemia數據集選取的前25個特征基因名稱

3.2數據分類

本文對微陣列數據提取特征信息后,應用極限學習機來訓練和預測。由于極限學習機參數是隨機賦值的,因此其隱含層神經元個數的設置至關重要,本文激活函數為sin函數,隱含層神經元數N由0到2000每間隔11取一次值,對分類精度進行分析,發現隨著N值的變大,精度變高,當N=1 800時,精度就達到了88 %,且當N繼續增大時,精度變化不大;當N=1 870時,精度最大,達到90.47 %,如圖1所示。

圖1 隱含層神經元個數與分類精度效果圖Fig 1 Effect figure of numbers of hidden layer neurons and classification percision

對Lymphoma和Lung數據集采用同樣的方法進行特征基因選擇和隱含層神經元個數設置,最后得到本文方法(KPL_ELM)對其分類的精度,與先前的研究[12]對比情況如表3所示(黑體精度值為幾種方法中最大值)。

表3 本文方法與先前經典算法的分類精度比較(%)

從實驗結果可以看出:本文提出的KPL_ELM算法對微陣列數據的特征基因選擇和分類效果有顯著的提高,說明本文方法是有效可行的。

4結束語

本文針對微陣列數據樣本量小而維度高的特點,結合當前降維和特征提取方法速度慢、未考慮特征間聯系的劣勢,提出基于核的最小二乘方法來提取特征基因,并應用極限學習機來對實驗數據進行訓練和預測,與以往的研究對比,實驗精確度得到了很大程度的提高,充分說明本文算法的優越性和實用性,為生物醫學中對疾病的診斷和分類開拓了新思路。

參考文獻:

[1]于化龍,高尚,趙靖,等.基于過采樣技術和隨機森林的不平衡微陣列數據分類方法研究[J].計算機科學,2012(5):190-194.

[2]金益,姜真杰.核主成分分析與典型相關分析相融合的人臉識別[J].計算機應用與軟件,2014(1):191-193,270.

[3]Sun S,Peng Q,Shakoor A.A kernel-based multivariate feature selection method for micro-array data classification [J].PloS one,2014,9(7):102541.

[4]Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:Theory and applications [J].Neuro-computing,2006,70(1):489-501.

[5]呂娜.極限學習機及其在無線頻譜預測中的應用研究[D].蘭州:蘭州大學,2014.

[6]張麗娟,李舟軍.微陣列數據癌癥分類問題中的基因選擇[J].計算機研究與發展,2009(5):794-802.

[7]李強,石陸魁,劉恩海,等.基于流形學習的基因微陣列數據分類方法[J].鄭州大學學報:工學版,2012(5):121-124.

[8]Chacko B P,Krishnan V R V,Raju G,et al.Handwritten character recognition using wavelet energy and extreme learning machin-e[J].International Journal of Machine Learning and Cybernetics,2012,3(2):149-161.

[9]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:Class discovery and class prediction by gene expression monitoring [J].Science,1999,286(5439):531-537.

[10] Wang Y,Klijn J G M,Zhang Y,et al.Gene-expression profiles to predict distant metastasis of lymph-node-negative primary breast cancer[J].The Lancet,2005,365(9460):671-679.

[11] Bhattacharjee A,Richards W G,Staunton J,et al.Classification of human lung carcinomas by mRNA expression profiling reveals distinct adenocarcinoma subclasses [C]∥Proceedings of the National Academy of Sciences,2001:13790-13795.

[12] 王剛,張禹瑄,李穎,等.一種微陣列數據降維新方法[J].吉林大學學報:工學版,2014(5):1429-1434.

Application of kernel-based multiple gene selection method and extreme learning machine in microarray analysis

YANG Qin,DONG Hong-wei,XUE Yan-na

(College of The Internet of Things Engineering,Jiangnan University,Wuxi 214122,China)

Abstract:As quantity of microarray data sample is little and dimension of each sample is high,combined with disadvantages that in current data dimension reduction methods,correlation between features is not considered,put forward a kind of kernel-based least squares method for feature gene selection.Map explaining variable space to high dimension space,via nonlinear mapping transformation,and then carry out least-squares regression in high dimensional space;use extreme learning machine for training and predicting.The results show that classification precision of the three kinds of classic data set is 90.47 %,88.89 %,88.23 %,which is higher than traditional machine learning algorithms,which fully demonstrates superiority of this method.

Key words:microarray classification;gene selection;kernel least squares;extreme learning machine

DOI:10.13873/J.1000—9787(2016)05—0146—03

收稿日期:2015—08—17

中圖分類號:TP 183

文獻標識碼:A

文章編號:1000—9787(2016)05—0146—03

作者簡介:

楊勤(1990-),男,湖北黃岡人,碩士研究生,主要研究方向為模式識別、生物信息學。

主站蜘蛛池模板: 黄色网在线免费观看| 亚洲综合一区国产精品| 在线另类稀缺国产呦| 9966国产精品视频| 欧美人与动牲交a欧美精品| 亚洲欧洲日本在线| 亚洲欧美日韩动漫| 亚洲伦理一区二区| 亚洲欧美精品日韩欧美| 国产精品免费p区| 视频二区中文无码| 国产成人午夜福利免费无码r| 亚洲第一视频网| 婷婷亚洲最大| 人人妻人人澡人人爽欧美一区| 亚洲高清中文字幕| 亚洲无限乱码一二三四区| 久久先锋资源| 欧美日本在线观看| 亚洲黄色激情网站| 亚洲精品制服丝袜二区| 国产特级毛片| 91精品综合| 国产真实自在自线免费精品| 国产精品综合色区在线观看| 国产福利拍拍拍| 色噜噜狠狠狠综合曰曰曰| 亚洲最猛黑人xxxx黑人猛交| 97av视频在线观看| 国产在线自揄拍揄视频网站| 99在线观看精品视频| 波多野结衣无码视频在线观看| 内射人妻无码色AV天堂| 高清精品美女在线播放| a毛片免费看| 中文字幕在线免费看| 国产精品香蕉在线观看不卡| 亚洲乱码在线播放| 午夜无码一区二区三区| 精品久久久久无码| 成年免费在线观看| 国产真实乱人视频| 免费在线a视频| 无码精品一区二区久久久| 欧美日韩一区二区在线免费观看| 9啪在线视频| 国产成本人片免费a∨短片| 国产人人干| 国产毛片基地| 亚洲中久无码永久在线观看软件 | 欧美区一区二区三| 国产自在线播放| 免费一级毛片在线播放傲雪网 | 日韩精品一区二区三区中文无码| 亚洲无码熟妇人妻AV在线| 色婷婷狠狠干| 2021亚洲精品不卡a| 欧美午夜在线观看| 国产精品 欧美激情 在线播放| 午夜限制老子影院888| igao国产精品| 欧美激情视频一区| 国内精品自在自线视频香蕉| 在线中文字幕网| 高潮毛片无遮挡高清视频播放| 久久男人资源站| 人妻出轨无码中文一区二区| 久久公开视频| 天天躁夜夜躁狠狠躁躁88| 毛片免费观看视频| 久久综合亚洲鲁鲁九月天| 一区二区理伦视频| 国产成人欧美| 色播五月婷婷| 亚洲综合天堂网| 久久99久久无码毛片一区二区| 亚洲全网成人资源在线观看| 久久毛片基地| 国产成人精品一区二区三区| 国产视频一二三区| 色综合五月婷婷| 黄色污网站在线观看|