999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

小波-神經網絡方法在基因表達數據分析中的應用研究*

2010-06-15 01:44:00伍亞舟
重慶醫學 2010年17期
關鍵詞:分類特征效果

張 玲,伍亞舟,陳 軍,易 東

(第三軍醫大學:1.衛生統計學教研室;2.健康教育與醫學人文教研室,重慶400038)

基因表達芯片具備大規模、高通量的特點,可以獲得樣品中大量基因序列和表達信息(數據),根據基因表達數據進行腫瘤診斷是當今生物信息學領域中的一個重要研究方向。利用這些基因表達數據(如癌癥數據),可以建立有效的分類模型,實現對腫瘤樣本與正常組織的正確分類;也可以找出決定樣本類別的一組特征信息,加快疾病的診斷和對應藥物研究。

目前主要采用聚類分析[1-2]和遺傳算法[3]等方法對基因表達數據進行分類。但是,在基因表達譜數據分析過程中,由于微陣列表達數據具有樣本少、維數高(基因數量巨大)、非線性等特點,使得有意義的基因表達信息被大量的噪聲所淹沒,且基因表達信號具有非常復雜的特性,利用各種統計方法對差異基因進行識別會產生大量的假陽性結果,建立分類模型則由于其中含有大量對分類不起作用的基因使其效能降低,其主要瓶頸集中在有效特征的選取以及對屬于不同種類的樣本進行正確診斷方面,而特征提取的質量和分類方法的優劣將會直接影響分類的效果。本文從信號處理的角度出發,利用多尺度理論[4-5]對白血病實驗樣本的基因表達數據進行處理和分析,具體采用小波多分辨率分析(multi-resolution analysis,M RA)方法[6]進行不同層次的特征提取,隨后利用前饋式神經網絡(Back-propagation neural network,BP神經網絡)方法進行識別分類,以正確區分不同的樣本。

1 實驗數據

本研究的數據集來自于Golub等[7]人進行的白血病實驗樣本,總共 72個樣本,其中 47個為急性淋巴細胞白血病(ALL)樣本,25個為急性髓性白血病(AML)樣本,每個樣本包含有7 129個基因。該實驗結果表明,對于屬于不同種類的樣本中的基因表達數據,其表達強度不一致(即存在差異),通過數據處理方法提取對分類有影響的特征,以達到區分這兩類樣本疾病的目的。

2 方 法

基于DNA微陣列的芯片可以在同一時間點上或同一樣本下提供大規模的基因表達數據,從信號的角度來看,基因表達數據也可以被視為一個信號集[8]。利用多尺度理論中的MRA方法進行去噪和提取特征,隨后利用BP神經網絡方法來識別這些特征,以便正確區分ALL和AM L樣本。

2.1 小波多分辨率提取基因表達特征 小波分析是近年來發展起來的一種新的時頻分析方法,它能以不同的時間和頻率分辨率分析信號,使得它具有多分辨率分析的特點,即在低頻部分具有較高的頻率分辨率和較低的時間分辨率,在高頻部分具有較高的時間分辨率和較低的頻率分辨率。正是這種特性,使得小波變換具有對信號的自適應性,而且小波分析并非是對單個點或單個頻率進行處理的過程,因而具有很強的抑制噪聲的能力。小波多尺度理論可以參考文獻資料[4-6]。

小波變換系數(或部分系數)能反映信號在時域及頻域的局部信息,各個小波系數實際上是信號時間-尺度(時頻)特征的一種表現;且它們比較完備地描述了信號的主要特征,是特征表示的基礎,這些系數可以重構出信號(表達),因此可以考慮將小波系數作為表達(信號)的特征。

本研究利用小波變換和多分辨率分析方法,分別選擇3種小波函數bio3.3、db5和 sym4,并且在分解層數為 6、7、8和9情況下進行對基因表達數據處理和提取表達的特征,提取特征記為:FALL={F1,F2,……F47},FAML{F1,F2,……F225},從上述提取的特征中,采用隨機抽取的方法分別構建訓練集和測試集的特征向量:F訓練={FALL,FAML},F測試={FALL,FAML}。由于白血病數據集的原始基因表達數據大小不一,范圍相差大,導致運算復雜,訓練時間長,處理結果不佳,所以在訓練分類前,對提取的特征首先進行標準化,將所有的數據轉換到一個范圍內,便于數據的處理。標準化函數采用M ATLAB7.0軟件自帶的內部函數premnmx()完成。

2.2 BP神經網絡方法分類特征 對于提取后的特征分類,目前有很多種方法,而神經網絡以其強大的非線性映射能力,在模式識別領域得到了廣泛的應用;本研究屬于典型的二分類問題,這里采取BP神經網絡進行識別分類。具體識別分類時,采用newff()函數創建一個前向BP網絡,輸入層神經元個數隨著分解層數的改變而變化,隱含層傳遞函數為tansig,輸出層傳遞函數采用logsig,訓練函數為traingscg,學習函數為learngdm,輸出值范圍為(0,1);以 0.5為臨界值,小于 0.5判別為ALL樣本,大于或等于0.5判別為AM L樣本;當平均誤差率小于0.0001,訓練停止。上述提取特征和識別分類的具體算法程序均采用Matlab7.0軟件編寫、調試和運行處理。

3 結 果

小波函數選擇sym4時的M RA的圖示結果,見圖1(其他小波函數的結果略)。每幅圖片的上面部分是原始基因的表達分布,中間部分是經過去噪后的表達,下面部分是提取的特征系數。從圖上發現,隨著分解層數的增加,提取的特征系數逐漸減少,每種情況下的特征數目相對于原始的表達數目減少了很多,而且這些表達特征系數主要反映了原始基因的表達變化情況,因此可以被用來進行特征的有效分類。

圖1 基因表達數據的多分辨率分析結果(小波函數sym4)

采用BP神經網絡對提取的特征進行分類,樣本劃分法將白血病數據集隨機化平均分為兩大類,其中一半為訓練集樣本36個(ALL25個、AML11個),剩余的另一半為測試集樣本 36個(ALL22個、AML14個),使用樣本錯判的個數作為判別效果的評價標準。為了檢驗分類效果的穩定性,每種情況均進行10次訓練和測試,分類結果見表 1。

由表1結果發現,3種小波函數分別在4種分解層數情況下,分類效果均比較理想,平均都達到84%以上。從它們相互比較的結果分析發現,當選擇不同的小波函數時,得到的結果有所不同,小波函數 sym4的分類效果最好,平均達到91.18%,小波函數bio3.3的分類效果次之,平均達到89.79%,而小波函數db5的分類結果稍差;另一方面,從提取特征數目的多少來看,在分解層數為8(特征數目為229,小波函數sym4)時得到的結果最好,平均達到94.72%。

表1 不同小波函數和分解層數下ALL和AML樣本的BP分類結果(%)

4 討 論

目前,針對基因表達數據研究的方法雖然很多,但能夠對樣本完全分類正確的并不太理想,其中一個重要的原因就是被識別分類的特征不是很明顯。本研究針對ALL和AM L樣本數據集,采用多尺度特征提取研究方法,不僅能很好地起到降低維數作用,而且還能有效地提取表達的特征,在多次訓練和測試運行的基礎上,BP神經網絡方法的分類效果比較理想,說明該特征提取和分類算法效率高、運算速度快、耗時短。但小波函數的選擇,對于分類的效果也有一定的影響。當分解層數越小時,即提取的特征越多時,包含對分類有促進作用的信息的機會也越多,但同時在該特征信息中也增加了那些影響分類的無效信息,因此選擇合適的特征數,對于樣本識別分類效果的準確性、穩定性、收效性都有著較大的影響。從上述結果的比較發現,當提取的特征包含了充分有效基因信息的同時,也避免分類無效基因信息的干擾,從而達到最優的分類效果;并且還保證了算法運輸的耗時最短,即訓練和測試時很快達到收效效果。

另外,識別分類方法對分類正確率也會有較大的影響。BP神經網絡方法克服了傳統分類方法(如主成分分析等)的一些不足,解決了基因芯片存在樣本少、維數高、非線性等問題,使得分類效果更加理想,最大的平均分類率達到94.72%。同時,網絡參數的選擇和設計優化效果對于分類正確率也有著較大的影響,比如各層神經元個數的確定(特別是隱含層神經元個數的確定),傳遞函數的選擇,訓練函數的選擇和學習函數的選擇等;而且從實際數據的處理分析中發現,該方法在分類效果的收斂性方面還需要改善。因此,在下一步的研究中將進一步探討基因表達特征的分類方法。

總之,本研究將小波分析融入基因表達數據處理是一種重要的思想,其本質是通過對基因表達數據功能的重排列,利用多尺度或多分辨率算法對數據作適當的變換和分解,去除對分類造成干擾的噪聲,降低數據的不確定性和復雜性,提取基因或樣本在不同尺度上或不同層次方面的分類特征,改善特征識別的正確分類率,提高應用數值分類技術尋找復雜致病基因的效果,以便建立相應的數據分析技術平臺,從而為生物信息學實驗提供重要的信息,進一步豐富生物信息學的內容。本文所提供的方法能夠把屬于不同種類的疾病進行正確區分,對于疾病的診斷以及確定正確的治療方案具有重大意義,更為重要的是本研究中利用小波多尺度技術研究基因表達數據也是生物信息學方法研究上一次有益的嘗試,值得進一步探索研究。

[1]Eisen MB,Spellman PT,Brown PO,et al.Cluster analysis and display of genome-wide expression patterns[J].Proc Natl Acad Sci USA,1998,95(25):14863.

[2]Seal S,Komarina S,Aluru S.An optimal hierarchical clustering algorithm for gene expression data[J].Inform Proc lett,2005,93(3):143.

[3]孟范靜,劉毅慧,王洪國,等.遺傳優化算法在基因數據分類中的應用[J].生物信息學,2008,6(20):119.

[4]Chen XF,He ZJ,Xiang JW,et al.A dynamic multi-scale lifting computation method using Daubechies wavelet[J].J Comput Appl Math,2006,188(2):228.

[5]羅萬春,陳軍,伍亞舟,等.基于小波多尺度的人類胚胎期大腦皮層基因表達分析[J].重慶醫學,2009,38(12):1462.

[6]胡昌華,張軍波,夏軍,等.基于M ATLAB的系統分析與設計——小波分析[M].西安電子科技大學出版社,1999.

[7]Golub T R,Slonim DK,Tamayo P,et al.M olecular classification of cancer class discovery and class prediction by gene expression monitoring[J].Science,1999,286:531.

[8]閆曉光,游頂云,李康.基因表達數據與小波變換分析的思想與方法[C]//2007年中國衛生統計學大會.2007年中國衛生統計學術大會論文集,西安,2007.

猜你喜歡
分類特征效果
按摩效果確有理論依據
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
迅速制造慢門虛化效果
數據分析中的分類討論
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产日韩欧美中文| 国产办公室秘书无码精品| 久久久久久尹人网香蕉| 久久男人资源站| 久久人体视频| 三上悠亚在线精品二区| 无码精品国产dvd在线观看9久| 在线va视频| 成人国内精品久久久久影院| 国产伦精品一区二区三区视频优播| 色网站在线免费观看| 久久久四虎成人永久免费网站| 一本大道香蕉高清久久| 色综合久久无码网| 91精品啪在线观看国产91九色| 黄色a一级视频| 久久精品丝袜| 国产性生大片免费观看性欧美| 亚洲一欧洲中文字幕在线| 亚洲AV电影不卡在线观看| 91久久国产综合精品女同我| 97久久精品人人| 亚洲高清中文字幕| 婷婷色在线视频| 秋霞午夜国产精品成人片| 99久久无色码中文字幕| 91 九色视频丝袜| 影音先锋丝袜制服| 国产亚洲精品自在久久不卡| igao国产精品| 色国产视频| 欧美在线免费| 专干老肥熟女视频网站| 91黄视频在线观看| 99久久性生片| 青青青视频免费一区二区| 成人午夜天| 手机精品福利在线观看| 4虎影视国产在线观看精品| 亚洲综合日韩精品| 欧美一区日韩一区中文字幕页| 欧美人与动牲交a欧美精品| 欧美不卡视频一区发布| 精品亚洲欧美中文字幕在线看| 91精品国产麻豆国产自产在线| 亚洲天堂成人| 中文字幕色在线| 国产亚洲成AⅤ人片在线观看| 亚洲成年人片| a在线亚洲男人的天堂试看| 日韩中文字幕免费在线观看| 一本大道香蕉高清久久| 999在线免费视频| 久久综合AV免费观看| 亚洲一级色| 欧美激情综合| 国产无码高清视频不卡| 亚洲VA中文字幕| 波多野结衣国产精品| 成人午夜视频免费看欧美| 国产天天射| 欧美激情伊人| 欧美影院久久| 无码福利日韩神码福利片| 亚洲成A人V欧美综合| 天堂成人在线| 欧美伦理一区| 无码有码中文字幕| 欧美另类一区| 久久精品66| 色AV色 综合网站| 亚洲第一天堂无码专区| 秋霞国产在线| 国产成人精品亚洲日本对白优播| 成人毛片在线播放| 狠狠干欧美| 国产精品综合色区在线观看| 国产系列在线| 久久成人国产精品免费软件| 日本五区在线不卡精品| 最新亚洲人成网站在线观看| 一本综合久久|