999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據處理的腫瘤基因選擇系統

2017-06-19 19:31:28田梓君崔新于
無線互聯科技 2017年8期
關鍵詞:排序分類特征

田梓君,崔新于

(河南師范大學 計算機與信息工程學院,河南 新鄉 453007)

基于數據處理的腫瘤基因選擇系統

田梓君,崔新于

(河南師范大學 計算機與信息工程學院,河南 新鄉 453007)

近年來,隨著腫瘤醫院就診人數的不斷增多,特征基因提取已成為中內外學者研究的熱門,研究成果也為臨床癌癥的分析診斷及預測提供了極大的便利。然而,由于基因表達譜數據具有維度高、樣本少、復雜多樣的特點,準確地挖掘基因數據中所蘊含的腫瘤信息基因成為當前的首要挑戰。文章闡述了在Matlab2010b編程環境下開發的腫瘤基因數據選擇系統,介紹了改進后信噪比與支持向量機回歸特征消去(SVM-RFE)的基因選擇方法相結合對于基因選擇的優異性,對于篩選出對分類有益的特征基因具有良好的效果。

特征基因;系統開發;改進的信噪比

腫瘤是目前威脅人類生命健康最主要的元兇之一,因而通過基因表達譜的信息基因進行腫瘤的早期診斷已然成為當今國內和國際上研究熱點。基因表達譜具有樣本少、維數高、噪聲高、數據冗余的特點[1],處理數據時“過擬合”現象和“維數災難”都給基因數據選擇方法提出了不小的挑戰。在腫瘤基因表達譜中,每個樣本都會記錄組織細胞中所有可測基因的表達水平,但實際上只有少部分基因才真正和樣本類別相關。因而基因選擇的目的就是要盡可能選擇那些與腫瘤基因密切相關,并且包含樣本分類信息的基因,也稱腫瘤信息基因。

本軟件系統主要包括:數據標準化、改進的信噪比進行基因初選、SVM-RFE進行基因精選,最終以圖形的形式得以體現。

1 運行軟件及運行環境

本系統使用M atlab2010b或以上版本作為運行環境,它具有非常低的硬件要求和平臺支持,可以保證該腫瘤基因選擇系統在各預定功能上實現。可運行于W indow s2000,W indows XP,W indows 7等操作系統。

2 系統分析設計

2.1 功能需求分析

根據腫瘤基因選擇的具體情況,系統軟件需要具備以下功能:

數據標準化。數據集中基因原始數據大小不一,范圍相差較大,導致數據處理過程中運算復雜,所以在處理數據前,為消除量綱差異帶來指標不可公度性問題,需要先運用向量歸一法對數據進行標準化,將原始數據轉換在[0,1]區間內,便于數據的處理。

特征基因初選降噪。在腫瘤基因數據表達譜中大部分基因與樣本類別并不相關,只有少數基因包含了該樣本具體的類別信息,初選主要針對數據冗余現象,起到降噪作用。

特征基因精選降維。在進行初步去噪選擇后,已經基本減少了很多高噪聲的基因,但仍需解決腫瘤基因具有高維度這一特點。

圖像屬性分析。圖像屬性分析指的是運用圖像將分類信息指數分布、各基因信噪比分布表達出來,可以更加直觀且有利于觀察。

2.2 基于改進的信噪比和SVM-RFE算法基因選擇系統構架

從大量腫瘤特征數據中選出對研究有用的信息基因,過濾掉不相關基因,剔除維數大的冗余基因,文章提出基于改進后信噪比的SVM-RFE算法的基因選擇系統構架。基本的算法思想具體可分為3部分:第一部分針對原始數據基因相差較大的特點,對數據進行標準化處理;第二部分采用改進后的信噪比公式過濾掉無關基因;第三部分選用支持向量機的回歸特征消去算法(SVM-RFE),按優先級大小得到所有特征屬性的遞減順序。

假設數據(X,Y)包含m個特征基因,具體步驟如下[2]:

Step 1 數據標準化,在數據標準化過程中,特征基因數量m不變,只改變數據的區間范圍。

Step 2 改進后信噪比方法過濾掉腫瘤基因數據集中大量無關基因,從新樣本m中選擇分類信息指數較高的的m'基因。

Step 3 選用SVM-RFE算法進行特征排序,m'基因不斷循環迭代,依次去掉得分最小的特征屬性,最終得到特征排序表m''。

Step 4 實驗論證并總結。

以上步驟均側重于算法本身,沒有可視化的界面,若普通用戶想要操作規模較為龐大的基因數據不僅需要掌握很多專業知識,還存在操作性繁瑣、可視化差的情況。本系統將軟件工程思想融入基因選擇中,有著簡潔的操作流程,提供良好的用戶界面,能夠方便快捷地為生物基因工作者提供腫瘤特征基因選擇,從而達到提高和改善工作效率的作用。系統現有的工作流程,如圖1所示。

3 關鍵技術的實現

3.1 數據預處理階段

為了確保基因表達水平具有可比性,基因表達值應盡量處于同一數量級上,這就需要在進行基因選擇之前對樣本數據進行歸一化的預處理操作,基因數據標準化可按如下公式進行:

其中,Xij是第i個樣本的第j個基因的數據表達值。

圖1 系統分析設計流程

3.2 改進的信噪比初選階段

信噪比指標可成為評價基因類別的基礎,為有效避免傳統指標“過擬合”現象,同時考慮到了方差不同所帶來的對樣本分類的貢獻,軟件選用改進的信噪比公式,從而達到對無關基因進行初步過濾的目的。Golub等人提出了“信噪比”指標[2],采用特征記分準則(FSC)為每一個基因計算其分值,而按基因分值降序排列的基因稱為基因排序。但為了更加全面地評價基因含有的分類信息量,考慮到方差不同所帶來的對樣本分類的貢獻,本系統利用改進后的信噪比公式,即李穎新等[3]修正后的信噪比指標(如公式3)處理腫瘤基因數據集,對無關基因進行過濾。

3.3 支持向量機回歸特征消去法進行基因精選

SVM-RFE在本質上是一種啟發式搜索策略的封裝模式選擇方法,在特征選擇中將支持向量機用于高維數據,使用SVM算法中的權重對所有波段進行排序,并評估每一波段對分類的影響,按照排序準則移除對分類器作用最小的波段[4],從而可以確定特征基因排序表。

4 系統主要功能

基于數據處理的腫瘤基因選擇系統通過導入腫瘤基因集,可選擇出一些包含樣本分類信息且同腫瘤致病基因密切相關的基因,從而達到信息篩選的目的。系統可直接導入腫瘤原始基因數據集,避免了手動輸入操作的復雜繁瑣,在篩選過程中可根據基因分值大小進行排序且更為直觀地看到分布比例。系統不僅提供了傳統菜單欄的新建、打開、另存、打印等功能,還添加了定點插入、數據對比等操作。柱形圖、散點圖的表現形式為用戶的直觀體驗提供了便利。

5 結語

針對基因表達數據維數高、樣本少、復雜多樣的特點,系統結合改進的信噪比和SVM-RFE算法對腫瘤基因數據集進行降噪降維,達到特征基因篩選的目的。融入軟件工程思想,利用Matlab軟件的數據處理和圖像生成功能,將基因選擇的數據形象直觀地表達出來,系統操作中簡單便捷、結果直觀有效,達到了最初預期的結果,未來將根據用戶體驗繼續完善系統,創造更大的價值。

[1]BROCK G N, SHAFFER J R, BLAKESLEY R E,et al. W hich m issing value imputation method to use in expression profiles: a comparative study and two selection schemes[J]. BMC Bioinformatics,2008(9):12.

[2]孫剛,張靖.面向高維微陣列數據的混合特征選擇算法[J].小型微型計算機系統,2015(6):1209-1213.

[3]李穎新,阮曉鋼.基于支持向量機的腫瘤分類特征基因選取[J].計算機研究與發展,2005(10):153-158.

[4]張睿,馬建文.一種SVM-RFE高光譜數據特征選擇算法[J].武漢大學學報(信息科學版),2009(7):834-837.

Research on tumor gene selection system based on data processing

Tian Zijun, Cui Xinyu
(Computer and Ιnformation Engineering School of Henan Normal University, Xinxiang 453007, China)

Ιn recent years, w ith the increasing number of people who go to tumor hospitals, the extraction of characteristic genes has become a hot topic in domestic and foreign scholars. The research results have also provided great convenience for the diagnosis and prediction of clinical cancers. However, the gene expression data has the characteristics of high dimension, less sample, complex and diverse, it is the most important challenge to accurately dig the tumor information gene contained in gene data. Ιn this paper, the selection of tumor gene data selection system was developed in Matlab2010b programm ing environment, and the advantages of improved signal-tonoise ratio and support vector machine regression feature elim ination (SVM-RFE) gene selection method are also introduced. This system has a good effect on screening out the characteristic genes that are beneficial to the classification.

characteristic gene; system development; improved signal to noise ratio

河南師范大學大學生創新創業訓練計劃校級立項項目;項目編號:20150016。

田梓君(1995— ),女,黑龍江哈爾濱,本科。

猜你喜歡
排序分類特征
排序不等式
分類算一算
恐怖排序
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
節日排序
數據分析中的分類討論
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
教你一招:數的分類
主站蜘蛛池模板: 亚洲精品福利网站| 欧美精品xx| 天堂av综合网| 精品无码日韩国产不卡av| 国产成人AV男人的天堂| 久久人人爽人人爽人人片aV东京热 | 亚洲欧美日韩中文字幕一区二区三区| 精品欧美视频| 一级毛片免费高清视频| 亚洲区一区| 国产91高跟丝袜| 免费一级毛片完整版在线看| 欧美啪啪网| 亚洲欧美在线综合一区二区三区| 日韩成人在线网站| 国产精品成人一区二区不卡| 亚洲成人动漫在线观看 | 久久青草免费91线频观看不卡| 伊人色在线视频| 亚洲精品国产日韩无码AV永久免费网| 国产精品私拍99pans大尺度 | 婷婷亚洲视频| 毛片一级在线| 国产亚洲精品97在线观看| 91久久偷偷做嫩草影院电| 国产欧美日韩视频怡春院| 精品国产免费第一区二区三区日韩| 欧美三級片黃色三級片黃色1| 国产视频入口| 国产一级特黄aa级特黄裸毛片| 亚洲精品视频网| 亚洲五月激情网| 亚洲乱码视频| 国产精品污污在线观看网站| 欧美精品一区二区三区中文字幕| 久久免费观看视频| 午夜一区二区三区| swag国产精品| 国产av一码二码三码无码 | 人妻丰满熟妇av五码区| 成人字幕网视频在线观看| 亚洲丝袜第一页| 亚洲国模精品一区| 精品成人一区二区三区电影| 国产第一页屁屁影院| www.99在线观看| 亚洲人成在线免费观看| 日韩国产亚洲一区二区在线观看 | 国产精品亚洲а∨天堂免下载| www.亚洲一区二区三区| 小说 亚洲 无码 精品| 在线观看91香蕉国产免费| 免费在线一区| 尤物在线观看乱码| 亚洲第一视频网| 免费人成视网站在线不卡 | 亚洲av成人无码网站在线观看| 亚洲综合香蕉| 亚洲综合中文字幕国产精品欧美| 免费一级α片在线观看| 国产杨幂丝袜av在线播放| 国产精品亚洲欧美日韩久久| 制服丝袜一区| 91国内在线观看| 无码高清专区| 99视频全部免费| 久久婷婷六月| 国产丝袜一区二区三区视频免下载| 在线a网站| 久久久国产精品无码专区| 亚洲欧洲天堂色AV| 黑色丝袜高跟国产在线91| 久久久久久尹人网香蕉| 中国成人在线视频| 青青青国产视频| 麻豆精品在线播放| 99一级毛片| 99热最新网址| 日韩在线网址| 中国国产高清免费AV片| 精品国产成人a在线观看| 伊人丁香五月天久久综合 |