999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基因表達譜中特征基因選擇的幾種方法比較研究

2012-01-27 20:43:25何蘭范繼紅滕輝潘洪明
中國科技信息 2012年14期
關鍵詞:分類特征方法

何蘭范繼紅滕輝潘洪明

1.齊齊哈爾醫學院基礎醫學院數學教研室,齊齊哈爾,161006 2.齊齊哈爾醫學院現代教育技術中心計算機教研室,齊齊哈爾,161006 3.齊齊哈爾醫學院醫學技術學院生化教研室,齊齊哈爾,161006

基因表達譜中特征基因選擇的幾種方法比較研究

何蘭1范繼紅2滕輝1潘洪明3

1.齊齊哈爾醫學院基礎醫學院數學教研室,齊齊哈爾,161006 2.齊齊哈爾醫學院現代教育技術中心計算機教研室,齊齊哈爾,161006 3.齊齊哈爾醫學院醫學技術學院生化教研室,齊齊哈爾,161006

基因表達譜芯片技術的產生,為復雜疾病致病機理的研究提供了一個全方位的視角。從大量的基因表達譜芯片數據中挖掘有用的信息,特征選擇技術起到了關鍵的作用。對當前基因芯片數據的特征選擇方法和各種學習器效能進行了綜述,并通過說明各種特征選擇方法的具體情況來比較它們的優劣性,最終得出從特征自身特點出發的特征選擇法可獲得較好的分類效能和生物醫學的應用。

基因表達譜;特征選擇;聚類分析;t檢驗;決策樹;支持向量機

引言

隨著人類基因組計劃的逐步實施以及分子生物學等學科的迅猛發展,越來越多的基因組序列得以測定,人類對基因組研究的重心也進入了后基因組時代,即從基因序列的研究轉向到基因組功能的研究?;蛐酒夹g就是順應這一發展要求的高科技產物?;蛐酒歉鶕A基互補的原理,通過檢測雜交信號的強度及分布來進行分析的?;蛐酒夹g經過近二十年的發展,已成為一個非常穩定和可信度極高的實驗技術[1-2]?;蛐酒夹g的產生是功能基因組研究的一個重大突破,運用基因芯片技術可以進行正常和異常細胞中基因的表達檢測,基因突變檢測,分析復雜疾病的致病機理,為疾病的個性化診斷和治療提供指導,同時在藥物篩選和開發、環境保護、司法鑒定等方面也有重要的應用。

面對人類約3萬個基因的30億個堿基對序列,近年來,通過基因芯片技術進行生物研究時也產生了浩如煙海的表達譜數據,研究如此海量的基因在生命過程中所擔負的功能就成了新的課題。基因表達譜是一組表達數據,通常用矩陣表示,行代表基因,列代表樣本,矩陣中的元素代表基因在特定樣本中的表達水平和豐度信息。據研究表明,并不是所有基因對疾病遺傳、診斷、治療或醫學研究都有決定性作用[3]。因此,為了從大量的表達數據中挖掘有重要應用價值和研究意義的基因,發現對疾病診斷、預測具有很強鑒別力的基因組,如何有效地提取與疾病有關的特征基因,降低特征基因的維數是基因表達譜數據分析的核心問題,也對樣本分類起到關鍵性的作用[4-6]。

目前,很多科技工作者在研究中提出了特征基因提取的方法和理論,較早獲得的有聚類分析法、人工神經網絡等特征基因選擇法,近年來又有集成數據選擇法[7]、非線性降維選擇法[8],應用t檢驗、決策樹、支持向量機等特征基因選取方法。本文針對幾種特征基因選擇方法進行介紹,并用不同的分類器比較評價其效能。

1 特征基因選擇法

1.1 聚類分析法

最常用的是層次聚類法,這種方法是通過計算各數據點間的距離,然后把最近距離聚為一組,再計算各組之間的距離,然后把它們合并成一個更大的組,不斷重復該過程直到最后聚成一組以樹狀結構的數據。這種做法的結果非常直觀,而且還可以根據樹狀結構分支的長短來評價基因的相似性。

在用K-means聚類法進行分析時,因為缺乏先驗知識,所以事先不能確定k值。把k作為一個變量處理,從2開始遞增,對每個k值都根據模式質量對特征基因進行評估,然后遴選出最優的基因集作為特征基因集。不斷重復這一過程,k值遞增,直到找出一個模式質量最大的k值為止。

1.2 t檢驗法

數據采用美國Affymetrix(昂飛)公司的結腸癌基因表達實驗數據(www.sph.uth. tmc.edu/hgc),原實驗點有65000個寡聚核苷酸探針組的基因芯片,樣本包括40例結腸癌組織和22例正常結腸組織。我們僅采用U.ALON等篩選出的2000個基因表達譜數據進行分析[9]。

這種方法主要是運用統計學上的兩組獨立樣本t檢驗,此方法的零假設H0是兩總體的均值相等,備擇假設H1為均值不等。應用檢驗結果可以尋找兩組數據間表達有差異的基因,又由于在實驗中進行了多次假設檢驗,從而涉及多重檢驗問題,第一類錯誤會上升,所以可根據具體情況對每個基因的值進行相應調整,確定檢驗的顯著性水平為0.05。通過統計軟件SAS對兩總體做t檢驗,計算每一個基因的t值,并降序排列,分別篩選t值最大的前5至10個基因。最后引入n重交叉驗證法[10],來驗證所選特征基因的樣本識別率。

1.3 決策樹

決策樹是以實例為基礎的歸納學習方法。它通常是利用已知類別的樣本信息,采用自上而下的方式來生成的。決策樹的內部節點表示在一個屬性上的測試,通過比較不同節點的屬性值來判斷下一個節點的分支,直到找到的節點中包含的樣本滿足某個條件為止。這樣,當一個決策樹生成時,它的每一個內部節點的分割都對應著一個特征屬性。

如選定一個p維樣本,將樣本集分為訓練集和試驗集。為尋求一個最能改善分類正確率的特征屬性,從所有訓練集的根節點開始,為了選擇一個最好的特征,在特征空間做一次窮盡搜索,尋找一個特征屬性和相應的閥值,使得最大程度地減少類別節點的雜質度。重復以上分支遞歸過程,可得到決策樹上的一套特征子集[11]。試驗證明,決策樹特征基因選擇法對支持向量機具有良好的有效性。

1.4 支持向量機

支持向量機分類方法是建立在統計學習理論基礎上的,在有限的樣本信息和學習能力之間尋求最佳,使復雜度和結構風險達到最小,以期獲得最好的推廣能力[12]。在有監督分析獲取特征基因的過程中,不僅要使分類器的VC維低,同時也要使經驗風險最小。支持向量機可以這樣表述,首先將已知向量映射到一個高維空間里,使得向量在高維空間里可分,并且線性函數只需在高維空間進行內積運算,這樣就避開了高維變換計算問題。然后再尋找一個最佳超平面,讓這個超平面把數據分開在兩邊,并且使每一類別數據之間的分類間隔最大,這樣可以降低結構風險。通過大量試驗證明,支持向量機在解決小樣本、非線性問題中表現出特有的優勢,且分類精度高,抗噪能力強。同時支持向量機對高維模式識別具有很強的泛化能力[13]。

2 特征基因的分類效能評價

根據特征選擇技術和特征集成技術找出的特征基因分類效能如何,可用下面四種分類器進行評價[14]。

2.1 Fisher線性判別分類器

這種方法把p維空間的樣本投影到一條直線上,形成一維空間,即把維數壓縮為一維。通過尋找最佳的投影方向,使樣本在一維空間達到較好的分離效果。

2.2 Logit非線性分類器

這種方法主要是運用Logistic回歸模型,計算疾病發生的概率p及疾病不發生的概率q,通過比較p和q的大小來判別樣本所屬類型。

2.3 基于最小距離的分類器

該方法是把均值作為各類的代表點,用距離作為判別函數進行分類,即通過比較檢驗樣本與代表點的距離來判別樣本所屬類別的一種方法。

2.4 K 最近鄰法分類器

該方法對于每個檢驗樣本都找出與之距離最近的K個鄰居,以這K個鄰居中占主導的類別作為檢驗樣本的類別。而對于基因表達譜數據,較合理的衡量基因之間距離的方法是Pearson相關系數。鄰居數K可用交叉證實的方法確定。

3 結語

基因芯片數據對疾病進行分類診斷是生物醫學中重要的應用領域,但是基因芯片的特征選擇面臨的是海量的檢測數據,從成千上萬的數據中尋找特征基因的方法和效能檢驗就顯得尤為重要。

對于不同的基因芯片數據集,不同的特征選擇算法的性能優勢也不盡相同。有的算法分類正確率高,但是所需基因數較多;有的算法需要較少的基因,但是復雜度高;有的所需基因較少,分類正確率也不低,但是結果卻和疾病的機理相關性小。因此,考慮到一個好的基因芯片數據的特征選擇法應具有的條件,把上述多種算法有效地相結合[15],綜合每種方法的優勢,可得到分類、性能各方面都令人滿意的結果,即從特征自身特點出發的特征選擇法可獲得較好的分類效能和生物醫學的應用。

[1]李霞.生物信息學[M].北京:人民衛生出版社,2010:110~128.

[2]孫繼勇.基因表達譜的數據分析[J].國際病理科學與臨床雜志,2005,25(5),386~389.

[3]余偉峰,王廣倫,錢夕元.基于GA/SVM的微陣列數據特征的選擇和分類[J].計算機工程,2007,33(19),204~206.

[4]張玉春,郝平波,王明宇,等.確定腫瘤基因表達譜特征基因方法的研究[J].沈陽理工大學學報,2011,30(1),34~38.

[5]A Buness, M. Ruschhaupt, and R. Kuner,Classification across gene expression microarray studies[J]. BMC Bioinformatics, 2009,(10):453.

[6]呂颯麗,汪強虎,李霞,等.基于決策森林特征基因的兩種識別方法[J].生物信息學,2004,(3):19~22.

[7]王海鵬,楊昆.集成數據選擇特征基因[J]杭州電子科技大學學報,2010,30(6),17-20.

[8]楊廣源,付旭平,黃燕等.一種非線性降維和Procrustes分析的基因選取方法[J].復旦學報(自然科學版),2009,48(3),338~347.

[9]Alon U,Barka I , Notterman D,et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon cancer tissues probed by oligonucleotide arrays[J]. Cell Biology, 1999,(96)∶6745~6750.

[10]趙肖肖,朱寧,黃云騰.Logistic回歸和T檢驗在基因特征提取中的應用[J].桂林電子科技大學學報,2012,32(1),69~71,81.

[11]李霞,饒紹奇,張田文,等.應用DNA芯片數據挖掘復雜疾病相關基因的集成決策方法[J].中國科學 C輯 生命科學,2004,34(2):195~202.

[12]. 李霞,張田文,李麗,等.決策樹特征基因選擇方法對SVM有效性的研究[J].中國生物醫學工程學報,2004,23(1),66~23.

[13]. 楊俊麗,劉田福,李祥生.樣本類型無關的多類特征基因選擇方法[J].計算機工程與應用(優先出版),2012,1~5.

[14]王海蕓,李霞,郭政,等.四種模式分類方法應用于基因表達譜分析的比研究[J].生物醫學工程雜志,2005,22(3),505~509.

[15]周!,何潔月.生物信息學中基因芯片的特征選擇技術綜述[J].計算機科學,2007,34(12),143~150.

A

R311;R319

10.3969/j.issn.1001-8972.2012.14.064

齊齊哈爾市科學技術局科學技術計劃項目資助

何蘭(1970-),女,碩士,副教授,研究方向:生物信息學

范繼紅(1968-),女,碩士,副教授,研究方向:生物信息學

滕輝(1977-),女,碩士,講師,研究方向:生物信息學

潘洪明(1969-),男,碩士,教授,研究方向:表觀遺傳學和細胞信號轉導。

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产高清免费午夜在线视频| 亚洲色图欧美在线| 欧美亚洲另类在线观看| 丁香五月激情图片| 国产成人无码Av在线播放无广告| 日韩亚洲高清一区二区| 国产免费高清无需播放器| 亚洲欧美成人影院| 国产91丝袜在线播放动漫| 91久久青青草原精品国产| 久久黄色一级视频| 国产亚洲视频中文字幕视频 | 久久精品丝袜高跟鞋| av一区二区无码在线| 国产亚洲精品91| 国产免费网址| 久草视频福利在线观看| 国产激情影院| 中国成人在线视频| 999国内精品久久免费视频| a色毛片免费视频| 熟女日韩精品2区| 97久久超碰极品视觉盛宴| 国产探花在线视频| 精品亚洲麻豆1区2区3区| 2020国产精品视频| 先锋资源久久| 日韩成人午夜| 亚洲综合色区在线播放2019| 国产成人高精品免费视频| 亚洲精品中文字幕午夜| 国产精品成人一区二区| 久久99国产乱子伦精品免| 亚洲综合色吧| 一级全免费视频播放| 视频一本大道香蕉久在线播放| 日韩无码一二三区| 国产精品一老牛影视频| 暴力调教一区二区三区| 99手机在线视频| 色屁屁一区二区三区视频国产| 制服丝袜无码每日更新| 国产91精选在线观看| 国产97视频在线| 香蕉蕉亚亚洲aav综合| 黄片一区二区三区| 毛片卡一卡二| 19国产精品麻豆免费观看| 亚洲区一区| 国产精品成人第一区| 亚洲欧美日韩中文字幕在线一区| 亚洲欧美日韩天堂| 高清欧美性猛交XXXX黑人猛交| 久久久久久国产精品mv| 九九热视频在线免费观看| 色爽网免费视频| 熟女视频91| 亚洲精品无码久久久久苍井空| 成人精品午夜福利在线播放| 一级爱做片免费观看久久| 狠狠色噜噜狠狠狠狠色综合久 | 中文字幕首页系列人妻| 亚洲色图在线观看| 国产成人精品三级| 久久午夜夜伦鲁鲁片无码免费| 五月丁香伊人啪啪手机免费观看| 欧美日韩国产高清一区二区三区| aaa国产一级毛片| 亚洲精品欧美日本中文字幕| 茄子视频毛片免费观看| 成人在线不卡| 国产一级毛片网站| 露脸真实国语乱在线观看| 免费A级毛片无码免费视频| 久草青青在线视频| 欧美日韩国产精品va| 欧美曰批视频免费播放免费| 欧美精品在线视频观看| 超清无码一区二区三区| 免费毛片全部不收费的| 成人国产小视频| 欧美福利在线|