999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

應用阿茲海默癥基因表達數據對比2種層次聚類方法

2015-05-04 00:59:09付如意胡本瓊龐朝陽四川師范大學數學與軟件科學學院四川成都60066成都理工大學管理科學學院四川成都60059四川師范大學計算機科學學院四川成都60066四川師范大學可視化計算與虛擬現實省重點實驗室四川成都60066
關鍵詞:特征方法

付如意, 黃 靜, 胡本瓊, 龐朝陽(. 四川師范大學 數學與軟件科學學院, 四川 成都 60066; . 成都理工大學 管理科學學院, 四川 成都 60059;3. 四川師范大學 計算機科學學院, 四川 成都 60066; 4. 四川師范大學 可視化計算與虛擬現實省重點實驗室, 四川 成都 60066)

?

應用阿茲海默癥基因表達數據對比2種層次聚類方法

付如意1, 黃 靜1, 胡本瓊2, 龐朝陽3,4*
(1. 四川師范大學 數學與軟件科學學院, 四川 成都 610066; 2. 成都理工大學 管理科學學院, 四川 成都 610059;3. 四川師范大學 計算機科學學院, 四川 成都 610066; 4. 四川師范大學 可視化計算與虛擬現實省重點實驗室, 四川 成都 610066)

隨著基因芯片技術的發展,雙聚類分析方法首先被應用到高維基因表達數據的研究中.由于多數高維數據的稀疏性,應用主成分分析方法將高維數據轉化到低維數據空間,從而在低維空間中應用聚類分析方法.不同的聚類分析方法會得到不同的聚類效果,并且同一種聚類方法處理不同的高維數據也會得到不同的聚類效果.因此,首先評估了阿爾茨海默基因表達數據的特征集的聚類趨勢,接下來給出了改進地δ閾值層次聚類算法的算法描述.由于已有工作分別給出了不同的δ閾值的計算規則,于是比較了它們δ閾值下的層次聚類算法,并且給出了相應的聚類評價.

層次聚類; 閾值; 基因表達數據

阿茲海默癥是一類神經退行性疾病,已成為繼心血管疾病、惡性腫瘤、腦卒中之后老年人的第4大“健康殺手”[1].目前,世界上并沒有治療老年癡呆癥的有效辦法.隨著基因芯片技術[2]的迅速發展,2003年起科學家將聚類分析方法[3-5]應用到阿茲海默癥相關的基因表達數據上.2009年W. Kong等[6]將獨立主成分分析(ICA)方法應用于阿茲海默癥的候選基因的識別中.2010年C. Y. Pang等[7]將聚類分析方法應用到阿茲海默癥的致病基因的識別中.2012年C. Y. Pang等[8]應用層次聚類分析方法挖掘與阿茲海默癥相關的基因表達數據.文獻[9]也給出了一種簡捷地無監督一維聚類方法并且應用阿茲海默癥的數據對其作了數據建模.但是上述文獻均沒有從統計學上去評估數據的聚類趨勢以及比較應用不同的聚類方法后的實驗結果.因此,本文將對其阿茲海默癥的基因表達數據做聚類趨勢的評估.傳統的層次聚類算法需要事先主觀地確定出分類個數,從而接下來本文結合文獻[8-9]給出了改進地δ閾值層次聚類算法的算法描述.由于文獻[8]和[9]分別給出了不同的δ閾值的計算規則,于是本文通過輪廓系數指標比較分析了它們的實驗結果.最后,從客觀數據的角度對改進地δ閾值層次聚類算法做出評價.

1 預備知識

1.1 主成分分析方法[8]主成分分析(PCA)是一種對數據進行簡化的技術.這種方法實質上是找出數據中最“主要”的元素和結構,去除噪音和冗余,將原有數據降維,揭示隱藏在復雜數據背后的簡單結構.接下來將給出主成分分析方法的算法描述:

步驟二:計算相關系數矩陣R=(rxy)p×p,

步驟五:計算主成分的載荷矩陣L=(lij)p×p和得分矩陣F.原始數據前的加權系數決定了新的綜合變量主成分的大小和性質,通常稱為主成分軸或者載荷向量:

原始變量在新的坐標系下投影求得在新坐標系下的變量值即為得分:

Fi=e1iX1+e2iX2+…+epiXp,i=1,2,3,…,p.

1.2 霍普金斯統計量[12]霍普金斯統計量是一種空間統計量,檢驗空間分布的變量的空間隨機性,即確定數據空間中的數據點在多大程度上不同于均勻分布.給定數據集D,按以下步驟計算霍普金斯統計量:

1) 均勻地從D的空間中抽取n個點p1,p2,…,pn.找出pi(1≤i≤n)在D中的最近鄰,并令xi為pi與它在D中的最近鄰之間的距離,即

2) 均勻地從D中抽取n個點q1,q2,…,qn.找出qi(1≤i≤n)在D-{qi}中的最近鄰,并令yi為qi與它在D-{qi}中的最近鄰之間的距離,即

3) 計算霍普金斯統計量H,

1.3 輪廓系數[12]對于n個對象的數據集D,假設D被劃分成k個簇C1,C2,…,Ck.對于每個對象o∈D,計算o與o所屬的簇的其他對象之間的平均距離a(o).類似地,b(o)是o到不屬于o的所有簇的最小平均距離.假設o∈Ci(1≤i≤k),則

并且

對象o的輪廓系數定義為

輪廓系數方法結合了凝聚度和分離度,可以以此來判斷聚類的優良性,其值在-1到+1之間取值,值越大表示聚類效果越好.

2 數據的來源與特征

本文使用的基因表達數據是從美國國家生物技術信息中心(NCBI)網站上下載得到的[13-14].該數據為31組65~101歲年齡階段的患有不同程度的阿茲海默癥的患者的22 283個基因的表達水平值.其9組正常人的基因表達水平值數據格式如表1所示.

表 1 9組正常人體的22 283個基因表達水平數據表

由于31組患者的個體差異,使得如表1所示的列數據之間不可以相互比較.同時,假設同一程度的阿茲海默癥患者的基因表達水平數據具有相同的特征,即表1所示的各列數據間包含了相同或相似的特征集合.文獻[15]中詳細地闡述了對基因組表達數據運用SVD方法進行數據建模并且處理得到了其特征集合.從而通過文獻[15]所述的方法可以得到正常、輕度、中度和重度4種不同程度的基因表達水平數據的特征集合.進一步地,文獻[11]詳細地探討了PCA方法的理論和應用以及其與SVD之間的關系.因此,本文通過PCA方法提取基因表達數據的特征集合,即主成分.

根據2.1節PCA方法的算法描述,于是分別對4種程度下的數據應用PCA方法得到了對應的特征空間.其特征值分布如圖1所示.

并且,進一步可以分別計算出4種程度下的特征集的累計貢獻率CPR,如表2所示.

表 2 正常、輕度、中度和重度阿茲海默癥患者的基因表達數據的特征集的累計貢獻率表

特征集1特征集1~2特征集1~3特征集1~4特征集1~5特征集1~6特征集1~7特征集1~8特征集1~9正常0.910.930.950.960.970.980.980.991輕度0.910.940.960.970.980.991.00中度0.920.930.950.960.970.980.991.00重度0.870.910.940.960.970.991.00

從統計學意義上來說,若特征值集的累計貢獻率達到了85%~95%,該特征值集為數據集的主要特征.從而由表2的數據發現,4種程度下的特征1上的累計貢獻率均已達到了85%.從而由特征1上的數據來反映原始數據是可行的.

接下來則需要檢驗其特征1的數據是否具有聚類趨勢以應用其層次聚類方法.本文采用霍普金斯統計量來估計其聚類趨勢,使用0.5作為拒絕備擇假設閾值,即如果H>0.5,則D不大可能具有統計顯著的簇.根據2.2節的霍普金斯統計量的計算描述運用R語言編制出程序分別計算出它們在特征1上的霍普金斯統計量:正常組、輕度組、中度組、重度組的H值分別為0.051 1、0.037 8、0.068 4、0.097 1.可以發現H均遠遠小于0.5,即接受備擇假設,也意味著4種程度下的特征1上的數據均具有統計顯著的簇.從而說明特征1上的數據具有聚類效果.于是聚類分析方法能夠被應用到特征1上去挖掘出不同程度的阿茲海默癥患者的22 283個基因所反映出的聚類模式.

3 δ閾值層次聚類算法

在文獻[8]的基礎上,對層次聚類算法的閾值做出了說明,得到了δ閾值層次聚類算法.接下來,以9組正常人的基因表達數據為例來闡述該算法,由上一節可以得到9組正常人的基因表達水平數據的特征子空間,記為C.假設人體內所有的基因在特征子空間C內數據表示為Y=(yij)nm,其中,n=22 283且m為特征子空間C的維數.并且設δ=(δ1,δ2,…,δm),其中,δi的計算規則在文獻[9]中也給出了.接下來給出δ閾值層次聚類方法的算法描述:

輸入:樣本點集合Y,閾值δ.

算法:

第1步,初始化K=1,S1=Y,且i=1;

第2步,令Z=Yi=(yji)n,1,并且計算出閾值δi;

第3步,若‖ysi-yti‖>δi,則s,t分別屬于2類,且K=K+1,SK-1=SK-1-{yt}以及SK=SK∪{yt},否則它們屬于同一類別,即SK=SK∪{yt};

第4步,記i=i+1,若i>m,則算法停止,否則轉向第2步.

根據上述的算法描述,可以得到4種不同程度患者的基因表達數據的聚類分析結果.并且通過對文獻[8]和文獻[9]的聚類結果比較評估2種層次聚類算法的聚類質量.

4 實驗與結果

首先,將31組阿茲海默癥患者的基因表達數據劃分為正常、輕度、中度和重度4種程度.其次,對于每一種程度的基因表達數據分別應用由文獻[8]和文獻[9]給出的δ閾值計算規則的層次聚類算法得到相應的聚類模式.最后,對2組聚類模式衡量它們的聚類質量進行比較分析,通常是按照無基準來選定方法:如果有可用的基準,外在方法可以比較聚類結果和基準,從而測定聚類質量;如果沒有基準,則內在方法通過考慮簇分離情況即簇的緊湊情況來評估聚類好壞.許多內在方法都利用數據集的對象之間的相似性度量.這里,計算了衡量聚類質量的指標——輪廓系數SC,其相關的統計數據如表3所示.

最后,通過比較表3所示的數據發現,文獻[8]對應列的數據均大于文獻[9]中的數據.

5 結語

結合文獻[8,9],本文給出了改進地δ閾值層次聚類算法的算法描述.并且對阿茲海默癥基因數據應用此層次聚類算法,通過比較聚類質量指標——輪廓系數,可以發現文獻[8]通過特征集中的特征值確定的閾值較優于文獻[9]通過曲率最大點確定的閾值.從而進一步說明由文獻[8]給出的δ閾值的層次聚類算法較客觀,即本文對改進地δ閾值層次聚類算法的參數δ做出了評估.

表 3 2類層次聚類算法的聚類質量指標:輪廓系數的比較

[1] 阿茲海默病. http://zh.wikipedia.org/wiki/阿茲海默病[EB/OL]. 維基百科,2014.

[2] 李瑤. 基因芯片技術:解碼生命[M]. 北京:化學工業出版社,2004:77-156.

[3] 胡本瓊,張先迪,龐朝陽. 利用圖論設計圖像壓縮中的向量量化聚類算法[J]. 四川師范大學學報:自然科學版,2005,28(3):376-378.

[4] 王開軍,李曉. 基于有效性指標的聚類算法選擇[J]. 四川師范大學學報:自然科學版,2011,34(6):915-918.

[5] 莊劉,曾艷. 基于模糊C-均值聚類的最優量化器設計[J]. 四川師范大學學報:自然科學版.2010,33(4):559-562.

[6] Kong W, Mou X Y, Yang B. Study DNA microarray gene expression data of Alzheimer’s disease by independent component analysis[J]. Bioinformatics, Systems Biology and Intelligent Computing,2009.

[7] Pang C Y, Hu W, Hu B Q, et al. A special local clustering algorithm for identifying the genes associated with Alzheimer’s disease[J]. IEEE Trans Nanobioscience,2010.

[8] Pang C Y, Liu S Q, Li Y, et al. The nonlinear correlation character of gene expression data on Alzheimer’s disease and hierarchy clustering of co-regulated gene[J]. 2011 IEEE International Conference on Granular Computing,2011.

[9] 黃靜,付如意,彭志紅,等. 基于阿爾茨海默病的基因表達數據改進的一維聚類方法[J]. 四川師范大學學報:自然科學版,2015,38(4):584-588.

[10] 茆詩松,王靜龍,濮曉龍. 高等數理統計[M]. 2版. 北京:高等教育出版社,2006:128-135.

[11] Jonathon S. A tutorial on principal component analysis[D]. Ithaca:Cornell University,2014.

[12] Han J W, Kamber M, Pei J. Data Mining Concepts and Techniques[M]. Beijing:China Machine Press,2012.

[13] GEO DataSet. http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1297[EB/OL]. NCBI,2014.

[14] Blalock E M, Geddes J W, Chen K C, et al. Incipient Alzheimer’s disease:microarray correlation analyses reveal major transcriptional and tumor suppressor responses[J]. PNAS,2004,101(7):2173-2178.

[15] O Alter, P O Brown, D Botstein. Singular value decomposition for genome-wide expression data processing and modeling[J]. PNAS,2000,97(18):10101-10106.

2010 MSC:62H30; 62P10; 91C20

(編輯 周 俊)

Comparison of Two Hierarchical Clustering Methods in Gene Expression Data of Alzheimer’s Disease

FU Ruyi1, HUANG Jing1, HU Benqiong2, PANG Chaoyang3,4
(1.CollegeofMathematicsandSoftwareScience,SichuanNormalUniversity,Chengdu610066,Sichuan;2.CollegeofManagementScience,ChengduUniversityofTechnology,Chengdu610059,Sichuan;3.CollegeofComputerScience,SichuanNormalUniversity,Chengdu610066,Sichuan;4.VisualComputingandVirtualRealityKeyLaboratoryofSichuanProvince,SichuanNormalUniversity,Chengdu610066,Sichuan)

With the development of gene microarray technology, biclustering is applied to the research of high dimension of gene expression data. Due to the sparsity of most high-dimensional data, high-dimensional data are transferred into low-dimensional data by dimensionality reduction and so, it could be clustering in the low-dimensional data. Meanwhile, a variety of clustering appear different pattern and different data appears to different pattern for the established clustering. For gene expression data of Alzheimer’s disease, clustering tendency of feature sets is evaluated. Then, algorithm of improved hierarchical clustering with parameterδis described. References before establish computing method of parameterδ, respectively. Thus, two improved hierarchical clusterings with parameterδassigned different value are compared and clustering measure named silhouette coefficient is computed, respectively.

hierarchical clustering; threshold; gene expression data

2014-10-16

中國航空科學基金(2012ZD11)

O242.1

A

1001-8395(2015)06-0925-05

10.3969/j.issn.1001-8395.2015.06.025

*通信作者簡介:龐朝陽(1973—),男,教授,主要從事基因計算與量子力學的研究,E-mail:cypang402@126.com

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 久久精品无码中文字幕| 欧美成人手机在线观看网址| 99re在线观看视频| 国产成人综合网在线观看| 熟妇丰满人妻| 97超爽成人免费视频在线播放| 国产99在线| 国产性生交xxxxx免费| 欧美中文字幕在线视频| 无码在线激情片| 午夜精品一区二区蜜桃| 欧美精品影院| 四虎国产精品永久一区| 91麻豆国产视频| 日本欧美视频在线观看| 小说 亚洲 无码 精品| 国产精品亚洲一区二区三区z | 人妻一本久道久久综合久久鬼色| 91精品国产一区| a毛片在线免费观看| 欧美人人干| 国产精品女主播| 一级看片免费视频| 99精品视频九九精品| 久久久久人妻一区精品色奶水 | 无码精品一区二区久久久| 久久熟女AV| 国产99精品视频| 一区二区三区四区日韩| 四虎永久免费地址| 亚洲欧美日韩高清综合678| 亚洲第一网站男人都懂| 国产成人精品无码一区二| 一级毛片基地| 色婷婷电影网| 久久综合五月| 免费毛片视频| 精品视频在线观看你懂的一区| 亚洲三级片在线看| 亚洲三级a| 在线免费无码视频| 久久综合色视频| 中国国语毛片免费观看视频| 午夜国产精品视频黄| 久久精品这里只有国产中文精品 | 最新国产麻豆aⅴ精品无| 欧美亚洲另类在线观看| 日韩区欧美区| 亚洲av无码久久无遮挡| 成人福利在线视频| 亚洲一区二区日韩欧美gif| 国产免费久久精品99re不卡| 青青热久麻豆精品视频在线观看| 免费观看精品视频999| 色悠久久久| 国产精品人成在线播放| 色九九视频| 国产乱人激情H在线观看| 黑人巨大精品欧美一区二区区| 欧洲亚洲欧美国产日本高清| 无码区日韩专区免费系列| 99热亚洲精品6码| 制服丝袜一区| 欧美精品色视频| 美女国产在线| 一级高清毛片免费a级高清毛片| 久久婷婷国产综合尤物精品| 高清欧美性猛交XXXX黑人猛交| 噜噜噜久久| 欧美精品亚洲日韩a| 漂亮人妻被中出中文字幕久久| 九色在线观看视频| 欧美人在线一区二区三区| 亚洲欧洲日本在线| 香蕉久人久人青草青草| 欧美不卡视频一区发布| 中国国产一级毛片| 亚洲精品无码在线播放网站| 亚洲欧美国产五月天综合| 国产在线精品人成导航| 国产在线精彩视频论坛| 日本欧美视频在线观看|