沈青松, 黃文佳, 呂玉龍, 王翼飛
(上海大學 理學院,上海 200444)
一種糖尿病動物模型基因芯片的聚類分析
沈青松, 黃文佳, 呂玉龍, 王翼飛
(上海大學 理學院,上海 200444)
建立一種基因表達譜的聚類分析模型,通過信噪比處理、聚類結果的分析比較、相應標記的尋找,為芯片數據的后續分析以及尋找差異基因提供一種有效的方法.對一種糖尿病動物模型的小鼠基因表達譜進行實際分析,獲取了有意義的結果,從而為糖尿病的快速和早期臨床醫學診斷提供有效的技術支撐.
基因表達譜;過程模型;聚類分析;差異基因
Abstract:Thispaper introduces a model of cluster analysis on the gene expression data.By processing signal-to-noise ratio,comparing the cluster analysis results and searching the corresponding markers,it offers an efficient method to post-analyze the gene exp ression data and discover different genes.Gene expression data of a diabetic mouse are analyzed,and significance of this analysis obtained,which facilitates technical support to rapid and early clinical diagnosisof diabetes.
Key words:gene exp ression profiles;p rocessmodel;cluster analysis;different gene
基因芯片,又稱 DNA芯片 (DNA chip)或 DNA微陣列 (DNA microarray),是隨著“人類基因組計劃”(human genome p roject,HGP)的實施而發展起來的一項新技術,可廣泛應用于基因序列分析、基因突變檢測、多態性分析以及疾病的基因診斷等許多領域[1-2].
目前,在發達國家糖尿病已經成為導致人口死亡的第四大疾病.資料顯示,全球糖尿病患者約 2億人,其中中國約有 5 000萬人受到糖尿病的困撓,患病率居世界第二位,并且以每天至少 3 000人的速度增加,每年增加人數超過 120萬[3],因此,糖尿病已經成為嚴重的公共衛生問題之一.由于高密度基因芯片實驗一次就能同時檢測出成千上萬個基因的表達,因此,該技術的出現為腫瘤及糖尿病等復雜性疾病的研究提供了一種新的實驗手段和研究方法,并為這類疾病的診斷與醫學治療提供了有效的技術支撐,現在已經引起了社會各界廣泛的重視.利用基因表達譜對腫瘤等復雜性疾病進行分類檢測正逐步形成生物信息學的一個重要研究領域.但由于基因表達數據存在維數高、噪音大、樣本數量小以及基因表達之間存在很大相關性等特點,深入而準確地挖掘DNA序列中蘊含的信息具有極大困難[4].自從Golub等以急性白血病基因表達譜數據為分類樣本,提出基于權重表決的基因選擇算法以來,許多機器學習方法被廣泛地應用于腫瘤等高通量數據的兩分類問題的研究.這些方法所做的主要工作就是降維、去噪和剔除冗余基因,目的就是提取信息基因 (即具有顯著特性或影響其他基因變化的基因)或抽取綜合屬性信息,并采用合適的聚類方法,最大限度地把具有相同或類似作用的基因聚類到一塊[4].
聚類分析方法把一個沒有類別標記的樣本集按照某種準則劃分成若干個子集 (類),使相似的或者具有相近性質的樣本盡可能歸為一類,而不相似的樣本盡可能分到不同的類中.然后,再對類中的數據進行分析與比較,看是否真的具有良好的聚類效果與生物學意義.
本研究以糖尿病動物模型Mouse C57BL6的小鼠基因芯片數據作為研究對象,相關數據下載于美國斯坦福大學 (http:∥smd.stanford.edu/cgi-bin/tools/display/listM icroArrayData.pl?tableName=publication).
本研究的目的是查明 CD4+T細胞在生長發育過程中非肥胖型糖尿病小鼠基因表達的變化情況.利用基因芯片基因表達分析中的胰腺淋巴細胞受體基因和正常小鼠在不同年齡的基因表達的比較,驗證了α-干擾素對正常小鼠和病態小鼠的不同影響,從而為推遲或者降低小鼠糖尿病的發病、增強小鼠抵抗能力等,作出了相應的分析與闡述.
本研究的聚類分析問題的關鍵是:①如何根據基因表達譜,從基因空間中選擇與糖尿病疾病有關的基因集合,或抽取有分類特征的綜合屬性;②如何根據信息基因或綜合屬性獲得好的聚類效果.
1.1 芯片數據聚類分析過程模型
由于基因芯片數據的聚類分析是模式分類識別方法在生物醫學領域的一個具體應用,因此,芯片數據聚類分析過程模型與模式分類識別過程模型具有相似性,主要分為基因表達譜數據獲取、基因表達數據預處理和歸一化、信息基因選擇或綜合屬性抽取、樣本聚類分析模型建立及測試與聚類結果評估.本研究得到的芯片數據聚類分析模型如圖1所示.

圖1 芯片數據聚類分析過程模型Fig.1 M odel of chip data cluster analysis processing
基因表達譜芯片數據的獲取是一個相當復雜的實驗操作過程,所得到的數據往往存在噪聲大、質量較低等現象,某些數據還不在同一量綱范圍.另外基因表達數據存在重復、缺失等現象,因此,要對基因表達譜芯片數據進行預處理和歸一化,這是在分析基因表達譜數據之前一個非常重要的環節[5].本研究所涉及的微陣列數據預處理工作主要有:
(1)采用樣本加權平均補齊基因表達數據.
(2)計算理想的非配對值 (ideal mismatch,IM),然后從完全配對 (perfectmismatch,PM)強度中減去 IM,對校正后的 PM進行對數轉換.
包含配對 (mismatch,MM)探針的原因是提供一個估計非特異性雜交和其他影響 PM的偏離信號的值.計算理想的非配對值共分三種不同的情況,具體計算公式見文獻[2].
當計算得到每個探針的 IM后,探針值為 Vi,j=PMi,j-IMi,j,對數轉換后的探針值 (p robe value,PV)為PVi,j=log2(Vi,j).
(3)經對數轉換后的值進行穩健性均數估計,然后進行反對數轉換,對信號值進行標準化.
1.2 基因選擇或綜合屬性抽取
由于基因表達譜中基因數量非常大,少則幾千,多則上萬,并且其中多數基因的表達與腫瘤無關,這為基因選擇和綜合屬性抽取帶來了很大困難,很難采用某一種簡單的方法完成這一任務.因此,通常要對原始數據進行基因篩選,所選擇的基因數量由實驗來確定,其數量選擇的合理性以及所選擇基因的聚類效果也由最終與腫瘤作用相關的基因來評估[6],主要方法如下:
(1)應用 t-檢驗 (t-test)與設定閾值相結合的方法,對從幾萬個數據中篩選出的幾千個基因數據進行聚類分析;
(2)應用信噪比方法 (signal to noise),本研究中的記分函數表示為

采用這些方法所選擇的基因相互之間仍存在高度相關性,還必須采取某種策略精選出聚類能力更強的具有差異信息的基因,并進一步剔除冗余基因.
1.3 樣本聚類分析模型建立
本研究對篩選出的基因號數據進行如下處理與假設規定.
(1)對原數據實驗組/對照組取對數值后得到的各時間節點的數據比值進行取值.若基因顯示存在 (prensent),則當比值 r≥1時 ,r取 1;當 -1 (2)對基因號進行對應的數據聚類分析處理:①對數據 (基因)進行大 (較粗糙)的聚類;②對步驟①得到的數據進行再次分類,使得顯著性變化的基因有更強的相似性;③利用計算機程序尋找到各時間點具有顯著變化的標記 (marker,具有顯著性變化的基因);④對尋找到的標記與信噪比散點圖進行對比分類,結合步驟①和②進行最終的聚類. 1.4 測試與聚類結果評估 聚類的相似程度與準確程度是評判聚類效果與性能的一個非常重要的指標,但不是唯一的評價指標.評價整個聚類性能的優劣還需要由聚類前的基因選擇或特征抽取過程是否具有生物學含義來判定[7-8]. 本研究把整個聚類過程是否具有生物學含義作為評判聚類結果是否優劣的另一個重要指標.一個聚類結果得到以后,是否影響腫瘤等復雜性疾病的作用時間點,應該給出可信度和聚類模型的過程,使實驗人員或醫務人員能夠對結果理解和信服[9-10]. 圖2 信噪比散點圖Fig.2 Scatter plot of signal to noise ratio 2.1 實驗結果 本研究使用芯片數據聚類分析模型方法對小鼠糖尿病細胞數據進行了預測和分析.從得到的上萬個數據中篩選出 6 916個基因,在利用信噪比方法處理以后,得到信噪比散點圖 (見圖2). 圖2說明基因的信噪比比值 90%以上都處于0~5之間,大于5的不到10%.本研究的芯片數據共分為 3個時間記錄點,分別為第 2周、第 6周、第 12周.之所以選擇這 3個時間點作為記錄點,是因為在這 3個時間點上,基因表達數據顯著性變化較為明顯.分別記錄下這 3個時間點所對應的信噪比比值,對以上 6 916個基因進行聚類分析,將其分為 8大類,得到的聚類結果分別為 146,1 458,2,718,820,485,2 816,471(各類中所含基因的數目). 本研究選取各組具有顯著性變化的基因表達譜的聚類結果進行比較分析,結果如圖3所示. 圖3(a)類中的基因表達值在第 2周、第 6周、第 12周 3個時間點都維持在一個上升變化較高的水平,這種類型的基因占 2.11%;圖3(b)類中的基因表達值在第 2~6周沒有太大的上升,而第 6~12周發生顯著性上升,這類基因占 21.08%;圖3(c)類中的基因表達值在第 2~6周一直保持在一個顯著性上升的狀態,而第 6~12周開始顯著性下降,這類基因占 0.03%;圖3(d)類中的基因表達值在第 2~6周顯著性上升,而第 6~12周基因表達值未發生明顯變化,這類基因占 10.38%;圖3(e)類中的基因表達值在第 2~6周由顯著性上升趨向于平穩,而第6~12周基因表達值未發生明顯變化,這類基因占11.86%;圖3(f)類中的基因表達值在第 2~6周顯著性下降,而第 6~12周基因表達值未發生明顯變化,這類基因占 6.94%;圖3(g)類中的基因表達值在第 2~6周未發生明顯變化,而第 6~12周基因表達值顯著性下降,這類基因占 40.72%;圖3(h)類中的基因表達值在第 2~6周顯著性下降,并趨向于平穩,而第 6~12周基因表達值未發生明顯變化,這類基因占6.81%. 圖3 聚類結果比較Fig.3 Compar ison of cluster results 對以上得到的聚類結果進行再次分類,留下第2周、第 6周、第 12周 3個時間點中至少有 2個時間點發生顯著變化的基因,剔除僅有 1個時間點發生顯著變化的基因.在 6 916個基因中,只留下 1 395個基因.這 1 395個基因在 8大類的基礎上又分成了17小類,每類的基因數分別為 146,342,2,66,50,198,33,19,51,365,41,2,9,9,21,18,23,這使得每一小類的基因在表達上具有更強的相似性. 本工作的研究對象 (基因)通過α-干擾素對小鼠的基因表達譜進行誘導,來識別第 2周、第 6周和第 12周的時間點上各基因表達譜的變化,最終確定是否由于這些基因表達譜的變化導致了小鼠糖尿病的發生與形成.通過以上聚類分析的方法,把發生類似顯著性變化的基因分在同一類中,為進一步的生物實驗與早期臨床實驗提供可靠的依據與技術支撐. 通過對所有的數據進行聚類分析處理,尋找到了標記 (見表 1). 表 1 聚類尋找到的標記Table 1 M arker s of cluster ing results 對表格 1中的 25個基因與分類結果進行比對,得到結果如下:屬于第 7小類的基因有 XM_134383,NM_018764,NM_145435;屬于第 12小類的基因有NM_175479,NM_007967;屬于第 13小類的基因有NM_028990,NM_146260,NM_178774,NM_145603,XM_484178,AK129101,NM_152839,J00453,NM_080560;屬于第 14小類的基因有 NM_146261,NM_021276,XM_127023,NM_145155,XM_489160,NM_139140,NM_009119,NM_010059,XM_129721. 按照之前聚類后得到的 8類結果進行分類,把基因號與注釋結果 (NCB I數據庫)相比對,其中基因NM_175479,NM_018764,NM_139140,NM_009119,NM_028990,NM_146260,NM_145603與小鼠糖尿病的發生與病變有直接或間接的關系[11].找到這些基因可為后續的生物學實驗研究提供了有用的科學依據,為進一步深入研究糖尿病疾病的形成機理,研發基因藥物提供重要的信息. 2.2 實驗結果比較 通過對以上差異基因的搜索查詢 (www.ncbi.nlm.nih.gov),由差異基因的功能注釋與分析,尋找到的差異基因的有效性達到了 88%,這比用一般的Gene Cluster軟件和 Treeview軟件的系統聚類(hierarchical clustering)方法和 K均值方法,無論是在精確度上,還是尋找到的差異基因的有效性上,都有明顯的提高.通過對照檢索比較,尋找到的基因都具有顯著的代表性與差異功能. 基因表達譜的聚類分析是基于實際問題的一種分析過程,因此對聚類結果的解釋也是一個非常重要的環節,這就涉及到聚類趨勢和聚類有效性等問題的研究.聚類分析過程模型是一個大的分析系統,只有系統中的各部分協調工作,才有可能獲得好的聚類分析結果[12].本研究所建立的芯片數據聚類分析模型對小鼠糖尿病發病的預測與控制就是一種有效的方法. 基于基因表達譜的腫瘤及糖尿病等復雜性疾病的聚類結果的檢測,一個關鍵問題就是基因選擇或綜合屬性抽取,但由于基因表達譜數據集的高維性和小樣本等特點,使得這個問題最為棘手.信息基因選擇算法或者綜合屬性抽取算法的優劣程度,除了根據其分類性能作為評估標準外,還沒有其他統一的評估準則來評判各種分類方法的優劣,希望能盡快指定一個合理的聚類方法評估體系[12].通過聚類分析的研究方法,本研究最后所篩選出的基因也是由基因性能來判斷,而沒有一個統一的標準來衡量聚類效果的好壞,因此,評判聚類效果一直未有統一的標準.而基于基因表達譜建立的聚類分析模型是一個非常有應用價值的工具,也是理論研究與實際應用緊密結合的嘗試,很有希望應用服務于醫學臨床實踐和醫學制藥等領域,使得預測醫學和個性化醫學成為可能[13]. 進一步的研究工作包括設計更有效的信息基因選擇算法以及研究聚類分析模型中參數的選擇等問題.同時,盡可能多地發現與糖尿病密切相關的標記基因,為糖尿病的快速和早期臨床精確診斷帶來幫助. [1] 王翼飛,史定華.生物信息學:智能化算法及其應用[M].北京:化學工業出版社,2006:221-243. [2] 李瑤.基因芯片數據分析與處理[M].北京:化學工業出版社,2006:162-180. [3] Hua Mei Information.2007年中國血糖儀市場研究報告[R].北京:北京富奧華美信息咨詢有限公司,2007:1-16. [4] EZZIANE Z. Applications of artificial intelligence in bioinformatics:a review [J]. Expert Systems with Applications,2006,30(1):2-10. [5] D’HAESELEER P.How does gene exp ression clustering work[J].Nature Biotechnology,2005,23(12):1499-1501. [6] YANG Y H,M ICHAEL J B,DUDOIT S,et al.Comparison of methods for image analysis on cDNA microarray data[J]. Journal of Computational and Graphical Statistics,2002,11(1):1-29. [7] KOKS S,FERNANDES C,KURRIKOFF K,et al.Gene expression profiling reveals upregulation of Tlr4 recep tors in Cckb receptor deficient mice[J].Behavioural Brain Research,2008,188(1):62-70. [8] ALON U,BARKA IN.Broad patterns of gene exp ression revealed by clustering analysisof tumor and normal colon tissues probed by oligonucleotide arrays[J]. Cell Biology Proc Natl Acad SciUSA,1999,11(96):6745-6750. [9] NAKAMURA T,FIDLER I J,COOMBES K R.Gene expression profile of metastatic human pancreatic cancer cells depends on the organ microenvironment[J].Cancer Reserch,2007(1):139-148. [10] YOO C K,LEE I B,VANROLLEGHEMA P A.Interpreting patterns and analysis of acute leukemia gene expression data by multivariate fuzzy statistical analysis[J].Computers and Chemical Engineering,2005,29(6):1345-1356. [11] L IQ,XU B H.Interferon-α initiates type 1 diabetes in nonobese diabetic mice[J].Proc Natl Acad Sci USA,2008,105(34):12439-12444. [12] 王樹林,陳火旺,王戟.基于基因表達譜的腫瘤分類研究進展[C]∥生物信息學中的智能計算理論與方法研究.合肥:中國科學技術大學出版社,2007:56-64. [13] TUSHER V G. Significance analysis of microarrays applied to the ionizing radiation response[J].PNAS,2001,4(9):5116-5121. (編輯:劉志強) Cluster Analysis on Gene Chips of a D iabetic An imal M odel SHEN Qing-song, HUANGWen-jia, Lü Yu-long, WANG Yi-fei O 235 A 1007-2861(2010)04-0409-06 10.3969/j.issn.1007-2861.2010.04.016 2009-03-27 國家自然科學基金資助項目 (30871341);上海市重點學科建設資助項目 (S30104);上海市教委重點學科建設資助項目(J50101) 王翼飛 (1948~),男,教授,博士生導師,研究方向為生物信息學.E-mail:yifei_wang@staff.shu.edu.cn
2 實驗結果分析與比較


3 結 束 語
(College of Sciences,ShanghaiUniversity,Shanghai200444,China)