仇建燁, 浦 琰, 朱 平
(江南大學 理學院 ,江蘇 無錫214122)
聚類分析是按確定的標準對客觀事物進行分類的數學方法。通過聚類可以區別不同的事物并認識事物間的相似性。聚類分析在很多領域有著廣泛應用,如文獻[1]對江西茶鮮葉重金屬狀況進行了聚類分析。然而由于現實的分類往往伴隨著模糊性,所以用模糊理論來進行聚類分析會顯得更自然,更符合客觀實際,這就是模糊聚類分析。隨著模糊理論的發展,模糊聚類分析得到了廣泛的應用。模糊聚類方法大致分成了3類:模糊等價矩陣動態聚類分析法[2]、模糊 C-均值聚類算法(FCM)[3-4]、基于攝動的模糊聚類分析法[5]。
p53基因是生物學領域中研究熱度最高的基因之一,是一種很重要的抑癌基因,p53基因是迄今發現與人類腫瘤相關性最高的基因。隨著p53的深入研究,p53家族成員自1997年來也不斷被發現。p63[6]和p73[7]與p53基因有較大的同源性,因而被認定為p53家族成員。和p53一樣,p63、p73也有誘導細胞周期阻滯和凋亡的功能等,但它們也有不同的結構和功能,深入了解它們彼此之間的相似性和差異將對理解腫瘤發生的機制產生重要的影響。
作者利用模糊鄰近關系對18條人類p53、p63和p73腫瘤蛋白mRNA序列進行分類研究。分析討論了不同類序列的組成結構和功能的差異。
我們知道,一個合適的分類應當滿足:1)自反性:任何一個對象必須和自己在同一類。2)對稱性:若對象u與對象v同類,則與也同類。3)傳遞性:若對象u與對象v同類,對象v與對象w同類,則u與w也同類。而滿足這3個條件的關系即是一個等價關系。模糊聚類分析則是根據模糊等價關系進行的。但是由于模糊等價關系中的傳遞性難于驗證,故轉而根據模糊鄰近關系的傳遞閉包來進行聚類。
選擇能夠描述 n 個分類對象{u1,u2,Λ,un}的 m個特征性指標 xij(i=1,2,Λ,n;j=1,2,Λ,m)。 要求個指標能夠很好地描述被分類對象的特征。
為了消除特性指標數量級不同的影響,需對特性指標進行規范化。這里用最大值規范化,如下:


構造模糊鄰近矩陣,就是要得到對象間的相似度。作者考慮到由于各個特性指標在確定對象相似程度時起不同作用,故確定各個指標的權重就有重要的意義。所以先用變異系數法先求得各指標的權值,其步驟如下:

在確定權值的基礎上定義了加權漢明距離及相似度,距離越大,相似程度越小。因此,我們建立如下的加權漢明距離:
定義1 用m個指標描述對象就得到m維指標向量,定義兩對象ui=(xi1,xi2,Λ,xim)和 uj=(xj1,xj2,Λ,xjm)之間的加權漢明距離為:

兩對象之間的相似度為:
液壓油管由于油壓變化頻繁和油溫高,致使管壁張弛頻繁,極易出現疲勞折損釀成事故。為有效延長液壓油管的使用壽命,最好是用細鐵絲燒成彈簧放入油管內作支撐。

這里 c和α 為常數,i,j=1,2,Λ,n。
由定義1即可以得到相應的模糊鄰近矩陣R=(rij)n×n。
由于由上述方法構造出的對象與對象之間的模糊鄰近矩陣R=(rij)n×n滿足自反性和對稱性,而不一定具有傳遞性,從而不一定是模糊等價矩陣。故必須由模糊鄰近矩陣R出發構造一個新的模糊等價矩陣,然后以此模糊等價矩陣作為基礎,進行動態聚類。模糊鄰近矩陣R的傳遞閉包t(R)就是一個模糊等價矩陣[8]。
利用平方自合成方法求出模糊鄰近矩陣R的傳遞閉包 t(R):

直至出現R2k=R2k+1,則 t(R)=R2k。


對于 ui,uj∈U,若ˉij(λ)=1,則在λ 水平上將對象ui和對象uj歸為同一類。當λ在[0,1]中取不同值時,相應的分類隨之改變,從而形成一個聚類圖。得到的模糊分類具有動態性,可根據不同的要求進行分類。
從GenBank數據庫里選取了人類p53腫瘤蛋白及其家族成員p63,p73mRNA序列共18條,編號分 別 為 NM_001126112.2,NM_001126113.2,NM_001126114.2,NM_001126115.1,NM_00112611 6.1,NM_001114982.1,NM_001114980.1,NM_00111 4978.1,NM_001114981.1,NM_001114979.1,NM_00 1204185.1,NM_001204186.1,NM_001204188.1,NM_0 01204187.1,NM_001204189.1,NM_001204192.1,NM_001204190.1,NM_001204191.1。 以所選序列為對象,分別給予變量名為 ui(i=1,2,Λ,18)。

表1 序列堿基比例Table 1 Base contents of sequences
2.2.2 數據規范化 對特性指標矩陣U作最大值規范化,得:

2.2.3 模糊鄰近矩陣 由變異系數法得到各指標的權值,表2為序列各堿基比例對應的權值。文獻[10]運用序列間的距離對序列做同源性分析,進而構建系統進化樹。可見用距離法能夠很好的表達序列間的相似程度。這里令c和α都為1,通過定義1計算得到序列的相似度,計算得到模糊鄰近矩陣R,見表3。
2.2.4 聚類 由于求模糊鄰近矩陣R的傳遞閉包t(R)計算量大,故用Matlab編程得到模糊等價矩陣t(R)=R16,見表 4。
選取閾值 λ,求出 t(R)的λ 截矩陣t(R)λ,然后按t(R)λ對對象進行聚類,結果見表 5。
具體的聚類結果如聚類圖見圖1。聚類圖給出了各λ值對應的分類,形成動態聚類,便于全面了解對象聚類。
當λ=0.951 59時,分為3類,第1類u1-u5為p53序列,第2類u6-u10為p63序列,第3類u10-u18為p73序列。雖然p53與p63和p73的同源比較高,如在DNA結合結構域p53與p63的同源性達到60%,與p73的同源性達到了63%。但從聚類的角度看,不在一類的基因在結構和功能上還是有差異的。

表2 各指標的權值Table 2 Weights of each index

表3 模糊鄰近矩陣Table 3 Fuzzy proximity matrix

表4 模糊鄰近矩陣的傳遞閉包Table 4 Transitive closure of fuzzy proximity matrix

表5 聚類結果Table 5 Results of clustering

圖1 序列聚類圖Fig.1 Diagram of sequences clustering
u1-u5基因序列中腺嘌呤A的平均比例為21.553 6%,鳥嘌呤G的平均比例為24.636 2%,胞嘧啶C的平均比例為27.6234%,尿嘧啶U的平均比例為26.186 8%,GC比例為52.259 6%。
u6-u10基因序列中腺嘌呤A的平均比例為28.321 6%,鳥嘌呤G的平均比例為21.107%,胞嘧啶C的平均比例為22.313 6%,尿嘧啶U的平均比例為28.258%,GC比例為43.4206%。
u11-u18基因序列中腺嘌呤A的平均比例為21.008 3%,鳥嘌呤G的平均比例為28.499 1%,胞嘧啶C的平均比例為31.932 1%,尿嘧啶U的平均比例為18.560 5%,GC比例為60.431 2%。
可見第2類、第3類GC比例與AU比例分界比第1類明顯。第1類、第3類GC比例比AU比例高,而第2類GC比例比AU比例低。這與各類基因的功能有一定的關系。
p53基因定位于染色體17p13.1,p63基因定位于染色體 3q27-29,p73定位于染色體 1p36.2-1p36.3。第 1類序列 u1-u5定位于人類染色體17p13.1,第2類序列u6-u10定位于人類染色體3q28,第3類序列u11-u18定位于人類染色體1p36.3。
各類基因的功能的相同與不同之處見表6(引自文獻[11])。

表6 p53,p63和p73的功能比較Table 6 Comparisons of function between p53,p63 and p73
從表6可以看出,由于與p53具有同源性很高的DNA結合位點,可以確定p63和p73有轉錄因子活性的作用,能夠誘導細胞凋亡[12]。
p63和p73在細胞發育過程中起關鍵作用,而p53沒有此功能;p53會被腫瘤病毒抑制,而p63和p73不會被瘤病毒蛋白抑制;p53能被細胞外刺激信號活化,p63有沒這功能則未知,而有一些p73可以;p53可以被MDM2抑制,p63能否被MDM2抑制還未確定,p73不能被MDM2抑制;而在抑制腫瘤方面,p53是抑癌基因,對于p63是否有抑制腫瘤的功能還未被認定,p73有一定抑制腫瘤功能,但能否被定義為抑癌基因還需要進一步研究。
從組成結構和功能看,此分類較為合理,我們可以在已知一些基因結構和功能的情況下,運用此模糊聚類的方法對其它一些未知基因功能進行預測,有一定生物學意義。
如今癌癥對人類的健康威脅很大。在人類50%以上的腫瘤組織中均發現了p53基因的突變,如大腸癌、乳腺癌、胃癌、肺癌等[13-16],一旦p53發生突變就可能致癌,所以對它的深入研究尤為重要。而作為p53家族成員,p63和p73同樣有轉錄因子活性的作用且能夠誘導細胞凋亡,然而是否具有抑制腫瘤功能還未確定,所以對于p63和p73更廣泛與深入的研究可以幫助理解其在發育及腫瘤中的作用,有利于加深對整個p53家族的了解,為腫瘤的基因治療和抗腫瘤藥物的研發提供技術支持。
[1]熊春紅,曹芳,涂北平,等.江西茶鮮葉中重金屬狀況多變量分析[J].食品與生物技術學報,2012,31(1):55-60.XIONG Chun-hong,CHAO Fang,TU Bei-ping,et al.Multivariate analysis of heavy metals in fresh tea leaves from Jiangxi province[J].Journal of Food Science and Biotechnology,2012,31(1):55-60.(in Chinese)
[2]Liang G S,Chou T Y,Han T C.Cluster analysis based on fuzzy equivalence relation[J].European Journal of Operational Research,2005,166(1):160-171.
[3]Hung C C,Kulkarni S,Kuo B C.A new weighted fuzzy C-Means clustering algorithm for remotely sensed image classification[J].IEEE Journal of Selected Topics in Signal Processing,2011,5(3):543-553.
[4]Kang J Y,Min L Q,Luan Q X,et al.Novel modified fuzzy c-means algorithm with applications[J].Digital Signal Processing,2009,19(2):309-319.
[5]He Q,Li H X,Shi Z Z,et al.Fuzzy clustering method based on perturbation[J].Computers&Mathematics with Applications,2003,46(5-6),929-946.
[6]Yang A,Kaghad M,Wang Y,et al.p63,a p53 homolog at 3q27-29,encodes multiple products with transactivating,deathinducing,and dominant-negative activities[J].Molecular Cell,1998,2(3):305-316.
[7]Jost C A,Marin M C,Kaelin W G J.p73 is a simian [correction of human]p53-related protein that can induce apoptosis[J].Nature,1997,389(6647):191-194.
[8]羅承忠.模糊集引論(上冊)[M].北京:北京師范大學出版社,1989.
[9]唐旭清,方雪松,朱平.基于模糊鄰近關系的結構聚類[J].系統工程理論與實踐,2010,30(11):1986-1996.TANG Xu-qing,FANG Xue-song,ZHU Ping.Structural clusters based on fuzzy proximity relations[J].Systems Engineering –Theory&Practice,2010,30(11):1986-1996.(in Chinese)
[10]王偉,仇建燁,朱平.基于進化樹理論的甲型流感病毒血凝素同源性及進化分析[J].工程數學學報,2012,29(4):507-514.WANG Wei,QIU Jian-ye,ZHU Ping.Influenza virus A hemagglutinins homology and evolution analysis based on the evolutionary tree theory[J].Chinese Journal of Engineering Mathematics,2012,29(4):507-514.(in Chinese)
[11]Lohrum M A,Vousden K H.Regulation and function of the p53-related proteins:same family,different rules[J].Trends in Cell Biology,2000,10(5):197-202.
[12]Allocati N,Dillio C,De L V.P63/p73 in the control of cell cycle and cell death[J].Experimental Cell Research,2012,318(11):1285-1290.
[13]Lopez L,Oliveira L P,Tucci P,et al.Different mutation profiles associated to P53 accumulation in colorectal cancer[J].Gene,2012,499(1):81-87.
[14]Dookeran K A,Dignam J J,Ferrer K,et al.P53 as a marker of prognosis in African-American women with breast cancer[J].Annals of Surgical Oncology,2010,17(5):1398-1405.
[15]Ji F,Jin X,Jiao C H,et al.FAT10 level in human gastric cancer and its relation with mutant p53 level,lymph node metastasis and TNM staging[J].World Journal of Gastroenterology,2009,15(18):2228-2233.
[16]Feldser D M,Kostova K K,Winslow M M,et al.Stage-specific sensitivity to p53 restoration during lung cancer progression[J].Nature,2010,468(7323):572-575.