靳澤希,馮 芬,鄧曉銀,王維民,2
(1.甘肅農業大學,甘肅 蘭州 730070;2.甘肅省肉羊繁育生物技術工程實驗室,甘肅民勤 733300)
神經原相關的細胞粘附分子(neuro-related celladhesion molecule,NRCAM)是一種跨膜的細胞粘附分子,它有多種亞型,目前已經鑒定出的有20多種。NRCAM屬單基因家族,其不同亞型的形成是由單個NRCAM基因通過不同的轉錄、轉錄后加工、翻譯、翻譯后加工形成的。NRCAM屬于免疫球蛋白超基因家族[1-2],它是一種能介導細胞之間及細胞與細胞外基質間相互作用的糖蛋白,在細胞的識別及轉移、腫瘤的浸潤與生長、神經再生、跨膜信號的傳導、學習和記憶等方面均發揮一定的作用。神經細胞粘附分子在組織形成和細胞遷移以及神經突長出中起著重要作用,它還可以通過胞內區與細胞骨架蛋白或第二信使的結合參與信號傳導過程。例如,傳統的鈣粘素通過參與細胞極性建立、細胞增殖、軸突延長和聚集等基本過程,在動物細胞的形態中發揮著重要作用[3]。Zhou WB 等[4]發現,將周圍神經植入腦中幾天后,丘腦、紋狀體部位神經元直接朝向周圍神經移植物的方向生長,進入雪旺細胞柱中,而在雪旺細胞和神經元表面均有NRCAM的表達,表明NRCAM在神經的再生過程中擔當著重要角色。Doherty P等[5]對雞NRCAM基因的分析發現,NRCAM基因由內含子和26個外顯子組成,這26個外顯子的結構在不同的物種和屬之間是相當恒定的,但內含子是不同的。目前,人、家鼠、牛、狗、豬、綿羊、雞、兔子等動物的NRCAM基因序列均已經公布,但對其結構和功能的研究有待進一步研究。我們以生物基因組數據庫調取的綿羊NRCAM的序列為基礎,利用生物信息學方法對不同物種NRCAM基因及其編碼蛋白的理化性質、二級結構及多參數預測、蛋白質跨膜結構、信號肽預測、亞細胞定位和三級結構等進行了分析,以期為深入研究NRCAM基因及其編碼蛋白基本結構和生物學功能提供理論基礎。
數據來源于NCBI網站的GenBank數據庫[6],包括綿羊 (XM_027968593.1)、牛(NM_001206562.1)、人(NM_001193583.1)、家鼠(XM_017594291.1)、豬(XM_021063526.1)、狗(XM_014120801.2)、兔子(XM_00825 8357.2)和雞(XM_015280741.2)等 8個物種的mRNA序列。括號內為GenBank登錄號。
綿羊NRCAM基因開放閱讀框(Open reading frame,ORF)采用 NCBI的 ORF Finder程序分析,參照Kozak法則;NRCAM編碼產物的理化性質采用Bioedit及ExPASy分析軟件預測[7];亞細胞定位采用PSORTⅡ預測[8-9];蛋白潛在信號肽剪切位點預測采用Signalp 3.0軟件;跨膜螺旋區域的預測采用TMHMM程序;蛋白保守結構域分析采用Smart軟件。采用ProtScale進行蛋白親疏水性分析。二級結構采用Jpred分析預測。采用Swiss-model軟件分析蛋白三級結構多序列比對,同源性分析采用DNAMAN軟件。
通過圖1可以看出,綿羊NRCAM基因序列中有1條最大長度為3 648 bp的ORF,起始密碼子位于405 bp處,終止密碼子位于4 052 bp處,推測編碼1 215個氨基酸殘基。
蛋白質的基本性質包括其相對分子質量、氨基酸組成和等電點等[10]。對綿羊NRCAM基因編碼產物理化性質的分析表明,綿羊NRCAM基因編碼1 215個氨基酸殘基,其分子式為C5995H9389N1613O1830S32,分子質量為134 367.13 KDa,理論等電點pI為5.49。其氨基酸組成如圖2所示,其中含量最多的氨基酸是Leu(亮氨酸),所占比例為8.3%;含量最少的氨基酸是Cys(半胱氨酸),所占比例1.2%。負電荷殘基總數(Asp+Glu)為 148,正電荷殘基總數(Arg+Lys)為 121?;蚓幋a產物半衰期為30 h,不穩定指數為40.22,不穩定指數為40.22>40.00,可確定該基因編碼產物屬不穩定蛋白。
綿羊NRCAM基因對蛋白亞細胞的定位結果見表1??梢钥闯觯d羊NRCAM蛋白的亞細胞分布于細胞質的可能性為26.1%,分布于細胞核的可能性為17.4%,分布于囊泡分泌系統、線粒體的可能性均為13.0%,分布于高爾基體、內質網的可能性均為8.7%,分布于細胞骨架、細胞外及細胞壁、質膜的可能性均為4.3%。由此推斷,綿羊NRCAM基因的編碼產物主要在細胞質中發揮生物學作用。

表1 NRCAM編碼產物的亞細胞定位預測結果
從圖3、圖4可以看出,NRCAM在很多物種中都有表達,且綿羊與牛的NRCAM氨基酸序列同源性較高,這也說明它們在進化過程具有較近的親緣關系。NRCAM基因編碼產物同源樹證明,該基因的編碼產物在綿羊和牛上的同源性最高,達99%。
信號肽序列是存在于分泌蛋白基因編碼序列中、在起始密碼子之后的1段富含疏水氨基酸多肽的序列。通過檢測綿羊NRCAM蛋白潛在信號肽的存在情況可判斷該基因編碼的產物是否為分泌蛋白和跨膜蛋白以及跨膜蛋白的基本信息。從圖5看出,綿羊NRCAM基因編碼產物的C值、Y值和S值分別為0.474、0.580和0.929。推斷NRCAM基因的編碼產物包含信號肽,剪切位點位于29、30殘基處,屬于分泌蛋白。
用TMHMM2.0軟件分析的結果顯示,該基因編碼的蛋白有1段跨膜結構(圖6),其中1~1 074位氨基酸在細胞膜外,其余氨基酸在細胞質內。
由Smart軟件分析可知,綿羊NRCAM第59~130位、第283~347位、第373~439位、第467~532位和第558~623位氨基酸殘基存在IGc2區,第152~239位氨基酸殘基存在于IG區,第625~635位氨基酸殘基均為低復雜性區域,第647~730位、第747~830位、第846~937位和第952~1037位氨基酸殘基存在于FN3區,第1075~1 097位氨基酸殘基存在于跨膜區(圖7、表2)。

表2 綿羊NRCAM蛋白保守結構域分析數據
該基因編碼蛋白疏水性最大值為4.078(1 090位),最小值為 -3.022(790~791位),圖形的高峰值(正值)區域表示疏水的區域,而負值的“低谷”區域是親水區域。整條鏈中親水性氨基酸殘基多于疏水性氨基酸殘基。因此可推測該基因編碼的蛋白是親水性蛋白(圖8)。
通過Jpred軟件分析可知(圖9),綿羊NRCAM蛋白二級結構如下:α螺旋(Hh)、β折疊(Ee)、無規卷曲(Cc)分別占2.96%、42.13%、54.89%??梢钥闯鯪RCAM基因編碼的二級結構中無規卷曲占主導地位,其次是β折疊。
通過在線工具Swiss-model對綿羊NRCAM蛋白三級結構的預測和分析(圖10)可知,NRCAM基因編碼蛋白的三級結構與二級結構預測的結果一致,主要由無規卷曲和β折疊纏繞形成。
綿羊NRCAM基因含有1個最大長度為3 648 bp的ORF,編碼1 215個氨基酸殘基;亮氨酸所占比例最多,為8.3%,分子質量為134 367.13 KDa,理論等電點pI為5.49。NRCAM編碼的產物為不穩定性蛋白。NRCAM蛋白的亞細胞定位在細胞質的可能性最大,為26.1%。NRCAM基因在很多物種中都有表達,綿羊和牛在同源樹中同源性達到99%。NRCAM基因的編碼產物中包含信號肽,該蛋白是分泌蛋白。該基因編碼的蛋白有1段跨膜結構。NRCAM基因編碼的蛋白為親水性蛋白,親水性氨基酸殘基多于疏水性氨基酸殘基。綿羊NRCAM基因編碼產物的二級結構主要以無規卷曲和β折疊為主,三級結構主要由無規卷曲和β折疊纏繞形成。