于岸洲 彭冠華
摘 要:細胞骨架是細胞的重要結構之一,它在維持細胞形態、物質運輸與細胞分裂中都有重要作用。因為細胞骨架蛋白屬于高表達的蛋白,在植物中任何部位,都有表達。細胞骨架對植物的抗逆可能具有重要作用。本文利用大數據挖掘方法,通過聚類分析、主成分分析算法挖掘出兩個不同源細胞骨架基因具有相似的表達模式,初步得出這兩個基因在響應干旱脅迫中具有相似功能。
關鍵詞:細胞骨架基因;干旱脅迫;表達模式;聚類分析;主成分分析
中圖分類號:R96 文獻標識碼:A 文章編號:1671-2064(2018)14-0214-02
1 實驗背景介紹
細胞骨架是細胞的重要結構之一,它在維持細胞形態、物質運輸與細胞分裂中都有重要作用。細胞骨架中微絲與微管的聚合與解聚,二者分別結合不同的結合蛋白,具有不同的功能。所以,為了探究在植物的逆境生長中細胞骨架基因及其相關基因在逆境中的功能,我們在NCBI的Gene Expression Omnibus(GEO)Database數據庫中找到了GPL15008平臺做的Daytime soybean transcriptome fluctuations during water deficit stress(大豆轉錄組在白天的缺水脅迫下波動)的數據。將此數據下載后,于R軟件中轉換為TXT格式[2]。用于分析。該平臺通過用Illumina技術對36個cDNA文庫進行測序,鑒定了在大豆植物中差異表達的基因,以應答水缺乏和在一天的不同時期上調或下調的基因。在54,175個預測的大豆基因(Glyma v1.1)中,35.52%在24小時期間表現出表達振蕩。所以目標在于從Phytozome V11.0數據庫中找到已知的確定的編碼細胞骨架的基因,以這些已知基因為基礎,找到下載的數據中包含的這些已知基因。采用聚類分析的方法找出其他可能與這些基因有共表達途徑的基因。然后采用生物信息學方法進行基因功能的預測。
以表1中的Glyma.04g02390基因為研究對象,通過PhytozomeV11.0數據庫、文獻追蹤的方法總結出此基因編碼微管蛋白的相關蛋白(FtsZ蛋白)根據搜集的資料表明,該基因屬于FtsZ家族基因,Fts1Z基因編碼的蛋白能夠在原核細胞分裂時產生分裂環,在分裂環中微管之間發生相對滑動導致細胞縮。序列比較分析以及對FtsZ蛋白和微管蛋白三維結構的解析都顯示出二者在序列和結構上具有同源性。且FtsZ蛋白在不同物種中的功能都是保守的。
2 聚類分析
以該基因為參考對象,進行聚類分析:因為下載的數據是按照時間序列進行基因表達量的測量記錄。所以按照時間序列對數據進行了雙因素K值聚類[3]。聚類結果如下:
如圖1所示,紅色代表基因表達量上調;綠色代表基因表達量下調;黑色代表基因表達量穩定。圖中橫向聚類為Gene ID,縱向為處理時間的聚類。圖中黃色方框圈出的部分代表Glyma.04g02390基因在缺水處理下不同時間段的表達量情況。以大于0.9的相關性系數為篩選分類標準,表達情況相似的基因為Glyma.10g01940。首先,利用PhytozomeV11.0數據庫查詢以上基因的功能,發現Glyma.10g01940無已知功能。
在熱圖中發現,Glyma.04g02390基因在干旱處理后表達量一直下調,根據該基因的功能,猜想該基因下調導致了葉綠體含量的減少,通過這種途徑來應對干旱。當干旱脅迫時,該基因表達量下調,導致FtsZ蛋白合成減少,這樣導致了葉綠體分裂時無法產生合適的分裂環,分裂環中微管的相對滑動距離不足,導致葉綠體無法正常分裂。從而葉綠體數量減少。而保衛細胞中一般含有大量葉綠體,通過葉綠體光合作用利用CO2值升高pH,促使淀粉磷酸化酶催化淀粉轉化為葡萄糖-1-磷酸,細胞中糖分高,使得細胞中的水的相對濃度下降,從而導致水勢下降,水勢下降對水的吸收能力增大,細胞吸收水分,氣孔開放。當干旱脅迫時,FtsZ蛋白合成減少,葉綠體分裂受抑制,導致光合作用不足,CO2利用率低,不能產生足夠的糖分使得氣孔導度減小。以此減少水分流失。
另一方面,根據圖2中BLAST比對Glyma.10g01940與Glyma.04g02390的相似性不高,所以我判斷二者不具有同源性。聚類分析得知二者的差異表達方式及其相似,差異表達的相關性系數高,所以我猜想該基因可能具有Arc基因的功能。Arc基因源于擬南芥的FtsZ基因研究中的核基因突變體,該基因在正常情況下誘導葉綠體正常分裂,突變后導致葉綠體分裂數顯著下降。
3 啟動子的主成分分析
利用R語言做出主成分分析圖[1]:
周期相似的啟動子,能夠對相同的環境變化產生共同貢獻值的響應。所以由表2、表3以及圖3的主成分分析圖可以分析這是一類突變基因,可能在干旱響應中產生類似功能。后期應該增加篩選突變株的實驗,并將突變株置于干旱脅迫下處理一定時間觀測其葉綠體數目。
4 結語
盡管在Blast結果上Glyma.10g01940與Glyma.04g02390的相似性不高,所以判斷二者不具有同源性。聚類分析得知二者的差異表達方式及其相似,差異表達的相關性系數高,所以猜想該基因可能具有Arc基因的功能。在啟動子的主成分分析中兩個基因的啟動子都有相似功能的順式作用元件,且兩個啟動子相似的順手作用原件主要集中在相同正負極鏈上。所以兩個基因在響應干旱的表達模式上具有一定相似性。
參考文獻
[1]黃金國,劉濤,周先春,嚴錫君.基于可變粒度機會調度的網絡大數據知識擴充算法[J/OL].計算機應用研究,2019,(03):1-3[2018-03-10].
[2]鄭喬舒,岳淏偉,楊云鋒.基因芯片數據預處理方法(LnMR和RAln)的評估和比較[J].微生物學通報,2015,42(05):817-825.
[3]張聰.基于極限學習機的基因表達數據分類算法研究[D].中國計量學院,2014.