黃秀娜,鄺振展,張 蓉,張志英,程 琰
轉錄組學研究可以從整體水平了解研究對象的基因結構和基因功能,揭示特定生物學過程及疾病發生過程中的分子機制[1-5]。轉錄組高通量測序技術目前已經成功應用于多種細胞的研究,如人原發性骨髓間充質干細胞和人原發性真皮成纖維細胞經轉錄組高通量測序分析,得到二者間不同的分子特征和差異表達的關鍵轉錄因子,為骨髓間充質干細胞和真皮成纖維細胞的鑒別提供依據[6];弓形蟲感染的腫瘤細胞經轉錄組測序技術發現,與結直腸癌、非小細胞肺癌及乳腺癌信號通路相關基因均發生了變化,提示這種變化與腫瘤的發生發展密切相關[7]。骨髓紅系細胞成熟分化是一個持續的多階段過程,包括造血干細胞依次定向分化為紅系祖細胞、原紅細胞、早幼紅細胞、中幼紅細胞和晚幼紅細胞等多個過程,在某些致病因素作用下,紅系造血細胞有可能失去分化為成熟紅細胞的能力,造成細胞發育停滯從而引發疾病[8-9]。目前,深入研究骨髓紅系細胞成熟分化過程已成為國內外研究熱點。本研究利用轉錄組學技術分析骨髓紅系細胞分化成熟過程中基因表達情況,探討其變化規律,豐富骨髓紅系細胞轉錄組數據庫信息,為后續功能基因驗證及分子標志物篩選提供依據,也為骨髓紅系細胞分化成熟時基因表達調控機制研究建立一定基礎。
1.1一般資料 健康人骨髓紅系細胞轉錄組測序原始數據來自于TCGA數據庫,數據由MAIGA等[10]上傳。本研究共導出14個樣本的轉錄組測序原始數據,將7個原紅細胞樣本(CD34+CD71+GlyA-)設置為對照組,編號為NC 1~7;7個幼紅細胞樣本(CD34-CD71-GlyA+)設置為實驗組,編號為Mature 1~7。
1.2測序數據的質量控制 從TCGA得到的原始數據,去除含有接頭的讀長(Reads)、低質量的Reads(包括去除N比例>10%的Reads及去除質量值Q≤10的堿基數占整條Reads 50%以上的Reads)后獲得高質量的Reads(Clean Reads),將Clean Reads與參考基因組進行比對,獲得在參考基因組或基因上位置信息和測序樣品特有序列特征信息。
1.3基因結構優化分析 使用GATK軟件識別潛在的SNP位點和InDel;采用ASprofile軟件獲取每個樣品存在的可變剪接類型及相應表達量;利用轉錄組數據對注釋不精確的參考基因組進行基因結構優化分析;基于所選參考基因組序列,使用StringTie軟件對Mapped Reads進行de novo拼接,并與原有的基因組注釋信息進行比較,尋找原來未被注釋的轉錄區,發掘該物種的新轉錄本和新基因,從而補充和完善原有的基因組注釋信息。
1.4統計學方法 應用SPSS軟件分析數據。使用相關性分析中的皮爾遜相關系數r作為生物學重復相關性的評估指標,當r越接近1,表明重復樣本相關性越強;使用FPKM作為衡量基因表達水平的指標,FPKM=cDNA片段數量/比對片段總數(106)×轉錄本長度(kb);使用分層聚類檢驗分析實驗組和對照組間基因表達模式的相似程度;使用Benjamini-Hochberg檢驗篩選差異表達基因,把差異倍數≥2且檢驗統計值FDR<0.01作為差異表達基因篩選標準。使用R語言的GOseq 軟件包對差異表達基因進行GO富集層次分析,使用KS檢驗作為GO富集Term統計方法,KS值越小說明富集越顯著。使用COG Pipeline軟件對差異表達基因進行COG功能富集分析。使用KOBAS軟件對差異表達基因進行KEGG通路富集分析,采用富集因子表示差異表達基因在KEGG通路中的富集水平,富集因子越大說明富集水平越顯著。
2.1骨髓紅系細胞轉錄組測序數據統計 經過質量控制,共得到65.12 Gb的高質量測序數據(Clean data),其中Clean Reads與參考基因組的比對效率為78.98%~82.48%,高質量堿基總數均>3 400 000 000,GC含量為40%~50%,Q30>89.86%,質量控制結果表明本研究14個樣本的轉錄組測序數據能夠滿足生物信息分析的需求。見表1。

表1 14個樣本轉錄組測序數據統計
2.2樣本重復相關性評估 不同個體的基因表達存在生物學可變性,而轉錄組測序技術不能消除這種可變性,為了檢測轉錄組測序數據的可靠性,可行相關性評估。圖1顯示樣本間的相關性結果和分層聚類分析結果,圖中方框顏色從紫色到綠色代表樣本間相關性r值從低到強,樹枝代表聚類支,聚在一起的為相似樣本。結果顯示,2組間r值均>0.9,并且層次聚類分析顯示2組間具有相似的表達模式,表明重復樣本具有很強的相關性。

圖1 各樣本之間的表達量相關熱圖
2.3差異表達基因的COG分析 COG數據庫功能是對基因產物進行直系同源分類。本研究中有1993個差異表達基因具有詳細的COG分類功能注釋,總共涉及細胞結構、細胞增殖、細胞代謝及生物合成等23個COG功能分類。一般功能注釋是最大的功能分類,含有797個差異表達基因,所占比例為28.33%;其次復制、重組、修復分類含有298個差異表達基因,所占比例為10.59%(圖2)。此外,骨髓紅系細胞成熟過程中的差異表達基因還涉及了信號傳導機制,轉錄,翻譯,核糖體結構與生物合成,次生代謝產物的生物合成、運輸和分解代謝等功能分類。

圖2 差異表達基因的COG功能分類
2.4差異表達基因的GO分析 有5161個差異表達基因具有功能注釋,在生物學過程、細胞組成和分子功能這3個大的功能類別方面均發揮作用,包含了11 696個功能亞類。對富集程度最為顯著的GO功能進行分析,發現在生物學過程方面,差異表達基因主要參與信號傳導調控,同時與轉錄過程、物質代謝途徑和蛋白質合成均有關聯;在細胞組成方面,差異表達基因主要參與組成細胞核、細胞膜、細胞器及細胞骨架;在分子功能方面,差異表達基因主要發揮蛋白間結合、蛋白酶活性及催化作用,這與差異表達基因參與轉錄和調控信號通路等生物學過程有關。見表2。

表2 差異表達基因的GO功能注釋
2.5差異表達基因KEGG功能注釋 基因間的相互作用對于生物體行使生物學功能有著非常重要的作用,為了鑒定在代謝或信號通路中顯著富集的基因,將差異表達基因映射到KEGG數據庫,結果顯示總共有2001個差異表達基因被注釋到286條KEGG Pathway中,其中差異表達基因注釋序列富集最顯著的10個基因分別是DNA復制、丙氨酸代謝、造血細胞譜系、凋亡、T細胞受體信號通路、FoxO信號通路、TNF信號通路、溶酶體、NF-κB信號通路、細胞因子受體相互作用。見表3。

表3 差異表達基因KEGG功能注釋
2.6骨髓紅系細胞成熟相關差異表達基因分析 對轉錄組測序數據進行差異表達基因分析,共篩選出5280個差異表達基因,其中上調基因2953個、下調基因2327個;有5273個基因注釋到Swiss-Pro數據庫上,|log2FC|>10的基因有58個,其中上調的有57個、下調的有1個,上調較大的基因包括SDC2、LGALS2、MAFB、HMOX1等,下調較大的基因包括ST6GAL2、CD34、FREM1、PKLR等。見表4。

表4 骨髓紅系細胞成熟相關差異表達基因
伴隨著轉錄組測序技術的不斷發展,科學家獲得了多種細胞和組織的轉錄組數據,如線粒體功能缺陷患者組織[11]及帕金森病患者的血液細胞[12],對許多疾病研究提供了豐富的分子理論依據。本文為獲得完整的骨髓紅系細胞的轉錄組數據,查閱了TCGA數據庫,發現MAIGA博士等上傳的健康人骨髓細胞轉錄組測序數據可能對本研究有所幫助。MAIGA博士對急性髓系白血病細胞、健康人骨髓細胞和源于臍血的CD34陽性細胞的轉錄組數據進行比對分析,發現一些在急性髓系白血病細胞中差異表達的G耦聯受體蛋白相關基因,譬如CCR1、CD97、P2RY2、LPHN1、F2R等[10],但對健康人骨髓細胞間的轉錄組數據缺乏進一步分析。基于此,本研究把骨髓細胞中原紅細胞和幼紅細胞樣本的原始轉錄組測序數據進行了重新整理和分析,共獲得65.12 Gb的Clean data,各樣本Clean data均達到3.45 Gb,Q30均≥89%,2組間r值均>0.9,表明本次測序數據量大,針對性高,重復樣本相關性強,保證了后續差異表達基因篩選結果的可靠性。
COG、GO及KEGG多種數據庫注釋結果顯示,差異表達基因主要功能有信號傳導機制調控、DNA復制、RNA轉錄、核糖體及蛋白質合成、物質代謝等,共同參與了骨髓紅系細胞的增殖、分化、成熟等生理過程。例如差異表達基因富集的FoxO信號通路參與了紅系細胞凋亡、細胞周期調控、抗氧化應激和葡萄糖代謝等多種生理活動,與紅系細胞的分化成熟具有密切聯系。
本文篩選的差異表達基因主要有MAFB、HMOX1、PKLR、CD34等。MAFB主要參與骨髓多能成體祖細胞向紅系細胞分化的負性調控,其在骨髓原紅細胞中表達下調可以增強原紅細胞的分化成熟能力[13],但具體調控機制仍需進一步研究。HMOX1是血紅素代謝的限速酶基因,可分解血紅素生成膽綠素、運輸一氧化碳和鐵,具有抗炎、抗氧化、抗凋亡和抗增生功能,在大部分組織中低表達,當細胞受到傷害性刺激時會過表達,該基因缺失會導致貧血、組織性鐵沉積、白血病等多種血液系統疾病[14]。骨髓幼紅細胞中HMOX1表達上調可能是紅細胞逐漸成熟、功能逐漸完善的標志。PKLR是紅細胞糖酵解的關鍵調節酶,其缺乏會使得紅細胞能量缺乏而過早地從循環中清除,導致遺傳性非球形細胞溶血性貧血[15-16],也有報道指出PKLR過度活躍可導致紅細胞代謝異常[17],骨髓幼紅細胞PKLR表達降低推測與維持紅細胞正常代謝相關。骨髓幼紅細胞中CD34基因表達降低,該基因可作為骨髓紅細胞成熟的標志物,且與CCR1相互作用共同參與細胞免疫炎癥反應[18]。另外,本文篩選的差異表達基因還有IGLL5、CCR1、CCL20、MYCT1、CALN1等,它們參與了紅細胞能量代謝、免疫黏附及細胞形態維持等多種生理活動[19-21],在紅細胞正常生理活動中發揮著重要的作用,然而這些篩選的差異表達基因具體的生理功能和胞內調控機制還有待進一步探索和研究。
綜上,本研究通過轉錄組學分析,發現了一些與骨髓紅系細胞成熟分化相關的基因,如MAFB、HMOX1、PKLR、CD34等,它們參與了體內紅細胞能量代謝、免疫黏附、體內物質運輸、糖酵解及細胞形態維持等多種生理活動,可作為骨髓紅系細胞成熟分化的標志物。通過發現骨髓紅系細胞分化成熟功能基因及對其在細胞中具體調控機制進行研究,有望為巨幼紅細胞性貧血等紅細胞疾病的治療與診斷提供幫助。