馬清珠,季 昆 ,王 焱*
(1.聊城市人民醫院 消化內科,山東 聊城 252000;2.聊城市人民醫院 呼吸內科,山東 聊城 252000)
胃癌是最常見的惡性腫瘤之一,在全球范圍內疾病致死率排名中胃癌排名第三位[1]。我國是胃癌的高發國家,胃癌的發病率高于世界平均水平。胃癌的惡性程度高,侵襲性強,據統計胃癌的五年生存率僅為10%[2]。胃癌的發生發展是一個長期復雜的過程,多種因素共同作用才導致其形成。目前,胃癌相關的一系列風險因子已經被研究者們發現,比如:飲食習慣、病毒病菌感染等。此外,越來越多的研究發現,遺傳因素也是胃癌發生的一個重要風險因素,通過影響細胞進程從而導致胃癌的發生。但是胃癌的致病過程非常復雜,目前其致病機制還未能尚未研究透徹[3]。因此,迫切需要尋找到有效的胃癌生物標記物,為胃癌的診斷和治療提供有效的靶點。傳統的生物學研究往往僅以單個分子為研究對象,雖然這種研究在分子水平上揭示疾病的致病機制作用顯著[4-5]。但是在復雜致病機制的研究中,不僅需要了解單個分子對疾病的影響,還要分析這些分子間是如何相互作用、相互影響的,從而全面的了解疾病的發生機制。現階段的研究發現很多蛋白編碼基因如:FGFR2、APC、CASP10、IRF1等均為已知的胃癌致病基因,這些編碼基因在腫瘤患者中不但異常表達,甚至會影響患者的預后[6-8]。目前研究發現微小非編碼RNA(microRNA, miRNA)可以調控mRNA,抑制mRNA表達或者降解mRNA[9]。長非編碼RNA(Long non-coding RNA, lncRNA)可以作為miRNA“海綿”吸附miRNA,使得miRNA對靶基因的抑制減小,間接調控mRNA表達升高[10-11]。本研究的樣本是從加利福尼亞大學圣克魯斯大學(UCSC)xena數據庫中下載的mRNA、miRNA、lncRNA表達數據以及臨床數據,通過miRNA調控mRNA/lncRNA關系數據結合三者的共表達關系,識別出lncRNA-miRNA-mRNA三元組,不同的三元組相互關聯形成胃癌相關的共表達網絡,從網絡中篩選出已知致病的且差異表達胃癌相關基因關聯的lncRNA,識別出新的生物標記物,并且分析三元組關系對患者預后的影響。
本研究中的所有樣本表達數據均從加利福尼亞大學圣克魯斯大學(UCSC)xena(https://xenabrowser.net)的數據庫中下載。共407個樣本,其中胃癌樣本375個,正常樣本32個。所有樣本都檢測了mRNA、miRNA、lncRNA的表達數據,均使用Illumina Hiseq 高通量測序平臺,其中mRNA和lncRNA的表達數據為基因的Reads count值,miRNA的表達數據為Log(Reads count+1)值。使用Ensembl[12]數據庫內的ENSG ID和基因類型對應關系數據,將mRNA和lncRNA的表達進行區分。使用miRBase[13]數據庫將miRNA數據的ID對應為成熟miRNA名稱。所有的患者樣本均包含樣本的生存狀態、總體生存、性別、年齡及腫瘤病理學狀態等信息。miRNA和mRNA/lncRNA的互作信息來源于RNA互作數據庫ENCORI[14],數據庫包含超過2 500 000條miRNA-mRNA互作關系,1 100 000條miRNA-lncRNA互作關系。已知胃癌(Gsatric cancer)相關的編碼基因來源于MalaCards[15]數據庫,共有296個基因和胃癌相關,本次研究選取關系最緊密的31個基因進行接下來的分析。
為了全面的研究胃癌相關編碼基因受哪些非編碼基因的調控,不僅需要整理收集疾病已知基因,也需要整合胃癌差異表達基因。本研究通過胃癌數據篩選出差異表達的編碼基因,使用R包edgeR[16]分析mRNA的差異表達情況,錯誤發現率(False discovery rate, FDR) , 腫瘤樣本和正常樣本差異倍數(Fold change, FC) 。然后使用DAVID對差異表達的胃癌相關基因進行生物學功能富集分析,顯著的功能富集結果如圖1所示。

圖1 差異表達基因功能富集分析結果Fig.1 Functional enrichment of differentially expressed genes
mRNA和lncRNA共同競爭miRNA形成互作三元組。首先提取所有已知基因和篩選后的差異表達基因互作的miRNA,根據提取后的miRNA篩選與其互作的lncRNA,得到潛在的三元組互作關系對。然后使用xena下載的表達數據進行三者的相關性計算,計算方法使用的是斯皮爾曼相關,選取P<0.01的miRNA與mRNA/lncRNA負相關(R<0)關系對以及mRNA與lncRNA正相關(R>0)關系對,這樣就從潛在的三元組中進一步計算得到了存在關聯關系的三元組。然后使用軟件Cytoscape 3.7.2進行三元組構建的網絡進行可視化。
根據得到的三元組關系對,得到多個連通的模塊。所有三元組關系對均為miRNA介導,通過miR2Disease、HMDD[17]數據庫以及文獻檢索,獲取已知胃癌相關miRNA,對模塊內的miRNA進行超幾何檢驗,找到檢驗結果顯著的模塊。超幾何檢驗公式如下:
(1)
公式中N為網絡內所有的miRNA數量,M為網絡內HMDD數據庫內獲取胃癌相關miRNA數量,n為模塊內miRNA數量,k為模塊內胃癌相關miRNA數量,模塊的顯著性按照P值由小到大進行排序。
分析使用R語言進行,在分析過程中使用的R包分別為:ggplot2、edgeR、TCGAbiolinks、forestplot、clusterProfiler、pheatmap、survival。使用患者的基因表達的高低,將樣本分為兩組。使用Kaplan-Meier 曲線和log-rank檢驗來評估兩組患者生存時間的差異。
收集整理目前研究已經證實的胃癌相關基因以及胃癌表達譜內顯著差異表達的基因作為候選的疾病相關基因,從MalaCards數據庫獲得了31個目前研究最為重要的基因,包括FGFR2、APC、CASP10、IRF1等在胃癌發生發展中起作用的關鍵基因。根據下載數據的樣本編號,把疾病和正常樣本進行分類,使用R軟件的edgeR方法對375個疾病樣本和32個正常樣本進行差異表達分析,共分析了22 686個編碼基因,根據設定的差異基因型篩選尺度,獲取了237個顯著差異表達的基因,其中上調的基因95個,下調的基因142個。將得到的差異表達基因進行聚類,如圖2所示,從聚類結果上可以看出,差異表達基因可以有效的將正常和疾病樣本區分開。

圖2 差異表達基因熱圖及火山圖Fig.2 Heatmap and volcano plot of differentially expressed genes
基于RNA互作數據庫ENCORI(https://starbase.sysu.edu.cn/index.php),篩選出miRNA和mRNA/lncRNA的互作關系對,然后對已疾病相關基因同miRNA關系對、miRNA和lncRNA關系對、共享miRNA的mRNA和lncRNA關系對進行相關性計算,共計算了2 201對miRNA和mRNA/lncRNA的相關性,獲得了顯著負相關的關系對279條,2 615對mRNA和lncRNA的相關性,獲得了顯著正相關關系對1 220條。整合以上顯著的關系對,保留能形成互作三元組的關系對,最終共得到包含146條關系對的三元組網絡,網絡內包含32個mRNA,40個miRNA,44個lncRNA,如圖3所示。

圖3 胃癌相關mRNA-miRNA-lncRNA共表達網絡Fig.3 Co-expression network of mRNA-miRNA-lncRNA
由三元組關系對構建的網絡并不是全連通的網絡,本研究想識別出哪些小的獨立的模塊是胃癌相關三元組網絡中最為重要的模塊,哪些三元組關系對在模塊中起到關鍵作用。模塊內所有的三元組關系對均通過miRNA介導,所以使用已知的疾病相關數據庫,對每個模塊內的miRNA進行統計學顯著性檢驗,已知胃癌相關miRNA越能顯著富集在模塊內,那么模塊越可能在胃癌的發生發展中起到關鍵作用。三元組互作關系網內共40個miRNA,其中7個是已知胃癌相關基因,對每個模塊進行超幾何檢驗,通過檢驗結果發現,9號模塊結果最為顯著(P=0.02)。繼續分析里模塊內唯一的編碼基因BGN,發現在很多研究中已經發現了BGN在胃癌患者中的異常表達,在胃癌發生發展中起到重要作用[18]。但以往研究并未發現BGN表達異常的原因,本研究認為BGN高表達的原因是與其形成三元組的lncRNA吸附了抑制BGN表達的miRNA,從而導致了BGN的高表達,lncRNA LINC01354和AC092279.1與BGN相關性如圖4所示 。胃癌患者中BGN顯著高表達,而且將胃癌患者通過BGN表達值高低分為兩組,高表達患者的預后顯著低于低表達的患者,如圖5所示。

圖4 BGN與lncRNA LINC01354、AC092279.1相關性Fig.4 Correlation between BGN,lncRNA LINC01354,and AC092279.1
在過去的十幾年中,已經發現了miRNA和lncRNA能在人類的癌癥中其關鍵作用,而且與癌癥的發生發展密切相關[19]。miRNA是最著名的非編碼RNA,它參與調控編碼基因的表達,主要是參與降解mRNA或者抑制其表達,從而削弱相應編碼蛋白的功能[20]。近年來另一個非編碼RNA,lncRNA的研究也越來越多,lncRNA是一種長度大于200 bp的非編碼RNA,隨著研究的不斷進展發現了lncRNA的功能范圍很廣,最為研究人員所認可的是lncRNA通過miRNA介導與mRNA互作,調控mRNA的表達,這種相互競爭關系的互作的發現,為研究者發現新的癌癥生物標記物提供了幫助[21-22]。作為人類最為常見的實體腫瘤之一,胃癌的發病機制的研究還不清晰[23],盡管研究者們大量的研究已經很大程度改善了疾病的治療效果,但是對于晚期的胃癌患者預后還是很差[24]。胃癌早期不易被發現,因為早期沒有顯著癥狀出現,多數患者在出現厭食、消化不良、腹痛的時候才會進一步進行醫學檢查,一旦確診為胃癌,大部分已經是胃癌中晚期,這時候胃癌已經開始快速發展了。胃癌能夠得到更好的治療的前提是清晰的了解胃癌的致病機制,只有明確了胃癌發生發展的詳細分子機制,才能找到更好治療方案,調整最優的治療策略,才能幫助研發出更適合的藥物[3]。
本研究中,從胃癌已知的疾病相關編碼基因以及差異表達基因出發,找到在轉錄過程中能調控這些重要的胃癌基因表達的miRNA以及lncRNA,lncRNA通過"吸附"miRNA,從而使得miRNA對mRNA的抑制能力減弱,導致mRNA的表達上升。致癌基因的高表達以及抑癌基因的低表達都是胃癌發生發展的原因,在本研究中發現了23個mRNA-miRNA-lncRNA三元組關系對模塊,通過進一步分析,發現第9組模塊是研究結果中最為顯著和胃癌相關的,同時也發現了,這個模塊中的核心基因在胃癌患者中顯著高表達,而且在胃癌患者中,表達值越高的患者預后越差。在這一模塊中所有的miRNA都是以往研究已經發現的胃癌相關miRNA,基于研究發現的這一模塊結構,本研究認為lncRNA LINC01354和AC092279.1很可能在胃癌發生發展中扮演了重要的角色,是新的潛在的生物標記物。研究發現了多個三元組關系模塊,而且多個模塊內包含目前研究已知的疾病相關非編碼RNA,比如lcnRNA MALTA1及MEG3[25-26],諸多研究中已經發現這兩個基因的異常表達影響胃癌患者的預后,在本研究的模塊內,這兩個lncRNA也是模塊內的核心基因,在模塊中起到關鍵作用。通過這些已知的胃癌相關lncRNA調控的mRNA也可能在胃癌致病過程中起到關鍵作用,希望在后續的研究中繼續驗證。
本研究從胃癌已知的疾病相關編碼基因以及差異表達基因出發,構建了胃癌mRNA-miRNA-lncRNA三元組關系組成得ceRNA調控網絡,通過對網絡的挖掘,識別出與胃癌發生發展相關的調控lncRNA。LINC01354和AC092279.1很可能在胃癌發病機制中發揮了重要的調控作用,是新的潛在的生物標記物。
mRNA-miRNA-lncRNA三元組關系對構建的模塊能夠影響胃癌患者的預后,為以往研究中無法解釋的胃癌患者中mRNA表達異常提供了一種理論依據。但本研究仍有不足之處,沒能整理完整的胃癌相關lncRNA,沒有從其它角度繼續對三元組關系加以驗證。后續計劃將包括疾病相關非編碼RNA信息在內的所有的疾病相關信息進行整合,并且將胃癌數據進行分型,研究不同亞型的胃癌患者相關的三元組關系模塊,以及重要的調控基因,為胃癌治療方法提供研究基礎。