劉玉娟,郭思璇,劉珈宸,萬佳,吳春玲
(1.南昌市第一醫院,南昌 330006;2.南昌大學醫學院,南昌 330031;3.景德鎮市婦幼保健院婦產科,景德鎮 333099)
子宮內膜異位癥(endometriosis,EMs簡稱:內異癥)是具有生長功能的子宮內膜組織(腺體和間質)出現在子宮腔被覆內膜及子宮肌層以外的部位[1]。EMs是育齡期婦女常見病、多發病,在人群中的發病率10%~15%,近年呈上升趨勢,被稱為“現代病”;該病雖為良性疾病,卻有侵襲、轉移、復發等惡性表現,常引起痛經、不孕、慢性盆腔疼痛等,嚴重危害廣大女性的健康和生活質量,甚至被稱為“良性癌”[2]。目前子宮內膜異位癥的金標準治療方案是手術切除和激素抑制卵巢功能,然而由于其有不同的副作用,且復發率高,因此,尋找致病的關鍵基因及可能影響EMs發生、發展的潛在的機制顯得尤為重要。
EMs的發病機制復雜,其確切的發病機制至今尚不清楚。目前仍以“經血逆流種植”學說為主導,經血逆流發生在76%~90%的人群,但只有10%的人發生EMs。因此,有學者提出了“在位內膜決定論”[2],即不同人(EMs和非EMs患者)經血逆流的自內膜碎片能否在異地“黏附—侵襲—血管生成”,在位內膜是關鍵。鑒于異位癥的在位內膜的重要地位,本研究利用生物信息學技術,從開放的基因表達綜合數據庫GEO(Gene Expression Omnibus)中獲取子宮內膜異位癥在位內膜和正常人群的子宮內膜的全基因組表達芯片,通過挖掘參與內異癥發生發展的關鍵樞紐基因和信號通路,為尋找子宮內膜異位癥發病機制提供新思路,并為臨床診療提供新的標志物和靶點。
1.1 數據的獲得 在GEO數據庫(https://www.ncbi.nil.nih.gov/geo/)中,通過搜索關鍵詞“endometriosis”,獲得EMs的數據。納入標準:(1)來源于人類組織(Homo sapiens);(2)樣本包含EMs的在位內膜及正常人群的子宮內膜芯片;(3)數據集的所有樣品來源于Affymetrix人類基因組U133陣列芯片;(4)來自全基因組RNA表達芯片。排除標準:(1)排除子宮腺肌??;(2)來源于細胞系的標本;(3)基于非編碼RNA的研究。
1.2 差異表達基因(Differentially Expressed Genes,DEGs)的鑒定 從GEO數據庫篩選出的符合標準的數據集后,對數據集中病人信息進行逐一核對,并對病例組和正常對照組進行標注。使用GEO自帶的差異分析工具GEO 2R,分析每個數據集的差異表達基因。采用t檢驗,以P<0.05作為差異基因的入選標準,將3組數據集獲得的差異基因進行比較后,剔除表達趨勢不同的差異基因,得到共同的差異基因。選取表達趨勢相同的差異基因作為本文后續進行分析的差異基因。利用R軟件中heatmap包繪制了DEGs的熱圖。
1.3 蛋白—蛋白相互作用網絡 (protein-protein Interaction network,PPI)的構建與模塊分析 利用STRING(Search Tool for the Retrieval of Interaction Genes/Proteins)數據庫(https://string-db.org/),設定標準截值:置信度>0.4,構建差異基因編碼的蛋白間相互作用(PPI)網絡,以獲得深入理解和預測已鑒定的基因的細胞功能和生物行為。此外,利用Cytoscape軟件對PPI網絡進行了可視化[3]。
1.4 樞紐基因和關鍵模塊的選擇 使用CentiScaPe 2.1計算PPI網絡的各節點的點度中心性,根據節點的點度中心性的大小,確定了樞紐基因。節點的程度是節點上發生的平均(交互)數[4]。利用Cytoscape(version 3.6.1)中的分子復合檢測(Molecular Complex Detection,MCODE)插件對Cytoscape中PPI網絡的模塊進行篩選,取截斷度=2,節點得分截斷值=0.2,k-core=2,深度=100的標準下,得到一個MCODE_Score=10的PPI網絡最核心模塊。
1.5 將核心模塊基因進行KEGG通路分析KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因與基因組百科全書)是一個可以系統性地分析基因功能的數據庫,可以揭示差異表達基因的主要的代謝和信號通路。使用基于網絡的基因分析工具WEB-based GEne SeT AnaLysis Toolkit(http://www.webgestalt.org),對核心模塊中的DEGs進行KEGG富集分析,P<0.05為差異有統計學意義。
2.1 數據篩選 GEO數據集中共3個微陣列數據集符合標準。3個數據集分別是GSE25628、GSE 7305和GSE6364。子宮內膜異位癥患者的在位內膜定義為病例組,非子宮內膜異位癥的在位內膜定義為正常對照組。GSE25628包含9個病例和6個正常樣本,GSE7305包含10個病例和10個正常樣本,GSE6364包含21個病例和16個正常樣本。一共40個病例和32個正常樣本,見表1。

表1 所納入的數據集及樣本信息
2.2 差異表達基因的鑒別 通過對GSE6364數據集進行差異分析,得到3901個差異表達基因,其中有1194個基因下調,2707個基因上調(圖1-A);GSE7305數據集有12659個差異表達基因,其中有7156個基因下調,5503個基因上調(圖1-B);GSE25628數據有6541個差異表達基因,其中有2693個基因下調,3848個基因上調(圖1-C)。將三個數據集的差異表達基因進行求交集,共得到1010個共有的差異表達基因(圖1-D),剔除表達趨勢不同的差異基因,最后有279個穩定的差異表達基因,其中171個基因穩定上調,108個基因穩定下調,見表2。

圖1 GEO中三個數據集的差異基因鑒別及共同的差異基因

表2 上調和下調的差異表達基因
2.3 PPI網絡的構建與模塊分析 利用STRING分析DEGs的PPI網絡,結果如圖2-A。利用Cytoscape的MCODE插件獲得了最顯著的一個模塊,包括10個樞紐基因,其中SART1、PQBP1和CTNNBL1表達上調,SNRPE、HNRNPA1、WDR33、PAPOLA、PCF11、DDX5和PABPN1表達下調(圖2-B)。

圖2 DEGs的PPI網絡及核心模塊
2.4 對樞紐基因進行KEGG通路富集分析KEGG通路分析顯示,樞紐基因主要富集于剪接體通路,mRNA監測途徑,癌癥相關通路中的轉錄調控失調和蛋白聚糖通路,見圖3。

圖3 樞紐基因KEGG通路富集分析
子宮內膜異位癥發病機制不清,雖然是一種良性病,但在生物學上又有著類似腫瘤的特性—侵襲、轉移、復發,是一種“良性癌”[5]。大量證據表明,子宮內膜異位癥患者的子宮內膜具有別于正常子宮內膜的特性,在“黏附—侵襲—血管生成”方面均較正常子宮內膜強的生物活性,因此,又有了“在位內膜決定論”[2,6-7]。近年來隨著生物信息學的迅速發展,對揭示疾病的分子機制具有重要意義。其中基因芯片技術,又名微陣列技術(DNA array),是一項隨著“人類基因組計劃”實施而逐漸發展起來的新型技術,目前已被用于高效、大規模的生物信息的采集,廣泛地收集疾病的表達譜數據,廣泛應用于疾病的基因診斷與治療、藥物篩選和藥物開發等。
本研究通過生物信息學技術,從開放的公共數據庫GEO中,篩查并比較了異位癥患者的在位內膜和非內異癥在位內膜基因表達譜的差異,篩查出279個穩定的差異表達基因,包括171個穩定上調基因,108個穩定下調基因。這提示EMs的在位內膜與非EMs患者自身就攜帶某種致病基因,使得其更容易發生子宮內膜異位癥,從而在源頭上揭示內異癥患者在位內膜的“種子”效應。為了進一步明確差異表達基因功能,對279個差異表達基因進行PPI網絡的構建與模塊分析,得到功能最強的模塊,其包含10個樞紐基因,其中SART1、PQBP1和CTNNBL1表達上調,SNRPE、HNRNPA1、WDR33、PAPOLA、PCF11、DDX5和PABPN1表 達下調。這些樞紐基因可能為EMs的關鍵致病基因,可為疾病的診斷及靶基因治療提供了新的靶點。
對樞紐基因進行KEGG通路富集分析提示,剪接體通路是富集最強的通路。剪接體(spliceosome)是指進行RNA剪接時形成的多組分復合物,由5個小的核核糖核蛋白粒子(snRNPs)和超過100多個蛋白質組成的大分子結構[8],可以識別mRNA前體的5′剪接位點、3′剪接位點和分支點。mRNAs前體的剪接過程包括內含子的切除和外顯子結合在一起,形成成熟的mRNA轉錄本,最后被翻譯為蛋白質,這一過程是通過剪接體實現的。然而,和大多數生物過程一樣,選擇性剪接過程一旦出現異常,將導致疾病的發生,目前研究最多的是在癌癥[9-10]和自身免疫性疾病中[11]。剪接的失調參與腫瘤生物發生和發展,包括細胞增殖、細胞凋亡、侵襲、腫瘤轉移、血管生成和化學/放射治療耐藥性[12-13]。例如,調控細胞凋亡的關鍵基因Bcl-x有兩種剪接變異體,兩者在調節細胞凋亡方面功能相反。短亞型Bcl-xS促進細胞凋亡,而長亞型Bcl-xL抑制細胞凋亡。因此,Bcl-xL的過度表達與癌轉移及化療藥物的耐藥性風險增加有關[14]。顯然,剪接體影響腫瘤的發生發展。
然而,關于剪接體與子宮內膜異位癥的報道并不多。有研究表明,survivin有兩種剪接變異體(survivin-2B和survivin-EX3),剪接變異體的表達模式在惡性腫瘤中survivin-EX3占主導,在良性腫瘤中survivin-2B占主導。在內異癥患者中檢測到survivin及變異體的改變,且在腹膜子宮內膜異位病變的survivin-EX3/surviving比例明顯高于在位子宮內膜,反映了子宮內膜異位癥在生物學上有類似腫瘤的特性[15]。類似報道還有,雌激素受體β及其剪接變體[16]以及CD44變異體[17]的增加,均可影響子宮內膜異位癥的發生發展。
此外,對樞紐基因進行KEGG通路富集分析,還提示mRNA監測途徑和癌癥相關通路中的轉錄調控失調和蛋白聚糖通路與子宮內膜異位癥密切相關,然而這些通路同時也是癌癥的相關通路。由此可見,子宮內膜異位癥與腫瘤的發生有著共同的信號通路,這就解釋了,為什么EMs在“黏附—侵襲—血管生成”等方面均具有類腫瘤的惡性行為。
綜上,子宮內膜異位癥是一個多病因的疾病,其發病機制尚不明確。EMs的在位內膜在基因表達上有別于正常子宮內膜,是誘導EMs發生的根源,而其他的激素、免疫等因素只是影響內膜能否在異地生存的附加條件。本研究通過生物信息學分析鑒定子宮內膜異位癥關鍵樞紐基因和信號通路,提高了我們對子宮內膜異位癥的潛在分子事件和發病機制的理解,這對EMs的預測及基因靶向治療具有重要意義。