張 凱,劉玲玲2,薛鳳霞
子宮內膜癌(Endometrial Caner,EC)是全世界女性生殖系統中最常見的婦科惡性腫瘤之一,發病率逐年上升。美國學者預計2019年美國子宮內膜癌新發病例數將達61 880例,新發病率占生殖惡性腫瘤的21%,其中12 160例患者因罹患子宮內膜癌而死亡[1]。與其他實體腫瘤一樣,子宮內膜癌的發生、發展和轉移是一個多因素、多階段、涉及到多基因突變以及腫瘤微環境改變的復雜分子過程[2]。此外,EC的發生和發展與多種基因和細胞途徑密切相關。如Mirakhor[3]等人檢測了p53、Bcl-2和Bax等基因蛋白在EC中的表達量,用于對EC的危險分層的評估;Chen HX指出MAPK/ERK和PI3K/Akt信號通路也參與了EC的發生[4]。因此子宮內膜癌的發生、發展與基因之間存在著密切聯系。本文期望通過探究子宮內膜癌和基因之間的相互關系,幫助婦產科醫生更好地從分子生物學水平理解其發生、發展的機制,從而為子宮內膜癌篩選分子標志和靶向治療奠定基礎。
文本數據挖掘簡稱文本挖掘,指為了發現知識,從大規模文本庫中抽取隱含的、未知的、潛在有用的信息的模式過程。醫學文獻信息數量呈現階梯式增長,已超出了人們對信息處理及分析的速度,從而產生信息過載等問題。而生物醫學文本挖掘可通過計算機從生物醫學自然語言文本數據中提取出包括基因、蛋白、藥物、疾病等生物實體的信息,從而幫助醫學研究人員理解和認知整個生物網絡及生物體之間的關系,減輕他們的信息過載負擔[5-6]。
文本挖掘在文本數據方面展現的優勢使得越來越多的醫學研究者將文本挖掘和腫瘤研究相結合,通過文本挖掘從同類型的文本數據庫中提取相關的生物醫學文本,加強文本之間的脈絡化分析、可視化分析,找出潛在關系,以促進生物醫學的深入研究。如朱祥等[7]利用CoremineMedical工具尋找與白血病相關的基因,再通過對從PubMed中所獲的相關文獻的摘要進行分析,找出白血病和基因的相互作用關系;Luwei Wei等[8]通過生物信息技術和Coremine Medical文本挖掘工具證實了整合素α-6(ITGA6)與卵巢癌和多耐藥性有關,且為卵巢癌預后的潛在標志物;Kong Q[9]等利用BATMAN-TCM、SystemsDock、Coremine Medical等文本挖掘工具,確定了11種靶向基因/蛋白質、4種關鍵途徑和10種生物過程參與了使用吉馬酮、莪術二酮和呋喃二烯治療乳腺癌的作用機制。
目前常用的生物醫學文本挖掘工具有AliBaba[10]、Coremine Medical、BiolE、GeneWays[11]、GAPSCORE[12]、Chilibot、POSBIOTM/W、Suiseki等。文本挖掘工具系統一般包括文獻檢索模塊文本轉化、結構化模塊、自然語言處理模塊和文本挖掘模塊4個功能模塊,以滿足生物醫學文本挖掘的要求和任務。本文采用Coremine Medical、Chilibot等分析工具對子宮內膜癌和基因的作用關系進行挖掘分析,并利用UALCAN[13]在線工具對關鍵基因在子宮內膜癌組織中的表達水平做進一步驗證說明。
本文的研究工具包括Coremine Medical、Chilibot和UALCAN。
Coremine Medical是一個醫學本體信息檢索平臺,可完成基于本體語言、語義網絡、智能分析等技術支持檢索、分析和獲取,可尋求復雜主題概述和允許深入研究。其搜索結果會通過聚類重要生物醫學術語以圖像網絡的形式呈現,其中生物醫學術語包括醫學主題標題、基因本體論、制藥、草藥、化學、基因和蛋白質術語,而且涵蓋了各種類別的信息,如基本信息的來源、最新的發表的科學文章等。
Chilibot(chipliterature robot)[14]是一種能夠對基因和生物醫學實體之間共現關系進行挖掘的網絡程序工具,能夠在PubMed文獻數據庫(摘要)中搜索蛋白質、基因或關鍵詞之間的特定關系,挖掘基因與基因之間或基因與蛋白質之間的相互作用信息。與基于文章組織結果的PubMed界面相比,Chilibot直接呈現研究者正在尋找的關鍵信息,即包含兩個術語的句子。根據對文本的語言分析,這些句子被組織成不同的關系類型。此外,Chilibot所特有的基因關系拓撲網絡能夠揭露基因和蛋白質、藥物等醫學實體之間隱含的潛在關系,為醫學推斷提供一定的假設基礎。
UALCAN是一個全面的、用戶友好的交互式門戶資源網站,可對癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)中的基因組數據的基因表達進行深入分析。它基于PERL-CGI構建,具有使用javascript和CSS的高質量圖形。UALCAN數據門戶提供的鏈接可快速訪問GeneCards的寶貴資源。
本文以子宮內膜癌(Endometrial cancer)為研究對象,通過Coremine Medical 系統找到與子宮內膜癌關聯程度較高的基因,再利用Chilibot系統得到的子宮內膜癌與幾種基因的相互作用結果進行人工分析,最后利用UALCAN在線工具驗證子宮內膜癌和關鍵基因的關系。
在Coremine Medical數據庫中,以子宮內膜癌“Endometrial cancer”為主題詞進行檢索,結果如圖1所示。圖1中左側為子宮內膜癌與各類別詞的共現關系可視化圖,右側為各類詞列表選項卡。
本文選擇的基因蛋白卡顯示出了與子宮內膜癌關聯強度大的5個目標基因,即MLH1、MSH2、MSH6、PTEN、PMS2,圖1中深藍色格子越多,表明其顯著性越強。
2.2.1 子宮內膜癌和MLH1之間的相互作用關系
對子宮內膜癌“Endometrial cancer”和MLH1展開關聯分析。用Chilibot分析從PubMed檢出的301篇文獻中100條最新的摘要,經過文本去重處理得到23個相互作用句和16個平行句,如圖2所示。通過分析23個相互作用句得出以下結論:MLH1是參與DNA錯配修復(Mismatch Repair,MMR)的一種腫瘤抑制基因,它所編碼的蛋白能夠與PMS2基因產物形成MutL-α異二聚體。它具有核酸內切酶的活性,能夠在MutS-α復合物和MutS-β復合物識別錯配和插入/缺失后被激活而參與修復單堿基的錯配。MLH1基因甲基化的發生可導致DNA錯配修復基因的突變,使MLH1蛋白的表達缺失,從而促進子宮內膜癌的發生。
利用UALCAN在線工具檢索MLH1基因在正常內膜組織和子宮內膜癌組織中的表達。如圖3中A所示,相比于正常內膜組織,MLH1基因在子宮內膜癌組織中的相對表達量明顯降低(median 25.69 vs median 19.38,P<0.001)。由于MLH1基因的甲基化導致了DNA錯配修復基因的突變,從而使抑癌蛋白MLH1的表達缺失,所以檢測了正常內膜組織和子宮內膜癌組織中MLH1甲基化的表達水平。如圖3中B所示,子宮內膜癌中MLH1基因的甲基化水平比正常組織的甲基化水平要高(median 0.08 vs median 0.16,P<0.001)。

圖2 用Chilibot分析Endometrial cancer和MLH1的相互關系

圖3 MLH1在正常子宮內膜組織樣本中和子宮內膜癌組織樣本中的基因表達量以及甲基化表達水平
2.2.2 子宮內膜癌和MSH2之間的相互作用關系
對子宮內膜癌“Endometrial cancer”和MSH2進行關聯分析。用Chilibot分析從PubMed檢出的445篇文獻中100條最新的摘要,得到11個相互作用句和7個平行句。通過分析11個相互作用句得出以下結論:基因MSH2編碼的蛋白能結合MSH6蛋白形成MSH2-MSH6(MutS-α)復合物,或與MSH3蛋白結合形成MSH2-MSH3(MutS-β)復合物,分別參與修復錯配的單堿基對和大的突變環。由于DNA錯配修復基因MSH2突變引起的Lynch綜合征主要與結直腸癌和子宮內膜癌相關,因此發病風險更高。晉薇[15]檢測了錯配修復基因MSH2蛋白在子宮內膜癌中的表達及臨床意義,結果發現基因MSH2蛋白缺失率為8.1%(34/420),在FIGO分期中單個MSH2蛋白在Ⅲ期中表達缺失率達18.6%且差異性顯著,說明MSH2蛋白的異常表達在子宮內膜癌的發生發展過程中起著重要作用。
MSH2基因在子宮內膜癌中的表達量比在正常內膜組織中的高(median 13.45 vs median 21.31,P<0.001),如圖4中A所示。對子宮內膜癌分期分層的比較發現,與正常子宮內膜組織相比,MSH2基因在子宮內膜癌Ⅲ期中的表達量要高,且差異有統計學意義(median 13.45 vs median 24.18,P<0.001),如圖4中B所示。

圖4 MSH2在正常子宮內膜組織樣本中和子宮內膜癌組織樣本中的基因表達量以及在不同分期中的表達水平
2.2.3 子宮內膜癌和MSH6之間的相互作用關系
對子宮內膜癌“Endometrial cancer”和MSH6進行關聯分析。用Chilibot分析從PubMed檢出的322篇文獻中100條最新的摘要,得到12個相互作用句和7個平行句。通過分析12個相互作用句得出以下結論:MSH6基因位于2p15,作用是糾正堿基錯配以及小片段插入和缺失,而攜帶MSH6突變的子宮內膜癌患者發病年齡比攜帶MLH1或MSH2突變的子宮內膜癌患者晚,間接說明癌癥發病年齡的延遲也是MSH6突變者的特征[16]。一項薈萃分析表明,錯配修復基因MSH6在子宮內膜癌人群中的突變率較高(約為9.77%),突變種類以置換突變和移碼突變為主,外顯子4是主要突變部位,攜帶突變者發病年齡較晚[17]。Stembalska A等學者在2019年描述了MSH6基因 T767I致病變異體可能與遺傳性子宮內膜癌的發生有關[18]。
TCGA數據分析表明(圖5),MSH6基因在子宮內膜組織中表達較低(median 30.36 vs median 19.65,P<0.001),MSH6甲基化水平相比正常內膜組織也是低表達(median 0.052 vs median 0.038,P<0.001),說明MSH6基因的異常表達和甲基化的異常水平與子宮內膜癌的發生息息相關。

圖5 MSH6在正常子宮內膜組織樣本中和子宮內膜癌組織樣本中的基因表達量以及甲基化水平
2.2.4 子宮內膜癌和PTEN之間的相互作用關系
對子宮內膜癌“Endometrial cancer”和PTEN進行關聯分析。用Chilibot分析從PubMed檢出的357篇文獻中100條最新的摘要,得到26個相互作用句和42個平行句。通過分析26個相互作用句得出以下結論:PTEN基因是腫瘤抑制基因,它的缺失表達或者沉默突變將導致子宮內膜癌的發生;PTEN基因位于染色體10q23,它能夠編碼一種具有脂質磷酸酶活性的蛋白質,誘導細胞周期的停滯,通過誘導上調AKT依賴的信號通路機制和下調Bcl-2機制來促進腫瘤細胞的凋亡[19-20]。此外,PTEN基因編碼的蛋白產物還具有蛋白磷酸酶活性,能夠抑制腫瘤細胞的遷移侵襲、粘附擴散等一系類生物過程[21]。通過調研文獻可知,PTEN基因的突變是子宮內膜癌中最常見的突變,在子宮內膜癌的發生、發展中具有重要意義。在子宮內膜癌細胞的PTEN突變中,PTEN的Y68移碼突變構成了對多西紫杉醇治療抵抗性的主要機制,導致了耐多西紫杉醇化療藥物的腫瘤細胞的產生。其分子機制涉及Y68移碼的突變,導致在編碼氨基酸68處,截短403氨基酸PTEN蛋白的改變,從而引起PTEN蛋白磷酸酶和脂質磷酸酶活性的喪失。理解子宮內膜癌中PTEN基因的突變與DNA的修復之間復雜的相互關系,將有助于臨床婦產科醫生更好地選擇可能對某些新的和昂貴的靶向治療有反應的患者,從而提高EC患者的生活質量和生存時間。
正常子宮內膜組織中PTEN的基因表達量比子宮內膜癌組織樣本中的要高(median 33.45 vs median 17.16,P<0.001),子宮內膜癌分期分層之間表達沒有差異(圖6)。

圖6 PTEN在正常子宮內膜組織樣本中和子宮內膜癌組織樣本中的基因表達量以及子宮內膜癌不同分期中的表達水平
2.2.5 子宮內膜癌和PMS2之間的相互作用關系
對子宮內膜癌“Endometrial cancer”和PMS2進行關聯分析。用Chilibot分析從PubMed檢出的140篇文獻中100條最新的摘要,得到15個相互作用句和6個平行句。通過分析15個相互作用句得出以下結論:PMS2基因編碼的蛋白質能夠與MLH1基因編碼的蛋白結合形成MutL-α異二聚體,當MutL-α異二聚體復合物被MutS-β復合物和一些輔助蛋白結合時,MutL-α的PMS2亞單位會在DNA錯配附近引入一個單鏈斷裂,為核酸外切酶的降解提供了切入點,以幫助降解含有錯配的鏈。PMS2的基因突變會誘導林奇綜合征(Lynch syndrome)的發生和增加子宮內膜癌和結直腸癌的發病。在這些相互作用句中,有10句都包含了短語“Lynch syndrome(LS,林奇綜合征)”,因此也將LS和PMS2關聯起來。
用Chilibot分析從PubMed檢出的496篇文獻中100條最新的摘要,得到22個相互作用句和17個平行句,分析后得出以下結論:當MLH1、PMS2、MSH2和MSH6中的任何一種或多種蛋白質表達缺失時,可能增加Lynch綜合征相關的子宮內膜癌的易感性,進而導致子宮內膜癌的發生。經調研文獻,大約有10%的子宮內膜癌還與遺傳有關。其中關系最為密切的遺傳癥候是林奇綜合征,也稱為遺傳性非息肉結直腸癌綜合征(hereditary non-polyposis colorectal cancer syndrome,HNPCC),是一種常染色體顯性遺傳病,由錯配修復基因突變引起,與年輕女性的子宮內膜癌發病有關。
TCGA數據顯示,PMS2基因在子宮內膜癌組織中高表達(median 16.77 vs median 21.21,P<0.001),如圖7中A所示;甲基化表達量降低,差異有統計學意義(median 0.045 vs median 0.049,P<0.01),如圖7中B所示。

圖7PMS2在正常子宮內膜組織樣本中和子宮內膜癌組織樣本中的基因表達量以及甲基化水平
子宮內膜癌與5種基因都存在相互作用關系,包括4種DNA錯配修復基因MLH1、MSH2、MSH6、PMS2和1種腫瘤抑制基因PTEN。
MLH1是參與DNA錯配修復的一種腫瘤抑制基因,在EC組織中的表達量明顯低于正常內膜組織。它所編碼的蛋白能夠與PMS2基因產物異二聚化形成MutL-α異二聚體復合物,是DNA錯配修復系統的一部分。該異二聚體具有核酸內切酶的活性,能夠在MutS-α復合物和MutS-β復合物識別錯配和插入/缺失后被激活而發揮作用。MLH1基因甲基化的啟動會導致DNA錯配修復基因的突變,使MLH1錯配修復蛋白的缺失表達,促進EC的發生。
錯配修復基因MSH2蛋白能夠與MSH6蛋白結合成MutS-α異二聚體,或者與MSH3蛋白結合形成MutS-β異二聚體。兩種異二聚體均能與MutL-α異二聚體結合形成三元復合物,前者能參與修復單堿基的錯配,后者能參與修復大的缺失和突變環,其中主要由MSH蛋白識別DNA中的錯配位點。MSH2基因的突變或者異常表達將引起編碼蛋白的缺失或者功能異常,導致不能及時修復錯配的堿基和突變環,進而誘導子宮內膜癌和結直腸癌的發生、發展。
MSH6基因位于2p15染色體上,MSH6蛋白通過與MSH2蛋白結合形成二聚體,能夠發揮糾正堿基錯配以及小片段插入和缺失的作用。調研文獻可知,子宮內膜癌患者發病年齡的延遲是MSH6基因突變的特征。
PMS2基因編碼的蛋白質是錯配修復系統的關鍵組分,具有ATP酶活性和錯配修復核酸內切酶活性,能夠與MLH1基因編碼的蛋白結合形成MutL-α異二聚體。當MutL-α異二聚體復合物被MutS-β復合物和一些輔助蛋白結合時,MutL-α的PMS2亞單位會在DNA錯配附近引入一個單鏈斷裂,為核酸外切酶的降解提供了切入點,以幫助降解含有錯配的鏈。DNA甲基化能夠防止切割斷裂,因此只有新突變的DNA鏈才會被糾正。該基因突變時,則會誘導Lynch綜合征的發生,增加子宮內膜癌和結直腸癌的發生。
位于10號染色體長臂上的PTEN基因,是一種腫瘤抑制基因,對子宮內膜癌的發生具有抑制作用,它在子宮內膜癌組織中的表達水平明顯低于其在正常子宮內膜組織中的表達水平。由于染色體10q23上PTEN基因的突變缺失,導致它編碼相應的具有脂質磷酸酶活性和蛋白磷酸酶活性的蛋白質缺失,從而促進腫瘤細胞凋亡和抑制腫瘤細胞遷移、侵襲能力的沉默、失調,導致EC的發生。不僅如此,PTEN基因突變中的Y68移碼突變又最終使子宮內膜癌細胞對臨床化療藥物多西紫杉醇產生耐藥性。
錯配修復基因是糾正堿基錯配的主要因子,通過修復DNA復制過程中產生的堿基對錯誤,從而維持基因組的完整性及穩定性,避免發生突變及腫瘤的產生。錯配修復基因能保證DNA復制的高保真性,一旦發生基因的突變或者甲基化的啟動,則會引起錯配基因的失活,導致錯配修復蛋白的表達缺失,使某些突變的癌基因和抑癌基因在體內得到快速聚集,腫瘤由此而發生。因此,檢測DNA錯配修復基因的表達對篩查子宮內膜癌及HNPCC家系有重要意義。
本文通過Coremine Medical工具發現與EC關系密切的5種基因,并利用Chilibot文本工具和UALCAN在線分析工具探究了錯配修復基因MLH1、MSH2、MSH6、PMS2在EC中的突變和表達,以及腫瘤抑制基因PTEN異常表達。錯配修復基因MLH1、MSH2、MSH6以及PMS2的突變,可促進相應修復蛋白的缺失進而導致EC的發生、發展,因此聯合檢測EC患者的4種MMR蛋白能更有效地提高EC篩查的特異度和敏感度,為制定檢測策略提供準確信息和依據。目前,對單個MMR蛋白在EC中的表達及作用機制仍處于探索階段,需要多學科協作、多中心聯合、大樣本的臨床研究和體外實驗性研究,才能充分證實這些關鍵基因在EC中的作用機制。