肺癌是發病率和死亡率增長最快和對人群健康和生命威脅最大的惡性腫瘤之一。近年來分子生物學研究結果顯示,癌癥發生、發展的關鍵是細胞基因組本身的異常。肺癌分子生物學領域的發展不但給肺癌研究提供了新的技術和方法,而且使肺癌的診斷、治療進入了更廣闊的新領域[1]。
聚類分析是文本挖掘中常用的方法,已被應用于模式識別、機器學習、統計學、生物信息學等很多研究領域中[2]。本研究根據基因的不同對肺癌與基因相關文獻進行聚類分析,將肺癌分類,從而找出與不同種類肺癌相關的基因。通過文獻調研發現,閆雷等利用MetaMap和Mesh主題詞表對白血病相關文獻進行的共詞聚類分析發現,不同種類白血病與不同基因之間的關系[3];Melaiu O等聯合使用不同的文本挖掘工具確定了PTGS2、BIRC5、ASS1、JUNB等多種惡性胸膜間皮瘤的標志物[4]。
在肺癌領域進行文本挖掘的研究較少,根據基因的不同進行分類研究的更少。因此本研究擬通過PubMed數據庫下載肺癌與基因相關文獻,利用命名實體識別工具PubTator提取文獻中不同類型肺癌及基因的名稱,構建疾病-基因矩陣并對其進行聚類分析,旨在發現與不同類型肺癌存在關聯的基因及其與肺癌的具體關聯,為進行肺癌相關基因領域研究的學者提供參考。
本文選取PubMed數據庫,在Mesh字段下,截止時間(檢索時間)為2018年6月30日,檢索式為("Lung Neoplasms"[Mesh])AND "Genes"[Mesh],檢索得出8 743篇文獻的pmid號,使用命名實體識別工具PubTator對pmid號進行提取,在PubTator中對8 743篇文章中的疾病和基因2個命名實體進行識別,去除空缺值、消除噪聲,共得到33 657條記錄。部分結果如表1所示。

表1 pmid號—肺癌名稱—類別—疾病號表(部分)
將表1中的記錄通過pmid號進行自然連接,形成每一行記錄中既有疾病又有基因相關聯的完整數據記錄。
部分結果如表2所示。

表2 肺癌-基因查詢表(部分)
得到查詢表之后,將肺癌1、基因1打包為一個詞,對所有pmid號中共同出現的次數進行編程統計,形成肺癌-基因-頻次表。部分結果如表3所示。
PubTator是一個基于Web的文本挖掘工具,通過使用多個先進的文本挖掘算法進行文本注釋和加速人工生物編審。它支持對PubMed檢索結果進行標注,可以識別化學物質、疾病、基因、變異、物種等5類生物醫學實體。
COREMINE Medical是基于本體的醫學信息檢索平臺,由中國科學院中國醫學科學院、美國國立醫學圖書館等機構聯合開發,是國際上先進的醫學信息檢索平臺。COREMINE Medical可以對PubMed中相關文獻的基因、疾病、蛋白質等不同的實體進行分類,從而滿足不同研究者的需求。
表3肺癌-基因-頻次表(部分)

基因號疾病號頻次基因號疾病號頻次1956D0022896524609D055752327157D00817545516653D002289311956D008175310596D008175317157D002289285999D002289303845D0022892571543D008175301956C5382312365915D008175303845D0081752135728D0022892916653D0081751664193D008175283845C538231153595D008175271029D0022891444255D008175271029D0081751444255D002289262064D002289961029C5382312522060D008175702272D002289257157C538231681026D008175242064D0081756813649D00817524238D00228962673D0022892311186D0081755627436D0022892311186D00228953999D0081752316653C538231517015D008175234609D008175441026D002289222064C538231425290D00228922596D002289426667D00817522207D002289407040D008175224609D002289404613D05575222238D008175367157D05575222207D00817535595D00228921238C538231341612D002289212272D008175345915D00228921
使用SPSS 18.0軟件對疾病-基因矩陣進行聚類分析,常用的聚類方法主要有k-means聚類算法、層次聚類算法、SOM聚類算法、FCM聚類算法。通過對以上幾種聚類方法的適用數據類型進行分析比較后,選擇分析-分類-系統聚類,使用ward法,區間選擇歐式平方距離,將疾病號代入個案標記依據,基因號代入變量選項,歐氏距離衡量的是多維空間中各個點之間的絕對距離,公式如下:
式中,d12表示兩點之間的距離,x1為點1的橫坐標,x2為點2的橫坐標,y1為點1的縱坐標,y2為點2的縱坐標。
結果如圖1所示。
從圖1可看出,本文以疾病為分類依據,縱軸表示疾病名稱,橫軸表示聚類數的劃分距離。以變異大小為1對疾病進行分類,大致把疾病分為疾病號D008175(A549 lung cancer)、疾病號D002289(Advanced non-small-cell lung cancer)、疾病號C538231(small cell lung carcinoma)及剩下的70種疾病四大類。與各種類型的肺癌相關的基因如表4所示。

圖1 聚類結果

疾病名稱基因名稱A549 lung cancerCip1,p21,STRAP,TGF-beta,Bcl2,Bcl-xL,CD31 ,HIF-1alphah,TERT,IL-6 p73,miR-125a,PCNA,Rhoa,wwox,Fibulin-3,MMP-2Advanced non-small-cell lung cancerP53,EGFR,K-RAS,CDKN2,HER2,RASSF1A,C-MYC,ALK,FHIT,BCL2,RARB,CYCLIN D1Small-cell lung carcinomaAKT,CD34,PTEN,MGMT,CDKN2,HER2,RASSF1A,C-MYCALK,BCL2,RARB,CYCLIN D1,FHIT,Lung cancer(others)AKT,CD34,Cip1,p21,STRAP ,GRB2,GRP,GRPR,GSK3beta,GSPT1,GST,GST1,GSTM,GSTM1,GSTM3,GSTP,GSTP1,GSTT1,Hap2,Hap3,hARD1,hASH1,Hbp1,hBUBR1,hDAB2,IPHDAC,HDAC1,HDAC10,HDAC2,HDAC3,HELLS,Hel-N1,HER2,HER-2/neu,HER3,HERC5,HES-1,HFH-11B,hG9a,HGF,hGM-CSF,hGPx1,HHLA2,HIC-1,Hif1,HIF-1alpha,HIF2a,HK II,HLA A,HLA-A,HLA-B
使用Gene Pattern聚類軟件對疾病-基因共現矩陣進行聚類分析。
根據與SPSS的聚類效果進行比較,聚類方法選擇Pairwise complete-linkage,結果如圖2所示。圖2中的紅色代表相關程度強,粉白色代表相關程度平均值,藍色代表相關程度弱。

圖2 Gene Pattern結果
通過圖2發現,Gene Pattern軟件在橫坐標方向上,按照與不同基因共同出現的頻次將疾病大致分為3類;縱坐標上,每個基因在不同種類的肺癌中出現的頻次不同而分布在不同的顏色塊中。圖2的橫坐標表示不同類型的肺癌,縱坐標表示2 458個與肺癌相關的基因。肺癌從左至右大致被分為疾病為疾病號D002289(A549 non-small cell lung cancer)、疾病為疾病號D008175(A549 lung cancer)、疾病為疾病號C538231(small cell lung carcinoma)三大類。由圖2中的顏色方塊結果可看出,幾乎90%的基因都與這三大類疾病有相關關系,但關聯的程度是相同的。結合表3的分析,得到表5所示的結果。

表5 三大類肺癌相關基因
利用COREMINE Medical數據庫查找與肺癌相關的文獻和與肺癌相關的基因。同時結合表3確定關系最為密切的EGFR、P53、KRAS 3種基因。在PubMed數據庫、WOS數據庫中查閱影響因子2.5以上的相關文獻進行原文回溯,證明聚類分析結果的正確性。
2.2.1 EGFR基因
根據聚類分析的結果,EGFR基因主要與非小細胞肺癌(NSCLC)有關。KeL等在2018年發現,EGFR基因主要在NSCLC患者的19號外顯子處發生突變[5]。黃潔等在2018年發現,EGFR基因主要參與NSCLC早期的細胞增殖凋亡的多個環節[6]。馬玲等發現,EGFR 基因在晚期非小細胞肺癌患者體內突變率較高,并且以第19外顯子缺失突變為主[7]。蔡忠等在2018年發現,EGFR基因在包括肺癌在內的多種實體瘤中均為高表達基因,與NSCLC的A549細胞結合能力很強,是抗腫瘤研究的熱點靶標之一[8]。活化后的EGFR可激活細胞內相應的酪氨酸激酶,通過信號分子的傳導,觸發多種二酰亞胺信號傳導級聯反應,包括絲裂原活化蛋白激酶相關培養(MAPK)、應激活化蛋白激酶(JNK)和絲氨酸/蘇氨酸激酶(AKT)等信號通路。王珊等在2017年發現,EGFR基因突變與患者年齡、腺癌分化程度、有無淋巴結轉移及TNM分期無關[9]。
2.2.2 KRAS基因
聚類分析結果中,KRAS基因主要與A549 NSCLC有關。KeL等在2018年發現,KRAS與EGFR基因主要在NSCLC晩期患者中高水平突變表達[5]。Kordiak J等在2019年發現,肺癌組織中第12密碼子KRAS點突變的瘤內異質性和不均勻分布多發生在NSCLC中,EBC-DNA中 KRAS突變狀態與NSCLC患者腫瘤組織高度一致,提示監測EBC-DNA中KRAS突變作為NSCLC標志物的有效性[10]。曹慧等在2016年發現KRAS基因主要與肺腺癌有關,檢測到KRAS基因第12及第13位密碼子的6種突變是肺癌患者的主要突變類型,以第12密碼子Gly12Ala的突變為主[11]。
2.2.3 P53 基因
聚類分析結果中,P53基因主要與NSCLC有關。Amelio I等在2018年發現,P53基因主要在晚期NSCLC患者體內發生突變[12]。VogiatziF等在2016年發現,P53基因可通過調節內質網ENTPD5酶將UDP水解成UMP,促進蛋白的N-糖基化來誘導肺癌的進展和轉移[13]。王文娟等在2016年發現,P53基因在肺癌組織中突變大多為GC-AT和GC-TA的堿基顛換,且突變發生時,肺癌組織中Egr-1及EMT通路均被激活[14]。
將SPSS的聚類結果與Gene Pattern的聚類結果比較之后發現,二者關于疾病的聚類分類數目基本一致,基因的分類略有不同,但是高共現的疾病基因對大致相同。如在肺癌基因的研究領域,“熱門基因”有MAPK4、ERK3、CXCR7、EGFR、P53等。“熱門疾病”為A549非小細胞肺癌、小細胞肺癌、A549肺癌及AAH(肺腺癌前期病變:不典型瘤樣增生)等。為了進一步檢驗分類結果的正確性,在COREMINE Medical中再次進行檢索,得到的高頻基因與肺癌-基因-頻次表中的基因大致相同。同時對高頻詞基因相關的文獻進行回溯,總結基因與具體哪種肺癌存在何種關系,以驗證和豐富聚類分析的結果。
總之,研究人員更注重對非小細胞肺癌(NSCLC)的研究。雖然不同研究涉及的基因、蛋白(基因表達的結果也可作為基因研究的參考)不同,但是大多都聚焦到基因是在哪個位置發生了何種變異導致疾病的發生,通過哪個通道發生了一系列生理生化反應促進或者抑制了肺癌的發生。如EGFR基因主要與NSCLC有關,與聚類分析結果一致,且突變主要是第19外顯子缺失突變;KRAS基因主要與A549 NSCLC有關,與聚類分析結果一致,且基因突變以第12密碼子Gly12Ala突變為主;P53基因主要在晚期NSCLC患者體內發生突變,與聚類分析結果一致,且突變大多為GC-AT和GC-TA的堿基顛換。
本文通過對肺癌、基因進行命名實體識別、實體數據的標準化處理、肺癌-基因矩陣構建、肺癌-基因矩陣的聚類分析、結果驗證等環節,深入研究了與不同類型肺癌存在關聯的基因及其在肺癌不同階段的具體關聯,可為相關學者的研究提供參考。本研究雖然驗證了本研究與以往文獻結果的“一致性”,但并未揭示肺癌與基因之間的新發現,這是下一步研究要解決的主要問題。