數據挖掘在胰腺癌中的應用

2023-06-22 07:16:45夏文韜王筠嚴鑫平

現代信息科技 2023年5期

夏文韜王筠嚴鑫平

摘? 要：胰腺癌（PAAD）是一種發生在胰腺的惡性腫瘤，起病隱匿，早期診斷困難，進展迅速，生存時間短，是預后最差的惡性腫瘤之一，被稱為“癌中之王”。胰腺癌的致病因素目前還尚不清楚，但生物標志物的發現為胰腺癌的預后診斷指明了一個方向。文章采用了數據挖掘的方法對多個胰腺癌的RNA基因表達數據進行分析，挖掘出可能用于胰腺癌診斷的生物標志物。最后經生存分析驗證，發現NDC80，CDC20，CCNB1，KIF11這四個標志物可能對胰腺癌的治療起到減輕疼痛和降低病情惡化程度的作用。

關鍵詞：胰腺癌；生物標志物；基因表達；limma；Kaplan-Meier；數據挖掘

中圖分類號：TP391? ? 文獻標識碼：A? 文章編號：2096-4706（2023）05-0120-04

Application of Data Mining in Pancreatic Adenocarcinoma

XIA Wentao， WANG Yun， YAN Xinping

（School of Information Engineering， Jingdezhen Ceramic University， Jingdezhen? 333403， China）

Abstract： Pancreatic Adenocarcinoma （PAAD） is a malignant tumor that occurs in the pancreas with insidious onset， difficult early diagnosis， rapid progression and short survival time. It is one of the malignant tumors with the worst prognosis. Pancreatic Adenocarcinoma is known as the “king of cancers”. The pathogenic factors of Pancreatic Adenocarcinoma are currently unclear， but the discovery of biomarkers points to another direction for the prognosis and diagnosis of Pancreatic Adenocarcinoma. In this paper， the method of data mining is used to analyze the RNA gene expression data of multiple patients with Pancreatic Adenocarcinoma， and the biomarkers that may be used for the diagnosis of Pancreatic Adenocarcinoma are mined. Finally， after verification by survival analysis， it is found that the four biomarkers of NDC80， CDC20， CCNB1 and KIF11 may play a role in reducing pain and the degree of disease deterioration in the treatment of Pancreatic Adenocarcinoma.

Keywords： Pancreatic Adenocarcinoma; biomarker; gene expression; limma; Kaplan-Meier; data mining

0? 引? 言

胰腺癌（PAAD）是威脅人類健康和生命的惡性腫瘤之一，且五年的總體生存率不到1%，是一個預后非常差的惡性腫瘤。目前，胰腺癌患者最常用的治療方法是放療和化療[1]。近年來，隨著生物信息學技術的快速發展，可以方便地收集到各種癌癥的高通量組學數據，為癌癥的診斷提供了新的方向。通過組學數據了解癌癥分子在多個水平上的改變，從而找出具有重要意義的生物標志物。目前，人類也發現了許多與癌癥發生、發展的相關標志物，但是關于胰腺癌相關的生物標志物還很少見。本文基于基因表達數據，利用數據挖掘的方法找出可能用于胰腺癌診斷的標志物。

1? 數據和方法

1.1? 道德規范和知情同意書

由于沒有招募患者和收集個人信息，因此不需要倫理批準和患者同意，研究中包含的數據均來自公共數據庫（GEO）。

1.2? 數據收集

基因表達數據可以按照以下步驟獲得。（1）進入GEO數據庫主頁https：//www.ncbi.nlm.nih.gov/geo/，輸入關鍵詞“胰腺癌”并點擊搜索。（2）在“研究類型”選項中選擇“Expression profiling by array”，在“Top Organisms”中選擇“Homo sapiens”。為了擴大樣本量，我們選擇了兩個胰腺癌的數據，根據上述標準，我們獲取了基因表達數據GSE16515和GSE91035，剔除異常值后，GSE16515包含了16個正常樣本和36個腫瘤樣本，GSE91035包含了23個正常樣本和25個腫瘤樣本，表1顯示了數據集的詳細信息。

1.3? 熱圖分析和差異基因的鑒定

熱圖是一個以顏色變化來顯示數據的矩陣，可以簡單地聚合大量數據，并使用一種漸進的色帶直觀地展現空間數據的相對大小。生物學中熱圖經常用于展示多個基因在不同樣本中的表達水平。然后可以通過聚類等方式查看不同組（如疾病組和正常組組）特有的形式。熱圖分析是以各樣本中基因的表達量繪制熱圖，在圖中每列表示一個樣本，每行表示一個基因，圖中的顏色的深淺表示基因在該樣本中的表達量[2]。本文將使用R語言中的‘pheatmap包對基因表達數據進行熱圖分析。

Limma是一種基于廣義線性模型的差異表達篩選方法，首先對每個基因的表達擬合一個線性模型，然后用經驗貝葉斯（Empirical Bayes）或其他方法進行殘差分析獲得合適的t統計量，并針對小樣本實驗的方差估計進行優化，使得分析的結果更加可靠[3]。本文使用R語言中的‘limma包進行差異分析，以獲得腫瘤樣本與正常樣本間的差異基因。對于要識別差異基因的RNA基因表達數據，閾值應滿足|logFC|>1.5，p-value<0.05。不同樣本中的基因存在差異表達，該基因可能與胰腺癌的發生、發展有潛在的關系，所以我們有理由相信差異基因之間的重疊與胰腺癌的治療有潛在的關系，本文采用兩個基因表達數據差異基因之間的交集[4，5]。

1.4? PPI網絡分析和關鍵基因的篩選

在轉錄調控相關的文獻中，我們經常能夠看到蛋白質相互作用網絡（protein proteininteraction network， PPI network）用于挖掘核心的調控基因。具體而言，就是蛋白通過彼此之間的相互作用構成一個網絡，來參與生物信號傳遞、基因表達調節、能量和物質代謝及細胞周期調控等生命過程的各個環節。隨后，通過STRING數據庫（https：//string-db.org/）檢索了編碼蛋白間可能的潛在相互作用，并構建了蛋白質相互作用網絡并表示出來[6]，目的是描述這些基因或蛋白之間存在怎樣的相互關系，例如物理接觸、靶向調節等，最終闡述生物體中有意義的分子調節網絡，有助于從系統的角度研究疾病分子機制、發現新藥靶點等。

根據上述的標準，我們將識別出的重疊的差異基因導入字符串數據庫（https：//string-db.org/），獲得重疊的DEGs產物之間的相互作用，并利用Cytoscape軟件構建和可視化一個PPI網絡[7]，最后利用插件cytoHubba從PPI網絡中篩選出關鍵的生物標志物。

1.5? 生存分析驗證

Kaplan-Meier法簡稱K-M法，又稱乘積極限法（Product-

limit Estimate），由英國科學家Kaplan和Meier于1958年提出，利用概率乘法原理計算存活率，該法為非參數方法，不需要對被估計資料分布進行任何假設，主要用于未分組小樣本資料估計生存率，也可用于大樣本資料[8]。

通過對數秩檢驗（log-rank test）的Kaplan-Meier生存分析用于驗證篩選出的關鍵基因，P＜0.05的值被認為具有統計學意義。

2? 實證分析

2.1? 熱圖分析和差異分析篩選

為了驗證數據的合理性，我們進行了皮爾遜熱圖分析，顯示了樣本之間的相關性，以判斷數據是否可行。皮爾遜相關系數用于表示樣本之間的相關性，相關系數的值介于-1～1之間。當該值接近0時，相關性較低，而該值接近-1或1時，相關性較高。如圖1所示，是GSE16515和GSE91035基因表達數據中樣本的皮爾遜相關分析圖。圖中樣本之間的相關系數不相等，但這并不意味著樣本之間存在因果關系，相關系數為1或-1的樣本很少，這表明樣本之間的重復性很低。從皮爾遜熱圖分析的結果可以看出，數據的選擇是有一定意義的。

火山圖可以幫助我們更加直觀地識別變化較大且具有統計意義的基因[9]。如圖2（a）、（b）所示，根據基因表達數據繪制的火山圖。圖中的每個點代表一個檢測到的基因，紅色點代表上調基因，綠色點代表下調基因，黑色點代表無顯著差異的基因。在圖2（a）、（b）中，兩條黑色垂直線的外側是具有|logFC|＞1.5的基因，黑色水平線的上側是p值小于0.05的基因。從垂直軸看，離水平軸越遠，p值越小，基因差異越顯著。經過差異分析，GSE16515基因表達數據包括2 352個上調基因和935個下調基因，GSE91035基因表達數據包括2 156個上調基因和1 413個下調基因，這些識別出來的上調基因和下調基因，就是我們所需要的差異基因。

最后，將GSE16515和GSE91035篩選出來的差異基因通過繪制維恩圖[10]將兩個數據的差異基因取交集后（如圖3所示），共篩選出1 459個重疊基因為差異基因。

2.2? 建立PPI網絡并識別關鍵基因

通過在線網站https：//string-db.org/和Cytoscape軟件建立PPI網絡（如圖4所示），進一步探索DEGs之間的相互作用。本文僅對節點數大于等于8的單個網絡進行進一步分析（少于8個節點的網絡被排除在外），并計算網絡各節點的連通度。然后使用插件cytoHubba從PPI網絡中篩選出前8個關鍵基因MAD2L1，NDC80，CDC20，CCNA2，BUB1，CENPE，KIF11，CCNB1（如圖5所示）。

2.3? 生存分析驗證

為了探索單個差異基因的潛在預后價值，本文對PPI網絡篩選出的前8個關鍵基因進行了生存分析[11]。在這8個關鍵基因中，共有4個基因與較差的生存顯著相關（如圖6所示），從而說明這四個基因（NDC80，CDC20，CCNB1，KIF11）對胰腺癌的治療有潛在的價值（p＜0.05）。

3? 結? 論

GEO數據庫的數據挖掘已經廣泛應用于癌癥的預后預測，因此，在這項研究中我們基于GEO數據庫中的多個基因表達數據挖掘出可能影響胰腺癌治療的相關基因。

根據基因表達數據，我們利用R語言中的‘limma包分析了GSE16515和GSE91035之間的差異基因，并篩選了兩者差異基因的重疊基因。最后將得到的重疊基因導入字符串數據庫（https：//string-db.org/），經過Cytoscape可視化分析發現8個潛在的生物標志物（MAD2L1，NDC80，CDC20，CCNA2，BUB1，CENPE，KIF11，CCNB1）可能對胰腺癌的治療有幫助，最后通過Kaplan-Meier生存分析驗證，得出4個基因（NDC80，CDC20，CCNB1，KIF11）可以被認為是胰腺癌治療的生物標志物。

該研究的優點是使用了多個基因表達數據并利用數據挖掘方法來找出潛在的生物標志物。雖然已經做了仔細的生物信息學分析，但仍有一些局限性。在未來，可以繼續探索其他方法在其他組學數據中的應用，并且我們也將繼續改進本研究的方法。不足之處是，后續還需要在本文研究的基礎上，增添一定的臨床試驗予以驗證。

參考文獻：

[1] 劉宗超，李哲軒，張陽，等.2020全球癌癥統計報告解讀 [J].腫瘤綜合治療電子雜志，2021，7（2）：1-14.

[2] YU C，LIN Chang，LIN Y，et al. Clustering heatmap for visualizing and exploring complex and high-dimensional data related to chronic kidney disease [J].J Clin Med，2020，9（2）：403.

[3] LIU S，WANG Z，ZHU R，et al. Three differential expression analysis methods for rna sequencing：limma，edger，deseq2 [J/OL].J Vis Exp，2021（175）：（2022-09-12）.https：//pubmed.ncbi.nlm.nih.gov/34605806/.

[4] QIU W，QI B，LIN W，et al. Predicting the lung adenocarcinoma and its biomarkers by integrating gene expression and dna methylation data [J/OL].Front Genet，2022，13：926927（2022-09-12）.https：//pubmed.ncbi.nlm.nih.gov/35846148/.

[5] 陳玉升，郭楊，申漢威，等.膠質瘤差異表達基因篩選、功能富集和相關信號通路生物信息學分析 [J].中華醫學雜志，2019，99（29）：2311-2314.

[6] ZOU X，AN K，WU Y，et al. PPI network analyses of human WD40 protein family systematically reveal their tendency to assemble complexes and facilitate the complex predictions [J].BMC Syst Biol，2018，12（Suppl 4）：41.

[7] DONCHEVA N T，MORRIS J H，GORODKIN J，et al. Cytoscape stringapp：network analysis and visualization of proteomics data [J].J Proteome Res，2019，18（2）：623-632.

[8] SCHOBER P，VETTER T R. Kaplan-meier curves，log-rank tests，and cox regression for time-to-event data [J].Anesthesia & Analgesia，2021，132（4）：969-970.

[9] 陳亮.基于多種生物數據的miRNA簇進化與miRNA腫瘤標志物研究 [D].長春：吉林大學，2016.

[10] 鮑宗博，高瑩，劉建偉.從Venn圖看信息論中各信息量之間的關系 [J].高等數學研究，2020，23（1）：69-72+75.

[11] 鄭建清，黃碧芬.基于Kaplan-Meier plotter數據庫分析CD（44）基因表達狀態對卵巢癌生存結局的影響 [J].吉林醫學，2022，43（1）：5-7.

作者簡介：夏文韜（1996—），男，漢族，江蘇宜興人，碩士研究生在讀，主要研究方向：數據挖掘和生物大數據處理；通訊作者：王筠（1992—），女，漢族，江西景德鎮人，助教，主要研究方向：統計學理論與應用研究。

收稿日期：2022-11-02