






【摘要】 目的 通過基于加權基因共表達網絡分析(WGCNA)和機器學習算法探索結直腸肝轉移(CRCLM)潛在生物標志物,為CRCLM的分子機制研究提供基礎。
方法 從GEO數據庫中收集兩個CRCLM的微陣列數據集(GSE6988和GSE14297),鑒定出CRCLM中的差異表達基因(DEGs)后進行基因本體論(GO)分析、京都基因和基因組百科全書(KEGG)富集分析和基因集富集分析(GSEA)。應用WGCNA篩選與CRCLM組相關性最強的模塊內基因,采用機器學習算法最小絕對值收縮與篩選算子(LASSO)邏輯回歸和支持向量機-遞歸特征消除(SVM-RFE)鑒定CRCLM的潛在生物標志物。比較GSE6988中CRCLM組和對照組的關鍵基因表達量,同時繪制關鍵基因診斷CRCLM的受試者工作特征(ROC)曲線,通過曲線下面積(AUC)評估其診斷效能,并在GSE14297中進行驗證。
結果 鑒定出73個 DEGs,包括55個上調基因和18個下調基因。生物學功能富集分析表明,DEGs主要富集于血液微粒和趨化因子相關的通路。WGCNA共得到了5個基因共表達模塊,其中黃色模塊與CRCLM相關性最強(cor=0.72, P=2e-14),其中包含81個基因。對黃色模塊基因進行LASSO邏輯回歸分析,其中4個基因(CCL11、SLC26A3、NR4A2、PLA2G2A)被確定為潛在的具有診斷性生物標志物,通過SVM-RFE算法,從DEGs中獲得19個基因(CRP、HP、ORM2、CYP2E1、CCL11、MMP10、AQP3、SERPINA3、ENO3、HAO1、PLG、ENAM、DGUOK、UBE2Q2、HPX、APOA2、ITIH3、ANGPTL3、MMP1)作為潛在的診斷基因,將LASSO算法以及 SVM-RFE算法得到的關鍵基因取交集。最終嗜酸細胞活化趨化因子(CCL11)被確定為有希望的生物標志物。在訓練集及驗證集中,CRCLM組的CCL11表達均顯著低于對照組(P<0.001)。在訓練集和驗證集中的ROC曲線分析結果顯示,CCL11診斷CRCLM的AUC分別為0.936和0.997,顯示出很強的預測預后的能力。
結論 CCL11在CRCLM中低表達,可能是CRCLM的抑制因素,是CRCLM可能的預后生物分子標志物。CRCLM的發生發展可能與腫瘤血管微環境及趨化因子相關通路相關。
【關鍵詞】 結直腸癌肝轉移;加權基因共表達網絡分析;機器學習算法;生物信息學;嗜酸細胞活化趨化因子
中圖分類號: R735.3 文獻標志碼: A DOI: 10.3969/j.issn.1003-1383.2024.06.001
Investigation of mechanism of liver metastasis in colorectal cancer and its potential biomarkers based on WGCNA and machine learning algorithms
ZHANG Pingxi1a, HE Yaling1a, LI Yuyang1a, HU Shihan1a, GAO Bo1b, PAN Yun1b, 2▲
(1a. School of Basic Medical Sciences, 1b. School of Clinical Medicine, 1. Dali University, Dali 671000, Yunnan, China; 2. Department of Pathology, the First Affiliated Hospital of Dali University, Dali 671000, Yunnan, China)
【Abstract】 Objective To explore the molecular mechanisms and its potential biomarkers of colorectal cancer with liver metastasis (CRCLM) based on weighted gene co-expression network analysis (WGCNA) and machine learning algorithms.Methods Two microarray datasets of CRCLM (GSE6988 and GSE14297) were collected from GEO database. After identifying the differentially expressed genes (DEGs) in CRCLM, gene ontology (GO) analysis, Kyoto encyclopedia of genes and genomes (KEGG) enrichment analysis, and gene set enrichment analysis (GSEA) were performed. WGCNA was employed to select genes within modules with the strongest correlation with CRCLM. Machine learning algorithms, including least absolute shrinkage and selection operator (LASSO) logistic regression and support vector machine-recurive feature elimination(SVM-RFE), were used to identify potential biomarkers of CRCLM. The expression levels of key genes between the CRCLM group and the control group in GSE6988 were compared. At the same time, receiver operating characteristic (ROC) curves for the key genes diagnosis of CRCLM was drawn, and their diagnostic efficacy was assessed through the area under the curve (AUC), and validation was conducted using the GSE14297 dataset.Results A total of 73 DEGs were identified, including 55 upregulated genes and 18 downregulated genes. Biological function enrichment analysis revealed that DEGs were mainly enriched in pathways related to blood particles and chemokines. WGCNA obtained 5 gene co-expression modules, among which the yellow module showed the strongest correlation with CRCLM (cor=0.72, P=2e-14), containing a total of 81 genes. For the genes in the yellow module, LASSO logistic regression analysis identified 4 genes (CCL11, SLC26A3, NR4A2, and PLA2G2A) as potential diagnostic biomarkers. Through SVM-RFE algorithm, 19 genes (CRP, HP, ORM2, CYP2E1, CCL11, MMP10, AQP3, SERPINA3, ENO3, HAO1, PLG, ENAM, DGUOK, UBE2Q2, HPX, APOA2, ITIH3, ANGPTL3, and MMP1) were obtained from DEGs as potential diagnostic genes. The key genes obtained from LASSO algorithm and SVM-RFE algorithm were intersected. Ultimately, CCL11 (eotaxin) was identified as a promising biomarker. In both training and validation sets, the expression of CCL11 in the CRCLM group was significantly lower than that in the control group (P<0.001). ROC curve analysis in the training and validation sets showed that the AUCs for diagnosing CRCLM with CCL11 were 0.936 and 0.997, respectively, demonstrating strong predictive ability for prognosis.Conclusion CCL11 is downregulated in CRCLM and may serve as a suppressor in CRCLM, suggesting its potential as a prognostic biomarker. The occurrence and development of CRCLM may be associated with pathways related to blood microenvironment and chemokines.
【Keywords】 colorectal cancer with liver metastasis(CRCLM); weighted gene co-expression network analysis (WGCNA); machine learning algorithm; bioinformatics; CCL11
原發性結直腸癌(colorectal cancer, CRC)是全世界范圍內發病率位居第二且病死率位居第三的惡性腫瘤。中國人口約占世界人口的五分之一,根據《2020年全球癌癥統計》,中國結直腸癌新發病例和死亡病例卻分別占全球的49.3%和58.3%[1]。由于社會發展及人口老齡化趨勢日增,預計至2035年,CRC發病率將增加一倍以上,中國的癌癥預防和治療面臨著前所未有的挑戰。盡管篩查手段和治療方法不斷改進,但仍有約25%的CRC患者在初治時已發生轉移,約一半CRC患者后續將發展為轉移性結直腸癌[2-3]。
目前研究表明,肝臟是結直腸癌轉移最常見的靶器官[4]。16%~26%的CRC患者在初診時已發生肝轉移,18%~25%的CRC患者即使在原發病灶徹底切除后也會發生肝轉移[5]。近幾十年來,在全球范圍內,結直腸癌患者生存率顯著提高,無轉移的晚期結直腸癌患者5年生存率約為75.1%,而肝轉移患者的5年生存率僅為25.2%。CARLOMAGNO等[2]的研究表明,中國晚期結直腸癌無轉移患者5年生存率約為57%,而肝轉移患者5年相對生存率降至11%。目前診斷結直腸癌肝轉移(CRC with liver metastasis, CRCLM)的方法主要是影像學檢查和病理組織活檢,如何在CRC肝轉移發生前就可預測并加以防范已成為研究熱點與難點[6-7]。因此,尋找CRCLM新的預測與診斷方法迫在眉睫。
加權基因共表達網絡分析(weighted gene coexpression network analysis, WGCNA)是一種系統的生物信息學方法,用于描述跨微陣列樣本的基因之間的相關模式[8]。WGCNA可將表達模式相近的基因類聚,并分析模塊與特定性狀或表型之間的關聯,可獲得與表型相關性最高的模塊及其樞紐基因。此方法已廣泛用于識別候選生物標志物或治療靶點[9-10]。機器學習算法在研究高維數據的潛在關系方面顯示出巨大的優勢和前景[11]。最近,機器學習算法越來越多地應用于分析高維轉錄組數據和識別生物學上重要的特征基因,并取得了較為理想的結果[12-14],最小絕對值收縮與篩選算子(least absolute shrinkage and selection operator, LASSO)是由TIBSSHIRAN在1996年首次提出的用來篩選特征的機器學習方法[15],支持向量機-遞歸特征消除(support vector machine-recurive feature elimination, SVM-RFE)是由GUYON最新提出的機器學習方法,在篩選特征中表現出良好性能[16]。
綜上,我們擬探討CRC和CRCLM之間的差異表達基因(differentially expressed genes, DEGs),并進行多種功能富集分析,包括基因本體論(gene ontology, GO)、京都基因和基因組百科全書(Kyoto encyclopedia of genes and genomes, KEGG), 以及基因集富集分析(gene set enrichment analysis, GSEA)。應用機器學習算法LASSO logistic regression 與 SVM-RFE識別CRCLM的潛在生物標志物,并且利用單樣本基因集富集分析(single sample gene set enrichment analysis, ssGSEA)算法評估CRC和CRCLM之間微環境中免疫浸潤細胞的差異,鑒定生物標志物與免疫細胞浸潤的相關性。研究結果有助于揭示CRC發展為CRCLM的分子機制,有望為CRCLM的靶向治療和分子機制研究提供理論基礎。
1 材料與方法
1.1 微陣列數據的收集和處理
本研究中CRCLM的微陣列信息(GSE6988 與 GSE14297)都來自基因表達綜合數據庫(gene expression omnibus, GEO) (http://www.ncbi.nlm.nih.gov/geo/)。GSE6988的平臺信息是GPL4811[17], GSE14297的平臺信息是GPL6370[18]。筆者將GSE6988數據集(其中有27個CRC樣本和27個CRCLM樣本)作為訓練集,將GSE14297數據集(包括18例CRC、18例CRCLM、7例正常結腸上皮樣本和5例正常肝組織樣本)作為驗證集(表1)。所有數據都進行了進一步的batch effects去除[19]。
1.2 DEGs的鑒別
為了確定CRCLM的特征,我們分析了原發性CRC組織與肝轉移組織之間的DEGs。將探針轉換為基因符號,并將平均表達值作為具有多個對應探針的基因的唯一值。然后使用log2變換對數據進行轉換,并在截斷值|log2[fold change (FC)]| >2和調整后的P<0.001處使用limma包識別DEGs[20]。隨后進行了GO富集分析,以研究生物學過程、分子功能和細胞成分。用KEGG分析探究與DEGs相關的信號通路。GO富集分析和KEGG富集分析使用“Cluster Profiler”R包實現(P<0.05, FDR<0.05)。最后,使用基于基因間Pearson相關性的有序基因表達矩陣進行GSEA分析,研究DEGs富集的生物學途徑。
1.3 基于機器學習算法的CRCLM潛在生物標志物識別
LASSO回歸算法基于R包“glmnet”來消除模塊過擬合。它使用L1懲罰將回歸系數(λ)限制為零,并且保留系數非零的基因作為種子基因。將差異基因的表達譜轉移到R平臺進行LASSO回歸分析,該分析基于“glmnet”包,nfolds=10。根據最小標準選擇最佳λ值。SVM-RFE是一種高效的特征選擇算法,它迭代地去除權重最小的特征。在每次迭代中,通過k-fold交叉驗證對當前SVM-RFE模型進行評估。最后構建精度最高的分類器模型,并找到最優變量[21]。SVM-RFE算法主要基于“e1071”R包來執行[22]。最后,兩種機器學習算法中的共有基因被認為是診斷性生物標志物。
1.4 診斷性生物標志物價值的評價
我們通過基因表達和ROC曲線評估診斷性生物標志物區分CRC和CRCLM的能力。用箱線圖表示基因表達情況,P<0.05表示基因表達差異有統計學意義。基于“pROC”包,通過受試者工作特征(receiver operating characteristic, ROC)曲線下面積(area under the curve, AUC)值生成ROC曲線,以評估篩選出的生物標志物的預測效能。用測試隊列數據進一步驗證篩選出的生物標志物表達差異和預測可靠性。
1.5 免疫細胞浸潤分析
我們評估了CRC和CRCLM組織中28個免疫細胞的浸潤情況,并基于ssGSEA繪制熱圖和小提琴圖。此外,為了探索在CRPC轉化中發現的生物標志物的免疫相關機制,我們進一步評估了基因與免疫細胞浸潤的相關性。
1.6 統計學方法
所有統計分析均使用R軟件(版本4.3.2)進行。兩組數據間比較采用t檢驗,三組及以上數據比較采用單因素方差分析。檢驗水準:α=0.05,雙側檢驗。
2 結 果
2.1 CRC與CRCLM差異表達基因的鑒定
本研究流程圖如圖1所示。通過比較CRCLM與CRC樣本,我們共鑒定出73個DEGs,其中上調基因55個,下調基因18個(|log2FC|>2, P<0.05),研究結果用火山圖(圖2A)和熱圖(圖2B)表示。
2.2 GO、 KEGG與GSEA富集分析
進行GO、KEGG與GSEA富集分析,研究DEGs的生物學功能。GO分析表明,這些DEGs主要參與血液微粒、小分子代謝過程和絲氨酸型酶抑制劑活性相關的生物過程(圖3A)。KEGG富集分析表明,DEGs主要富集在與細胞因子-細胞因子受體相互作用相關的信號通路中(圖3B)。GSEA結果顯示,CRC樣本中富集了丁酸甲酯代謝相關信號通路,而CRCLM樣本中富集了趨化因子信號通路相關的通路(圖3C、3D)。
2.3 WGCNA
為了進一步鑒定CRCLM中的關鍵基因,使用73個基因進行了WGCNA。對樣本進行聚類分析,發現所有樣本之間存在相關性,并利用所有樣本中DEGs的表達矩陣構建加權基因共表達網絡。設置軟閾值為14 (R2 0.86)構建無標度網絡(圖4A、4B)。此外,通過結合相關性較高的模塊,在加權基因共表達網絡中篩選出5個共表達模塊,將最小基因數設置為60個(圖4C)。然后,我們計算了每個模塊的特征基因(ME)與CRCLM之間的Pearson相關性。黃色模塊與CRCLM相關性和顯著性最高(cor=0.72, P=2e-14),被選為目標模塊(圖4D、4E)。最終獲得81個靶基因,以基因重要性和模塊相關性作為篩選標準(重要性>0.5,相關性>0.8)進行后續分析(圖4F)。
2.4 利用機器學習算法鑒定潛在的CRCLM生物標志物
為了進一步從靶基因中識別CRCLM的潛在生物標志物,使用LASSO邏輯回歸和SVM-RFE兩種機器學習算法。首先,應用LASSO回歸算法篩選黃色模塊與差異基因的交集基因中的過擬合基因,其中4個基因(CCL11、SLC26A3、NR4A2、PLA2G2A)被確定為潛在的具有診斷性生物標志物(圖5A、5B)。隨后,通過SVM-RFE算法(圖5C),從DEGs中獲得19個基因(CRP、HP、ORM2、CYP2E1、CCL11、MMP10、AQP3、SERPINA3、ENO3、HAO1、PLG、ENAM、DGUOK、UBE2Q2、HPX、APOA2、ITIH3、ANGPTL3、MMP1)作為潛在的診斷基因(圖5D)。
2.5 評估潛在生物標志物的表達水平和診斷能力
CCL11在訓練隊列CRCLM樣本中的表達顯著低于原發性結直腸癌(P<0.001)(圖6A)。通過測試隊列數據驗證得到了相同的結果(圖6B)。為了評估診斷性生物標志物的預測性能,進行了ROC分析。CCL11在訓練隊列中的AUC值為0.936,具有可靠的預測能力(圖6C)。同時CCL11在驗證隊列中的AUC值為0.997(圖6D),這些結果表明CCL11是有效的診斷性生物標志物。
2.6 免疫細胞浸潤分析
為了進一步分析CRC與CRCLM免疫細胞浸潤的差異,我們通過ssGSEA方法,探討診斷生物標志物與免疫細胞浸潤的相關性。大多數免疫細胞浸潤在CRC和CRCLM中有顯著差異,大多數免疫細胞浸潤在原發性結直腸癌中比在CRCLM中更多(圖7A、7B)。相關分析顯示,CCL11與大多數免疫細胞呈正相關 (圖7C)。
3 討 論
CRC是全世界癌癥相關死亡的主要原因之一。CRC的主要特征是侵襲性強、預后差以及病死率高,而肝轉移的高發生率是結直腸癌患者死亡的首要危險因素[23-24]。近年來,研究發現了與CRCLM發生和進展相關的因素,包括三級淋巴結構的定位和密度、血管周圍基質的重塑、TRP 通道相關因子2等[25-27]。然而CRCLM是一個涉及多種因素和步驟的復雜生物學過程,其機制尚未被完全闡明,因此,迫切需要尋找潛在的CRCLM分子生物標志物,以幫助提高CRCLM的診斷和治療效果。近年來,機器學習算法的發展引起了許多研究者的關注,對復雜的計算機算法的分析可以幫助研究人員從大而雜亂的數據中找到問題的關鍵因素。在我們的研究中,同時采用WGCNA和兩種機器學習算法(LASSO logistic回歸和SVM-RFE)在GEO數據庫中識別出一個關鍵基因CCL11,這個基因可以作為CRCLM的診斷性生物標志物。同時,我們探索了DEGs在CRC和CRCLM中富集的生物學過程、途徑,并討論了這個診斷性生物標志物與免疫細胞浸潤的相關性。
本研究中,GO富集分析顯示,大部分的DEGs被富集于與血液微粒相關的生物學功能。黃媛等[28]發現肺癌患者腫瘤轉移與血小板計數及血漿纖維蛋白原水平相關。腫瘤微環境在結直腸癌轉移過程起重要作用,而眾多血液微粒(如血管內皮生長因子、抑制性細胞、中性粒細胞等)能調節腫瘤血管生成,從而影響腫瘤微環境[29]。KEGG分析DEGs與細胞因子-細胞因子受體相互作用的通路相關。GSEA顯示,CRC樣本中富集了丁酸甲酯代謝相關信號通路,而CRCLM樣本中富集了趨化因子信號通路。綜上表明,CRC與CRCLM在血液微粒以及細胞因子和趨化因子信號通路等方面存在顯著差異,可能引起腫瘤血管微環境改變,這可能是原發性結直腸癌肝轉移的機制之一。
通過WGCNA和兩種不同的機器學習算法確定了診斷性生物標志物CCL11。通過訓練集和驗證集驗證,我們發現CCL11在CRC和CRCLM中的表達水平存在顯著差異:在CRCLM中CCL11的表達量顯著低于CRC,這提示CCL11可能作為抑制CRCLM發生的生物標志物。ROC分析顯示CCL11具有較強的預測能力,可作為CRCLM的診斷性生物標志物。
嗜酸細胞活化趨化因子即CCL11,也稱為Eotaxin-1, 屬于間分泌β(趨化因子CC)家族。它的主要作用是激活參與炎癥過程的嗜堿性粒細胞和嗜酸性粒細胞。由Eotaxin-1激活的特定嗜酸性粒細胞主要與炎癥性疾病有關,例如特應性皮炎、過敏性鼻炎、哮喘和寄生蟲感染[30]。有研究表明,Eotaxin-1在胃腸道黏膜中表達,可能在潰瘍性結腸炎和其他胃腸道疾病中發揮作用[31-32]。還有研究證實了在結直腸癌中Eotaxin-1 的血漿或血清水平較高[33-34]。在促進癌轉移的機制方面,有研究表明CCL11可以通過激活CCR3-ERK通路和上調基質金屬蛋白酶3(MMP-3)來促進癌細胞遷移和侵襲[35]。CCL11在結直腸癌肝轉移中的作用還需要更深入的研究來闡明。
本研究尚存在一定局限性。首先,本研究的訓練集與驗證集均僅納入了單個平臺的單個數據集,GEO數據庫中無更多CRCLM及CRC的數據集,使得樣本量偏少, 結果可能存在一定偏倚;其次,本研究結果僅能說明CCL11與CRCLM存在相關性,并不能揭露其相互之間的因果關系及作用機制;最后,本研究的所有結果完全來自GEO數據庫且均是基于生物信息學分析,未對CCL11進行動物、細胞實驗和臨床試驗樣本中的驗證來進一步確認研究結論。
綜上所述,本研究通過生物信息學分析先得到CRCLM與CRC的差異基因,再結合WGCNA與機器學習算法LASSO和SVM-RFE識別出基因CCL11可作為診斷CRCLM的潛在生物標志物,在驗證數據集同樣發現CCL11在CRCLM和CRC樣本間存在表達差異。值得關注的是,功能富集分析表明CRCLM差異基因與血液微環境及趨化因子信號通路相關。基于以上結果可以推測,CCL11可能通過影響趨化因子分泌、改變腫瘤血管微環境等方式參與CRCLM的發生發展。未來有必要進行進一步的動物實驗、細胞實驗和臨床前瞻性研究以證實以上結論,最終期待為該病的臨床診療提供新的思路。
參 考 文 獻
[ 1] SUNG H, FERLAY J, SIEGEL R L, et al. Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries [J]. CA Cancer J Clin, 2021, 71(3): 209-49.
[ 2] CARLOMAGNO C, DE STEFANO A, ROSANOVA M, et al. Multiple treatment lines and prognosis in metastatic colorectal cancer patients[J]. Cancer Metastasis Rev, 2019, 38(1-2): 307-313.
[ 3] ESMO Guidelines Working Group,VAN CUTSEM E J.Advanced colorectal cancer: ESMO clinical recommendations for diagnosis, treatment and follow-up[J]. Ann Oncol, 2008, 19(5):1027-9.
[ 4] ENGSTRAND J, NILSSON H, STRMBERG C, et al. Colorectal cancer liver metastases - a population-based study on incidence, management and survival [J]. BMC Cancer, 2018, 18(1): 78.
[ 5] HORN S R, STOLTZFUS K C, LEHRER E J, et al. Epidemiology of liver metastases[J]. Cancer Epidemiol, 2020, 67: 101760.
[ 6] ZHOU H, LIU Z, WANG Y, et al. Colorectal liver metastasis: molecular mechanism and interventional therapy[J]. Signal Transduct Target Ther, 2022, 7(1): 70.
[ 7] BAI R, SHI Z, LI D, et al. Gene expression profile of human colorectal cancer identified NKTR as a biomarker for liver metastasis[J]. Aging (Albany NY), 2022, 14(16): 6656-6667.
[ 8] LANGFELDER P, HORVATH S. WGCNA: an R package for weighted correlation network analysis[J]. BMC Bioinformatics, 2008, 9: 559.
[ 9] TRAXLER L, HERDY J R, STEFANONI D, et al. Warburg-like metabolic transformation underlies neuronal degeneration in sporadic Alzheimer's disease [J]. Cell Metab, 2022, 34(9): 1248-1263.e6.
[10] LUO Z, WANG W, LI F, et al. Pan-cancer analysis identifies telomerase-associated signatures and cancer subtypes[J]. Mol Cancer, 2019, 18(1): 106.
[11] TSHITOYAN V, DAGDELEN J, WESTON L, et al. Unsupervised word embeddings capture latent knowledge from materials science literature[J]. Nature, 2019, 571(7763): 95-98.
[12] BOGARD N, LINDER J, ROSENBERG A B, et al. A deep neural network for predicting and engineering alternative polyadenylation[J]. Cell, 2019, 178(1): 91-106.e23.
[13] KACHROO P, ERASO J M, BERES S B, et al. Integrated analysis of population genomics, transcriptomics and virulence provides novel insights into Streptococcus pyogenes pathogenesis[J]. Nat Genet, 2019, 51(3): 548-559.
[14] KANG J, CHOI Y J, KIM I K, et al. LASSO-based machine learning algorithm for prediction of lymph node metastasis in T1 colorectal cancer[J]. Cancer Res Treat, 2021, 53(3): 773-783.
[15] TIBSHIRANI R. Regression shrinkage and selection via the lasso[J]. J R Stat Soc Ser B: Methodol,1996,58:267-288.
[16] SANZ H, VALIM C, VEGAS E, et al. SVM-RFE: selection and visualization of the most relevant features through non-linear kernels[J]. BMC Bioinformatics, 2018, 19(1): 432.
[17] KI D H, JEUNG H C, PARK C H, et al. Whole genome analysis for liver metastasis gene signatures in colorectal cancer[J]. Int J Cancer, 2007, 121(9): 2005-2012.
[18] STANGE D E, ENGEL F, LONGERICH T, et al. Expression of an ASCL2 related stem cell signature and IGF2 in colorectal cancer liver metastases with 11p15.5 gain[J]. Gut, 2010, 59(9): 1236-1244.
[19] PARKER H S, LEEK J T, FAVOROV A V, et al. Preserving biological heterogeneity with a permuted surrogate variable analysis for genomics batch correction[J]. Bioinformatics, 2014, 30(19): 2757-2763.
[20] RITCHIE M E, PHIPSON B, WU D, et al. Limma powers differential expression analyses for RNA-sequencing and microarray studies[J]. Nucleic Acids Res, 2015, 43(7): e47.
[21] LIN X, YANG F, ZHOU L, et al. A support vector machine-recursive feature elimination feature selection method based on artificial contrast variables and mutual information[J]. J Chromatogr B Analyt Technol Biomed Life Sci, 2012, 910: 149-155.
[22] HUANG M L, HUNG Y H, LEE W M, et al. SVM-RFE based feature selection and Taguchi parameters optimization for multiclass SVM classifier [J]. Sci World J, 2014, 2014: 795624.
[23] LIU W, ZHANG W, XU Y, et al. A prognostic scoring system to predict survival outcome of resectable colorectal liver metastases in this modern era[J]. Ann Surg Oncol, 2021, 28(12): 7709-7718.
[24] NISHIOKA Y, KAWAGUCHI Y, KOTHARI A N, et al. Prognostic and therapeutic implications of tumor biology, including gene alterations, in colorectal liver metastases[J]. J Gastrointest Surg, 2021, 25(6): 1591-1600.
[25] ZHANG C, WANG X Y, ZUO J L, et al. Localization and density of tertiary lymphoid structures associate with molecular subtype and clinical outcome in colorectal cancer liver metastases[J]. J Immunother Cancer, 2023, 11(2): e006425.
[26] LI X, PAN J, LIU T, et al. Novel TCF21(high) pericyte subpopulation promotes colorectal cancer metastasis by remodelling perivascular matrix[J]. Gut, 2023, 72(4): 710-721.
[27] LI X, QI Q, LI Y, et al. TCAF2 in pericytes promotes colorectal cancer liver metastasis via inhibiting cold-sensing TRPM8 channel[J]. Adv Sci (Weinh), 2023, 10(30): e2302717.
[28] 黃媛,陳建魁,于農,等.肺癌患者血小板計數與血漿纖維蛋白原水平變化與腫瘤轉移的關系[J].國際檢驗醫學雜志,2013, 34(19): 2532-2533.
[29] 韋蕾,胡容.結腸癌轉移機制及其治療研究進展[J].藥物生物技術, 2023, 30(2): 207-215.
[30] ROBINSON S C, COUSSENS L M. Soluble mediators of inflammation during tumor development[J]. Adv Cancer Res, 2005, 93: 159-187.
[31] WGSTER D, LFGREN S, HUGANDER A, et al. Analysis of single nucleotide polymorphism in the promoter and protein expression of the chemokine eotaxin-1 in colorectal cancer patients[J]. World J Surg Oncol, 2007, 5: 84.
[32] ZAJKOWSKA M, KULCZYSKA-PRZYBIK A, DU-LEWICZ M, et al. Eotaxins and their receptor as biomarkers of colorectal cancer[J]. J Clin Med, 2021, 10(12):2675.
[33] YAMAGUCHI M, OKAMURA S, YAMAJI T, et al. Plasma cytokine levels and the presence of colorectal cancer[J]. PLoS One, 2019, 14(3): e0213602.
[34] KOMURA T, YANO M, MIYAKE A, et al. Immune condition of colorectal cancer patients featured by serum chemokines and gene expressions of CD4+ cells in blood[J]. Can J Gastroenterol Hepatol, 2018, 2018: 7436205.
[35] ZHU F, LIU P, LI J, et al. Eotaxin-1 promotes prostate cancer cell invasion via activation of the CCR3-ERK pathway and upregulation of MMP-3 expression [J]. Oncol Rep, 2014, 31(5): 2049-2054.
基金項目: 國家自然科學基金(82160044,81960042)
第一作者簡介: 張平茜,男,醫學學士,在讀碩士研究生,研究方向:病理學。E-mail:2358514499@qq.com
▲通信作者: 潘云。E-mail:panyun09@163.com
[本文引用格式] 張平茜,何亞玲,李宇陽,等.基于WGCNA和機器學習算法探索結直腸癌肝轉移的機制及其潛在生物標志物[J].右江醫學,2024,52(6):481-490.