王威,程倩倩,周雪麗,季文斌,呂振宇,楊燕
作者單位:蚌埠醫學院第一附屬醫院腫瘤內科,安徽 蚌埠233004
肝細胞癌(hepatocellular carcinoma,HCC)是常見消化系統惡性腫瘤,全球每年約有91萬新發病例和83萬死亡病例,在所有癌癥中居第6位及第3位[1-2]。盡管近年來HCC新藥不斷涌現,尤其是免疫治療或免疫聯合治療較大地改善了晚期HCC的整體預后,但有效療效預測和預后判斷生物標志物的缺乏在一定程度上限制了人群的獲益。傳統臨床分期雖是指導HCC治療及判斷預后的重要因素,但一些臨床特征相同的病人,由于分子層面異質性可能預后不同[3]。近年來,大量證據顯示包括HCC在內的腫瘤免疫微環境與病人的生存關系密切[4],許多學者試圖通過對免疫相關基因(immune-related genes,IRGs)或免疫相關lncRNA(immune-related lncRNAs,IRlncRNAs)的生物信息學分析來評估病人風險及預后,如Hong等[5]構建了12個IRlncRNAs的HCC預后模型,劉航睿等[6]構建了7個IRGs的食管癌預后模型,這些由IRGs或轉錄產物構成的模型在病人預后評價中具有良好的應用價值,但這些模型多只涉及一種類型的RNA,多類型RNA的聯合預測模型研究較少。考慮到HCC免疫學研究的重要性,以及癌癥發生發展中不同分子間的密切協同作用[7-8],本研究首次構建了IRGs及IRlncRNAs聯合的HCC預后模型,以期為HCC免疫學機制研究及預后預測提供一定參考。
1.1 數據獲取及處理 2022年6—8月通過TCGA官網下載HCC轉錄組及與對應的臨床數據;https://www.immport.org/網站下載IRGs;根據Ensembl基因轉移格式文件將基因表達矩陣區分為mRNA及LncRNA表達陣列,Perl軟件提取mRNA陣列中IRGs表達陣列;剔除生存信息缺失及存活天數小于30的病人;R軟件“WGCNA”函數對生存相關的核心免疫基因聚類,篩選與預后顯著相關的基因模塊(模塊中基因數>40);上述得到的核心基因納入單因素Cox回歸篩選出預后相關的IRGs(P<0.001為過濾條件),在預后相關的IRGs和lncRNAs之間進行共表達分析,得到IRlncRNAs(IRGs與lncRNA之間Pearson系數絕對值大于0.4,P<0.001認為是IRlncRNAs)。
1.2 風險評分模型的建立及驗證 套索算法(LASSO)是一種變量選擇方法,通過構造一個懲罰系數得到比較精練的模型。使用R軟件“glmnet”包使用R“caret”包按1∶1的比例將總樣本隨機分為訓練集和驗證集,在訓練集中使用R“glmnet”包對上述得到的IRGs和lncRNAs進行Lasso回歸分析,創建預后模型。風險評分公式=∑Ni=1(Ei×Ci)(Ei為每個元素的表達量,Ci為相對應的回歸系數)。根據評分中位值將所有樣本分為高風險組和低風險組,分析高風險組與低風險組HCC病人臨床病理特征的差異(χ2檢驗);再使用R軟件繪制訓練集組、測試集組、總樣本組病人Kaplan-Meier曲線、時間依賴性受試者操作特征(ROC)曲線、風險因子圖對模型進行評價;最后將HCC病人臨床病理特征及模型風險評分納入多因素Cox回歸分析,判斷模型預測病人預后的價值(P<0.05為差異有統計學意義)。
1.3 不同風險組生存差異的機制分析 為了解不同風險組病人預后差異的分子機制,使用R語言limma包篩選高低風險病人差異表達的基因(FDR<0.05,│Log2FC│>1為過濾條件),并對差異基因進行GO(基因本體論)和KEGG(京都基因與基因組百科全書)分析,繪制富集結果的柱狀圖和氣泡圖(GO分析篩選條件為FDR<0.05,基因計數>5;KEGG通路分析篩選條件FDR<0.05)。
2.1 預后相關的IRGs及IRlncRNAs 剔除預后信息缺失及生存天數<30 d的樣本后共得到342個有效樣本進行WGCNA分析,結果顯示Power值為3時為最優無尺度網絡,動態剪切法得到6個模塊(圖1A),黃色模塊及藍色模塊中的基因為預后相關的核心基因(圖1B),模塊中共提取388個預后相關的核心基因,上述基因與生存數據合并后使用R“survival”包和單因素Cox回歸進行IRGs篩選;共得到42個預后相關的IRGs,共表達分析得到42個預后相關IRlncRNAs(圖2)。42個預后相關的IRGs均為HCC病人預后危險基因;在42個預后相關IRlncRNAs中,F11-AS1、AC015908.3、TMEM220-AS1、AP001065.3、AC115619.1是HCC病人預后的保護IRlncRNAs,其余為預后危險IRlncRNAs。

圖1 通過WGCNA篩選肝細胞癌(HCC)預后相關的基因模塊:1A為WGCNA聚類樹;1B為與HCC病人生存相關的基因模塊

圖2 HCC預后相關的IRGs(A)和IRlncRNAs(B)森林圖
2.2 LASSO回歸構建模型 在訓練集中對上述預后相關的IRGs及IRlncRNAs進行LASSO回歸分析,選取誤差最小的λ值確定最佳模型(圖3),篩選出與預后顯著相關的6個IRGs(NFYC、PSMD1、PSMD6、BCL10、TXLNA、S100A16)和7個IRlncRNAs(MSC-AS1、AC015908.3、AP001065.3、AL139384.1、AL031985.3、ZFPM2-AS1、AL117336.2),計算各個元素的回歸系數,構建預后模型。

圖3 基于IRGs和IRlncRNAs構建的HCC預后模型LASSO回歸構建模型:3A為LASSO回歸中的調諧平行度;3B為特征相對于log2(1ambda)的LASSO系數剖面
風險評分=0.062×NFYC+0.127×PSMD1+0.061×PSMD6+0.024×BCL10+0.1×TXLNA+0.009×S100A16+0.031×MSC-AS1-0.334×AC015908.3-0.007×AP001065.3+0.04×AL139384.1+0.053×AL031985.3+0.083×ZFPM2-AS1+0.444×AL117336.2。在模型中,NFYC、PSMD1、PSMD6、BCL10、TXLNA、S100A16、MSC-AS1、AL139384.1、AL031985.3、ZFPM2-AS1、AL117336.2為病人風險評分的危險變量,AC015908.3、AP001065.3為病人風險評分的保護變量。
2.3 模型的評價 根據評分中位值將342位病人分為高、低風險組。臨床相關性分析顯示:不同風險組病人的組織學分級Grade(P=0.001)、臨床分期(P=0.005)、T分期(P=0.010)差異有統計學意義(表1);模型在訓練集(171例)、測試集(171例)及總樣本集中分別進行驗證,生存分析一致表明,高風險組較低風險組病人總生存期明顯降低(均P<0.05)(圖4A~4C);1年時間依賴性ROC曲線提示,訓練集、測試集、總樣本集曲線下面積95%CI分別0.85(0.79,0.91)、0.81(0.73,0.89)、0.83(0.78,0.88),提示該模型在預測HCC預后表現良好;風險熱圖顯示低風險組病人生存狀態更好(圖4D);多因素分析顯示模型評分、臨床分期是HCC病人獨立的預后因子(均P<0.05),見表2~4。

表1 模型風險評分與HCC病人臨床病理特征的相關性/例

表2 訓練集預后的單因素及多因素回歸分析

表3 測試集預后的單因素及多因素回歸分析

表4 總樣本預后的單因素及多因素回歸分析

圖4 肝細胞癌(HCC)模型的評價及驗證:4A為訓練集組生存曲線;4B為測試集組生存曲線;4C為總樣本組生存曲線;4D為風險得分;4E為生存狀態;4F為模型變量的表達熱圖
2.4 高低風險病人差異基因的GO、KEGG分析 基于模型的不同風險組共存在1 241個差異表達基因。GO分析顯示:差異基因主要富集的功能為有絲分裂、染色體分離、DNA復制起點的結合、微管蛋白結合、花生四烯酸單加氧酶活性、膠原結合等(圖5A);KEGG分析顯示:差異基因主要富集的通路有PI3K-AKT、細胞周期、人乳頭瘤病毒感染、黏著斑、ECM-受體相互作用、細胞衰老、蛋白質消化吸收等(圖5B)。

圖5 肝細胞癌不同風險組差異基因的基因本體論(GO)(5A)及京都基因與基因組百科全書(KEGG)(5B)分析棒狀圖及氣泡圖
盡管HCC的診斷和治療方式取得較大進步,但具有不同分子特征的病人其治療及預后存在明顯差異,因此區分不同風險病人尤為重要。構建預后模型,能有效評估病人潛在的臨床狀態及結局,并篩選出與HCC發生發展及預后相關的分子標記,在個性化治療和預后預測方面彰顯優勢。隨著技術的進步,免疫治療給人類抗癌帶來了希望,同時在個性化的治療時代,關鍵生物標志物及基因組的研究可引領腫瘤治療的發展。鑒于此,部分研究者開始通過對IRGs或轉錄產物的研究來評估病人風險,但既往研究通常只關注單一類型的RNA的表達,如mRNA、lncRNA等,考慮到生物調控的復雜性以及不同RNA分子在癌癥發展和進展中的密切聯系,我們首次構建了HCC多類型RNA的預后模型,并分析了不同風險病人的臨床特征,驗證結果顯示該模型預測HCC病人生存性能良好;多因素Cox回歸提示該模型預測性能相對于傳統臨床特征是獨立的;最后我們探討了高低風險病人預后差異的可能分子機制,以期對HCC的臨床決策及深入研究提供一定幫助。
在本模型納入的6個IRGs和7個IRlncRNAs中,有部分已被報道與HCC的發展和預后有關。如Tan等[9]發現PSMD1的高表達與HCC的不良預后顯著相關;Cheng等[10]發現BCL10在HCC組織中存在高頻點突變,但具體致病機制仍不清楚;S100A16則可以參與HCC病人的體液免疫,并影響病人預后[11]。至于IRlncRNA方面,MSC-AS1被發現可預測HCC病人的預后、免疫細胞浸潤水平及免疫治療反應[12];Kou等[13]發現MSC-AS1的下調可抑制HCC細胞增殖、遷移、侵襲和促進HCC細胞凋亡;ZFPM2-AS1可通過靶向調節miR-653/GOLM1軸[14]、miR-576-3p/HIF-1α軸[15]等途徑促進HCC細胞增殖、侵襲,并與HCC不良預后相關。另外值得注意的是,AC015908.3的腫瘤干細胞相關功能新近在HCC中被鑒定出來[16];AL031985.3則在HCC免疫、自噬等功能中發揮一定作用[17],提示這些lncRNAs可能與HCC的發生發展密切相關。而關于NFYC、PSMD6、TXLNA、AP001065.3、AL139384.1、AL117336.2在HCC中的作用研究則較少,具體功能有待研究進一步揭示。最后GO分析顯示高低風險病人風險差異基因主要參與細胞遺傳物質的復制等事件,KEGG分析提示這些基因與某些腫瘤相關通路密切聯系,如“PI3K-AKT”“細胞周期”等,表明HCC病人預后差異涉及多途徑、多靶點,為HCC的多靶點聯合治療提供了理論支持。
HCC已進入免疫治療時代,篩選免疫相關的生物標志物用于預測HCC病人預后非常重要和必要[18-19]。本研究是首個IRGs及IRlncRNAs聯合的HCC預后模型的研究,該模型風險評分能夠作為HCC病人的獨立預后因素,將有助于臨床醫生對HCC病人的風險管理和決策制定。然而,我們的研究仍有一些不足。首先,本研究是基于國外數據庫的分析,基于東西方HCC病人特征的不同,該模型在中國人群的應用是否同樣具有價值尚未可知;其次,本模型是在公共數據的回顧性分析基礎上構建,可能存在選擇性偏倚;最后HCC具有高度異質性及病人個體差異,我們關注的隊列是否具有代表性尚需在前瞻的獨立臨床隊列中進行驗證。總之,本研究表明,由IRGs及IRlncRNAs聯合構建的預后模型在預測HCC病人的生存及臨床特征上有一定價值,可能為HCC的免疫學研究及預后預測提供有用工具。