徐 鶴 徐劍英 史文杰
(1 江蘇省徐州市第一人民醫院甲乳外科,徐州市 221005,電子郵箱:553683567@qq.com;2 中山大學腫瘤防治中心腫瘤內科,廣東省廣州市 510060;3 廣西中醫藥大學附屬桂林市中醫醫院乳腺科,桂林市 541002)
盡管乳腺癌早期篩查和治療的技術在不斷進步,但乳腺癌仍是全球女性癌癥死亡的主要原因[1]。三陰性乳腺癌(triple negative breast cancer,TNBC)發病率占所有乳腺癌發病率的12%~17%[1],與非TNBC相比,TNBC缺乏特異性的雌激素受體、孕激素受體以及人表皮生長因子受體2(human epidermal growth factor receptor 2,HER2)受體,這使TNBC患者使用傳統化療方案后臨床獲益收效甚微[2]。因此,尋找積極有效的生物學靶點是治療TNBC的關鍵。
2010年,Prat等[3]進行基于基因表達譜的TNBC聚類分析,并鑒定出了TNBC的claudin-low分子亞型。隨后,2011年Lehmann等[4]在此基礎上進一步分析發現TNBC可分為6種亞型,包括基底細胞1型和2型、免疫調節亞型、間充質型、間充質-干細胞型以及管腔/雄激素受體(luminal androgen receptor,LAR)亞型,進一步開發和應用針對6種亞型的靶向藥物后,TNBC患者的臨床預后得到了明顯提升。LAR亞型作為TNBC的亞型之一,較其他亞型具有較為滿意的臨床預后。然而,由于腫瘤本身的異質性,盡管研究者已經嘗試開發多種靶向藥物,但是將這些藥物應用于LAR亞型患者時,不同患者的臨床獲益率相差甚遠[5]。因此,為了實現該疾病的精準治療,對于此類患者,識別全新的生物學靶點以指導患者進行風險再分層顯得尤為重要。
本文基于多尺度嵌入式基因共表達網絡分析(multiscale embedded gene co-expression network analysis,MEGENA)技術,運用生物信息學的方法鑒定出TNBC中LAR亞型患者的全新生物學靶點,并分析其與預后的關系,為指導該疾病實現分類而治的精準診療提供參考。
1.1 數據來源和預處理 從TCGA數據庫(https://portal.gdc.cancer.gov/)中下載乳腺癌患者轉錄組測序數據及其所對應的臨床樣本文件。根據患者的年齡、生存資料、臨床分期以及表達譜數據是否完整進行篩選,最終納入710例患者進行后續分析,其中TNBC 113例(15.9%),非TNBC 597例(84.1%)。對所有原始測序數據進行TPM標準化處理。此外,從GEO數據庫(https://www.ncbi.nlm.nih.gov/geo/)中下載驗證數據集GSE76245和Shao數據集,并對數據集進行TPM標準化處理。
1.2 差異表達基因分析的篩選 為了避免后續分析結果出現偏移和數據冗余,首先對TNBC患者和非TNBC組患者的組織樣本測序數據進行差異表達基因分析。這一步驟通過使用R軟件的edger包進行篩選,限制條件為|log2FC|>2,調整后P值<0.05。
1.3 多尺度嵌入式基因共表達網絡分析 使用MEGENA包(https://cran.uni-muenster.de/web/packages/MEGENA/MEGENA.pdf)對差異表達的上調和下調基因進行分析,并設置相關的篩選條件:模塊差異的FDR.cutoff=0.05,模塊聚類的P值=0.05,核心模塊的篩選標準為模塊的Hub.pval=0.05。利用這一限制條件識別出TNBC患者表達譜的聚類模塊數目以及核心模塊,進一步對核心模塊進行生物學功能鑒定。最后,根據核心模塊中基因與基因之間平均連接度大于8個節點的標準定義基因權重,使用MEGENA包中的多尺度核心基因分析方法(multiscale Hub analysis,MHA)進行核心基因篩選。所有模塊基因中,某一個基因與其他基因的關聯度得分最高,該基因即為核心基因。
1.4 核心基因驗證 在識別到核心模塊的核心基因后,為了檢驗模塊聚類效能,首先使用GSE76245數據集對模塊的核心基因進行外部表達驗證,包括與核心基因共表達的基因、核心基因與相關基因表達的相關性、不同亞型TNBC患者中核心基因的表達差異;并使用在線工具UALCAN(http://ualcan.path.uab.edu/index.html)進行基于TCGA數據庫的內部表達驗證;然后使用CCLE數據庫(https://portals.broadinstitute.org/ccle)進行泛癌細胞系及乳腺癌細胞系的表達驗證。
1.5 預后分析 選取Shao數據集驗證核心基因與LAR亞型患者臨床預后的關系。將數據集進行TPM標準化處理后,對數據集中包含的50例LAR亞型患者的測序數據進行批量單因素Cox回歸分析,選取單因素分析中有統計學意義的基因以及研究者認為臨床上有意義的指標作為協變量進行多因素Cox回歸分析。其中,使用R包survminer(https://cran.rstudio.com/web/packages/survminer/index.html)確定核心基因診斷LAR亞型患者復發的最佳截斷值,使用受試者工作特征曲線獲取年齡和腫瘤大小等臨床指標診斷復發的最佳截斷值。并根據最佳截斷值將LAR亞型患者分為低表達者和高表達者,然后通過Kaplan-Meier 法繪制生存曲線,比較核心基因不同表達情況下LAR亞型患者的3年和5年疾病復發風險。
1.6 統計學分析 采用R軟件(Version 4.0.1)進行統計分析,其中采用Pearson檢驗進行相關性分析,采用Wilcoxon檢驗分析GSE76245數據集亞組間的差異,采用Kruskal-Wallis檢驗分析泛癌細胞系組間的表達差異,采用Cox回歸模型進行單因素和多因素分析,采用log-rank檢驗比較組間的復發風險差異。以P<0.05表示差異具有統計學意義。
2.1 入組患者的基本特征 非TNBC患者、TNBC患者年齡分別為28~90(59.53±13.23)歲、29~90(54.68±12.08)歲;TNBC患者均為女性,但有8例非TNBC患者為男性;無論是TNBC還是非TNBC患者,浸潤性導管癌都是最常見的病理組織學類型,且腫瘤分期以Ⅰ期和Ⅱ期為主。見表1。

表1 非TNBC患者和TNBC患者的基本特征
2.2 差異表達基因的篩選結果以及MEGENA分析結果 與非TNBC患者相比,TNBC患者中存在1903個差異表達上調基因和1021個差異表達下調基因。使用MEGENA包對1903差異表達上調基因進行分析,結果提示,這些基因被聚類為21個模塊,其中C3模塊是核心模塊;使用MHA對篩選到的核心模塊進行功能預測和核心基因篩選,結果提示該核心模塊可能與雄激素受體具有相關性,模塊中的催乳素誘導蛋白(prolactin-induced protein,PIP)基因權重最大,因此被定義為模塊中的核心基因,見圖1A。

圖1 核心模塊和核心基因的篩選以及核心基因的外部數據集表達驗證結果注:圖A 顯示了C3核心模塊及模塊中基因;圖B顯示了數據集GSE76124中與PIP基因共表達的基因;圖C提示數據集GSE76124中PIP基因與雄激素受體基因的表達具有相關性;圖D顯示數據集GSE76124中PIP基因在不同亞型TNBC中的表達情況,其中BLIA為基底樣免疫激活亞型,BLIS為基底樣免疫抑制亞型,LAR為管腔雄激素受體亞型,MES為間充質亞型。
2.3 核心基因的驗證結果 數據集GSE76245驗證結果提示,PIP基因與多種雄激素受體相關的基因存在共表達,且其表達水平與雄激素受體表達水平呈正相關(r=0.73,P<0.001),見圖1B和圖1C;與其他亞型TNBC患者相比,LAR亞型TNBC患者的PIP基因表達量增加(均P<0.05),見圖1D。TCGA在線數據庫的分析結果同樣支持這一結論,該基因在TNBC的LAR亞型中表達顯著高于其他亞型,見圖2。

圖2 基于TCGA數據庫數據來源的PIP基因在不同亞型TNBC中的表達差異(A)和分布差異(B)注:圖A的縱坐標為PIP基因的表達量;橫坐標為TNBC的不同亞型,其中BL1為基底細胞1型,BL2為基底細胞2型,IM為免疫亞型,LAR為管腔雄激素受體亞型,MSL為間充質干細胞亞型,M為間充質亞型,UNS為未知亞型。圖B表中數據為PIP基因表達的TPM值。
采用CCLE數據庫進一步驗證,其中,對泛癌細胞系中PIP基因表達差異的分析結果提示,乳腺癌細胞系中PIP基因的表達顯著高于其他癌細胞系;提取乳腺癌細胞系進行亞組分析,結果顯示PIP基因在MDAMB453_BREAST乳腺癌細胞系(雄激素受體陽性)中的表達高于其他乳腺癌細胞系(P=1.3×10-16)。見圖3。

圖3 基于CCLE數據庫分析的PIP基因在泛癌細胞系和乳腺癌細胞系亞組的表達注:圖A的縱坐標為PIP基因的表達量,橫坐標為泛癌中不同細胞系名稱。
2.4 預后分析 單因素分析結果提示,PIP等71個基因可能是影響LAR亞型TNBC患者預后的危險因素,其中與本研究的MEGENA結果有交集的基因僅有PIP,故將其與臨床上認為有意義的指標作為自變量進行多因素分析。最終納入年齡(“年齡<45歲”=1,“年齡≥45歲”=0)、PIP表達量(“PIP相對表達量<3.45”=1,“PIP相對表達量≥3.45”=0)、腫瘤大小(“腫瘤<2.8 mm”=1,“腫瘤≥2.8 mm=0”)、化療方案(使用紫杉醇方案=1,未使用紫杉醇方案=0)作為協變量,以復發狀態(疾病未復發=0,疾病復發=1)作為因變量,進行多因素Cox回歸分析。結果顯示,除年齡<45歲、腫瘤≥2.8 mm、未使用紫杉醇方案化療外,PIP基因表達量降低也是LAR亞型TNBC患者預后的獨立危險因素(均P<0.05),見表2。進一步通過Kaplan-Meier法繪制復發風險曲線,結果顯示,PIP基因相對表達量<3.45的LAR亞型患者的3年和5年疾病累計復發風險概率均高于PIP基因相對表達量≥3.45者(P=0.005、P=0.009),見圖4。

表2 多因素Cox回歸分析結果

圖4 不同PIP基因表達水平的LAR亞型患者3年、5年復發風險曲線
與其他類型的TNBC相比,盡管LAR亞型具有明確的治療靶點,但是患者的臨床預后卻存在顯著差異,因此篩選治療獲益顯著的優勢人群,指導患者風險分層是LAR亞型研究的熱點和難點。
生物信息學的發展促進了生命領域的全新變革,研究者利用多種生物信息學方法挖掘出乳腺腫瘤的多個生物學靶點,為乳腺腫瘤的精準治療提供了參考依據。例如,2019年Qiu等[6]利用加權基因共表達網絡分析(weighted gene co-expression network analysis,WGCNA)法揭示了與乳腺癌發生發展相關的生物學靶點基因(KRT8、KRT19、KPNA2和ECT2);2020年,Shi等[7]利用差異基因法識別到乳腺癌預后相關靶點,并據此提出乳腺癌的風險分層策略;Urbaniak等[8]利用蛋白互作網絡分析預測乳腺癌的全新生物學標志物,揭示了乳腺癌發生相關蛋白之間可能存在的相互作用機制。MEGENA技術是基于拓撲結構理論構建的嵌入式共表達網絡,可以較好地避免網絡鏈接交叉問題,與傳統的WGCNA相比,它可以實現單個網絡中共存聚類,用以清晰地展示復雜網絡的多次度層次效應。與差異基因法相比,WGCNA同樣展示出極大的優勢,因為差異基因法本質上是一種平均表達量的對比分析,僅能展示樣本間的平均差異,這一結果可能會受到極值的影響,從而導致結果產生偏倚;而MEGENA技術是通過計算基因與基因之間的平均連接度來進行聚類,并不依賴于不同樣本的表達差異,可以避免樣本極值對于預測結果的影響。蛋白互作網絡分析是基于實驗驗證結果構建的共表達網絡,因此,不能進行新靶點的篩選和識別;與蛋白互作網絡分析不同的是,MEGENA識別的核心基因是根據平均連接度來定義的,其核心是一種預測分析,也更有可能會識別到全新的生物學標志物。因此,本研究利用MEGENA進行分析,最終篩選出TNBC中的差異表達基因PIP,LAR亞型TNBC的特異性生物學靶點PIP,并利用內部數據集和外部數據集對該基因在LAR亞型TNBC中的表達情況進行驗證。
PIP基因位于7號染色體長臂3區4帶(7q34),編碼含146個氨基酸殘基組成的前體蛋白,成熟產物為17kD的單鏈糖蛋白[9]。在前期研究中,我們利用UALCAN數據庫分析了乳腺癌和癌旁組織中PIP基因的表達差異,發現PIP基因在正常乳腺組織中呈高表達,而在乳腺癌組織中呈低表達(相關分析結果:ualcan.path.uab.edu/cgi-bin/TCGAExResultNew2.pl?genenam=PIP&ctype=BRCA),這提示該基因表達下調可能促進乳腺癌的發生。然而本研究結果顯示,與其他亞型TNBC患者相比,LAR亞型TNBC患者的PIP基因表達量增加,表明PIP基因在不同亞型TNBC中的表達存在差異,即其在LAR亞型TNBC中的表達下調并不明顯,而呈特異性的高表達。有研究表明,該基因與雄激素受體表達具有較強的相關性,主要原因是該基因在轉錄水平會招募雄激素受體到自身啟動子序列,促進雄激素受體易位到細胞核,從而刺激雄激素依賴性基因的表達[10]。因此,在雄激素受體陽性的LAR亞型TNBC中,PIP基因呈特異性高表達。這或可為開發新的靶點用于TNBC的精準治療提供理論依據。
此外,有研究顯示,敲除人乳腺癌細胞T47D和MDA-MB-453的PIP基因后,抑制PIP表達可增強乳腺癌細胞的增殖和遷移潛能[11],這提示低表達的PIP可能與乳腺癌細胞的高侵襲性有關。另一方面,PIP基因在乳腺癌患者臨床預后中的價值同樣不可忽略,Jablonska等[12]研究發現,與PIP基因低表達的患者相比,PIP基因高表達的乳腺癌患者可獲得更長的無病生存期。在本研究中,我們通過Shao數據集進行預后分析,發現PIP基因表達量降低是LAR亞型TNBC患者預后的獨立危險因素,低表達的LAR亞型患者的3年和5年疾病累計復發風險概率均高于高表達者(均P<0.05),與上述研究的結論相似。因此,如該基因作為LAR亞型TNBC的治療靶點,建議開發該基因的激動劑,以使得患者獲得更好的臨床預后。
總之,我們利用生物信息學方法篩選出LAR亞型TNBC的生物學靶點PIP,與其他TNBC亞型相比,LAR亞型TNBC中PIP基因呈特異性高表達;由于PIP基因表達下調與乳腺癌的發生、發展有關,因此PIP基因表達下調的LAR亞型TNBC患者預后更差,更易復發。這或可為今后實現該疾病分類而治的精準診療提供參考。