李繪, 李姣, 黎浩江, 陳樹超, 劉立志, 陳洪波*
(1.桂林電子科技大學生命與環境科學學院, 桂林 541001; 2.中山大學腫瘤防治中心, 廣州 510060)
乳腺癌是女性最常見的癌癥,也是全球女性癌癥死亡的主要原因[1]。內分泌治療是乳腺癌綜合治療的重要組成部分[2],對乳腺癌術后預防復發、轉移具有重要地位。他莫昔芬是雌激素受體拮抗劑,能夠與細胞膜上雌激素受體結合,形成復合物,進而阻止雌激素發揮作用,是乳腺癌術后的重要治療手段。研究乳腺癌術后他莫昔芬治療預后關鍵因子,對于提高乳腺癌的治療效果具有重要的臨床意義。
近年來,有研究者致力于從生物信息學角度研究乳腺癌術后他莫昔芬治療預后因子。皮瓣內切酶(flap endonuclease-1)[3],PDHA2-APRT基因對[4]、MAFG-AS1[5]等被認為是乳腺癌他莫昔芬治療后重要的預后生物標志物,具有重要的臨床意義。CXCL10可作為預測乳腺癌預后的生物標志物,也可作為治療他莫昔芬耐藥的治療靶點,對他莫昔芬治療效果的預后良好。TRAF4的高表達預示他莫昔芬治療乳腺癌的預后不良,且將促進他莫昔芬耐藥[6]。另外,也有一些研究從醫學影像中尋找預后標志物,如磁共振成像中的表面彌散系數就被證明為可用于評估他莫昔芬治療乳腺癌有效性的標志物,醫學圖像中的預后標志物相較于生物信息中的標志物,更加直觀,也更容易獲得,因此基于乳腺密度提出能夠反映乳腺密度變化趨勢的乳腺密度變化率(mammographic density change ratio,MDCR)這一指標作為乳腺癌術后他莫昔芬治療療效預后的預后影像標志物。
對于乳腺癌患者來說,乳腺鉬靶X線影像是最常見的檢查手段,從乳腺鉬靶X線影像中獲取精準的預后標志物更具有臨床意義。乳腺密度(mammographic density, MD),是指乳腺鉬靶X線影像中乳房腺體組織在乳房整體投影中所占的比例。它是乳房內腺體組織相對數量的一種測量方法[7],已被證明與乳腺癌篩查的敏感性和特異性有關。MD已被提出可以作為預測患乳腺癌的風險、癌癥復發的可能性,以及對新輔助化療的反應和生存率的生物標志物。MD的變化反映了乳腺中膠原蛋白的數量以及上皮細胞和非上皮細胞的數量的變化。MD不是靜態特性,與大多數乳腺癌風險因素不同,MD可以發生改變,MD的變化與乳腺癌患病的風險增加、診斷時的晚期腫瘤分期以及局部復發和第二原發癌癥的風險增加相關。MD增加與乳腺癌風險增加有關,并且MD降低會伴隨著風險的降低[8]。
在臨床實踐中,主要根據放射科醫師的視覺主觀評估獲得MD,且已被證實具有顯著的醫師內和醫師間的差異性。定量成像分析軟件Cumulus software 已開發用于乳腺鉬靶定量測量乳房中的致密組織,是測量MD的金標準。這是一種基于交互式閾值的半自動觀察者輔助工具,觀察者主觀選擇有助于識別的閾值灰度級,將腺體組織與脂肪分離。但是該方法需要人工識別閾值,不僅耗費時間和精力,還會由于醫師的主觀因素導致誤差。基于K-means聚類算法的交互式計算機輔助分割程序測量MD,需要人工判斷是否為胸肌,然后基于K-means聚類算法分割出腺體組織,然后計算MD。然而,該方法需要對觀察者進行培訓且測量結果受觀察者主觀因素影響。基于深度卷積神經網絡(deep convolutional neural network,DCNN)來估計MD的方法中生成一個腺體概率圖,MD根據腺體概率圖與乳腺面積的比值來估計。但是由于每位患者的腺體分布具有差異性,且部分鉬靶圖像中腺體呈分布較散、灰度較暗、結構細微的特征,該方法只能提取致密區的腺體,對非致密區效果不佳。基于全卷積網絡分割乳房和致密的纖維腺體區域,該方法使用VGG16網絡作為基本網絡結構并微調網絡,分別實現分割乳房和腺體密集區域。但是分割方法需要標注標簽比較困難,且無法分割出非致密區的腺體。
針對當前乳腺密度測量中所存在的問題,提出了一種基于深度學習的乳腺密度自動測量方法。首先利用深度學習的方法實現乳房區域精準分割,然后采用通道注意力機制下的壓縮激勵卷積神經網絡(squeeze-and-excitation convolutional neural network,SE-CNN)網絡實現MD的自動測量,以獲得準確的乳腺癌術后他莫昔芬治療患者的MD值。為了研究乳腺癌術后他莫昔芬治療效果評價關鍵因子,本研究對治療前后的乳腺密度變化率的預后能力進行分析,探索乳腺癌術后他莫昔芬治療預后分析方法,試圖從影像學的視角尋找術后他莫昔芬治療效果好的乳腺癌患者,提高乳腺癌的治療效果。
本研究由中山大學腫瘤防治中心倫理委員會審核通過,審批號為SZR2020-170。數據均來自中山大學腫瘤防治中心,共有模型數據和預后數據兩個獨立的數據集,其中模型數據用來訓練MD自動測量模型,預后數據用來獲得MDCR,并進行乳腺癌術后他莫昔芬治療預后分析。
1.1.1 模型數據
在MD自動測量模型訓練時,由于在SE-CNN閾值回歸網絡模型設置閾值標簽時,人工標注閾值存在主觀性和不準確性的問題,而中山大學腫瘤防治中心的新引進的Selenia Dimensions儀器可以間接得到腺體區域的灰度閾值,以此為標簽來可以規避人工標注帶來的誤差。因此訓練MD自動測量模型采用來自該機器的數據,共包括246張鉬靶圖像,來自246位患者,采集時間為2021年3月—2021年6月,圖像分辨率大小為1 136×944。
1.1.2 預后數據
數據集共858張乳腺鉬靶圖像,圖像分辨率大小為1 915×2 295。該數據集來自429位患者。患者初次治療時間為2008年4月—2015年12月。在隨訪期間,所有患者根據《NCCN乳腺癌臨床實踐指南(第8版)》[9]進行他莫昔芬治療。每位患者采集鉬靶圖像的時間點分別為手術前和手術后進行內分泌治療后15個月,年齡中位數為44歲(25~61歲),身高中位數為158 cm(142~170 cm),體重中位數為56 kg(35~165 kg)。隨訪時間中位數為59.8個月(6~82個月),其結果為總生存率、無進展生存率、無遠處轉移生存率和無區域復發生存率。
如圖1所示,本實驗分為兩部分,首先是基于模型數據的MD自動測量模型的訓練與驗證,并通過五折交叉驗證找尋效果最好的模型;接著基于預后數據進行MDCR的乳腺癌預后分析,即通過MD自動測量模型得出預后數據的MDCR值,并由預后分析方法得出MDCR值作為預后因子的預后能力。

圖2 MD自動測量模型流程圖Fig.2 Flow chart of MD automatic measurement model

圖1 實驗設計框圖Fig.1 Experimental design block diagram
MD是指腺體面積占乳房面積的比例,即MD=GA/BA,其中GA和BA分別為腺體面積和乳房面積。如圖2所示,首先利用U-Net Plus方法實現乳房區域的分割,獲得乳房面積BA,接下來SE-CNN實現乳房區域的灰度閾值回歸,獲得乳房區域內腺體分割的閾值,從而實現腺體區域的提取,獲得腺體面積GA,最后計算MD值。
1.3.1 基于U-Net Plus 網絡的乳房區域分割
U-Net Plus網絡在二維CT切片中分割食道癌和食道癌表現優異,其優勢在于采用兩個U型結構來增強復雜抽象的特征的提取能力,可以有效解決不規則和模糊的邊界分割問題。所使用的鉬靶圖像中,乳房區域邊界較暗、輪廓模糊,使用U-Net Plus網絡能夠有效地完成乳房區域分割任務,去除周圍的肌肉和乳頭等組織。
對模型的超參數進行設置,batch-size設置為6,在保證訓練收斂情況下epoch設置為500,學習率設置為0.000 05,使用Adam優化器和交叉熵損失函數。經過測試,基于U-Net Plus方法的乳房區域分割的DICE(dice similarity coefficient)值達到0.997,精準分割出乳房區域,該網絡可以用于鉬靶圖像中的乳房區域的精準分割。
1.3.2 基于SE-CNN的乳腺閾值提取
在鉬靶圖像中,脂肪組織表現為灰度較小,而腺體組織表現為不透明或灰度較大。因而可依據灰度閾值區分腺體組織和脂肪組織。由于腺體組織在乳房圖像中具有大部分腺體集中、少部分腺體分散的分布特征,且腺體組織亮度不一的特點,實現閾值回歸則要求網絡具有更強的特征提取能力。基于通道注意力機制提出SE-CNN模型來滿足這一要求。如圖3所示,該模型以卷積層、非線性層和最大池化層組成大模塊,為加深卷積層數,模型使用5個大模塊,使得網絡對特征提取能力加強。同時模型學習通道之間的相關性,針對通道施加注意力,在每個模塊加入SE(squeeze-and-excitation)模塊[10],通過學習的方式來自動獲取每個特征通道的重要程度,然后依照這個重要程度去提升有用的特征并抑制對當前任務無用的特征,提高閾值回歸的準確度。

圖3 SE-CNN結構示意圖Fig.3 Diagram of SE-CNN structure
對模型的超參數進行設置,batch-size設置為16,在保證訓練收斂情況下epoch設置為500,學習率設置為0.000 1,使用Adam優化器和均方誤差損失函數。
主要探索乳腺鉬靶X線影像中的MDCR值對乳腺癌術后他莫昔芬治療預后方法。由本文提出的自動測量方法分別計算手術前和手術后的MD值,從而可以得到MD的變化率MDCR,即
MDCR=(MD1-MD2)/MD1
(1)
式(1)中:MD1為患者手術前的乳腺密度;MD2為患者內分泌治療至隨訪時間時的乳腺密度。
1.5.1 MD自動測量模型評價方法
利用深度學習方法研究了MD自動測量模型,從而實現自動計算MDCR值。其中乳房面積由 U-Net Plus 方法提取。提出了一種通過確定鉬靶圖像中腺體灰度閾值的方法來提取腺體,進而確定腺體面積,最終獲得精確的MD值。采用平均絕對誤差(mean absolute error,MAE)、決定系數R2和Bland-Altman一致性分析方法來評估腺體提取閾值新方法的性能,MAE、R2分別定義為

(2)

(3)
式中:vpredict為預測值;vlabel為標簽值;vlmean為標簽值的平均值。
在Bland-Altman一致性分析中,當預測值和真實值之間的絕大多數位于95% 一致性界限內,可以認為這兩組數據具有較好的一致性,在臨床上是可以接受的。
1.5.2 預后評價方法
采用R語言中的密度圖方法求解MDCR切割值,將患者進行分組。利用Kaplan-Meier生存分析方法分析單因素對乳腺癌術后他莫昔芬治療預后的影響。當P<0.05,認為兩組之間無進展生存的差別有統計學意義。Cox 回歸分析,利用數學模型擬合生存分布與影響因子之間的關系,評價影響因子對生存函數分布的影響程度,進一步驗證預后方法的臨床意義。
在閾值回歸模塊中,采用AlexNet、VGG11、ResNet50 模型的結果與SE-CNN模型做對照,如表1所示,SE-CNN的閾值回歸結果平均絕對誤差值小于其他3種模型,決定系數值高于其他3種模型,說明SE-CNN的閾值回歸結果準確性更高。

表1 閾值回歸模型實驗結果對照

圖4 Bland-Altman一致性分析Fig.4 Bland-Altman consistency analysis
對AlexNet、VGG11、ResNet50以及SE-CNN 模型測試集閾值輸出與機器閾值標簽做Bland-Altman 一致性分析。如圖4(a)為SE-CNN模型的 Bland-Altman
圖,可以看出,98%(1/49)的樣本在95%一致性界限之內,在一致性界限范圍以內,兩組數據差值的絕對值最大為24.43,差值平均值為0.33。圖4(b)為AlexNet模型的Bland-Altman圖,92%(4/49)的樣本在95%一致性界限之內,在一致性界限范圍以內,兩組數據差值的絕對值最大為28.14,差值平均值為2.59。由此表明,AlexNet模型閾值結果與機器閾值標簽的一致性差于SE-CNN模型。圖4(c)、圖4(d)分別為VGG11模型和ResNet模型的Bland-Altman圖,根據分析可以得出SE-CNN模型閾值結果與機器閾值標簽的一致性優于VGG11模型和ResNet模型。因此,SE-CNN模型閾值結果相比其他3種模型,具有最好的一致性,是最準確可靠的。
為了對乳腺癌術后他莫昔芬治療效果進行預后分析,需要對乳腺癌患者進行分組。采用與患者預后信息無關的密度圖方法計算和繪制核密度估計值。密度圖由R的軟件包ggplot2和函數geom_density(直方圖的平滑版本)執行。

圖5 MDCR切割值分析Fig.5 MDCR cutting value analysis
如圖5(a)所示,當MDCR值為5.3時,曲線達到峰值,可用作最佳切割值。為了評估切割值的有效性,使用R的rms軟件包執行受限3次樣條(restricted cubic spline,RCS)函數,并使用RCS公式參數建立總生存率的Cox回歸模型。如圖5(b)所示,隨著MDCR的增加,乳腺癌有進展的風險變小,當MDCR=5.3時達到風險減小的臨界值,進一步驗證了切割值選擇的可靠性。利用MDCR=5.3作為切割值,將乳腺癌患者分成兩組,并進行術后他莫昔芬治療預后分析。
獲得MDCR切割值后,乳腺癌患者被分成兩組:Group A(MDCR≥5.3),Group B(MDCR<5.3)。圖6顯示了兩組之間的生存曲線。通過Logrank檢驗,得到兩組之間的無進展生存期P值為0.032。說明兩組之間具有顯著差異。同時可以發現,當MDCR≥5.3時,患者的生存曲線在上面,即這批乳腺癌患者的術后他莫昔芬治療效果要好于另一組。多變量Cox回歸分析如表2所示,同樣可以發現MDCR的風險率為2.654[95%CI(置信區間),1.102~6.395],P=0.030。由此可以說明,MDCR可以作為乳腺癌術后他莫昔芬治療預后關鍵因子。
通過Cox回歸分析來確定乳腺癌進展的獨立影響因素。首先進行K-M分析,篩掉一些無意義的變量,將P小于0.1的因素納入Cox回歸模型。K-M方法對以下因素進行分析:年齡、身高、體重、身體質量指數(body mass index,BMI)、MDCR,分析結果顯示年齡、BMI、MDCR與乳腺癌進展相關。進一步做Cox多因素分析結果如表2所示,MDCR[風險比率(hazard ratio,HR)=2.654,95%CI,1.102~6.395,P=0.030]、BMI(HR=0.272,95%CI,0.088~0.846,P=0.024)是乳腺癌他莫昔芬治療患者發生轉移或復發的獨立危險因素,有較低的MDCR、較高的BMI的隨訪乳腺癌患者發生轉移或復發的風險增加。

圖6 生存曲線Fig.6 Survival curve

表2 多變量Cox多因素分析
通過對乳腺密度自動提取模型研究及對乳腺癌術后他莫昔芬治療效果分析,得出以下結論。
(1)為了對乳腺癌進行自動預后分析,提出了一種基于通道注意力的SE-CNN,精準地從鉬靶X射線影像中計算乳腺密度。通過性能對比分析可以看出,決定系數R2=0.74,通過一致性分析可以看出,98%的樣本分布在可接受的范圍內。因此 SE-CNN 可以實現準確、自動提取MD。
(2)預后分析時,通過密度方法求得MDCR的切割值,對被試進行分組,兩組之間的無進展生存期為:HR=2.654(95%CI,1.102~6.395),P=0.030,具有顯著效應。MDCR值高的患者預后較好,反之則較差。說明MDCR值可以作為乳腺癌術后他莫昔芬治療預后的潛在因子。