周 艷 葉 磊 潘婷婷 張 清 桑彩影 李靜怡 于阿麗 孫明睿 謝玉海
在女性中,乳腺癌的發(fā)病率和死亡率均最高,早期診斷和早期治療是提高乳腺癌生存率及生存質量的最佳途徑[1-2]。目前,超聲是臨床上最常用的篩查方法,但其對乳腺癌診斷的靈敏度和特異度較低[3-5],且受到醫(yī)師的診斷水平影響較大。影像組學(Radiomics)于2012年由Lambin等[6]首次提出,2016年被Radiology正式命名,作為一種新興的前沿科學領域,目前已成為研究的熱點。影像組學是通過高通量的特征提取,利用大規(guī)模的訓練隊列來闡明圖像特征與疾病狀態(tài)之間的相關性,從而為臨床診斷提供重要信息。本研究基于乳腺腫瘤灰階超聲的影像組學特征,采用5種方法構建模型,旨在探討各模型間的表現(xiàn)能力及最優(yōu)模型預測乳腺腫塊良惡性的臨床價值。
1.1 一般資料 回顧性分析2018年10月至2020年10月皖南醫(yī)學院附屬太和縣人民醫(yī)院行乳腺超聲檢查的180位女性患者資料,年齡27~83歲,平均(54.41±13.00)歲;每位患者均有1個乳腺腫塊納入研究,共180個乳腺腫塊。納入標準:①有完整的臨床及超聲影像資料;②超聲檢查前未行任何臨床治療。排除標準:①無病理結果;②超聲圖像不佳,影響興趣區(qū)(region of interest,ROI)勾畫;③超聲檢查與手術間隔時間超過14 d者。
1.2 圖像采集 采用三星麥迪遜RS80A超聲診斷儀,配備L3-12A線陣探頭,頻率5~12 MHz。由具有豐富乳腺超聲診斷經(jīng)驗的醫(yī)師采集圖像,每幅圖像包含腫瘤的最大橫切面和縱切面,導出原始圖像(DICOM格式),用于特征提取。
1.3 圖像分割、預處理和特征提取 由一名高年資主治醫(yī)師(醫(yī)師1)和一名副主任醫(yī)師(醫(yī)師2)在不知病理結果的情況下,分別使用3D Slicer 4.10.2軟件手動完成腫塊ROI的勾畫并進行特征提取。見圖1。從形態(tài)、直方圖、紋理和小波4個方面共提取851個乳腺腫塊的高通量特征。見表1。為了保證結果的可重復性,通過標準差標準化算法對原始數(shù)據(jù)進行預處理。

圖1 乳腺腫塊ROI勾畫示意圖

表1 影像組學特征名稱及數(shù)量
1.4 特征一致性檢驗 醫(yī)師1進行2次ROI勾畫及特征提取,間隔時間為2周。醫(yī)師2進行1次ROI勾畫及特征提取。采用組內(nèi)和組間相關系數(shù)(inter and intra correlation coefficient of groups,ICC)評價測量者自身和測量者之間的一致性。測量者自身的ICC評價使用醫(yī)師1前后2次的測量結果進行分析,測量者之間的ICC使用醫(yī)師1和醫(yī)師2的測量結果進行分析;ICC>0.75認為一致性較好[7]。本研究最終采用醫(yī)師2提取的影像組學特征參數(shù)進行降維建模。
1.5 特征降維和建模 在180個樣本中按照7∶3比例隨機抽樣分成訓練組(n=126)和驗證組(n=54)。降維在訓練組上進行,分兩步,第一步采用單因素方差分析進行降維,對符合正態(tài)分布的參數(shù)行t檢驗,非正態(tài)分布的參數(shù)行秩和檢驗。第二步采用最小絕對收縮和選擇算子(least absolute shrinkage and selection operato,LASSO)篩選最優(yōu)特征用于模型構建。
1.6 統(tǒng)計學方法 采用R軟件(Version 3.6.1)進行統(tǒng)計學分析,使用軟件包有psych、pROC、glmnet、rpart、rpart.plot、random forest、e1071、adabag。以病理結果為金標準,P<0.05為差異有統(tǒng)計學意義。
2.1 臨床資料分析 180例乳腺腫塊中100例為惡性,均為浸潤性乳腺癌;80例為良性,均為纖維腺瘤,其中32例合并有乳腺腺病。訓練組126例乳腺腫塊中惡性70例、良性56例,驗證組54例乳腺腫塊中惡性30例、良性24例。訓練組與驗證組中,浸潤性乳腺癌與乳腺纖維腺瘤患者的年齡差異無統(tǒng)計學意義(P>0.05)。
2.2 一致性檢驗 測量者自身(見圖2A)和測量者之間(見圖2B)均具有較高的一致性(P>0.05)。通過一致性檢驗ICC=0.75剔除其中27個特征后,剩余824個特征用于進一步分析。

注:A為觀察者內(nèi)一致性比較;B為觀察者間的一致性比較。
2.3 特征降維 通過單因素方差分析及最小絕對收縮和選擇算子(Lasso)進行降維,從824個影像組學特征選取8個系數(shù)非零的影像組學特征。見表2、圖3。
2.4 影像組學模型鑒別價值 通過兩步降維將篩選出的8個最優(yōu)特征與其對應的加權系數(shù)乘積構成線性組合形成預測患者良惡性模型標簽,運用邏輯回歸、決策樹、隨機森林、支持向量機和集成算法進行模型建立,結果見表3。在訓練組,隨機森林和支持向量機模型的表現(xiàn)能力略高于決策樹和邏輯回歸,集成算法最差,但在驗證組,隨機森林和邏輯回歸模型的表現(xiàn)能力最強,而在驗證組鑒別乳腺腫塊良惡性的準確性、靈敏度、特異度、陽性預測值和陰性預測值以邏輯回歸模型最佳,其值分別為83.33%、91.70%、83.33%、85.71%、81.82%。見圖4。

表2 系數(shù)非零的影像組學特征


注:A為使用10倍交叉驗證法篩選特征的特征系數(shù)收斂圖;B為使用10倍交叉驗證法調(diào)節(jié)參數(shù)λ繪制。左邊和右邊的虛線分別表示最小準則和1-標準誤差準則,本研究選擇標準為1-標準誤差準則,共選出8個最優(yōu)特征特征。

表3 5種模型的表現(xiàn)能力










注:邏輯回歸模型訓練組(A)和驗證組(B)的ROC曲線;決策樹模型訓練組(C)和驗證組(D)的ROC曲線;隨機森林模型訓練組(E)和驗證組(F)的ROC曲線;支持向量機模型訓練組(G)和驗證組(H)的ROC曲線;集成算法模型訓練組(I)和驗證組(J)的ROC曲線。
常規(guī)超聲檢查作為一種便捷、無創(chuàng)又經(jīng)濟的影像檢查技術廣泛應用于乳腺腫瘤的篩查及隨訪,但對乳腺腫塊良惡性的鑒別缺乏特異性,且受到操作者主觀性影響較大。影像組學是一種通過自動化的高通量的特征提取,利用大規(guī)模的訓練組來闡明圖像特征與疾病狀態(tài)之間的細微關系,從而鑒別患者乳腺腫塊良惡性[8]。近年來,影像組學在臨床中的應用研究越來越多,主要是用于腫瘤良惡性的判斷[9-12]、病理分級[13]、新輔助放化療療效的評價[14-15]以及預測淋巴結的轉移[16-17]等。
目前,影像組學建模的常用方法有邏輯回歸、K-近鄰、支持向量機、隨機森林、決策樹、集成算法和人工神經(jīng)網(wǎng)絡[18]。本研究通過對選取8個系數(shù)非零的影像組學特征分別運用了邏輯回歸、決策樹、隨機森林、支持向量機和集成算法建模,結果表明邏輯回歸模型的表現(xiàn)能力最強,尤其是對驗證組的預測能力高于其它4種模型,其預測乳腺腫塊良惡性的曲線下面積(area under the curve of ROC,AUC)、準確性、靈敏度、特異度、陽性預測值和陰性預測值在訓練組和驗證組分別為0.949、87.30%、82.14%、94.30%、93.48%、83.75%和0.879、83.33%、91.70%、83.33%、85.71%、81.82%,在兩組間均具有較高的診斷效能,這與既往研究[19-21]結果相一致。集成算法模型的表現(xiàn)能力最差,決策樹、隨機森林和支持向量機模型在訓練組和驗證組的表現(xiàn)能力差異較大,說明這3種模型存在過擬合現(xiàn)象。
劉麗等[22]研究表明,常規(guī)超聲檢查對乳腺腫塊良惡性判斷的準確性、靈敏度、特異度分別為79.17%、81.48%、64.81%。張春菊等[23]使用超聲彈性成像對乳腺良惡性腫塊鑒別的準確性、靈敏度、特異度分別為77.94%、79.49%、75.86%。陳爽等[24]研究表明,超聲造影、彈性成像診斷乳腺癌的準確性、靈敏度、特異度分別為74.60%、73.53%、75.86%和71.43%、70.58%、72.41%。本研究結果表明,邏輯回歸模型標簽預測乳腺癌的準確性、靈敏度、特異度、陽性預測值和陰性預測值在訓練組和驗證組分別為87.30%、82.14%、94.30%、93.48%、83.75%和83.33%、91.70%、83.33%、85.71%、81.82%,均優(yōu)于常規(guī)超聲、超聲彈性成像和超聲造影。本研究最終選取的8個系數(shù)非零的影像組學特征全部為紋理特征和小波特征,提示二維灰階超聲圖像的紋理特征和小波特征可反映腫塊的異質性。
本研究創(chuàng)新點在于對基于灰階超聲影像組學特征的5種預測模型進行了比較,但不足之處有樣本量較少且為單中心研究,因此,后期需要增大樣本量并進行多中心研究,以進一步驗證和提升影像組學模型的預測能力。
綜上,在基于常規(guī)二維灰階超聲的影像組學模型中,邏輯回歸模型表現(xiàn)能力最強,能有效預測乳腺腫塊良惡性。