中圖分類號:TP391.4 文獻標識碼:A 文章編號:2096-4706(2025)16-0150-05
Diagnosis Research on Lymph Node Metastasis in Breast Cancer Based on Deep Learning
ZHU Jiawei, JIN Miao, YU Tong (Clinical College,Anhui MedicalUniversity,Hefei 23oo31, China)
Abstract: Breast cancer is one of the most common malignant tumors in women worldwide.Accurate detection of lymph nodemetastasisisofgreatsignifcanceforitsdiagnosisandtreatment.Inordertoimprovethedetectionacuracyofmetastatic cancercellsinpathologicalimages,aneficientNeuralNetworkArchitectureisdesignedandoptimizedbasedontheNeural ArchitectureSearchalgorithm.ThePatchCamelyondatasetisusedinthesudyandthetrainingsetisandomlytakenbacktofo threesub-trainingsets.TeNuralNtworkArchitectureistaindindependentlyintepredefinedsearchspace,nditsweightsare optimizedthroughscondarytraining.Finallytethree modelsareintegrated inparaleltoimprovetheoverallperformance.The experimentalresultsshowthattheesignednetworkissuperiortothetraditionalResNet-18,ResNet-34andVGG-16inindicatos suchas AUC,andhasasmaller modelsize.Inthe network architecture search stage,theaverage acuracyofasingle model is 73.34% ,and the AUC is 75.53% .After optimization and integration,the accuracy of the final model is increased to 90.12% ,the AUC is increased to 91.3% ,and the model size is only 30.2MB ,which has the advantages of high efficiencyand lightweight.
Keywords: breast cancer; lymph node metastasis detection; Neural Architecture Search; Ensemble Learming
0 引言
乳腺癌是全球女性中最常見的惡性腫瘤之一,其發(fā)病率和死亡率在許多國家均居于前列[1。淋巴結轉(zhuǎn)移是乳腺癌分期的重要指標,對于治療方案的制定和預后評估至關重要。在臨床實踐中,淋巴結轉(zhuǎn)移的檢測通常依賴于病理學家對淋巴結組織病理切片的顯微鏡檢查[2]。然而,這一過程不僅耗時費力,還高度依賴病理學家的經(jīng)驗,存在主觀性強、效率低等問題。此外,病理學家在面對大量切片時容易出現(xiàn)疲勞,導致診斷結果的不一致的風險增加。因此,開發(fā)一種高效、準確且客觀的淋巴結轉(zhuǎn)移檢測方法具有重要的臨床意義。近年來,隨著深度學習技術的快速發(fā)展,基于深度學習的淋巴結轉(zhuǎn)移檢測技術為此提供了有效的解決方案。Abdollahi等人[]并采用混合卷積神經(jīng)網(wǎng)絡模型進行癌轉(zhuǎn)移檢測其確率達 98.84% ,并且VGG16的精確率和召回率分別為92.42% 和 91.25% 。何雪英等人[4改進GoogLeNet結構,通過調(diào)整卷積層大小和步長,在BreaKHis數(shù)據(jù)集上實現(xiàn)了 91.00% 的病理圖像識別率。Wang等人[5]利用 ResNet-50 模型對全切片圖像(WSI)進行分析以識別腫瘤區(qū)域,分類網(wǎng)絡在驗證集上的AUC高達 99.00% 。這些研究表明,深度學習在乳腺癌檢測領域具有巨大潛力。然而,現(xiàn)有研究仍存在一些不足。大多數(shù)研究集中在全切片圖像或較大尺寸的病理圖像上,而針對PatchCamelyon(PCam)數(shù)據(jù)集的研究相對較少。PCam數(shù)據(jù)集由小尺寸的圖像塊組成,更接近臨床實踐中病理學家實際觀察的局部區(qū)域。此外,現(xiàn)有研究多依賴于預定義的神經(jīng)網(wǎng)絡架構,如ResNet、VGG等,這些架構在某些情況下可能無法充分發(fā)揮模型的性能。因此,開發(fā)一種能夠自動優(yōu)化神經(jīng)網(wǎng)絡結構的方法,以減少人為設計偏差并進一步提高檢測精度,具有重要的研究價值。針對上述問題,本文基于PCam數(shù)據(jù)集,采用神經(jīng)架構搜索(NeuralArchitectureSearch,NAS)算法自動優(yōu)化神經(jīng)網(wǎng)絡結構,以減少人為設計偏差。首先在搜索空間內(nèi)訓練多個模型,并通過二次訓練優(yōu)化權重,最后采用并行集成提升性能,最終模型在測試集表現(xiàn)優(yōu)異。
1材料與方法
1.1材料
數(shù)據(jù)集使用KaggleTNM112-Lab2(2024)賽事的PCam醫(yī)療比賽數(shù)據(jù)集,該數(shù)據(jù)集包含訓練集100000張圖像和測試集32768張圖像,圖像尺寸為32×32×3 。隨機從測試集中挑選25000張圖像構成新數(shù)據(jù)集,使新數(shù)據(jù)集中訓練集和測試集的比例為8:2(訓練集:測試集),然后將訓練集采用有放回抽樣的方法隨機劃分為三個子訓練集,抽取比例為0.8,最后將原訓練集中未使用的數(shù)據(jù)劃為驗證集。為提高算法的魯棒性,對訓練集數(shù)據(jù)進行隨機水平翻轉(zhuǎn)、豎直翻轉(zhuǎn)、隨機角度旋轉(zhuǎn)并填充。數(shù)據(jù)集樣例如圖1所示,其中(a)(b)(c)為未包含轉(zhuǎn)移細胞的淋巴組織切片圖像,(d)(e)(f)為包含轉(zhuǎn)移癌細胞的淋巴組織切片圖像。
圖1數(shù)據(jù)集樣例

1.2方法介紹
乳腺癌淋巴結轉(zhuǎn)移診斷的整體算法流程步驟如下:
1)數(shù)據(jù)處理。有放回從訓練集 T 中抽取樣本組成子訓練集 {t1,t2,t3,…,tn} 其中抽取比例為0.8;訓練集T 中未抽取數(shù)據(jù)組成驗證集 E 。
2)訓練階段。使用網(wǎng)絡架構搜索算法(NAS),基于子訓練集 ti 訓練個體學習器 mi ;固定個體學習器mi 的架構,繼續(xù)基于子數(shù)據(jù)集 ti 訓練網(wǎng)絡參數(shù);訓練過程中獲得輸出 {o1,o2,o3,…,on} ,最終采用投票法進行決策,得到最終分類結果。
3)測試階段。使用測試集測試并計算網(wǎng)絡性能。
1.2.1 網(wǎng)絡架構搜索算法
相比于傳統(tǒng)的機器學習算法,卷積神經(jīng)網(wǎng)絡(ConvolutionalNeuralNetworks,CNN)在目標識別與圖像分割等任務中表現(xiàn)出色[。然而,CNN的設計往往依賴人工完成,不僅過程復雜,而且對設計者的經(jīng)驗與先驗知識要求較高。此外,CNN結構的可解釋性較差,也為其應用帶來一定挑戰(zhàn)。為了解決上述問題,NAS算法應運而生。NAS通過自動化算法對網(wǎng)絡結構進行搜索,無須人工干預,顯著降低了設計過程中主觀因素的影響和時間成本。同時,NAS能夠挖掘出超越傳統(tǒng)人工設計思路的高效網(wǎng)絡結構,從而進一步提升模型性能,為深度學習領域的發(fā)展提供了新的可能性。NAS算法的核心思想是在包含多種算子的搜索空間中,通過搜索策略選擇最優(yōu)算子來構建神經(jīng)網(wǎng)絡架構,并根據(jù)性能評價指標對網(wǎng)絡架構進行優(yōu)化和調(diào)整[。
搜索空間定義了神經(jīng)網(wǎng)絡中可供選擇的基本操作單元,例如卷積層、池化層、激活函數(shù)及其組合方式等。搜索空間的設計對網(wǎng)絡的最終性能和搜索效率有重要影響[。操作種類過多會導致可選結構的數(shù)量顯著增加,從而提高發(fā)現(xiàn)高性能網(wǎng)絡的可能性,但同時也會大幅增加計算成本和搜索時間。而過小的搜索空間雖然能夠縮短搜索時間,但可能限制網(wǎng)絡性能的上限,影響模型的效果。因此,如何合理構建搜索空間以在搜索效率與網(wǎng)絡性能之間取得平衡至關重要。經(jīng)過權衡后,搜索空間的具體選擇如表1所示。
表1搜索空間操作集合

通過對搜索空間中操作算子的控制和選擇,雖然縮短了部分搜索時間,但是選擇出來的8種操作仍然可以隨機組合成數(shù)以百萬計的網(wǎng)絡結構,Zoph在CIFAR-10數(shù)據(jù)集花費了2000GPUdays(即2000塊GPU 訓練一天)才構建出一個高性能網(wǎng)絡[。所以暴力搜索算法無法體現(xiàn)網(wǎng)絡架構搜索算法的優(yōu)勢。DARTS算法將離散架構搜索轉(zhuǎn)化為連續(xù)問題[10],然后利用梯度優(yōu)化算法來搜索神經(jīng)網(wǎng)絡架構,大大提高
了網(wǎng)絡架構的搜索效率。
神經(jīng)網(wǎng)絡架構以計算單元cell為基本模塊,每個單元是一個有向無環(huán)圖,其中每個節(jié)點表示一個特征圖,節(jié)點與節(jié)點之間的邊為搜索空間中的某一操作。核心單元cell的訓練流程如圖所示,節(jié)點 xi 表示第 i 個特征圖,操作 o(i,j) 表示節(jié)點 xi 到節(jié)點 xj 之間的操作,操作屬于上述操作集合表1,其中操作“noconnection”表示節(jié)點之間無連接。節(jié)點 xi 到節(jié)點 xj 之間的關系可表示為:
xi=xio(i,j)
如圖2中步驟(b)所示,在初始情況下,節(jié)點xi 到節(jié)點 xj 之間的操作有8種可能,操作 o(i,j) 為混合操作并且是離散的,為了提高搜索效率將離散的操作集合進行連續(xù)化,將每個操作添加權重 α(i,j) ,其中權重 α(i,j) 經(jīng)過 softmax 算法處理,此時節(jié)點 xi 到節(jié)點 xj 之間的關系可表示為:

圖2DARTS算法示意圖

圖2中步驟(c)為求解雙層優(yōu)化問題,為提高搜索效率,可同時優(yōu)化cell的權重參數(shù) α(i,j) 和操作內(nèi)部的網(wǎng)絡權重 ω ,優(yōu)化器可使用隨機梯度下降(SGD)。網(wǎng)絡訓練時,各個操作的權重不斷優(yōu)化,其中最優(yōu)的操作權重逐漸增大,當損失函數(shù)收斂或訓練結束時,如圖中步驟(d)所示,將權重最大的操作保留,其他的操作舍棄,最終完成一個cell的訓練。cell也可視為一個節(jié)點,按上述流程將多個cell進行組合即可得到用于判斷乳腺癌淋巴結轉(zhuǎn)移的神經(jīng)網(wǎng)絡架構。
1.2.2 網(wǎng)絡模型集成
NAS算法生成的模型已具備較高的準確率,但為了進一步提升檢測性能并增強泛化能力,本文采用Bagging并行式集成學習方法,以上述訓練得到的多個網(wǎng)絡模型作為基學習器,最終構建集成模型。模型集成流程如圖所示:首先,使用有放回抽樣方法從訓練集中構造多個子訓練集 tn ,分別訓練對應的模型 mn ;隨后,利用Bagging進行集成決策。對于分類任務,Bagging主要采用簡單投票法進行決策,即基學習器分別預測類別,最終結果由多數(shù)投票決定。此外,集成模型有效降低了單個模型的方差,使最終模型在AUC和準確率方面均優(yōu)于單一模型,進一步提升了乳腺癌淋巴結轉(zhuǎn)移檢測的可靠性,如圖3所示。
圖3集成學習算法流程圖

2 試驗環(huán)境與設計
2. 1 試驗環(huán)境
試驗的硬件環(huán)境為12thGenIntelCorei5-12400FCPU@2.50GHz 、16GB運行內(nèi)存和NVIDIAGeForceRTX3060GPU;操作系統(tǒng)為Windows11專業(yè)版;深度學習框架采用PyTorch,圖像處理使用OpenCV開源庫。
2.2 試驗設計
為控制模型大小和神經(jīng)網(wǎng)絡搜索訓練時間,共訓練5種基學習器,基學習器個數(shù)分別為3、5、7、9、11,其中每個基學習器cell個數(shù)為10,每個cell中共4個節(jié)點,初始通道數(shù)為32,batchsize為32,學習率設為0.025,優(yōu)化器使用隨機梯度下降算法,動量0.9,權重衰減 3×10-4 ,搜索周期為50epochs;網(wǎng)絡架構搜索訓練結束后,固定網(wǎng)絡架構繼續(xù)訓練網(wǎng)絡參數(shù),超參數(shù)batchsize為32,學習率初始值為0.025,并采用余弦退貨策略逐步降低,優(yōu)化器采用Adam優(yōu)化,訓練周期為100epochs;最后采用Bagging算法整合基學習器,決策規(guī)則采用投票法。
2.3 試驗結果與分析
為評估模型在乳腺癌淋巴結轉(zhuǎn)移檢測任務中的性能,本文采用準確率(Accuracy)、AUC(AreaUnderCurve)等指標。其中,AUC作為衡量二分類模型性能的重要指標,能夠較為全面地反映模型的分類能力。此外,還使用模型的參數(shù)量(ModelSize),以評估模型的實用性。神經(jīng)網(wǎng)絡架構搜索的單個模型、二次參數(shù)優(yōu)化后的單個模型、Bagging集成模型(3個基學習器)以及常見的ResNet-18、ResNet-34和VGG-16的實驗結果如表2所示。
表2模型評價指標

從表中可以看出,ResNet-18在傳統(tǒng)模型中表現(xiàn)最佳,測試集準確率達到 77.97% ,AUC為 79.23% 而ResNet-34和VGG-16的性能相對較低。其中,VGG-16由于參數(shù)量較大( 128MB ),但準確率僅為 65.95% ,AUC僅為 67.31% ,表明該模型在本任務中表現(xiàn)不佳,難以有效提取病理圖像特征。相比之下,NAS生成的模型在僅 10.2MB 的參數(shù)量下,實現(xiàn)了 79.73% 的準確率和 80.63% 的AUC,超越了ResNet-18,表明NAS算法通過自動搜索最優(yōu)網(wǎng)絡架構,考慮了網(wǎng)絡架構組合的各種情況,減少了人為設計偏差。與傳統(tǒng)網(wǎng)絡(如ResNet和VGG)相比,NAS生成的網(wǎng)絡結構能夠更高效地提取病理圖像中的關鍵特征。DARTS提高了搜索效率,但由于架構參數(shù)和網(wǎng)絡權重的優(yōu)化過程是交替進行的,導致權重在搜索階段未能充分收斂,可能影響最終模型的泛化能力。因此進一步固定架構參數(shù),進行二次參數(shù)優(yōu)化訓練。實驗結果表明,與初次搜索得到的模型相比,優(yōu)化后的模型準確率提升了 6.26% ,AUC提高了 5.10% ,顯著增強了模型的分類能力。最后,通過Bagging并行集成策略,模型的準確率進一步從 79.73% 提升至 90.12% ,AUC從 80.63% 提升至91.30% ,展現(xiàn)出顯著的性能增益。盡管參數(shù)量有所增加 (31.1MB). ),但相較于ResNet-18( 44.7MB) )和ResNet-34( ?83.3MB ),集成模型仍然更加緊湊,說明該方法在保持高性能的同時,仍具有較高的計算效率和良好的部署優(yōu)勢。
為進一步研究不同數(shù)量基學習器對集成模型性能的影響。實驗分別使用了3、5、7、9、11個基學習器進行Bagging集成,結果如表3所示。
表3不同數(shù)量基學習器評價指標

從表中可以著出,隨著基學習器數(shù)量的增加,集成模型的準確率和AUC均有所提升,但參數(shù)量也隨之增加。這表明,雖然增加基學習器數(shù)量能夠進一步提升模型性能,但會導致模型規(guī)模增大,增加計算成本和存儲需求。綜合考慮模型性能和計算效率,本研究選3個基學習器作為Bagging集成的最優(yōu)配置。這一配置在保持高性能的同時,兼顧了模型的輕量化和高效性,具有較高的實際應用價值。
3結論
基于PCam數(shù)據(jù)集,采用NAS算法自動搜索網(wǎng)絡架構,可以減少人為因素對網(wǎng)絡設計的影響,試驗結果表明NAS生成的網(wǎng)絡性能確實優(yōu)于傳統(tǒng)的人工設計的網(wǎng)絡;之后,繼續(xù)二次參數(shù)優(yōu)化訓練克服了DARTS優(yōu)化策略產(chǎn)生的網(wǎng)絡參數(shù)未充分收斂問題;最終通過Bagging集成,模型的準確率提高至90.12% ,AUC提升至 91.30% ,且模型尺寸最小,在保持高性能的同時,兼顧了計算機資源與模型大小的平衡,展現(xiàn)出較強的應用價值。綜上所述,基于NAS和Bagging集成學習算法針對乳腺癌淋巴結是否轉(zhuǎn)移的判斷具有較高的準確性,為病理智能診斷任務提高了新的思路與可能性。未來可進一步優(yōu)化網(wǎng)絡搜索策略或增加基學習器個數(shù),提升模型訓練效率和網(wǎng)絡性能,并結合多模態(tài)醫(yī)學影像數(shù)據(jù),以構建更精準和魯棒性更高的病理圖像分析模型。
參考文獻:
[1] XUJT,WANGRT,GUANXX.Enhancing Insights
into Global Cancer Statistics2O22:ImplicationsforCancerControl
[J].Science China Life Sciences,2024:1-3.
[2]平軼芳,閆紅,卞修武.人工智能病理在腫瘤精準醫(yī)
療時代的應用與挑戰(zhàn)[J].生命科學,2022,34(8):929-940.
[3]ABDOLLAHIJ,DAVARIN,PANAHIY,et
al.DetectionofMetastaticBreastCancerFromWhole-slide
Pathology ImagesUsing an Ensemble Deep-learningMethod:
Detection of Breast Cancer Using Deep-learning [J].Archives of
BreastCancer,2022:364-376.
[4]何雪英,韓忠義,魏本征.基于深度學習的乳腺癌病
理圖像自動分類[J].計算機工程與應用,2018,54(12):
121-125.
[5]WANGX,CHENY,GAOY,et al.PredictingGastric
Cancer Outcome from Resected Lymph Node Histopathology
Images Using Deep Learning [J].Nature Communications,
2021,12(1):1637.
[6]金燕,薛智中,姜智偉.基于循環(huán)殘差卷積神經(jīng)網(wǎng)
絡的醫(yī)學圖像分割算法[J].計算機輔助設計與圖形學學報,
2022,34(8):1205-1215.
[7]朱家微,江朝暉,洪石蘭,等.基于神經(jīng)架構搜索的
灌漿期水稻稻穗分割及特征分析[J].激光與光電子學進展,
2022,59(22):182-188.
[8]楊軍,韓鵬飛.采用神經(jīng)網(wǎng)絡架構搜索的高分辨率遙感影像目標檢測[J].吉林大學學報:工學版,2024,54(9):2646-2657.
[9] ZHANGLF,ZHANGLP.Artificial IntelligenceforRemote Sensing Data Analysis:A Review of Challengesand Opportunities[J].IEEE Geoscience and Remote SensingMagazine,2022,10(2):270-294.
[10]QINYJ,WANGX,ZHANG ZY,et al.Graph
Differentiable Architecture Search with Structure Learning [J]. Advances in Neural Information Processing Systems,2021, 34:16860-16872.
作者簡介:朱家微(1998.04—),男,漢族,安徽宿州人,助教,碩士研究生,研究方向:智能信息處理;金淼(1996.12一),女,漢族,安徽肥西人,助理工程師,碩士,研究方向:智能材料柔性機器人;余童(1993.02—),男,漢族,安徽六安人,講師,碩士,研究方向:物理電子。