摘要:乳腺癌作為全球女性健康的主要威脅之一,其早期診斷對于提高治愈率至關重要。隨著大數據和深度學習技術的發展,基于機器學習的計算機輔助診斷系統在乳腺病理圖像的分類和診斷中顯示出巨大潛力。本文綜合分析了當前文獻中提出的三種主要研究方法:首先對病理圖像進行特征提取,隨后通過機器學習算法進行分類;使用卷積神經網絡對乳腺組織圖片分類并與其他網絡模型進行對比說明;采用遷移學習策略,對預訓練模型進行微調以適應乳腺病理圖像的分類任務。該研究方法強調了數據預處理的重要性,并評估了這些方法在提高診斷準確性和效率方面的潛力。此外,本文還探討了這些深度學習模型在臨床診斷中的應用前景,以及其在提高病理學家工作效率和減少主觀偏差方面的價值。
關鍵詞:乳腺癌;輔助診斷;卷積神經網絡;深度學習;病理圖像分類
doi:10.3969/J.ISSN.1672-7274.2025.02.079
中圖分類號:R 737.9;TP 391.4" " " " " 文獻標志碼:A" " " " " " 文章編碼:1672-7274(2025)02-0-04
A Review of Machine Learning Based Breast Pathology Image Classification
MA Chunjie
(Shangluo College, Shangluo 726000, China)
Abstract: Breast cancer is one of the main threats to women's health in the world, and its early diagnosis is crucial to improve the cure rate. With the development of big data and deep learning technologies, machine learning based computer-aided diagnosis systems have shown great potential in the classification and diagnosis of breast pathological images. This article comprehensively analyzes the three main research methods proposed in current literature: first, feature extraction of pathological images, and then classification through machine learning algorithms; Classification of breast tissue images using convolutional neural networks and comparison with other network models; Adopting transfer learning strategy to fine tune the pre trained model to adapt to the classification task of breast pathology images. The study emphasizes the importance of data preprocessing and evaluates the potential of these methods in improving diagnostic accuracy and efficiency. In addition, the article also explores the application prospects of these deep learning models in clinical diagnosis, as well as their value in improving the efficiency of pathologists and reducing subjective bias.
Keywords: breast cancer; auxiliary diagnosis; convolutional neural network; deep learning; pathological image classification
0" "引言
隨著大數據技術的發展,越來越多的工具可以用于醫療圖像輔助診斷。乳腺癌發病率較高,對女性生命威脅大,但可提前防護。大量的研究者提出基于卷積神經網絡的診斷系統,以期用于乳腺病理圖片的分類工作。
目前,乳腺癌的臨床檢驗方法包括超聲、乳腺X光檢查、磁共振成像、穿刺活檢、乳腺切片等方法。雖然乳腺超聲、乳腺X光檢查、磁共振成像等可以發現乳腺腫塊或異常,但這些方法都不能確診乳腺癌,而穿刺活檢和乳腺切片等方法是將收集的組織樣本進行固定、物理穩定、切片、染色后,通過顯微鏡成像獲取病理圖像,病理學家通過觀察腫瘤生長方式與血管及神經的關系,以及乳腺周圍淋巴結的情況等來判斷乳腺腫瘤的良惡性,這是確定乳腺腫塊良惡性的主要方法[1]。對于傳統的人工診斷方法,在判斷的過程中會受到多方面因素的影響,其中最主要是專家培養困難、醫療水平差異較大、效率較低、主觀因素影響等。因此為臨床乳腺癌的診斷提供相關輔助手段和方法,對于快速識別病理圖片特征、提升病理診斷效率和準確率以及減輕醫生工作量方面具有重要意義[2]。其中,深度學習中經網絡的相關算法具有較好的分類和診斷結果,其在放射學、遺傳學、成像科學等領域都起到了重要作用[3]。
1" "分類模型
1.1 特征提取+機器學習模型
這種模型結構是先對病理圖片進行特征提取,再使用機器學習相關算法完成圖片分類。這種方法需要從病理圖片中提取影響判斷的特征,然后選擇主要特征進行量化,最后將量化后的主要特征輸入機器學習的相關分類器中完成乳腺癌診斷工作。
常用的特征提取方法可以分為兩類:一種是人為設計,另一種是淺層學習網絡系統提取。其中,人工設計主要基于醫學診斷知識和醫生的學識經驗,而常用的淺層學習網絡系統提取模型主要有顏色(灰度)特征、紋理特征和局部特征提取方法。其中顏色(灰度)特征主要對圖像的大小、方向、視角變化等進行提取;紋理特征則是對局部區域的顏色、亮度等分布規律進行刻畫。常用于分類的機器學習算法有支持向量機、k近鄰、隨機森林等。
研究初期大量研究者使用這種方法進行病理分類工作,Brook等[4]通過在基于圖像水平集統計的通用特征向量上應用多類支持向量機,實現了高識別率。Spanhol[5]等人使用了6種手工制作的特征描述符并結合了4種不同的分類器,使用無參數閾值鄰接統計和SVM以及200倍放大倍數圖像,實現了85.1%的準確率。Samah[6]等人評估了各種手工制作的特征,如局部二進制模式(LBP)、灰度共生矩陣(GLCM)、金字塔結構小波變換(PWT)、樹狀結構小波轉換(TWT)和k-NN。僅對400X圖像進行了實驗,使用PWT描述符獲得的最佳整體準確率達85.62%。Kahya[7]等人將L1范數與SVM相結合來實現自適應稀疏SVM(ASSVM),以從BreakHis圖像中選擇信息量最大的特征,與最先進的算法相比,ASSVM在所有放大倍率級別下的性能更好,且特征更少。Chattoraj[8]等提取Zernaike矩、圖像熵和分形維數(從變分模態分解(VMD)組件中提取)作為特征描述符,并應用ReliefF算法來確定信息量最大的一個,使用最小二乘SVM(LS-SVM)的Zernaike矩作為分類器,其200X圖像的最佳成功率為88%。Morillo[9]等從非線性尺度空間中提取KAZE特征作為特征袋(BOF)分類器的輸入,然后使用最近鄰算法將BOF的輸出轉換為特征直方圖,并使用SVM將圖像分類為良性或惡性。在40倍數情況下,獲得了91.53%的最佳結果。
1.2 基于卷積神經網絡的模型
乳腺病理圖像的內在復雜性對圖像識別技術提出了更高的要求。然而,近年來興起的卷積神經網絡(CNN)在解析這些圖像方面展現出卓越的性能,以其高準確率為乳腺腫瘤的良惡性鑒別提供了一種更為精準的方案。目前,在乳腺病理圖像分類領域,已有多種CNN模型被成功應用,包括LeNet、Alex-Net、VGG-Net、GoogLe-Net、Inception和ResNet等。例如,Spanhol[10]等使用LeNet-5和Alex-Net分別取得了72%和78%的準確率;Gu[11]等使用VGG-Net獲得的分類準確率達到了95%;Narin[12]基于Inception-v3結構對比數據集是否平衡對分類性能的影響,實驗結果表明,平衡數據集能提高分類準確率,其準確率為93.55%;Gour[13]等使用ResNet-152獲得的分類準確率則達到了92.52%。
此外,除了直接使用原始模型對數據進行分類,還有大量的研究者對模型進行改進或將多個模型融合交叉使用以期達到預期的研究效果。其中,Song[14]等使用VGG-Net和費舍爾向量(FV)相結合的方法,其準確率達到87.6%;白茹[15]等提出一種融合SE和Dense-Net的新網絡,并綜合不同結構和深度的網絡模型在公開數據集上進行訓練和檢測,得到了最高92.9%的準確率;Han[16]等提出了一種為CSDCNN的乳腺病理組織圖像分類的模型,其分類準確率達到了97%;Khan[17]等提出了一種融合了VGG-Net、GoogLe-Net和Res-Net三種卷積神經網絡的新網絡,進行乳腺組織病理學圖像分類,其準確率為97.52%;To?a?ar[18]等提出了一種融合Alex-Net、VGGNet-16和VGGNet-19的新的乳腺病理學圖像分類模型,其準確率高達98.8%;孫福權[19]等將訓練好的Inception-V3和ResNet-V2-152以及VGGNet-16三個模型進行融合,其準確率最高可達97.64%。
1.3 基于遷移學習的模型
由于醫療數據獲取難度較大且標注專業度較強,而深度學習的相關算法需要提供大量的數據來訓練相關模型。基于此,大量的研究者提出使用遷移學習解決相關醫療問題。這種模型主要依據源數據預訓練好的模型,將其遷移至新的任務中,具有多方面的優勢,主要體現在:①可以適應小數據環境,解決了很多領域的數據收集成本高昂且編注困難的問題;②跨領域可適用性,可以提高模型的適應性和泛化能力;③減少訓練時間及計算成本,通過利用已經訓練好的模型的參數和特征,可以大幅減少新任務的訓練時間和計算成本;④增強泛化能力,減少過擬合風險。
基于這些優勢,大量研究者使用遷移學習模型對乳腺病理圖片進行分類。Shallu[20]等專門做了一個遷移學習與完全訓練網絡,用于乳腺組織病理切片分類方面的能力對比。此工作使用三個預訓練網絡(VGG16、VGG19和ResNet50)進行微調和全面訓練,確定了從自然圖像到組織病理學圖像的知識轉移的可能性。目前,應用遷移學習的方法主要有兩種:一是根據所需的任務對預訓練網絡的參數進行微調;另一種是使用預先訓練的網絡作為特征提取器,然后使用提取的特征來訓練新的特征。
針對第一種方法,Zheng[21]等分別使用VGG16、VGG19、ResNet50、InceptionV3、Xception和DenseNet201等卷積神經網絡(CNN)進行遷移學習,以獲得合適的網絡,最終實現了98.8%的準確率;李趙旭[22]等人提出一種改進的Inception-v3的圖像分類優化算法,通過模型改進及遷移學習對網絡模型進行優化,對比現有的深度學習所得的分類結果,得到了96%的準確率;Kohl[23]等對比了分別在ImageNet和CAMELYON16amp;CAMELYON17數據集上進行預訓練的DenseNet-161的表現,實驗表明,在ImageNet上經過預訓練的網絡表現更好;Chennamsetty[24]利用了在自然圖像上預先訓練的DenseNet-161和ResNet-10對乳腺組織切片進行分類,其準確率達到了97%。
對于另一種方法,Yu[25]等提出了一種基于預訓練VGG19的新型融合卷積神經網絡(FCNN),實驗結果表明,所提出的FCNN在初始、擴展和整體測試集中分別實現了85%、75%和80.56%的精度;廖欣[26]等人使用U-Net檢測病理圖片中的粘連簇團區域,接著使用遷移學習進行精確識別,最終得到了91.33%的正確率;許文慧[27]等人通過將注意力機制和殘差網絡相結合用于提取病變特征,接著提出新的遷移學習的方法用于乳腺腫塊分類,最終達到了86.07%的準確率。
2" "結論
乳腺病理組織活檢作為判定乳腺腫瘤良惡性的金標準,在乳腺癌的診斷和治療中占據重要的地位。該過程涉及將組織樣本固定、切片、染色并借助顯微鏡成像技術獲取病理圖像。病理學家通過細致觀察腫瘤的生長模式、與周圍組織的相互作用以及淋巴結的狀況來評估腫瘤的良性或惡性。盡管如此,傳統的人工診斷方法仍面臨諸多挑戰,包括專家培養的難度、醫療水平的不均衡、診斷效率的低下以及主觀判斷的偏差。鑒于此,引入計算機輔助檢測和診斷系統尤為關鍵,這些系統依托深度學習和模式識別算法,不僅能夠顯著提高病理診斷的效率和精確度,還能有效減輕醫生的工作負擔。隨著乳腺組織病理圖像計算機輔助診斷技術的發展,目前研究還存在問題以及未來的改進方向如下:
(1)現有的數據集樣本量不足、標注不準確或缺乏多樣性,如種族、年齡、病理類型,這都會影響機器學習算法的泛化能力。未來需要更多的數據來補充數據集。
(2)病理圖像的復雜性和多樣性要求算法能更準確地識別和分類不同的組織和細胞類型。未來的研究需要開發更加精確的圖像分析工具,以提高對乳腺癌等病變的識別能力。
(3)深度學習,尤其是卷積神經網絡(CNN)已成為病理圖像分析的主流方法。未來的研究可以進一步優化這些算法,以提高其在病理圖像分類上的準確率,包括提高對小尺寸有絲分裂細胞的檢測性能,以及減少過擬合和提高模型的泛化能力。
(4)結合臨床信息、影像學數據和病理圖像,可以提供更全面的疾病信息。未來可以探索如何有效整合這些多模態數據,以實現更深層次的精準診斷。
3" "結束語
本文探討了乳腺組織分類的三類研究方法,總結了這些方法在提高診斷準確性和效率方面的潛力,并指出現有方法所存在的問題以及改進方向,以期為乳腺癌的精準診斷提供更為科學的輔助手段。
參考文獻
[1] 周凌.乳腺腫塊,為什么要穿刺活檢?[J].科學生活,2024,5(6):6-7.
[2] 王繼偉,樊偉,陳崗.基于深度卷積神經網絡的數字病理輔助診斷系統設計[J].中國數字醫學,2020,15(12):48-52.
[3] 王瑞松,王勝男,石鐵流.深度學習在生物醫學領域中的應用簡介[J].中國科學:生命科學,2024,6(3):1-20.
[4] Alexander Brook, Ran El-Yaniv, Eran Isler. Breast Cancer Diagnosis From Biopsy Images Using Generic Features and SVMs[J]. ResearchGate, 2007, 6(2): 1-16.
[5] Spanhol F.A., L.S. Oliveira, C. Petitjean. A Dataset for Breast Cancer Histopathological Image Classification[J]. IEEE Transactions on Biomedical Engineering, 2016, 63(7): 1455-1462.
[6] Samah A.A., M.F.A. Fauzi, S. Mansor. Classification of benign and malignant tumors in histopathology images. in 2017 IEEE International Conference on Signal and Image Processing Applications (ICSIPA)[C]. Kuching, Malaysia: IEEE, 2017: 102-106.
[7] Al Kahya M., W.M. Al-Hayani, Z. Algamal. Classification of Breast Cancer Histopathology Images based on Adaptive Sparse Support Vector Machine[J]. Journal of Applied Mathematics and Bioinformatics, 2017,7(1):49-69.
[8] Chattoraj S., K. Vishwakarma. Classification of histopathological breast cancer images using iterative VMD aided Zernike moments amp; textural signatures[J]. ArXiv, 2018, 18(2): 16-20.
[9] Sanchez-Morillo D., J. González, M. García-Rojo. Classification of Breast Cancer Histopathological Images Using KAZE Features. in Bioinformatics and Biomedical Engineering[C]. Cham:Springer International Publishing, 2018: 276-286.
[10] Spanhol F.A., L.S. Oliveira, F.A. Spanhol. Breast Cancer Histopathological Image Classification using Convolutional Neural Networks. in International Joint Conference on Neural Networks (IJCNN 2016)[C]. Vancouver: IEEE, 2016: 2560-2567.
[11] Gu Y., J. Yang. Densely-Connected Multi-Magnification Hashing for Histopathological Image Retrieval[J]. IEEE Journal of Biomedical and Health Informatics, 2019, 23(4): 1683-1691.
[12] Narin A. Performance Comparison of Balanced and Unbalanced Cancer Datasets using Pre Trained Convolutional Neural Network[J]. arXiv,2012, 7(2): 5-12.
[13] Gour M., S. Jain, T. Sunil Kumar. Residual learning based CNN for breast cancer histopathological image classification[J]. International Journal of Imaging Systems and Technology, 2020, 30(3): 621-635.
[14] Song Y., J.J. Zou, H. Chang. Adapting fisher vectors for histopathology image classification. in 2017 IEEE 14 th international symposium on biomedical imaging(ISBI 2017)[C]. Melbourne, VIC, Australia: IEEE, 2017: 600-603.
[15] 白茹,余慧,安建成.基于改進DenseNet的乳腺鉬靶腫塊分類方法[J].計算機工程與應用,2022,58(15):270-277.
[16] Zhongyi H., W. Benzheng,Z.Yuanjie. Breast Cancer Multi-classification from Histopathological Images with Structured Deep Learning Model[J]. Scientific Reports,2017,7(1): 4172.
[17] Khan S., N. Islam, Z. Jan. A novel deep learning based framework for the detection and classification of breast cancer using transfer learning[J]. Pattern Recognition Letters, 2019,125(6): 1-6.
[18] To?a?ar M., K.B. ?zkurt, B. Ergen. BreastNet: A novel convolutional neural network model through histopathological images for the diagnosis of breast cancer[J]. Physica A: Statistical Mechanics and its Applications, 2020, 545(6): 586-592.
[19] 孫福權,叢成龍,張琨.基于多模型卷積神經網絡的乳腺癌病理醫療圖像良惡性診斷[J].小型微型計算機系統,2020,41(4):732-735.
[20] Shallu, R. Mehra. Breast cancer histology images classification: Training from scratch or transfer learning?[J]. ICT Express, 2018,4(4):247-254.
[21] Zheng Y., C. Li, X. Zhou. Application of transfer learning and ensemble learning in image-level classification for breast histopathology[J]. Intelligent Medicine, 2023, 3(2): 115-128.
[22] 李趙旭,宋濤,葛夢飛.基于改進Inception模型的乳腺癌病理學圖像分類[J].激光與光電子學進展,2021,58(8):396-402.
[23] Kohl M., C. Walz, F. Ludwig. Assessment of Breast Cancer Histology Using Densely Connected Convolutional Networks. in Image Analysis and Recognition[C]. Cham: Springer International Publishing, 2018: 903-913.
[24] Chennamsetty S.S., M. Safwan, V. Alex. Classification of Breast Cancer Histology Image using Ensemble of Pre-trained Neural Networks. in Image Analysis and Recognition[C]. Cham: Springer International Publishing,2018: 804-811.
[25] Yu X., H. Chen, M. Liang. A transfer learning-based novel fusion convolutional neural network for breast cancer histology classification[J]. Multimedia Tools and Applications, 2022, 81(9): 11949-11963.
[26] 廖欣,鄭欣,鄒娟.基于深度卷積神經網絡的宮頸細胞病理智能輔助診斷方法[J].液晶與顯示,2018,33(6):528-537.
[27] 許文慧,裴以建,郜冬林.基于注意力機制與遷移學習的乳腺鉬靶腫塊分類[J].激光與光電子學進展,2021,58(4):146-154.
基金項目:陜西省教育廳自然科學研究項目,基于卷積神經網絡的圖片分割與病變識別研究(編號22JK0364);商洛學院自然科學類科研項目,基于大模型的智能醫療助手(24SKY030)。
作者簡介:馬春潔(1995-),女,漢族,陜西延安人,助教,碩士,研究方向為深度學習。