






摘要:目的" 探討基于深度學習的乳腺X線輔助診斷(DL)系統對乳腺鈣化檢出和良惡性分類的臨床價值。方法" 回顧性分析在2020年1月~2022年12月在徐州市中心醫院接受雙側乳腺X線檢查的400例患者的頭尾位和內外斜位影像資料。以2位具有15年以上乳腺X線診斷經驗的副主任醫師對乳腺鈣化的一致判斷作為標準組,由1位低年資住院醫師、1位高年資主治醫師和DL系統分別盲法獨立閱片,經過4周洗脫期后,由聯合模型(低年資醫師+DL系統)再次盲法獨立閱片。結合雙向表χ2檢驗,評價不同乳腺ACR類型、鈣化形態和分布、BI-RADS分類對鈣化檢出的影響,并采用ROC曲線下面積(AUC)評價低年資住院醫師、高年資主治醫師、DL系統和聯合模型(低年資住院醫師+DL系統)對可疑鈣化檢出的性能差異。結果" 1600幅圖像(400例患者)共檢出BI-RADS 3級及以上可疑鈣化975處。低年資住院醫師A,高年資主治醫師B、DL系統和聯合模型對鈣化檢出的敏感度分別為81.95%、96.62%、93.03%、96.41%。高年資主治醫師B、DL系統和聯合模型對鈣化檢出的敏感度不受乳腺ACR類型、鈣化形態和分布、BI-RADS分類影響,而低年資住院醫師A對鈣化檢出的敏感度受其影響。聯合模型(低年資住院醫師+DL系統)在預測鈣化良惡性方面具有良好的AUC值、敏感度和特異性,分別為0.891、90.0%和88.2%,和低年資住院醫師之間存在差異(Plt;0.01)。在DL系統幫助下,低年資住院醫師的診斷性能得到明顯改善,AUC值由0.740提升到0.891。結論" DL系統對BI-RADS 3級及以上可疑鈣化檢出敏感度高且具有較高的良惡性鈣化分類性能,與高年資主治醫師相當。在DL系統的幫助下,低年資醫師可以減少鈣化漏診、誤診,提高乳腺癌篩查和診斷的準確性。
關鍵詞:乳腺X線攝影;可疑鈣化;深度學習;乳腺癌;人工智能
Clinical value of a deep learn?based mammography assisted diagnosis system for breast calcification detection and benign and malignant classification
ZHAI Tianxu1, ZHANG Mingwei1, ZHANG Ziqiu1, KONG Deyi2, LI Dechun1
1Affiliated Xuzhou Clinical College of Xuzhou Medical University, Xuzhou 221009, China; 2Department of Radiology, Xuzhou Central Hospital, Xuzhou 221009, China
Abstract: Objective To investigate the clinical value of the deep learning-based mammography-assisted diagnosis (DL) system for breast calcification detection and benign and malignant classification. Methods A retrospective analysis was performed on the craniocaudal and internal and external oblique imaging data of 400 patients who underwent bilateral mammography in Xuzhou Central Hospital from January 2020 to December 2022. The unanimous judgment of two associate chief physicians with more than 15 years of experience in mammography diagnosis was used as the standard group, the images were blinded and independently reviewed by 1 junior resident, 1 senior attending physician, and the DL system, respectively. After a 4-week washout period, the images were blinded and independently reviewed by the combined model (junior resident+DL system) again. Combined with two-way table chi-square test , the effects of different ACR types, morphology and distribution of calcification, and BI-RADS classification on the detection of calcification were evaluated. The area under the curve (AUC) was used to evaluate the difference in the detection of suspicious calcification among junior residents, senior attending physician, DL system and combined model (junior resident+DL system). Results A total of 975 suspicious calcifications of BI-RADS3 grade and above were detected in 1600 images (400 patients). The sensitivities of junior resident A, senior attending physician B, DL system and combined model were 81.95%, 96.62%, 93.03% and 96.41%, respectively. The sensitivity of senior attending physician B, DL system and combined model to calcification detection was not affected by breast ACR type, morphology and distribution of calcification, and BI-RADS classification, while the sensitivity of junior resident A was affected by it. The combined model (junior resident + DL system) had high AUC value, sensitivity and specificity in predicting the benign and malignant nature of calcifications, with 0.891, 90.0% and 88.2%, respectively, which differed from that of the junior resident (Plt;0.01). With the help of the DL system, the diagnostic performance of the junior resident was significantly improved, and the AUC value increased from 0.740 to 0.891. Conclusion The DL system is highly sensitive to the detection of suspicious calcifications of BI-RADS 3 grade and above, and has a high classification performance of benign and malignant calcifications, which is comparable to that of senior attending physician. With the help of the DL system, the junior resident can reduce the missed diagnosis of calcification and misdiagnosis, and improve the accuracy of breast cancer screening and diagnosis.
Keywords: mammography; suspicious calcification; deep learning; breast cancer; artificial intelligence
收稿日期:2023-07-05
基金項目:江蘇省十四五醫學重點學科項目(ZDXK202237); 徐州市科學技術局社會發展項目(KC15SH061)
作者簡介:翟天旭,在讀碩士研究生,E-mail: 382852742@qq.com
通信作者:李德春,碩士,主任醫師,E-mail: 18952171358@189.cn
乳腺癌是全球最主要的癌癥之一,也是導致女性癌癥死亡的主要原因[1]。早期乳腺癌被認為是可治愈的,早發現、早治療對于改善患者預后具有重要意義[2]。鈣化是早期乳腺癌的重要甚至唯一征象,對于鈣化敏感度很高的乳腺X線檢查是檢測乳腺疾病的重要影像手段[3]。目前我國醫學影像資料年增長率遠超放射科醫師數量年增長率,放射科醫師處理影像數據的壓力不斷增大[4]。人工閱片診斷鈣化過程中由于注意力下降和視覺疲勞等因素,導致放射科醫師易漏診密度低、面積小的鈣化及致密型乳腺中的鈣化[5]。近年來,隨著人工智能技術的飛速發展,基于深度學習的計算機輔助診斷(CAD)已經逐漸整合到放射科診斷乳癌疾病的日常工作中[6-7]。既往研究已經探討了DL系統與放射科醫師對于不同類型乳腺鈣化檢出能力的差異,證實了DL系統可以幫助低年資醫師提高對不同類型乳腺鈣化的檢出能力[5, 8-10]。但既往研究仍未對DL系統與放射科醫師對于良惡性鈣化分類性能的差異進行探討;另外,放射科醫師獨立閱片和在DL系統幫助下聯合閱片兩次閱片之間未經歷“閱片洗脫期”,首次獨立閱片對后續聯合閱片的影響無法避免。
本研究旨在分析DL系統與放射科醫師對于不同類型乳腺鈣化的檢出能力和良惡性鈣化分類性能差異,探討深度學習輔助診斷系統的臨床價值。本研究在既往研究的基礎上,進行了以下創新:本研究在國內此類研究中首次提出“閱片洗脫期”的概念,即放射科醫師獨立閱片和在DL系統幫助下聯合閱片之間必須有一定時間間隔,盡量消除首次獨立閱片對后續聯合閱片的影響;不僅對DL系統和放射科醫師對于不同類型鈣化檢出能力進行了比較,而且通過對ROC曲線和曲線下面積(AUC)的分析探討了DL系統和放射科醫師對良惡性鈣化分類性能的差異,進一步探討了基于深度學習的DL系統是否在放射科醫生日常工作中發揮著重要作用,現報道如下。
1" 資料與方法
1.1" 一般資料
回顧性分析2020年1月~2022年12月在徐州市中心醫院接受雙側乳腺X線檢查的14 844例女性患者,篩選出400例以鈣化為唯一病變征象的患者,年齡23~76(49.7±4.15)歲。納入標準:行雙側腺X線檢查前未進行手術切除、放化療、穿刺活檢等治療;圖像質量清晰符合診斷要求,頭尾位和內外斜位影像資料完整;圖像中僅含鈣化病變。排除標準:行雙側腺X線檢查前進行手術切除、放化療、穿刺活檢等治療;圖像質量不符合診斷要求,頭尾位或內外斜位影像資料不完整;圖像中含有腫塊、結構扭曲、不對稱致密等征象。本研究獲得徐州市中心醫院醫學倫理委員會審核批準(批件編號:XZXY-LK-20231010-0158)。
1.2" 圖像采集
圖像采集設備為Hologic Selenia Dimensions數字乳腺X線機(美國Hologic),陽性靶面材料為鎢,陰性靶面材料為銠和銀。自動選擇參數或自動曝光控制由設備自動選擇。曝光電壓范圍22~39 kV,曝光電流范圍3~500 mA,常規拍攝患者雙側乳腺頭尾位和內外斜位圖像,采集方法均符合中華醫學會放射學分會乳腺學組制定的乳腺X線攝影檢查和診斷共識[11]。
1.3" 圖像處理與參照標準建立
1.3.1" 可疑鈣化檢出的參照標準" "由2位具有15年以上乳腺疾病診斷經驗的副主任醫師依據2013年美國放射學院發布的乳腺影像報告和數據系統(BI-RADS)第5版對圖像進行盲法獨立閱片,記錄乳腺ACR類型并對鈣化進行分析,記錄其BI-RADS分級、形態、分布。當2位醫師評估結果不一致時,經討論后得出最終結果,并以此作為參照組。由DL系統、低年資住院醫師A(3年乳腺X線診斷經驗)和高年資主治醫師B(7年乳腺X線診斷經驗)分別盲法獨立閱片,經過4周洗脫期后,由聯合模型(低年資住院醫師A+DL系統)再次盲法閱片,記錄4種方法檢測出BI-RADS 3級及以上可疑鈣化的數量及對可疑鈣化BI-RADS分級、形態、分布的評估。
1.3.2" 可疑鈣化良惡性分類的參照標準" "公布2位具有15年以上乳腺疾病診斷經驗的副主任醫師檢測出的975處BI-RADS 3級及以上可疑鈣化,但暫不告知低年資住院醫師A和高年資主治醫師B可疑鈣化的BI-RADS分級,規定BI-RADS 3級、4A級及4B級鈣化共765處為良性傾向鈣化,4C級和5級鈣化共210處為惡性傾向鈣化。由DL系統、低年資住院醫師A和高年資主治醫師B分別盲法獨立閱片,經過4周閱片洗脫期后,由聯合模型(低年資住院醫師A+DL系統)再次盲法閱片,分別記錄4種方法對每一處可疑鈣化的BI-RADS分級評估,與標準組對照計算4種方法的敏感度、特異性、陽性預測值和陰性預測值。
1.4" DL系統
DL系統為醫準智能乳腺X線攝影輔助診斷系統,開發公司:北京市醫準智能科技有限公司,版本號:V1.0。以標準協議的DICOM數據輸入,自動檢出鈣化并分級、分類。
1.5" 統計學分析
采用SPSS25.0統計分析軟件,計量資料符合正態分布以均數±標準差表示;計數資料以n(%)表示,采用χ2檢驗評估DL系統、醫師A,醫師B和聯合模型的鈣化檢出敏感度,雙向表χ2檢驗評估不同乳腺ACR類型、鈣化形態和分布和BI-RADS分類對DL系統、醫師A,醫師B和聯合模型檢出鈣化的影響;通過ROC曲線和AUC評價4種方法預測鈣化良惡性的性能,采用Delong檢驗比較不同方法AUC的差異。以Plt;0.05為差異有統計學意義。
2" 結果
2.1" DL系統、放射科醫師和聯合模型之間對鈣化檢出敏感度的比較
2.1.1" 不同乳腺ACR類型對4種方法檢出可疑鈣化敏感度的影響" "1600幅圖像中共檢出BI-RADS 3級及以上可疑鈣化975處,其中BI-RADS 3級鈣化54處、4A級385處、4B級326處、4C級154處、5級56處。DL系統、醫師A、醫師B和聯合模型對不同ACR乳腺構成的鈣化檢出情況顯示,醫師A鈣化檢出敏感度低于醫師B、DL系統和聯合模型(χ2=109.588、54.640、105.655,Plt;0.05);在DL系統幫助下,聯合模型和醫師B在不同ACR乳腺構成的鈣化檢出敏感度差異無統計學意義(χ2=0.061,P=0.805)。4種方法對于b、c和d類乳腺鈣化檢出敏感度差異有統計學意義(Plt;0.05),對于a類乳腺鈣化檢出敏感度差異無統計學意義(Pgt;0.05,表1)。
2.1.2" 不同形態、不同分布的鈣化對4種方法檢出可疑鈣化敏感度的影響" "DL系統、醫師A,醫師B和聯合模型對不同形態、不同分布的鈣化檢出比較情況顯示,在鈣化分布上,4種方法漏檢鈣化主要為呈區域性分布和團簇樣分布的細小多形性鈣化、不定形模糊鈣化,主要是由于其范圍小、密度較低,在腺體背景的襯托下難以發現(圖2)。4種方法對于彌漫分布和線樣分布鈣化的檢出檢出敏感度的差異無統計學意義(Pgt;0.05);對其余3種分布鈣化,醫師A與醫師B和聯合模型鈣化檢出敏感度的差異有統計學意義(Plt;0.05),而聯合模型與醫師B鈣化檢出敏感度的差異無統計學意義(Pgt;0.05)。對于不同形態鈣化,4種方法對點狀鈣化的檢出敏感度的差異無統計學意義(Pgt;0.05);對其余4種形態鈣化,醫師A與醫師B和聯合模型鈣化檢出敏感度的差異均有統計學意義(Plt;0.05),而聯合模型與醫師B鈣化檢出敏感度差異無統計學意義(Pgt;0.05,表2~3)。
2.1.3" 不同BI-RADS分級的鈣化對4種方法檢出可疑鈣化敏感度的影響" "DL系統、醫師A、醫師B和聯合模型對不同BI-RADS分級鈣化檢出的敏感度比較結果顯示,4種方法對于BI-RADS 3級、5級鈣化檢出敏感度的差異無統計學意義(Pgt;0.05)。醫師A與醫師B、DL系統和聯合模型對不同BI-RADS分級鈣化檢出的敏感度差異主要是BI-RADS 4級鈣化的漏檢,共865處BI-RADS 4級鈣化,醫師A檢出700(80.92%)處,醫師B檢出831(96.07%)處,DL系統檢出807(93.29%)處,聯合模型檢出828(95.72%)處;醫師A與醫師B、DL系統和聯合模型對于BI-RADS 4級鈣化檢出敏感度的差異有統計學意義(χ2=97.445、58.938、91.831,Plt;0.05),而醫師B和聯合模型對于BI-RADS 4級鈣化檢出敏感度的差異無統計學意義(χ2=0.132,P=0.716,表4)。
2.2" DL系統、放射科醫師和聯合模型之間對良惡性鈣化分類性能的比較
聯合模型的診斷能力優于低年資住院醫師A(Plt;0.01)。低年資住院醫師在有人工智能輔助時,診斷能力得到明顯改善,AUC值從0.740增加到0.891,主要是由于診斷敏感度的提高。DL系統的診斷能力優于聯合模型(Plt;0.01,表5、圖1,2)。
3" 討論
近年來,隨著計算機計算力的普遍提高和醫院開始重視醫療數據的收集累積,包括大量的醫學影像資料,擁有自動分析圖象能力的深度學習引來越來越多的關注[12]。人工智能深度學習在乳腺癌篩查領域已經取得了一定的進展,相關研究主要圍繞提高腫塊和鈣化檢出的準確率展開[13-15]。基于卷積神經網絡的深度學習技術被證明可以提高乳腺癌篩查的準確性和效率。本研究中,DL系統對BI-RADS 3級及以上可疑鈣化檢出的敏感度為91.0%,漏檢鈣化主要為不定形模糊鈣化和細小多形性鈣化,其形態小而模糊(圖2)。在既往報道中AI對檢出不同形態或分類鈣化的敏感度在64.9%~100%區間內[8,16]。
精確檢出乳腺鈣化并準確預測鈣化良惡性具有重要意義。良性鈣化患者可以避免焦慮、良性活檢和不必要的治療干預,而真正的高危患者可以快速進一步確認治療策略,以防延誤治療時機。但在當前的臨床實踐中,放射科醫師對乳房 X光攝影圖像的主觀解釋各不相同。據報道,只有59.0%和63.0%的放射科醫師在乳房 X 線攝影篩查中達到了推薦的異常判讀率和特異性水平[17]。在目前專業放射科醫師短缺的情況下,由于放射科醫師的工作量較大,放射科醫師的表現可能會在更大規模的乳房X光篩查中受到進一步影響[13]。本研究中,DL系統在可疑鈣化的檢出和可疑鈣化的良惡性分類兩方面均優于低年資住院醫師,提示人工智能在乳腺X線檢查方面具有良好的應用前景,有望在乳腺癌篩查中發揮重要作用。
此外,本研究中聯合模型(低年資住院醫師+DL系統)對可疑鈣化的分類性能明顯高于低年資住院醫師A,卻低于DL系統,這提示醫師A對部分可疑鈣化進行良惡性分類時在得知DL系統的診斷結果后仍然堅持了自己的判斷。在之后對醫師A的回訪中,證實了這一點。
亞洲女性的乳腺密度較歐美女性更高[18],而乳腺密度和乳腺癌風險成正相關關系,乳腺X線攝影對于致密性乳腺檢測的敏感度和特異性是有限的,放射科醫師篩查乳腺癌的敏感度會隨著乳腺密度的增加而降低[19]。本研究中,DL系統和低年資住院醫師對于a類乳腺鈣化檢出敏感度差異無統計學意義,對于b、c、d類乳腺鈣化檢出敏感度聯合模型(低年資住院醫師+DL系統)明顯高于低年資住院醫師,提示DL系統可以幫助低年資住院醫師減少因乳腺密度高導致的鈣化漏檢。由DL系統在致密型乳腺中快速找出病灶,與放射科醫師共同分析診斷、相互印證補充,對提高乳腺可疑鈣化診斷的準確率具有重要意義。有研究認為不同乳腺密度對低年資住院醫師檢出鈣化有影響,而對DL系統無影響[9],這與本研究結果一致。
本研究的主要局限性:首先,本研究為單中心調查,由于許多患者因缺乏病理報告而被排除,因此本回顧性研究可能存在對患者的選擇偏倚;其次,乳房X光攝影圖像來自同一臺設備且納入研究的400例患者大多數來自中國淮海經濟區,DL系統對于其它品牌乳腺X線機拍攝和其他地區女性的乳房X光攝影圖像的鈣化檢出敏感性及良惡性分類性能需要進一步驗證。后續研究將聯合多中心并增加樣本量予以進一步驗證,以增加研究結論的可靠性。
綜上所述,DL系統對乳腺鈣化檢出和良惡性分類性能方面顯著優于放射科低年資住院醫師,不弱于放射科高年資主治醫師。DL系統的應用有助于低年資放射科醫師減少漏診、誤診,尤其可以減少不定形鈣化、細小多形性鈣化、BI-RADS 4級鈣化的漏檢,提高低年資醫師對BI-RADS 3級及以上可疑鈣化良惡性分類的準確率。
參考文獻:
[1]" "Bray F, Ferlay J, Soerjomataram I, et al. Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA A Cancer J Clinicians, 2018, 68(6): 394-424.
[2]" "Harbeck N, Gnant M. Breast cancer[J]. Lancet, 2017, 389(10074): 1134-50.
[3]" "Son J, Lee SE, Kim EK, et al. Prediction of breast cancer molecular subtypes using radiomics signatures of synthetic mammography from digital breast tomosynthesis[J]. Sci Rep, 2020, 10(1): 21566.
[4]" "金征宇. 人工智能醫學影像應用: 現實與挑戰[J]. 放射學實踐, 2018, 33(10): 989-91.
[5]" "王小琦, 劉" 鵬, 陳" 賾, 等. 基于深度學習的乳腺X線攝影鈣化檢測系統對乳腺可疑鈣化的檢出效能[J]. 中國醫學影像技術, 2019, 35(12): 1784-8.
[6]" "Fenton JJ, Taplin SH, Carney PA, et al. Influence of computer-aided detection on performance of screening mammography[J]. N Engl J Med, 2007, 356(14): 1399-409.
[7]" "Niu SH, Huang JH, Li J, et al. Application of ultrasound artificial intelligence in the differential diagnosis between benign and malignant breast lesions of BI-RADS 4A[J]. BMC Cancer, 2020, 20(1): 959.
[8]" "李" 欣, 梁" 森, 黃正南, 等. 乳腺X線AI智能病灶檢測[J]. 放射學實踐, 2018, 33(10): 1029-32.
[9]" "周" 娟, 王婷婷, 李" 明, 等. 基于深度學習的乳腺X線攝影鈣化檢出系統評估[J]. 中華放射學雜志, 2019, 53(11): 6.
[10]" "哈婷婷, 潘" 俊, 王洪光, 等. 基于深度學習的乳腺X線攝影病灶檢出系統的臨床價值[J]. 中國醫學影像技術, 2019, 35(12): 1789-93.
[11]" 中華醫學會放射學分會乳腺學組. 乳腺X線攝影檢查和診斷共識[J]. 中華放射學雜志, 2014, 48(9): 711-7.
[12]" Oliver A, Freixenet J, Martí J, et al. A review of automatic mass detection and segmentation in mammographic images[J]. Med Image Anal, 2010, 14(2): 87-110.
[13] Liu HH, Chen YH, Zhang YZ, et al. A deep learning model integrating mammography and clinical factors facilitates the malignancy prediction of BI?RADS 4 microcalcifications in breast cancer screening[J]. Eur Radiol, 2021, 31(8): 5902-12.
[14] Lotter W, Diab AR, Haslam B, et al. Robust breast cancer detection in mammography and digital breast tomosynthesis using an annotation-efficient deep learning approach[J]. Nat Med, 2021, 27(2): 244-9.
[15]" Zhang F, Wu SD, Zhang C, et al. Multi-domain features for reducing 1 positives in automated detection of clustered microcalcifications in digital breast tomosynthesis[J]. Med Phys, 2019, 46(3): 1300-8.
[16]" Lei CQ, Wei W, Liu ZY, et al. Mammography-based radiomic analysis for predicting benign BI-RADS category 4 calcifications[J]. Eur J Radiol, 2019, 121: 108711.
[17]" Lehman CD, Arao RF, Sprague BL, et al. National performance benchmarks for modern screening digital mammography: update from the breast cancer surveillance consortium[J]. Radiology, 2017, 283(1): 49-58.
[18]" 彭芳芳, 沈坤煒. 中西方女性乳腺密度與乳腺癌發病關系的研究進展[J]. 中國癌癥防治雜志, 2020, 12(4): 469-74.
[19]" 徐澤園, 秦耿耿, 陳衛國. 致密型乳腺影像篩查技術及研究進展[J]. 國際醫學放射學雜志, 2019, 42(3): 312-6.
(編輯:熊一凡)