王祥,李清楚,邵影,鄒勤,孫安,陳彥博,陳如譚,高耀宗,劉士遠,蕭毅

表2 測試集5臺CT機器詳細掃描參數
肺癌是全球范圍內發病率及死亡率最高的惡性腫瘤[1,2],患者早期往往沒有任何臨床癥狀而被忽視,研究表明肺癌患者五年生存率約為10%~16%[3],大多數患者檢出時已經失去了早期根治的機會。早期發現、早期診斷及早期治療可以顯著提高肺癌患者五年生存率[4]。低劑量胸部 CT 具有較高的空間分辨率、掃描時間短及可對病變進行三維重建等優點,廣泛應用于肺結節的檢出及鑒別診斷。然而,CT篩查數量急劇增加及掃描層厚越來越薄,影像醫生工作強度顯著提升,臨床工作中漏診及誤診現象時有發生[5,6]。因此一個準確的肺結節自動檢測系統將給影像科醫生提供巨大幫助,有望真正成為醫生的好幫手。
傳統肺結節計算機輔助檢查技術雖然可以提高肺結節檢測的效率和準確性,但是由于該方法對磨玻璃結節檢出率低、假陽性率高等問題,因此在臨床應用中并未常規使用[7,8]。隨著醫療大數據庫的建立及計算機硬件水平的發展,深度學習算法在醫療診斷領域優勢明顯,為實現醫學影像的自動智能診斷提供了新的契機[9]。目前,雖然部分研究者采用深度學習算法對肺結節進行自動檢測[10,11],但大部分算法還是基于2D或2.5D影像[12],沒有有效利用CT影像中的三維信息。因此,筆者建立了基于三維卷積神經網絡的肺結節自動檢出模型,并對其在獨立測試集上進行驗證。
本研究經長征醫院倫理委員會批準并免除了患者知情同意書。本研究屬于回顧性研究,所涉及到的患者信息均進行了脫敏處理。所有數據分為訓練集及測試集兩部分,訓練集用于訓練三維卷積神經網絡,測試集用于驗證三維卷積神經網絡的效能。訓練數據集來自2018~2019年多家醫院以及臨床機構收集到的回顧性數據。訓練數據集分別來自體檢、門診及住院患者中采集的胸部CT影像。
病例納入標準:①行薄層CT(層厚≤1 mm)檢查;②術前未有治療史;③術后病理報告完善;④所有結節大小均≤3 cm;⑤薄層CT上無明顯空洞。
病例排除標準:①肺葉掃描不全;②圖像存在嚴重偽影;③圖像存在缺層或斷層;④圖像不符合DICOM 3.0協議。
通過納入及排除標準的篩選,最終7144例患者共45662個結節納入訓練集。7144例患者中女4000例(56%),年齡20~96歲,平均(51.0±14.7)歲;男3144例(44%),年齡19~94歲,平均(52.2±14.3)歲。
測試數據集來自長征醫院2012年7月至2017年3月回顧性納入的400例患者(男173例,女227例,年齡27~80歲)。采用與訓練集相同的納入標準與排除標準,最終經過篩選96例患者共733個肺結節納入測試集。所有入組病例均為多發結節,每個結節視為獨立結節,本研究沒有考慮不同結節之間的相關性影響。訓練集與測試數據集中肺結節大小和類型的分布見表1。

表1 數據集中不同大小、不同類型結節的分布
測試集數據掃描范圍自肺尖至后肋膈角下緣,包括兩側胸壁、腋窩。患者吸氣末屏氣掃描,避免呼吸運動偽影。所有測試病例均行胸部薄層MSCT掃描,CT圖像采集來自5臺CT機器,詳細掃描參數見表2。

圖1 三維卷積神經網絡的fROC曲線。
參照胸部CT肺結節數據標注與質量控制專家共識[13],建立本次肺結節測試數據集。對入組的733個結節的 CT影像學特征在標準肺窗(窗寬1500 HU,窗位-450 HU)進行標注,每個結節均由3位胸部影像診斷醫師(5年以上胸部亞專業工作經驗)同步盲法診斷并標注,判斷結節類型,當診斷結果不一致時,由第4位高年資亞專業國內權威影像醫師作為仲裁專家進行判定,最后匯總意見作為結節診斷及標注金標準。本測試數據庫根據結節大小分為3組:<5 mm、5~10 mm和>10 mm。結節密度分為鈣化結節與非鈣化結節(實性結節、亞實性結節)。其中,亞實性結節進一步分為純磨玻璃密度結節與混雜磨玻璃結節,純磨玻璃密度結節指肺實質內圓型或類圓形邊界清楚的密度增高影,其內血管及支氣管顯示清晰,通過縱隔窗判斷有無實性腫瘤成分,無實性成分者為純磨玻璃密度結節,反之判斷為混雜磨玻璃密度結節[14]。特殊部位的結節主要納入胸膜結節,定義為與胸膜廣基底相連的圓形、類圓形或不規則形的局灶性密度增高影。結節尺寸測量以肺部CT肺結節數據標注與質量控制專家共識為標準,在標準肺窗測量,選取結節最大橫截面長徑及短徑計算其平均直徑,平均直徑為(長徑+短徑)/2[13],并記錄檢出結果。本次測試集總納入733個肺結節,其中實性結節277個,磨玻璃結節390個,胸膜結節39個,鈣化結節27個。肺結節大小范圍為3~30 mm,平均肺結節直徑為6.5 mm,其中惡性結節145個,均經病理證實。
本研究從肺結節檢出的靈敏度(Sensitivity),精準度(Precision)以及平均每例假陽性個數來衡量肺結節篩查算法的綜合性能。真陽性檢出(True Positive)指當CAD系統檢出的肺結節定位框與金標準中任意一個肺結節定位框有重合時,則這個肺結節檢出被認為是一個真陽性檢出;反之,則認為這個肺結節檢出是假陽性檢出。CAD系統的肺結節靈敏度定義為CAD系統真陽性個數/金標準肺結節總個數;精準度定義為CAD系統真陽性個數/CAD系統檢出肺結節的總個數;平均每例假陽性個數定義為總共假陽性檢出數量/總共測試集的病例個數。肺結節檢出的靈敏度反映了CAD系統對肺結節的檢出率,精準度和平均每例假陽性個數體現了CAD系統肺結節檢出的假陽性。
分別使用本研究建立的三維卷積神經網絡模型,Siemens syngo.via(VB 3.0)及Philips ISP(V8)CAD軟件進行標準測試數據集中肺結節的檢出。通過與醫生確立的肺結節“金標準”對比,計算三類方法在肺結節檢出的靈敏度、精準度以及平均每例患者假陽性檢出的個數,同時比較對于不同大小、不同類型肺結節檢出的靈敏度。
在測試集733個肺結節中,三維卷積神經網絡算法模型共檢出658個結節,另外有273個為假陽性檢出。整體肺結節檢出靈敏度為90%,精準度為71%,平均每例患者假陽性檢出2.8個。驗證的三維卷積神經網絡的自由響應受試者工作特征(free-response receiver operating characteristics,fROC)曲線[15]見圖1,綠色框在fROC曲線所對應的點是該三維卷積神經網絡的臨床應用的操作點。
Siemens syngo.via工作站CAD軟件共檢出263個結節,另外有117個為假陽性檢出,整體肺結節檢出靈敏度為36%,精準度為69%,平均每例患者假陽性檢出1.2個。在同樣的假陽性檢出下,fROC曲線顯示三維卷積神經網絡的靈敏度為67%,z檢驗表明該靈敏度顯著優于syngo.via工作站(P<0.05)。
Philips ISP工作站CAD軟件共檢出249個結節,另外有90個為假陽性檢出,整體肺結節檢出靈敏度為34%,精準度為73%,平均每例患者假陽性檢出0.9個(表3)。在同樣的假陽性檢出下,三維卷積神經網絡的靈敏度為59%,z檢驗表明該靈敏度顯著優于Philips ISP(P<0.05)。

表3 基于標準測試集的肺結節檢測各項指標

表4 測試集中不同大小、不同類型的肺結節檢出個數及靈敏度
注:表中數據分別表示肺結節檢出個數及靈敏度(括號);*表示在該類型的肺結節檢出上,三維卷積神經網絡顯著優于所比較方法,差異有統計學意義(Z檢驗,P<0.05)。

圖2 基于級聯學習的肺結節輔助篩查流程圖,綠色方塊表示肺結節,紅色方塊表示非肺結節。
針對不同大小、不同類型的肺結節進行分層統計,分別計算三維卷積神經網絡、Siemens syngo.via以及Philips ISP對于各類結節檢出的靈敏度。對于三維卷積神經網絡,<5 mm的實性結節檢出237個(99%),5~10 mm實性結節檢出35個(100%),>10 mm實性結節檢出2個(100%);<5 mm的磨玻璃結節檢出109個(71%),5~10 mm的磨玻璃結節檢出157個(88%),>10 mm的磨玻璃結節檢出52個(88%);胸膜結節檢出39個(100%);鈣化結節檢出27個(100%)(表4)。
通過與syngo.via以及Philips ISP進行對比,可以看出三維卷積神經網絡幾乎在所有類別的肺結節檢出上都有更高的靈敏度,尤其在<5 mm的實性結節、磨玻璃結節、胸膜和鈣化結節上,其靈敏度的優勢更為明顯。
肺結節早期檢出并明確診斷對肺結節的臨床管理至關重要。我們前期基于回顧性數據建立了基于三維卷積神經網絡算法的肺結節深度學習算法模型,所建立的肺結節檢出算法是基于特征金字塔網絡的檢測框架[16],采用三維卷積操作來替代傳統的二維卷積操作。整個算法的流程圖如圖2所示,通過多個檢測網絡對胸部CT肺結節進行檢出。基于深度學習計算的肺結節影像特征,每個檢測網絡會對圖像中的任意一個位置是否存在肺結節進行判斷。只有所有檢測網絡一致認為存在肺結節的位置,才會被算法輸出給醫生進行審閱。通過結合多個深度學習檢測網絡,該算法模型可以有效并準確地檢出肺結節的位置。通過對模型的準確性進行獨立驗證,并與傳統CAD系統(Siemens syngo.via VB 3.0 和Philips ISP V8)在肺結節檢出靈敏度、精準度以及平均每例假陽性個數等多個指標方面進行優效驗證,結果顯示該模型基于三維卷積神經網絡,可以充分反映每枚結節的三維空間信息,較傳統CAD模型具有較明顯的優勢。基于三維卷積神經網絡算法的肺結節自動檢測模型較傳統CAD肺結節檢出系統具有更高的靈敏度,整體肺結節檢出靈敏度為90%,精準度為71%,平均每例患者假陽性檢出2.8個,尤其對于<5mm的肺結節的檢出提升效果更為顯著。在不考慮結節大小對模型假陽性影響的情況下,對結節假陽性率的控制稍優于Li等[17]的研究結果,該算法模型在實性結節,胸膜結節及鈣化結節檢出上有著較高的靈敏度,但在磨玻璃結節檢出上靈敏度仍有不足。主要原因是由于磨玻璃結節在訓練集中僅占7.8%,大量標注結節為實性結節,因此訓練得到的算法模型偏向于學習實性結節的影像特征,對實性結節表現靈敏,而對樣本量較少的磨玻璃結節則相對不靈敏。
通過對測試集假陽性結節進行回顧性研究,筆者發現導致誤診的主要原因包括擴張支氣管內分泌物、迂曲增粗的血管、正常小葉核心結構、馬賽克樣局限氣體潴留及一些不同病因導致的炎性感染病變等。同樣對于密度較淡磨玻璃結節、隱藏在血管旁結節、肺門旁結節、氣管內結節及胸膜旁結節是主要的漏檢原因。 對于一款肺癌篩查軟件來說,較高的假陽性率在肺結節臨床篩查中尚可接受,但假陰性率需盡力避免,因此,本研究模型雖然靈敏度較高,但對于臨床應用來說仍有較大的提升空間。
通過對本研究的初級模型的檢測結果可以看出,由于深度學習算法需要大量帶有肺結節標注的胸部CT影像數據來進行訓練,數據的多樣性以及標注質量直接決定了算法的效能;從而反映出一個深度學習的算法模型,其訓練集數據的量和數據的標注質量至關重要,同時訓練集的數據分布也直接影響著模型的魯棒性[18]。
本研究有以下局限性:①本研究屬于回顧性研究且測試集樣本量相對較少,存在選擇偏倚;②沒有對結節特殊位置進行詳細分類;③不同類別的樣本量不均衡,會導致算法訓練性能下降,這是機器學習中常見的問題[19]。下一步我們將建立經過質控達標的標準測試集來驗證深度學習模型的效能,并對漏診結節分析其漏診原因,有針對性地增加模型訓練集分類權重進一步迭代優化。
綜上所述,三維卷積神經網絡算法模型相較于傳統CAD系統,在肺結節檢出靈敏度上有顯著提升,通過對漏診結節的補充訓練迭代,有望在臨床上提高醫生的閱片效率并降低漏診率,成為影像醫生的助手。當然,這僅僅是用于結節篩查,肺結節鑒別診斷模型有待進一步研發驗證。