徐翠蓮 印宏坤 伋立榮 蔡 武 張 偉 范國華,*
1.蘇州大學附屬第二醫院影像診斷科 (江蘇 蘇州 215004)
2.北京推想科技有限公司 (北京 100020)
目前,新型冠狀病毒肺炎(COVID-19)疫情在全世界范圍迅速蔓延,嚴重危害人類健康和生命。RT-PCR被認為是診斷新冠肺炎的“金標準”,但核酸檢測存在一定的假陰性,敏感性有限[1-3]。據報道,幾乎所有的新冠患者在病程中可出現肺部改變[4-5],胸部CT在肺炎診斷中具有無創、快捷、靈敏度高的優勢,在肺炎的早期發現、疑似病例鑒別、療效評估中起至關重要的作用。然而,各種病毒性肺炎影像學表現非常相似,常規影像診斷方法鑒別困難。近年來,AI輔助診斷系統在肺結節的檢測及診斷中顯現出較高的應用價值[6-8]。新冠肺炎疫情爆發使肺炎的AI輔助診斷研究成為熱點,并已取得初步成果[9]。目前,針對新冠肺炎的AI輔助診斷通常采用影像組學或深度學習的方法,然而影像組學病灶需要醫生手工標記,存在主觀偏差,深度學習的結果可解釋性差。本研究綜合深度學習和影像組學的優點,通過深度學習實現肺炎病灶的自動、客觀分割,然后通過提取CT圖像的影像組學特征建立模型,以診斷和鑒別COVID-19肺炎和非COVID-19病毒性肺炎。
1.1 樣本數據本研究回顧性收集2020年1月至2020年2月于我院確診的6例COVID-19肺炎患者和17例普通病毒性肺炎患者資料,從網上的公開數據庫下載20例COVID-19肺炎患者的CT影像(http://doi.org/10.5281/zenodo.3757476)。納入組標準為患者通過RT-PCR或病毒抗原檢測的方法確診為COVID-19陽性或非COVID-19的病毒性肺炎;排除標準為CT影像無明顯肺炎征象。排除2例無肺炎患者后,最終入組24例COVID-19肺炎患者,其中來自公開數據集19例,來源本院5例[男性4例,女性1例,平均年齡(46.2±13.0)歲];來源本院的普通病毒性肺炎患者17例[男性13例,女性4例,平均年齡(54.6±17.2)歲],其中包括12例甲型流感、2例乙型流感和3例腺病毒肺炎。將入組患者分為訓練集和驗證集,其中訓練集包括19例來自公開數據庫的COVID-19患者和10例來自本院的普通病毒性肺炎患者,驗證集包括來自本院的5例COVID-19患者以及7例普通病毒性肺炎患者。分別采用Mann-Whitney秩和檢驗和χ2檢驗比較驗證兩組患者年齡和性別的差異,結果顯示COVID-19患者和普通病毒性肺炎患者在年齡(P=0.347)和性別(P=0.869)上差異均無統計學意義。
1.2 CT影像采集方法所有病例的胸部CT圖像均采集于BrightSpeed CT Scanner(GE),掃描參數如下:管電壓120kV,自動毫安,矩陣512×512,準直5mm,重建層厚5mm(厚層)和1.25mm(薄層)。訓練呼吸后采用吸氣后憋氣掃描,掃描范圍自肺尖至肺底。
1.3 基于深度學習的肺炎病灶分割肺炎病灶分割采用北京推想科技有限公司預訓練的模型在InferScholar科研平臺上完成,模型基于ResNet18網絡架構,經過超過700例肺炎患者的CT影像建模訓練完成。
1.4 影像組學特征提取和篩選所有的CT影像經圖像重采樣及圖像灰度標準化等預處理后,采用pyradiomics工具包(https://pyradiomics.readthedocs.io)分別提取CT序列圖像中每一幀的影像組學特征。總共提取的1184個影像組學特征分為四組:(1)形狀特征:包含14個反映區域形狀和大小的二維特征;(2)一階統計特征:包含90個通過常用和基本度量來描述由掩模定義的圖像區域內的體素強度分布的特征;(3)紋理特征:包含105個灰度共生矩陣特征、70個灰度相關矩陣特征、80個灰度級長矩陣特征、80個灰度及帶矩陣特征和25個鄰域灰度差分矩陣特征;(4)圖像濾波特征:采用wavelet-HHH、wavelet-HHL、wavelet-HLL、wavelet-LLL、wavelet-LHH、wavelet-LLH、wavelet-HLH和wavelet-LHL在內的八種小波變換濾波器組合方式,對原始圖像進行濾波處理及小波變換后提取的特征,共計720個特征。
為了避免不相關因素的干擾,簡化預測模型并優化模型性能,采用了LASSO回歸算法進行特征降維,通過十折交叉驗證的方式選擇最優調和參數lambda,將無關特征的系數降至零,保留系數為非零的特征用于后續建模。
1.5 基于機器學習的診斷模型建立和驗證將通過AI自動分割炎癥病灶后的新冠肺炎和普通病毒性肺炎的CT影像隨機分為訓練集和驗證集,其中訓練集包括來自于公開數據集19例新冠肺炎患者的1842幅CT圖像和來自于10例普通病毒性肺炎患者的2477幅CT圖像,驗證集包括來自于5例新冠肺炎患者的1567幅CT圖像(包括1375幅薄層CT和192幅厚層CT圖像)和來自于7例普通病毒性肺炎患者的1184幅CT圖像(包括1011幅薄層CT和173幅厚層CT圖像)。
分別采用高斯樸素貝葉斯(Gaussian Na?ve Bayes)、隨機森林(Random Forest)以及極端梯度提升(eXtreme Gradient Boosting)的方法,對經過LASSO回歸降維篩選出的組學特征分別在訓練集中建立針對每一幀CT圖像中病灶的預測模型,計算其為新冠肺炎的概率,并在驗證集中測試模型性能。數據分析和建模過程均在北京推想科技有限公司的InferScholar科研平臺上完成。
對于每個CT序列影像,首先分別計算包含病灶的每一幀圖像為新冠肺炎的概率(per-slice diagnosis),并計算概率最高的前20%影像的平均值作為該CT序列影像為新冠肺炎的概率(per-CT diagnosis)。
實驗設計流程如圖1所示。
1.6 統計學分析采用Mann-Whitney秩和檢驗以及χ2檢驗分析新冠肺炎和普通病毒性肺炎患者臨床信息間的差異,采用Dice系數(Dice coefficient)評估深度學習肺炎病灶分割的準確性,采用受試者工作曲線(receiver operating curve,ROC)、曲線下面積(area under curve,AUC)、靈敏度(sensitivity)和特異度(specificity)來評估新冠肺炎診斷效能,采用Delong Test來評估兩條受試者工作曲線的差異。P<0.05為具有統計學差異。
2.1 肺炎病灶分割結果以人工標記結果為“金標準”,在19例來自公開數據集的新冠肺炎CT影像中評估InferScholar平臺肺炎分割模型對CT影像中炎癥病灶自動分割的準確性。如圖2所示,在每一幅CT圖像上(per-slice level)分割結果的Dice系數為(0.835±0.122),在每一例CT序列影像中(per-CT level)分割結果的Dice系數為(0.864±0.036),同時AI分割的病灶每一幅CT圖像上的面積或者在每一例CT序列影像中的體積與人工標記結果有著非常好的一致性,這些結果表明AI具有良好的分割準確度。
2.2 影像組學特征篩選結果對于提取的1184個影像組學特征,采用lasso回歸方法進行降維,保留對應lambda值下相關系數不為零的組學特征(圖3),最終結果表明glcm_ClusterTendency_wavelet-LHL,glcm_Contrast_original,firstorder_Variance_wavelet-LHH,glszm_GrayLevelVariance_wavelet-LHL,glcm_ClusterTendency_wavelet-HHL,firstorder_Variance_wavelet-HHH,glrlm_GrayLevelVariance_wavelet-HHL,glcm_DifferenceVariance_wavelet-HHL,glszm_SmallAreaEmphasis_exponential這9個影像組學特征與COVID-19與普通病毒性肺炎的鑒別診斷有較強關聯,將用于后續分析(圖3)。

2.3 影像組學模型在單幀CT圖像的新冠肺炎診斷結果分析針對每一幀CT圖像的新冠肺炎診斷,如圖4所示,采用Gaussian Naive Bayes、Random Forest和XGBoost分類器的組學模型在薄層CT影像驗證集上的AUC分別為0.919、0.838和0.829,在厚層CT影像驗證集上的AUC分別為0.802、0.730和0.715,基于Gaussian Na?ve Bayes的模型獲得了相對更好的效能,組學模型在薄層CT影像上的預測性能普遍優于在厚層CT影像上的預測性能(P<0.05)。

圖4 影像組學預測模型在每一幀CT圖像上的ROC曲線,紅色代表薄層CT影像的ROC曲線,藍色代表厚層CT影像的ROC曲線。圖5 影像組學預測模型在CT序列影像上的ROC曲線,紅色代表薄層CT影像的ROC曲線,藍色代表厚層CT影像的ROC曲線。
2.4 影像組學模型在CT序列影像層面的新冠肺炎診斷結果分析針對CT序列影像的新冠肺炎診斷,如圖5所示,采用Gaussian Naive Bayes、Random Forest和XGBoost分類器的組學模型在薄層CT影像驗證集上的AUC分別為0.829、0.829和0.857,在厚層CT影像驗證集上的AUC分別為0.786、0.743和0.743,基于三種分類器的模型性能基本相當,組學模型在薄層CT影像上的預測效能略優于在厚層CT影像上的預測性能,但差異無統計學意義(Gaussian Naive Bayes,P=0.651;Random Forest,P=0.686;XGBoost,P=0.425)。
根據國家衛生健康委員會發布的《新型冠狀病毒肺炎診療方案(試行第七版)》,CT檢查已納入COVID-19診斷標準與出院標準,且在監測病情進展中發揮重要作用[10]。疫情防控需求使胸部CT檢查的患者人數劇增,每天閱讀海量CT圖像給放射科醫師診斷工作帶來嚴峻考驗,此外,常規影像診斷方法對COVID-19肺炎與普通病毒性肺炎鑒別困難。目前,基于胸部CT的AI輔助診斷研究表明,AI不僅可以有效篩查COVID-19[9],減輕放射科醫師負擔,而且可以評估病情變化,提高診斷效率[11-12]。但常用的AI技術均采用深度學習的方法,無法為系統的決策提供可視化的解釋,缺乏透明性。影像組學可以挖掘醫學影像中臨床醫師肉眼不能發現的特征,對病灶部位的異質性進行定量,從而更好地輔助臨床診斷。劉發明等[13]采用傳統的機器學習方法構建了有效的COVID-19診斷系統,結果表明影像組學特征可用于COVID-19患者和其他肺炎患者的分類。但傳統的影像組學方法要求醫生手工標注病變區域,不僅費時費力,還可能因為不同醫生標記的主觀偏差對結果造成影響。為了充分利用深度學習和影像組學的優點,規避其缺點,本研究采用深度學習與影像組學相結合建模的方法,首先利用深度學習自動分割胸部CT中肺炎病灶區域,在提升效率的同時也避免了醫生標注的主觀偏差,進而通過病灶區域進行影像組學特征分析建模,避免了深度學習的“黑盒子”,保證了結果的可解釋性。同時,為了解決傳統影像組學要求數據層厚一致,限制了模型在臨床中的應用范圍的問題,本研究采用了基于單幅CT圖像的2D影像組學建模和綜合所有層面CT圖像的整體評估方法,能同時用于不同層厚CT影像的新冠肺炎輔助診斷。對比試驗表明,本研究的AI模型對于薄層和厚層CT影像均有較好的診斷效能。
醫學圖像分割是AI輔助檢測的關鍵一步,分割精準度對后續圖像的分析處理起著至關重要的作用。傳統的醫學圖像分割方法存在著耗費大量的人力和時間,易受主觀意識的影響導致分割的差異性等問題。近年來,深度學習在圖像分割領域取得了顯著成就。Liauchuk等[14]在CT圖像上采用GoogLeNet CNN檢測肺結節,發現基于CNN檢測病灶較傳統的基于特征提取方法具有相對較高的靈敏度和特異性。Xu等[15]設計了一種堆疊稀疏自編碼器(SSAE)實例的深度學習策略,應用于乳腺癌組織病理學的自動化細胞核檢測,顯示SSAE優于基線方法。深度學習對醫學圖像病灶分割明顯優于淺層神經網絡算法,可以輔助醫生定量分析和診斷疾病[16]。本文采用基于ResNet網絡的分割方法分割肺炎病灶,經驗證具有較高的分割精準度。
本研究選擇高斯樸素貝葉斯、隨機森林、極端梯度提升三種先進的機器學習算法進行建模,結果顯示,基于三種分類器的智能診斷模型均有助于鑒別COVID-19和非COVID-19病毒性肺炎。在三種機器學習分類算法中,高斯樸素貝葉斯表現出最好的診斷效能。
本研究存在的不足之處:(1)數據樣本量較小,后續研究中將收集更多的病例,以提高該模型的靈敏度和特異性;(2)基于深度學習的肺炎病灶分割精度還有待于進一步提高;(3)病例收集區域較局限,影像組學特征提取可能存在不夠典型的缺點。