彭濤,曾小輝,李洋,李曼,蒲冰潔,植彪,王永芹
1.成都大學附屬醫院 放射科,四川 成都 610081;2.上海聯影智能有限公司 研發部,上海 200000
人口老齡化正成為21世紀全球人口發展的主要趨勢,骨質疏松和骨折的人數也隨之迅速增加,全世界每年大約有2 億人患骨質疏松癥、8900 萬人發生骨折[1]。骨質疏松會繼發腰痛、骨折,降低患者生活質量,增加死亡率。目前評估骨質疏松癥的常用方法為雙能X 線吸收測定法(Dual-Energy X-ray Absorptiometry,DXA)和定量計算機斷層掃描(Quantitative Computed Tomography,QCT)[2]。但是,目前骨質疏松篩查工作進行得并不充分,仍有大量骨質疏松高危人群未被檢出[3-4]。
雖然DXA 應用廣泛,但其測量的是單位面積的骨礦含量,容易受到骨皮質、骨質增生和腹主動脈鈣化等因素的影響[5-7]。QCT 是一種基于CT 的三維骨密度(Bone Mineral Density,BMD)測量手段,可避開骨皮質、骨質增生等干擾[8-9],進行真實的容積測量。研究表明,QCT 對骨質疏松癥的檢出率明顯高于DXA[10-11],且更精確[12]。在臨床上,每天都有大量包含脊柱等骨骼的CT 檢查數據產生,如低劑量肺癌篩查、基于其他醫學目的的胸腹部CT 檢查等,這些CT 檢查的數據雖然初始目的為其他醫療原因,但由于其包含了脊柱等骨骼,有可能用于骨質疏松的篩查,被稱為機會性CT 檢查數據[13]。由于QCT 需要頻繁校準和使用標準化軟件,且不能同時應用于不同的CT 機,專門進行QCT 檢查又有較大的電離輻射,因此大量機會性CT 檢查數據無法通過QCT得到應用,這使得QCT 作為篩查技術的應用受到限制。
近年來,人工智能技術迅速發展,深度學習技術有望從大量的機會性CT 掃描圖像中獲取數據,從而在不增加經濟成本、時間和額外電離輻射風險[14]的前提下實現骨質疏松診斷。本研究開發了深度學習BMD 分類和BMD 值預測模型,旨在從不同部位的機會性CT 平掃圖像中建立骨質疏松診斷模型,并應用內部測試集和獨立數據集進行測試。
按照QCT 檢查登記順序選取2021年5—7月在成都大學附屬醫院進行QCT BMD 檢查的267 例CT 平掃數據為研究對象,掃描設備為上海聯影uCT 550。研究對象納入標準:① CT 檢查的當天進行過QCT 體模校準;② 胸部CT 平掃包括第2 腰椎(含低劑量和常規劑量);③ 腰椎和腹部CT 平掃。排除標準:① 胸、腰椎有手術史;② 胸、腰椎有壓縮骨折;③ 脊柱嚴重側彎;④ 腰椎腫瘤、血液系統疾病患者;⑤ 圖像質量不滿足要求。選取來自另一臺CT 掃描儀的54 例平掃病例按照上述納入排除標準進行病例選擇后作為獨立測試集,CT 掃描儀為GE LightSpeed VCT(通用電氣公司,美國),獨立測試集的所有病例均在此次CT 檢查前后1 個月內進行過QCT BMD 測定。本研究已經本院倫理委員會審批通過(批準文號:No.PJ2022-047-02),且患者均知情同意。
低劑量胸部CT 的管電流在uCT 550 為50 mA,在VCT 為70 mA。uCT 550 其他部位的管電流均為自動毫安。VCT 的管電流在常規劑量胸部CT 為270 mA,在腰椎為400 mA,在腹部采用自動毫安。管電壓在兩臺設備各部位均為120 kV。
所有CT 圖像都傳輸到QCT Pro Model 4 后處理工作站(Mindways Software,Inc.,美國)進行BMD 測定。胸部CT 圖像測量第12 胸椎~第2 腰椎椎體松質骨,腰椎和腹部CT 圖像測量第1~3 腰椎椎體松質骨,在椎體中心位置標記感興趣區,測量后取平均值作為該患者的BMD 值。診斷標準參照國際臨床骨密度測量學會和美國放射學會制定的標準,松質骨BMD<80 mg/cm3為骨質疏松,80 mg/cm3≤BMD ≤120 mg/cm3為低骨量,BMD>120 mg/cm3為正常[15-17]。本研究中BMD 分類為二分類,即設定BMD 正常的病例標簽為0,低骨量及骨質疏松的病例標簽為1。
本研究開發了基于密集卷積網絡(Densely Connected Convolutional Networks,DenseNet)的深度學習神經網絡用于BMD 二分類和BMD 值預測。將所有數據導入聯影智能科研平臺進行椎體分割,并在X、Y、Z 3 個方向上腐蝕3 mm 獲取松質骨作為感興趣區(Region of Interest,ROI)。計算ROI 相關信息,生成原圖路徑-類別標簽-ROI 信息配對列表。BMD 分類模型采用五折交叉驗證的方式進行數據分組。BMD 值回歸模型采用隨機分組方式按9 ∶1 的比例將數據集分為訓練集(n=180)和測試集(n=19)。此外,獨立測試集42 例。網絡將原始圖像作為單通道輸入,根據ROI 信息在原始圖像的ROI 區域附近采樣,并分別進行旋轉、平移等數據增強,以增加訓練樣本的多樣性;根據crop_size、spacing 和crop_normalizers 參數進行重采樣、裁剪、數據標準化等預處理。實驗流程如圖1所示。

圖1 實驗流程圖
將預處理后的樣本輸入DenseNet 中進行訓練,通過損失函數評估訓練過程中的損失。在不斷迭代訓練中,網絡的損失逐步下降,每迭代訓練100 次自動進行一次模型保存,并采用測試集樣本對保存的模型進行測試,得到每個測試樣本的預測類別和預測概率信息。待網絡損失下降到足夠低后,結束網絡訓練(圖1)。
計算一系列模型中每個模型的各項性能參數,包括受試者工作特征(Receiver Operating Characteristic,ROC)曲線下面積(Area Under Curve,AUC)、F1 得分、召回率、精準度、特異性、準確度。綜合各項性能參數選出最優模型,通過獨立測試集對最優模型進行評價。通過五折交叉驗證的方式獲得5 個模型及其在測試集和獨立測試集上的性能參數,以及五折交叉驗證的平均性能參數。
在DenseNet 網絡中進行訓練,通過最小平方誤差評估訓練過程中的損失,每迭代訓練25 次自動進行一次模型保存,待網絡損失下降到足夠低后,結束網絡訓練(圖1)。
計算一系列模型中每個模型預測出的BMD 值與實際真實值之間的平均絕對誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Square Error,RMSE)和Pearson 相關系數,選出最優模型,并通過獨立測試集對最優模型進行評價。
實驗最終納入199 例患者數據用于模型構建,其中,低劑量胸部63 例、常規劑量胸部107 例,腰椎9 例,腹部20 例;其中,低骨量和骨質疏松89 例、正常110 例。獨立測試集42 例,其中,常規劑量胸部29 例,腹部9 例,脊柱4 例;其中,低骨量和骨質疏松26 例,正常16 例。合計低骨量和骨質疏松115 例,正常126 例,共241 例。訓練測試數據集和獨立測試集中男女比例均接近1 ∶1,獨立測試集的年齡相對較大,平均年齡超過訓練測試集大約9 歲,不同的數據集更能反映模型的能力。
五折交叉驗證的訓練集、測試集、獨立測試集的混淆矩陣如表1所示,混淆矩陣顯示在訓練集、測試集和獨立測試集中假陰性、假陽性的實際數量和占比均很少。五折交叉驗證的訓練集、測試集、獨立測試集的AUC、F1 得分、召回率、精準度、特異性、準確度如表2所示,在每一折的交叉驗證中,上述參數均反映了模型較強的分類能力,在測試集和獨立測試集中雖稍有降低,但上述參數都保持在0.8 以上。在每一折參數的均值方面,除了獨立測試集的召回率均值為0.862、準確度均值為0.866外,測試集和獨立測試集的其他參數均達到了0.9 及以上。測試集、獨立測試集的ROC 曲線如圖2所示,測試集的AUC 達到了0.95 及以上,獨立測試集的AUC 達到了0.9 及以上。

表1 分類模型五折交叉驗證訓練集、測試集、獨立測試集混淆矩陣(例)

表2 分類模型五折交叉驗證訓練集、測試集與獨立測試集各項性能參數

圖2 測試集(a)和獨立測試集(b)ROC曲線
最優回歸模型預測BMD 值算法性能如表3所示,考慮到BMD 的數值范圍和應用背景,深度學習回歸模型在測試集和獨立測試集的表現上僅具有較小的誤差。根據Pearson 相關系數,BMD 的預測值和QCT 測量值呈極強正相關。BMD 預測值相對于QCT 的相關性圖和Bland-Altman 圖如圖3所示,訓練集、測試集、獨立測試集中分別僅有0.061%、0.053%、0.048%的點落在95%CI之外,預測值和QCT 測量值之間存在顯著的線性關聯,預測值與QCT 測量值的一致性良好。

表3 深度學習回歸模型預測BMD值算法性能
骨質疏松骨折風險分為低、中、高3 級,可進行不同的干預以有效減少致死率和致殘率[18-21]。日常醫療活動中有很多因其他醫療目的采集患者CT 圖像的機會,其中包含了胸腰椎。本研究采用人工智能技術將機會性CT 數據進行BMD 分類和預測,有可能使BMD 的準確測量成為其他CT 檢查的高附加值產品,從而提高骨質疏松篩查的效率。
在本研究的分類模型中,第1~5 折的測試集AUC、精準度、特異性、準確度、召回率、F1 得分的均值都在0.91 以上,而獨立測試集除召回率均值為0.862、準確度均值為0.886 以外,其他參數均在0.9 以上。因此,可認為本研究的分類模型在測試集和獨立測試集的分類任務上均有優秀的表現。Chen 等[22]利用胸部低劑量CT 進行了骨質疏松監測的自動分割和放射組學研究,其二分類模型的表現與本研究接近。在Pan 等[23]的研究中,深度學習模型監測骨質疏松的AUC 為0.927,區分低骨量與正常骨量的AUC 為0.942,也與本研究中的模型性能相當。
有報告表明,DXA 可能漏診26%~60%的骨質疏松癥患者[24],且由于QCT 對骨質疏松的檢出率比DXA更高[12],因此本研究采取QCT 作為骨質疏松診斷標準。因免除了人工干預,本研究所采取的回歸預測流程可更高效、準確地預測BMD。本研究的回歸模型在訓練集、測試集和獨立測試集的MAE、RMSE 均顯示預測值和真實值高度吻合;Pearson 相關系數顯示預測值與QCT測量值呈極強正相關;P<0.01 表明預測值與QCT 測量值存在顯著的線性關聯;Bland-Altman 圖表明每個測量對象都在±1.96 倍標準差線內均勻分布,且均值線非常接近0,說明預測值與真實值一致性較好。Fang 等[25]采用DenseNet-121 卷積神經網絡模型對BMD 進行了計算,顯示平均BMD 與QCT 結果具有高相關性(R>0.98),與本研究結果一致。測試集、獨立測試集的預測值與QCT 測量值存在數值上的差異,但絕大多數很接近,只是個別數值差異恰好跨越了80 mg/cm3和120 mg/cm3這2 個分界線,可能會造成分類漂移,因此采用回歸模型預測BMD 值比單純分類更客觀準確。
本研究存在一定局限性:① 樣本量較小,但采取了五折交叉驗證來應對這一問題;② 分類中只進行了二分類,尚未進一步進行正常、低骨量、骨質疏松的三分類;③ 尚未對骨折風險進行預測;④ 還需要加大獨立測試集的數量,以進一步驗證模型的能力。
基于機會性CT 檢查的深度神經網絡模型對BMD具有較強的分類能力,可較準確地預測BMD 值,適用范圍廣泛,可避免多余的輻射風險,減少了時間、經濟消耗,可有效擴大骨質疏松篩查的范圍,提高老年人的生活質量。