張思成 孫軍 林昱東 袁亮 謝康 方繼紅 劉傳斌 謝洪濤
發育性髖關節發育不良 ( developmental dysplasia of the hip,DDH ) 是嬰幼兒最常見的骨骼疾病之一,全球發病率為 0.16%~2.85%[1]。診斷 DDH 的主要方法是體格檢查、超聲檢查 ( 6 個月以下嬰兒 ) 和骨盆前后位 X 線片[2]。對于 6 個月以上的兒童,最常用的檢查是骨盆 X 線片[3]。X 線片上髖關節脫位的具體脫位程度通常是用 T?nnis 方法[4]和國際髖關節發育不良研究組織 ( International hip dysplasia institute,IHDI ) 分型進行確定[5]。判斷髖關節髖臼發育情況最常用最重要的指標是髖臼指數,通過 Hilgenreiner 法測量[6-7]。診斷測量 DDH 骨盆前后位 X 線片的重復性差,存在較大的測量誤差[8],根據文獻報道這種測量誤差可以從 ±3.5°~±10° 不等[9-12]。這使許多患兒無法得到可靠的診斷和及時轉診[13]。 近年來,人工智能 ( AI ) 系統在用于圖像識別、臨床決策和廣泛數據集分析等方面的性能已被證明與臨床醫生相當,甚至優于臨床醫生[14-16]。獨立人工智能診斷醫學影像仍然是一個有爭議的話題,然而,許多臨床醫生認為,應用深度學習技術能為改善工作流程和提高勞動效率提供有效的工具[17-18]。
既往鮮有報道計算機輔助診斷 DDH 骨盆影像。 在本研究中,筆者使用臨床醫生標注的骨盆前后位 X 線片開發、訓練和測試了一個計算機化的深度學習卷積神經網絡模型。假設在髖關節脫位的判定和髖臼指數的測量中具有較高的準確性。
本研究為回顧性研究,并獲得了本機構生物醫學倫理委員會 ( 安徽省兒童醫院醫學研究倫理委員會 ) 的批準 ( 批準號:20190021 );由于本研究使用完全匿名的 X 線片,因此放棄了獲得知情同意的要求。收集 2014 年 4 月至 2018 年 12 月我院放射科 ( 我院兒骨科年門診量約 9 萬人次,DDH 門診約每年 1 萬人次 ) 共 34 167 張匿名骨盆前后位 X 線片 ( 年齡 10 天~10 歲 )。在拍攝骨盆 X 線片時,患兒標準的仰臥位,雙側骨盆對稱;雙足第一趾尖相對,盡量控制骨盆旋轉和傾斜。排除標準如圖1 所示。最后的數據集為 10 219 張:0~2 歲 8577 張,≥ 2 歲 1642 張。隨機分為三個隊列:( 1 ) 8000 張用于訓練使用深度學習方法構建的人工智能輔助診斷系統;( 2 ) 1081 張用于優化系統;( 3 ) 1138 張用于測試人工智能輔助診斷系統性能。詳細數據的分布如表1 所示。

表1 總體病例的臨床和影像學特征 [ 例 ( % ) ]Tab.1 Clinical and imaging characteristics of the study participants [ case ( % ) ]
所用骨盆前后位 X 線片根據 Hilgenreiner 和 T?nnis 理論進行標注 ( 表2 )。使用圖片存檔和通信系統 ( PACS ) 工作站對所有圖像上的六個關鍵點進行標注 ( 圖2a )。連接雙側髖臼中心點的線為 Hilgenreiner 線,垂直于 Hilgenreiner 線穿過髖臼外側邊緣點的線為 Perkins 的線,并通過髖臼外側邊緣點繪制與 Hilgenreiner 線的平行線 ( 圖2a )。然后使用 Hilgenreiner 和 Perkins 的線相交形成的雙側 Perkins 方格來確定特定的 T?nnis 等級 ( 表2 )。股骨頭骨骺未出現的患兒采用 IHDI 方法分類 ( 表3 )。髖臼指數為從‘Y’型軟骨的中心點到髖臼外側邊緣點與 Hilgenreiner 線之間的夾角 ( 圖2b )。詳細的標注過程如下:( 1 ) 標注小組由 13 名臨床醫生組成。在開始工作之前,統一研究學習了診斷兒童 DDH 骨盆前后位 X 線片的關鍵點的位置和 T?nnis 分級標準;( 2 ) 10 219 張前后骨盆 X 線片被隨機分配給 8 名兒童骨科主治醫生 ( 均超過 8 年的兒童骨科臨床經驗 ) 標注;( 3 ) 然后由 2 名兒童骨科副主任醫師 ( 均超過 15 年的兒童骨科臨床經驗 ) 和 2 名放射科副主任醫師 ( 均超過 15 年的兒童影像診斷臨床經驗 ) 組成的專家委員會對標注的圖像進行審查;( 4 ) 如果有任意一個關鍵點位置不正確或 T?nnis 分級不當,委員會將 X 線片視為不合格。如果專家委員會有分歧 ( 關于關鍵點的位置或 T?nnis 等級 ),將咨詢第三位專門從事兒童骨科髖部成像的主任醫師 ( 有超過 25 年兒科骨科影像診斷臨床經驗 );( 5 ) 未達標的 X 線片被重新標注,直到達標。

表2 髖關節發育不良的 T?nnis 分類Tab.2 T?nnis classification for developmental dysplasia of the hip

表3 IHDI ( 適用于股骨頭未出現者 ) 分類Tab.3 IHDI classification for DDH ( not requiring the presence of an ossific nucleus )

圖2 標注示意圖:前后骨盆 X 線片,攝于 2015 年 5 月 10 日,患兒,女,22 個月 a:6 個紅點代表臨床醫生提出的 6 個關鍵點,1、2 為“Y”形軟骨中心點;3、4 為髖臼外側邊緣點;5、6 為股骨頭骨化中心點;b:根據關鍵點用 T?nnis 方法繪制各線,確定髖臼指數和脫位程度Fig.2 Labeling diagram Anteroposterior pelvic radiographs taken on May 10, 2015. Female, 22 months old. a: The six red dots represented the key points made by the clinician ( 1, 2 = center points of the triradiate cartilage; 3, 4 = lateral acetabular edge points; 5, 6 = ossification center of the capital epiphysis ); b: A line was drawn using the T?nnis method to determine the acetabular index and dislocation
如圖3 所示,筆者應用了一種深度學習方法,即“FR-DDH 網絡”,用于 X 線影像的自動診斷。 地標 L 的定位被轉換為以 L 為中心的鄰域的檢測。對于輸入圖像,網絡首先使用 ResNet-101 作為特征提取器,以獲得高維特征。繼而利用特征映射,區域建議網絡生成潛在的鄰域區域。接下來,通過感興趣區域 ( region of interest,ROI ) 池化結合區域和特征來預測區域的標簽及其邊界框偏移。最后,關鍵點定位于檢測出切片的中心點并計算診斷結果。

圖3 網絡使用的框架。該網絡使用一個 ResNet-101 從輸入 X 線中提取特征。然后,通過一個稱為“區域建議網絡”的結構生成潛在的鄰域區域。然后,使用 ROI 池化結合區域和特征,最后得到兩個分支的結果,包括分類結果和回歸結果。最后,這些結果可以用來計算關鍵點位置并得到最終的診斷Fig.3 The framework The network contained a ResNet-101 to extract features from the input X-rays. Next, potential neighborhood regions were generated by a structure as region proposal network. Region of interest ( ROI ) pooling combined the regions and the feature maps. Results of the two branches were obtained, including the classification and regression. All data can be used to calculate specific landmarks and determine the final diagnosis
RPN 使用生成的 2048-D 特征生成局部候選集,每個候選集都具有置信度分數。以滑動窗口的方式在卷積特征圖上滑動。窗口尺寸設定為長度為 128×256 的方形。
一旦生成了局部鄰域候選集,FR-DDH 將候選集和特征通過 ROI 池結合起來。然后,每個特征向量分支成兩個輸出層:用于分類的 CLS 層和用于 回歸邊界框坐標的回歸層。關鍵點最終定位在切片中心。
首先,對采用的方法和模板匹配進行了比較實驗。模板匹配塊在輸入圖像中找到模板的最佳匹配。深度學習方案比模板匹配方法得到了顯著的改進,因為深度學習有很強的能力來學習醫學影像中的復雜結構關系。筆者比較了深度學習系統和臨床醫生在測試集 1138 張骨盆 X 線片上的診斷測量結果。首先,以臨床醫生診斷結果為準測試深度學習系統在診斷骨盆線片是否脫位的總體精確度。2 歲前髖關節發育迅速,2 歲后髖關節骨性標志明顯。因此,分別測試了深度學習系統在診斷低齡兒童 ( 0~2 歲 ) 和大齡兒童 ( ≥ 2 歲 ) 是否存在脫位的診斷準確性。然后,對深度學習系統和臨床醫生測量的髖臼指數總體進行了比較分析。還分別比較了低齡兒童 ( 0~2 歲 ) 和大齡兒童 ( ≥ 2 歲 ) 髖臼指數測量的一致性。此外,根據臨床診斷是否脫位 (“非脫位”組包括 T?nnis 分級的 0 級和 1 級,而“脫位”組包括 T?nnis 分類的 2~4 級 ) 分別比較兩組髖臼指數測量的一致性。
所有數據均采用 SPSS 22.0 軟件 ( IBM,Armonk,NY,USA ) 和 GraphPad Prism 5 軟件 ( GraphPad Inc.,San Diego,CA,USA ) 進行統計學分析。應用 ROC 曲線,評價深度學習系統在確定髖關節是否脫位時的診斷性能。然后用 Bland-Altman 散點圖評價深度學習系統和臨床醫生測量的髖臼指數測量的一致性。當 P < 0.05 代表差異有統計學意義。
本研究使用 9081 張標準前后骨盆 X 線片訓練和優化計算機化的深度學習神經網絡模型。測試集包括 1138 例 [ 男 242 例;女 896 例;年齡 0~10 歲,平均 ( 1.5±1.79 ) 歲 ]。其中 989 例 0~ 2 歲,149 例 ≥ 2 歲。1138 例 ( 2276 髖 ) 確定具體的 T?nnis 等級,并測量髖臼指數。測試集中臨床醫生和深度學習系統診斷不同程度發育不良的骨盆前后位 X 線片診斷結果如圖4 所示。深度學習系統和臨床醫生在 T?nnis 分級方面所作診斷的結果比較見 表4?!胺敲撐弧苯M包括 T?nnis 分級的 0 級和 1 級,而“脫位”組包括 T?nnis 分類的 2~4 級,結果分布見表5。在測試集結果中有 13 例髖關節臨床醫生診斷“脫位”,但深度學習系統診斷為“非脫位”;診斷的詳細結果詳見表6。

表4 深度學習系統與臨床醫生判斷的 T?nnis 分級比較Tab.4 Comparison of T?nnis grading between the system and clinician judgment

表5 深度學習系統與臨床醫生診斷髖關節“脫位”的診斷分布Tab.5 Distribution of diagnoses of hip dislocation

表6 測試集中 13 例被臨床醫生診斷為“脫位”,但被深度學習系統診斷為“非脫位”的病例資料Tab.6 A series of 13 cases diagnosed as dislocation by clinicians but non-dislocation by the system


圖4 臨床醫生診斷和深度學習系統的案例。a、b、e、f 為臨床醫生的診斷,c、d、g、h 為深度學習系統的診斷 a、b:2016 年 7 月 21 日拍攝的骨盆前后 X 線片,患兒,男,6 個月;c、d:2014 年 11 月 2 日拍攝的骨盆前后 X 線片,患兒,女,14 個月;e、f:2018 年 4 月 10 日拍攝的骨盆前后 X 線片,患兒,女,2 歲;g、h:2016 年 12 月 9 日拍攝的骨盆前后 X 線片,患兒,女,7 歲Fig.4 Diagnoses made by clinicians and system. a, b, e, f: Diagnoses made by clinicians; c, d, g, h: Diagnoses made by the system a - b: Anteroposterior pelvic radiographs of a 6-months-old boy, taken on July 21, 2016; c - d: Anteroposterior pelvic radiographs of a 14-months-old girl, taken on November 2, 2014; e - f: Anteroposterior pelvic radiographs of a 2-years-old girl, taken on April 10, 2018; g - h: Anteroposterior pelvic radiographs of a 7-years-old girl, taken on December 9, 2016
在深度學習系統判斷髖關節是否“脫位”的性能,以臨床醫生診斷為準,在測試集總 2276 個髖關節 ROC 曲線下的面積 ( AUC ) 為 0.975,精度為 2254 / 2276 ( 99.0% ),靈敏度為 276 / 289 ( 95.5% ),特異性為 1978 / 1987 ( 99.5% );幼兒組 ( 1978 髖 ) AUC 為 0.974,準確率為 1956 / 1978 ( 98.9% ),敏感性為 265 / 278 ( 95.3% ),特異性為 1691 / 1700 ( 99.5% ) ( 圖5 );未滿 6 個月的嬰兒 ( 190 髖 ),AUC 為 0.952,準確率為 188 / 190 ( 98.9% ),敏感性為 19 / 21 ( 90.5% ),特異性為 169 / 169 ( 100% )。在高年齡兒童組 ( 298 髖 ) 中,準確率為 298 / 298 ( 100% )。圖6 顯示了深度學習系統的髖臼指數測量與臨床醫生進行的比較??偟?1138 例 ( 2276 髖 ),與臨床醫生的測量相比,根據 Bland-Altman 方法確定的 95% 的一致性界限為 -4.0°~3.45° ( bias = -0.27°,P < 0.0001 )。小年齡兒童的髖臼指數測量,95% 的一致性界限為 -4.1°~3.5° ( bias = -0.3°,P = 0.0001 ), 6 個月以下的嬰兒,95% 的一致性界限為 -3.87°~ 3.77° ( bias = -0.05°,P = 0.728 ),對于高年齡組兒童,95% 的一致性界限為 3.38°~3.25° ( bias = -0.07°,P = 0.5013 )。“非脫位”和“脫位”組髖臼指數的 95% 一致性界限為 -3.27°~2.94° ( bias = -0.17°,P = 0.0001 ) 和 -7.36°~5.36° ( bias = -1.0°,P = 0.0001 ) ( 圖6 )。

圖5 ROC 曲線比較由深度學習系統作出的診斷和臨床醫生作出的診斷 a:所有 2276 例髖關節的診斷結果;b:1978 例髖關節在 0~2 歲患兒中的診斷結果Fig.5 Receiver operating characteristic ( ROC ) curves comparing the diagnoses made by the system and clinicians a: Diagnoses of all 2276 hips; b: Diagnoses of 1978 hips in children aged 0 - 2 years

圖6 Bland-Altman 散點圖,將深度學習系統的診斷與臨床醫生的診斷進行比較 a:“非脫位”組;b:“脫位”組;c:幼兒組 ( 0~2 歲 );d:高年齡組 ( ≥ 2 歲 )Fig.6 Bland-Altman plots comparing diagnoses made by the system and clinicians a: Non-dislocation group; b: Dislocation group; c: Young children ( aged 0 - 2 years ); d: Elder children ( aged ≥ 2 years )
DDH 早期及時的診斷和治療至關重要[1,13]。未滿 6 個月的嬰兒通常通過超聲診斷。雖然超聲篩查的逐步普及仍有相當數量的病例延遲診斷以及診斷后 6 個月仍未治愈病例,都需要 X 線檢查[13,19]。在 DDH 涉及半脫位和脫位的病例中,股骨頭有明顯的移位一般容易通過 X 線診斷。一旦診斷髖關節半脫位或脫位時,任何年齡的個體都需要治療,盡管具體的治療形式可能有所不同[1]。在本研究中的深度學習系統,在測試集 2276 例髖關節中,2254 例髖關節 ( 99% ) 被準確診斷是否“脫位”( 包括半脫位和脫位 );深度學習系統診斷的特異性和敏感性分別為 1978 / 1987 ( 99.5% ) 和 276 / 289 ( 95.5% )。9 例髖關節深度學習系統診斷為有“脫位”,而臨床醫生診斷為“未脫位”。究其原因其中 2 例由于股骨頭骨骺未出現或畸形,很難定位股骨頭關鍵點,另有 7 例因 X 線不規范、骨盆旋轉或股骨內收而被深度學習系統誤診為 DDH。另外有 13 例髖關節臨床醫生診斷為“脫位”,而深度學習系統診斷為“未脫位”。其中 4 例 ( 2 例 < 6 個月 ) 中,由于股骨頭骨骺未出現或畸形難以定位,另有 9 例因 X 線片骨盆偏轉或股骨內收。盡管這 13 例髖脫位的判斷不正確但結合測量的髖臼指數這些病例并沒有造成漏診;因此對于股骨頭骨骺未出現的患兒及攝 X 線片體位不正的患兒使用人工智能進行診斷的時候,建議臨床醫生復核。而對 6 個月以下的患兒由于股骨頭骨骺未骨化,超聲仍然是一個更優的方法。診斷 DDH 時,鑒別正常和髖臼發育不良的病例較難;髖臼指數是此類病例最重要的指標[1,20]。然而,在 2 歲之前,髖臼指數和髖關節形態都會隨著生長發育而發生顯著變化;在年齡較大的兒童中,變化程度要小得多[20-21]。正因為如此,在本研究中把病例分組為 0~2 歲和 ≥ 2 歲進行研究。分析發現,在高年齡組中診斷髖關節“脫位”的準確性和髖臼指數測量的一致性比幼兒組更好。與臨床醫生的測量相比,非脫位組的髖臼指數測量用 Bland-Altman 方法計算的 95% LOA 為 -3.27°~2.94°,而脫位組的 95% LOA 為 -7.36°~5.36°。脫位組髖臼指數誤差較大,這與臨床醫生在測量髖臼指數時所經歷的相同問題,由于髖脫位患兒的髖臼外緣不規則,從而導致定位困難[12]。根據以前的報告,不同臨床醫生的測量誤差范圍從 ±3.5°~±10° 不等[9-12]。根據 Bland-Altman 原則[22-23]將兩種測量方法之間 95% 的一致性界限與臨床可接受的誤差閾值進行比較;如果 95% 的一致性界限在臨床上是可以接受的,則認為這兩種方法是可以互換的。在本研究中,非脫位組髖臼指數測量的一致性明顯的低于臨床醫生組間測量誤差。應用 Bland-Altman 原理,深度學習系統測量非脫位組髖臼指數可信度較高。在非脫位組中,可根據年齡和該區域的髖臼指數標準進一步確定髖關節是否存在發育不良。深度學習系統能夠有效地識別髖關節“脫位”和“未脫位”,且“脫位”組髖臼指數的測量誤差在臨床上是可以接受的??偟膩碚f,深度學習系統的輔助診斷測量與傳統的臨床診斷結果有很高的相似性。然而,深度學習系統在速度和批量處理方面都更有優勢。深度學習系統診斷每個 X 線片所需時間為 1 s,比臨床醫生進行人工診斷所需時間短。
這項研究仍有些局限性。( 1 ) 骨盆 X 線片的標注可能存在差異,雖然通過多輪交叉審核,但不同臨床醫生標注的結果可能有所不同。( 2 ) 對年齡較大和嚴重脫位的患兒 X 線片數量較少;因此,發現可能不能反映總體情況。( 3 ) 這是一個單一中心 的研究。計劃在未來的研究中更加需要繼續豐富數據集。
總之,本研究證明了使用深度學習系統對髖關節脫位兒童骨盆前后 X 線片進行初步篩查的可行性。本研究中人工智能輔助診斷 DDH 的初步成功為開發更快速、客觀、準確的基于人工智能的 DDH 診斷技術提供了堅實的基礎。