劉夢瑤,劉茹涵,姚一靜,余 倩,高乙惠,王 芮,盛 斌,姜立新
(1. 上海交通大學醫學院附屬仁濟醫院超聲醫學科,上海 200127;2. 上海交通大學電子信息與電氣工程學院計算機系,上海 200240;3. 上海交通大學附屬第六人民醫院,上海 200233)
發育性髖關節發育不良(Dcvclopmcntal Dysplasia of Thc Hip, DDH)是新生兒最常見的先天性疾病之一,目前超聲檢查是針對小兒早期DDH最普遍且最有用的影像診斷方法,規模化的新生兒DDH超聲篩查正在國內興起[1-3]。超聲檢查因其無創、安全、易行、無輻射、費用較低、并可動態觀察,特別適用于DDH高危人群的篩查及治療后的連續隨訪。1980年奧地利學者Graf開創的DDH超聲檢查的靜態方法——簡稱 Graf法[4-5],主要利用5~7.5 MHz線陣探頭取得包括7個主要解剖學標志的髖關節冠狀切面,通過對骨-軟骨交界面、股骨頭、滑膜皺襞、關節囊及軟骨膜、盂唇、軟骨頂、骨性頂這7個主要解剖結構進行解剖驗證,并在此基礎上進行后續的可用性檢測和測量分型。
然而,在超聲圖像上上述重要解剖結構的準確識別對從醫時間較短、資歷較淺(簡稱低年資)的醫師和初學者而言較為困難,如盂唇由于其解剖位置和形態的個體差異較大,髖臼的骨性頂和軟骨頂由于軟組織的覆蓋不易顯示全貌,辨認起來并不容易[6]。
另外由于在臨床實踐中DDH超聲診斷主要依靠人工取圖及測量,其隨操作者水平變化顯著,因此最近科研人員們提出了一些自動分割的方法。Quadcr等[7]提出用置信加權結構相位對稱(Confidcncc-wcightcd Structurcd Phasc Symmctry,CSPS)特征來分割三維超聲圖像上髖關節不同平面骨結構,減少了軟組織假陽性,提高骨分割效率。Pandcy 等[8]使用陰影峰(Shadow Pcak, SP)進一步簡化了骨陰影特征提取方法,在精確性和速度上都比CSPS有一定的提高。El-Hariri等[9]為了提高骨定位的準確性,首先利用基于相位的特征提取,應用空間解剖先驗來消除軟組織假陽性,準確分割髂骨和髖臼的輪廓;其次使用深度學習中較流行的單通道和多通道輸入的U-Nct觀察到深度學習特征的性能優于增強工程特征,如SP和CSPS。
雖然上述方法在髖關節超聲圖像的分割上取得了一定的突破,但其高度依賴人工提取的特征,在新數據的魯棒性和通用性上仍面臨很大的挑戰。此外,目前的研究只關注了盂唇和骨性頂的分割,還未有研究對髖關節圖像的7個主要解剖結構及其相對位置進行分割。而對上述7個關鍵結構進行人工圖像標注是一項費時費力的工作。因此,本研究將利用在圖像分割領域多個公開數據集中表現優越的網絡模型——DccplabV3+網絡的基礎上,探討其對DDH二維冠狀位超聲圖像上7個解剖結構的分割價值,并將其與目前DDH圖像分割中常用的表現優越的U-Nct網絡進行比較,探索最適合用于本研究中DDH超聲圖像分割的網絡模型。
本研究以疑似髖關節發育不良或存在DDH高危因素、并進行超聲篩查的 0~6月患兒作為研究對象,其納入及排除標準如下所示。
1.1.1 疑似標準
(1) 臀部或大腿內側褶皺不對稱;(2) 雙下肢長度不等及活動程度不一致;(3) 單側髖關節外展活動受限;(4) 早產兒且體重低于平均值。
1.1.2 高危因素
(1) 女性;(2) 臀先露;(3) 巨大兒;(4) DDH 家族史;(5) 胎兒過度成熟;(6) 嬰兒襁褓;(7) 羊水過少;(8) 其他引起體位性變形的宮內因素。
1.1.3 排除標準
(1) 排除不合格的超聲圖像(如存在7個主要解剖結構顯示不全/不清楚,不滿足中間平面等問題);(2) 排除腦癱、關節攣縮、化膿性髖關節關節炎等疾病所致的DDH圖像;(3) 排除其他髖關節疾病及肢體畸形患者的圖像;(4) Graf法Ⅲ型及以上DDH患者的圖像。
1.1.4 受試者分組
本文納入了106名患兒的106張二維超聲冠狀面圖像,超聲圖像由5~7.5 MHz線性換能器采集,圖像深度為40~55 mm,將其按4:1比例隨機分為訓練集和測試集,即訓練集包括 86張圖片,測試集包括20張圖片,其基本信息如表1所示。

表1 DDH圖像分割所用病例基本信息表Table 1 Basic characteristics of the study participants
1.2.1 手動標記
106張二維超聲冠狀面圖像中包括骨-軟骨交界面、股骨頭、滑膜折痕、關節囊及軟骨膜、盂唇、軟骨頂、骨性頂在內的7個關鍵結構,被一位經驗豐富的超聲醫師手動標記出其邊界,手動標記示意圖如圖1所示。將經過預處理后的訓練集和測試集分別輸入 DccplabV3+網絡和 U-Nct網絡這兩種網絡模型中進行訓練。

圖1 小兒髖關節二維冠狀位超聲圖像手動標記圖Fig.1 Manual labeling of ultrasonic image of hip joint
1.2.2 預處理操作
本研究使用圖像處理技術裁剪了超聲圖片中包含病患敏感信息的部分。為了使小兒髖關節結構的形狀不失真,將裁剪得到的超聲圖片用0填充至標準大小,圖像尺寸為572×748像素,并且所有的圖片都采用3通道的彩色圖像模式。為了應對數據量較少的問題,本文對訓練集中的原圖及其對應的標注圖進行數據增強操作,包括伽馬變換、旋轉、歸一化等,將圖片擴增至1 204幅。
1.2.3 網絡模型
本研究所采用的 DccplabV3+是圖像語義分割領域較為主流的網絡模型,在實際生活中應用較廣[10]。DccplabV3+網絡具有多尺度的卷積層,同時具備編碼-解碼雙重模塊,能夠實現對圖像所包含結構的精細分割,能夠平衡分割精度和分割效率,其分割性能優異。其中Dccplabv3網絡作為編碼模塊,能夠實現目標特征分層嵌套提取和多尺度上下文信息提取。而解碼模塊則將Dccplabv3骨干網絡中產生的低級特征和高層抽象特征相融合,最后對特征采用4倍雙線性上采樣輸出預測結果,其結構如圖2所示。

圖2 Dccplabv3+網絡結構模式圖Fig.2 The pattern diagram of Deeplabv3+ network
U-Nct網絡是語義分割領域較早使用的全卷積網絡算法之一,因其使用包含壓縮路徑和擴展路徑的左右對稱的U形結構而得名,并在醫學圖像分割領域有著較廣泛的應用[11]。而且U-Nct網絡使用跳躍鏈接結構將上、下采樣層連接,可將下層提取到的特征直接傳遞給上層,這也是U-Nct網絡分割精度較高的主要原因。
1.2.4 評價指標
為了評估本網絡模型的分割效果,實驗使用相似性系數(Dicc Similarity Cocfficicnt, DSC)、豪斯多夫距離(Hausdorff Distancc, HD)、平均豪斯多夫距離(Avcragc Hausdoff Distancc, AHD)作為評價指標。DSC、HD、AHD是醫學圖像分割領域的主要評價指標,其中 DSC用來度量醫生標注區域與預測區域之間的重疊部分,DSC取值范圍為 0~1,DSC越接近1則表示兩個區域越相似;HD和AHD則是用于衡量邊界分割的指標,用來描述兩組輪廓之間的相似程度,值越小代表兩者之間輪廓越相似。
1.2.5 網絡訓練
將同一數據組分別輸入 DccplabV3+網絡和U-Nct網絡,分別對86例DDH二維超聲圖像進行訓練,訓練后保存模型并對測試集中的 20例圖像進行預測。本試驗采用Python語言并在TcnsorFlow和Kcras框架下實現,使用交叉熵損失函數和Adma訓練算法,迭代輪次為 100,學習率為 1×10-5,最后計算7個解剖結構的DSC、HD、AHD等評價指標,并對兩種網絡的預測結果進行比較,評估兩種網絡的效果。
將DDH二維超聲圖像分別輸入DccplabV3+網絡和U-Nct網絡這兩個網絡中進行分割預測,從預測的結果來看,DccplabV3+網絡有較好的分割效果(如圖3(a)所示)。利用 U-Nct網絡預測得到的分割效果較差,不僅無法完全分割出7個解剖結構,比如對于關節盂唇和滑膜皺襞這種微小精細結構,同時對每個結構的邊界分割也較為粗糙,尤其是在各結構毗鄰處,如骨性頂和軟骨頂交界處、軟骨頂與盂唇交界處等(如圖3(b)所示)。

圖3 DccplabV3+網絡和U-Nct網絡的預測結果圖Fig.3 The predicted results of Deeplabv3 + network and U-Net network
本研究采用 DccplabV3+網絡和 U-Nct網絡這兩種網絡模型來分割DDH中的7個關鍵結構,最終利用DccplabV3+網絡得到7個結構的 DSC、HD、AHD平均值分別為86.50%,10.22、0.39,相比U-Nct網絡的84.45%、13.06、0.50,各項指標均表現較好,結果如表2所示。這兩種網絡模型在股骨頭、骨性頂、關節盂唇及骨-軟骨交界面這幾個骨性結構上的分割性能較好,DSC值高達 86.48%~91.53%;而在滑膜皺襞、關節囊及軟骨膜、軟骨頂上的分割性能則相對較差,DSC值為 77.30%~82.35%。

表2 DeeplabV3+網絡和U-Net網絡的分割性能比較Table 2 Comparison of segmentation performance between Deeplabv3 + Network and U-Net Network
由于在臨床實踐中初級醫師對重要解剖結構的理解程度不一,且DDH超聲診斷隨操作者水平變化顯著,因此研究者相繼提出了一些自動分割方法。El-Hariri等[9]使用 U-Nct網絡模型對髖關節三維超聲圖像中的髖臼和髂骨進行分割,其 DSC值為86%,與Quadcr等[7]提出的置信加權結構相位對稱特征提取方法(CSPS, DSC=81%)以及Pandcy等[8]使用的陰影峰(SP,DSC=75%)相比,U-Nct網絡的分割性能較為優異。然而,本研究發現,與目前DDH圖像分割中常用且表現優越的 U-Nct網絡相比,DccplabV3+網絡作為另外一種圖像分割領域的最常用的網絡模型,對DDH二維超聲圖像中7個結構的分割效果更好。從預測出來的超聲圖像中可以看出,DccplabV3+網絡的 DSC平均值較高,為86.50%±5.20%,表示模型預測的區域與高年資醫生標注的區域重合范圍較大,二者重合率較高;而從預測圖中也可以看出,DccplabV3+網絡[10]在可分割出的結構數目和單一結構邊界分割中相對表現較好,其能夠較好識別出DDH判別時必需的7個解剖結構。另外,代表邊界分割準確性的兩個參數:HD和 AHD的平均值分別為 10.22±7.32和0.39±0.44,明顯低于 U-Nct網絡模型的值,表明DccplabV3+網絡對這 7個結構邊界的檢測能力較高,在預測圖上7個結構的邊界分割也相對清晰可辨。這可能是由于 DccplabV3+網絡加入了編碼-解碼的思想,對編碼器中的Xccption進行調整,以及加入了類似于U-Nct網絡的解碼器結構,解碼時能夠與低級信息相連,解決了編碼時經過步長卷積或者池化層后的細節信息丟失,有助于恢復圖像邊緣信息。因此,DccplabV3+網絡利用其具有的多尺度卷積層,能夠實現對髖關節二維超聲圖像中7個主要結構的精細分割,具有良好的分割性能。對于超聲醫生后續利用盂唇中點、骨性頂中的平直髂骨面和髂骨下緣最低點進行角度測量將會有很大的幫助。
除此之外,這兩種網絡對上述7個重要解剖結構的分割精確度具有相同的趨勢,都對骨性頂、股骨頭這兩個結構的分割準確度較高,而對軟骨頂、滑膜皺襞、關節囊及軟骨膜的識別精度較低,原因在于髖關節中骨性結構在超聲圖像上顯示為強回聲,邊界清楚,輪廓銳利,其包含的強回聲像素點與周圍的低回聲軟組織灰階水平對比較為明顯,因此很容易被肉眼和網絡模型識別出來。而識別精度較低的3個結構則是軟組織結構,其回聲較低甚至呈無回聲,邊界欠清,因此較難識別。
綜上所述,對于這種語義分割任務,不僅需要注重圖像分割的內容和邊緣等細節,往往還需要結合更多詳細的空間信息,比如圖像中各解剖結構間的相對位置關系等,從整體上來判斷分析各個結構的邊界。另外,由于本研究所納入的手動標記樣本量較少,使得網絡模型缺乏充分的訓練,預測效果也會受到很大影響。因此在今后的研究中,我們將進一步擴大手動標記的圖像樣本量,在此基礎上引入結構位置信息處理網絡、注意力機制等[12-14],進一步提高本網絡模型對于DDH超聲圖像中重要解剖結構的分割精確度和可解釋性。
本文應用 DccplabV3+網絡模型,利用其強大的編碼、解碼能力,將其所提取的低級特征用于對DDH二維冠狀位超聲圖像的像素級精準分割,初步實現了對DDH超聲圖像上7個解剖結構的分割,相比于目前 DDH圖像分割中常用且表現優越的U-Nct網絡而言,內容及邊界識別都更加精細,具有較高的分割性能,對后續DDH超聲圖像的標準性判定、角度測量和分型診斷具有重要意義。