彭 誠,黃揚林,郭建強
(湘潭大學 計算機學院·網絡空間安全學院,湘潭 411105)
肋骨骨折是骨傷科中十分常見的疾病,其發生率大概在40%~80%[1],并且有逐年上升的趨勢.而肋骨骨折同時導致肺炎、氣胸等危及生命的并發癥[2].當觀察肋骨區域時,CT 圖像其優勢在于可更充分、細致的觀察到骨折區域,能滿足于臨床肋骨骨折診斷要求[3,4],所以CT 圖像已成為臨床上診斷骨折病癥常用的方法[5].但目前針對CT 圖像的肋骨骨折診斷仍然是一項復雜的任務,由于整個診斷過程依賴臨床醫生的診斷經驗,而單個病人的病理圖像多達幾百張,甚至上千張,且受不同設備、不同環境等因素的影響,導致醫生分析、診斷肋骨骨折的工作特別繁瑣且艱難.同時,過大工作量易使醫生產生疲勞現象,使診斷肋骨骨折病癥時產生誤診現象.因此,實現快速準確的肋骨骨折計算機輔助診斷技術對于臨床治療具有十分重要的意義.
隨著近年來計算機技術的興起,利用圖像處理方法輔助標注肋骨已成為眾多學者不斷研究的問題.由于肋骨分布較廣且形狀較小,許多針對肋骨CT 圖像的分割方法被提出,如鄭惠敏等人[6]提出一種肋骨投影N-維平面方法,通過把肋骨投影到二維平面從而消除肋骨遮擋產生的影響,另外應用增強濾波算子強化肋骨邊緣分割出肋骨圖像,趙曉飛等人[7]提出應用區域增長方法進行肋骨追蹤進而實現肋骨分割的算法.其中有部分研究致力于幫助醫生實現肋骨圖像重建,如王淑麗等人[8]應用多層螺旋CT 掃描方法進行并行薄層及曲面重建,算法可完整顯示肋骨骨折位置與形態,而楊東等人[9]提出了基于CT 數據的肋骨骨折自動診斷系統,通過改進的經典中心性算法以及曲面重建算法(CPR)對單根肋骨進行可視化,幫助臨床醫生提高肋骨骨折的診斷效率,但該系統只對部分骨折類型敏感.Urbaneja 等人[10]使用前像圖像與后向圖像兩種圖像,確定了識別肋骨骨折形狀和位置的具體參數,但該方法需要花費大量精力進行手工參數制定.
近年來,卷積神經網絡由于在圖像識別的高性能被廣泛應用,針對醫學圖像方面應用于宮頸細胞核圖像分割[11]、心血管造影圖像分割[12]領域等.國內外研究者將卷積神經網絡應用于肋骨骨折識別研究,如Hu 等人[13]提出了切片分組聚合網絡(slice grouping and aggregation network,SGANet),首先通過三維(3D)卷積網絡對不同切片進行聚合,然后使用二維卷積網絡提取各張切片特征進行分類.Chen 等人[14]提出了空間相干性檢測算法(spatial coherence based rib fracture detection,SCRFD),首先從CT 切片中將肋骨區域提取出來,之后利用結合空間信息的卷積神經網絡對該區域進行識別,但該方法具有較差的魯棒性.而Zhou 等人[15]提出了一種基于卷積神經網絡的肋骨骨折輔助識別系統,可自動定位并分類多種骨折類型,該系統具有良好的檢測性能,同時將輔助診斷與人工診斷結果對比表明該系統可有效幫助醫生提高診斷效率.Jin 等人[16]提出了一種卷積神經網絡模型FracNets,進行人工標注后對三維肋骨圖像進行檢測,實現了92.9%的檢測靈敏度.以上都是應用深度學習技術對肋骨骨折進行識別的研究,但仍然存在部分不足:(1)識別算法需要的計算代價仍然巨大,無法保證大量CT 圖像在臨床診斷的實時檢測速度.(2)整體網絡未考慮到肋骨區域的多尺度信息,導致分類精度不高.
為全面提取肋骨CT 圖像整體信息,同時為達到醫學設備對檢測速度的要求,本文提出了一種基于RFNet 的肋骨骨折識別算法.
本文的主要貢獻有以下幾點:
(1)使用生成對抗網絡對肋骨CT 圖像進行數據增強作為額外訓練集,豐富圖像的多樣性,解決醫學圖像匱乏而模型難以訓練的難題.
(2)使用多分支模塊RF-block 構建了卷積神經網絡RF-Net,該模塊可提取肋骨的多尺度特征信息,著重關注肋骨區域的形狀特征,提高檢測性能.
(3)提出壓縮策略充分優化模型結構,在減少參數量的同時提升分類性能.同時在肋骨數據集上驗證了所提出的方法領先于多種主流分類網絡,另外進行了充分的消融實驗,證明了各模塊的有效性.
MobileNet 由于其高效檢測精度和檢測速度符合移動設參數要求受到廣泛關注.其主體結構為深度可分離卷積(depthwise separable convolution,Dw conv),深度可分離卷積將原有的標準卷積因式分解為深度卷積和點卷積,其中深度卷積對輸入特征圖中不同通道分別使用一個卷積核得到多維特征圖,點卷積使用1×1 卷積將多個特征圖按順序拼接,而點卷積對深度卷積作用后的特征圖進行線性組合起到升維或者降維的效果,操作過如圖1所示.

圖1 深度可分離卷積
假設輸入特征圖為M×M,輸出通道數為C,卷積核大小為N×N,個數為K,深度卷積計算量P1,點卷積計算量P2分別為:

故深度可分離卷積參數量與標準卷積參數量比值Ratio為:

當卷積核大小N×N為3×3 時,由式(3)可知深度可分離卷積相比于標準卷積可減少8 至9 倍的計算量,故使用深度可分離卷積的MobileNet 具有高效性.
醫學數據具有一定的隱私性與復雜性,因此數據量一般較少.但深度學習模型的性能非常依賴于訓練數據的數量,更多的訓練數據往往伴隨著更好的深度學習模型,相比較于直接收集數據,在原有數據集上應用數據增強技術由于低成本的特性被廣泛采用.在CT 圖像中傳統數據增強方式就是對圖像進行隨機仿射變換處理,包含翻轉、縮放、鏡像、平移等方法,而為獲得更多的數據,在實際應用中會同時將上述多種方法組合使用,但需要注意的是,傳統數據增強方法雖然可以有效擴大數據集數量,但無法改變圖像本身的內容,易使模型產生過擬合效應,降低模型性能.
本文提出了一種基于RF-Net 的肋骨骨折識別算法,圖2 展示了該方法的流程圖,核心思想如下:首先應用生成對抗網絡對原始樣本進行數據增廣,產生許多高質量的生成樣本構建全新的訓練集.然后使用RFblock 替換深度可分類卷積單元,RF-block 可學習到多尺度特征,進行特征融合后傳遞給下層網絡,加強骨折區域上下文信息之間的聯系.同時應用壓縮策略對冗余模塊進行優化.本節將詳細介紹基于生成對抗網絡的數據增強方法實現過程以及RF-Net 的整體結構.

圖2 論文框架圖
生成對抗網絡是近年來用于生成隨機數據的一種框架,其由生成器(generative model,G)、辨別器(discriminative model,D)兩種模型共同組成.前者試圖生成接近真實的數據,而后者試圖分辨真實圖像與虛假圖像,在最理想的情況下,整個網絡的目的為生成器能夠生成“以假亂真”的圖像,即模型的目標函數V(D,G)為:

其中,z表示輸入噪聲變量,x表示真實樣本數據,D(x)表示辨別器網絡識別x是真實樣本的概率,而G(x)表示生成器產生的一個樣本,pz表示從噪聲中生成的概率分布,pdata表示從原始數據中學習到的概率分布,函數的最優值即為pz=pdata,此條件下辨別器無法正確分辨生成樣本與真實樣本,同時生成器已經可以生成高質量的“完美”樣本.
生成對抗網絡產生了各種各樣的變體模型,Mirza等人[17]提出了深度卷積生成對抗網絡(deep convolutional generative adversarial nerwork,DCGAN),由于其優秀的性能被廣泛應用.本文基于DCGAN 構造了4 層卷積網絡的生成器與辨別器,圖3展示了該網絡的整體結構.生成器的輸入為1×100 的符合正態分布的向量,經過反卷積層(deconvolution,DeConv)輸出分辨率為32×32 的圖像.辨別器的輸入為生成器產生的圖像,經過卷積層(convolution,Conv)輸出辨別概率.

圖3 DCGAN 網絡
為驗證基于生成對抗網絡的數據增強方法實際效果,本文將在實驗部分說明具體細節,同時通過消融實驗證明此方法下各模型分類性能優于傳統數據增強方法.
由于肋骨骨折病癥的巨大差異性,且存在不同生理特征的干擾,導致部分骨折情況復雜.故需要結合多尺度信息對肋骨進行針對性學習.本文使用MobileNet[18]作為基礎架構,結合RF-block 與壓縮策略提出了RFNet,提取出多尺度特征的同時對網絡結構進行充分優化,更高效的處理圖像信息.
2.2.1 RF-block
應用深度可分離卷積可有效加深網絡以及提升推理效率.但該單元仍存在部分不足,由于單分支結構的局限性,難以提取到強大的多尺度特征,導致模型出現部分精度損失.
在此基礎上,本文提出了RF-block 模塊,該模塊由深度可分離卷積和1×1 卷積組成,分別作用于輸入得到不同特征圖,使用Contcat 操作進行特征融合,此時不僅能獲得肋骨的空間特征,又可獲得非線性的原始特征,實現多尺度特征提取.另外RF-block 在前后通道圖上進行跳躍連接(skip-connection),有效避免梯度消失問題,實現跨通道的信息整合.
RF-block 的結構圖如圖4所示,使用兩個通道數為C/2 的卷積層代替通道數為C的深度可分離卷積,整體結構共分為池化單元與非池化單元,非池化單元輸入輸出特征圖尺寸相同,而池化單元使用最大池化層進行下采樣,輸出特征圖尺寸減半,有利于下層卷積更有效地處理特征.相比較而言,在參數量相同的條件下,RF-block 不僅保留了深度可分離卷積的高效性,同時使網絡學習到更深層次的多尺度特征.

圖4 RF-block 結構圖
2.2.2 壓縮策略
由于肋骨問題需在短時間內得到檢測結果,而單個病例具有大量CT 圖像,故算法計算參數量應處于一定規模之下,而MobileNet 模型結構仍存在額外計算成本.針對以上問題,本文提出了模型壓縮策略,首先通過快速下采樣操作[19]最大限度保留原有信息,之后對高維結構進行優化.
作為卷積神經網絡中的常用操作,下采樣層通過縮放操作成倍減小特征圖的尺寸,可大幅度降低模型計算量.而上層輸入特征圖的尺寸可影響下層卷積操作所需要的計算規模,簡單分析可得,越早進行下采樣,下層網絡的計算規模越小,故本文使用快速下采樣方法對RF-Net 整體結構進行優化,方法示意圖如圖5所示.

圖5 快速下采樣示意圖
從圖5 中可看到,原下采樣網絡交替經過3 個非池化層與3 個池化層,每1 個池化層前的非池化層易破壞原始肋骨特征信息,而快速下采樣方法連續經過3 個池化單元,直接使輸入特征圖尺寸縮小8 倍.與原網絡相比較,應用快速下采樣策略后的網絡能夠保留更多全局信息.由于快速下采樣策略使原有特征圖質量不可避免地受到影響,導致網絡高維卷積層存在多個空卷積核.故可刪除多個高維模塊以彌補快速下采樣方法的不足.在本文問題下,壓縮策略可有效減少參數量的同時保留良好的特征提取能力,實現細節如表1 結構所示.

表1 RF-Net 結構參數
2.2.3 整體模塊設計
表1 列出輸入尺寸為224×224 的圖像時RF-Net的具體網絡結構參數.其中s 表示步長,C表示模塊輸出通道數.網絡骨干部分共分為5 個階段,階段[1,2,3,4,5]分別對應于輸出通道數為[64,128,256,512,1024]的RF-block,每個階段的末尾均為RF-block 的池化單元,池化單元通過最大池化層降低特征圖的尺寸而傳遞信息到下一階段.相比于MobileNet,RFNet 僅保留兩個通道數為512 的RF-block 與一個通道數為1 024 的RF-block,以解決高維信息的丟失問題.具體來說RF-Net 由9 層模塊構成,包含1 個帶池化的卷積層,4 個帶池化的RF-block 以及4 個未帶池化的RF-block,使用全局平均池化層(global average pooling,GAP)代替全連接層.GAP 層對每一個特征圖求均值,后經過Sigmoid 分類器得到分類結果.實驗證明RFNet 網絡在降低計算成本的同時可有效提升肋骨識別精度.
3.1.1 肋骨數據集
為驗證本文算法的分類性能,本文構建取自湖南省湘雅醫院的臨床肋骨數據集,采集來自20 個病例的500 張CT 醫學圖像.圖像分辨率為512×512,切片厚度為1~5 mm.每張樣本都取自于肋骨骨折的病人且已進行去信息化處理.首先標記出一塊不超過32×32 像素的矩形區域,進行切片后形成單張圖像作為實驗樣本,標注過程如圖6所示,左側圖6(a)為標記出的非骨折圖像,右側圖6(b)為標記處的骨折圖像.圖像共分為骨折與非骨折兩種類別,每標注一張骨折圖像的同時標記一張對應的非骨折圖像以保證訓練樣本數量的均衡.經過標記操作數據集最后包含1 468 張圖像,骨折與非骨折類型數量相同均為734 張.

圖6 數據集標注過程
3.1.2 數據預處理
將肋骨數據集按7:2:1 比例劃分為1 027 張訓練集與294 張測試集及146 張驗證集.同時為使數據匹配網絡模型輸入,將圖像像素調整為224×224 并轉換為RGB 3 通道格式.
使用基于生成對抗網絡的數據增強方法擴增數據集,其具體操作為:使用單個類別圖像分別訓練DCGAN 網絡,DCGAN 中生成器與辨別器相互對抗,當網絡已經學習到原圖像的概率分布后,生成器接收100 維的隨機向量而生成像素為32×32 的圖像,對兩種類別分別進行上述操作,為保證樣本數量的平衡,共生成2 054 張骨折圖像與2 054 張非骨折圖像.部分生成圖像與原始圖像分別如圖7(a)和圖7(b)所示,上下圖像具有相似的肋骨特征,但不是簡單的仿射變換,豐富了數據集的多樣性,故認為生成圖像適合用于擴充訓練集.

圖7 肋骨CT 圖像
3.1.3 評價指標
為了客觀且全面地評價網絡的分類性能,同時方便與其他算法進行比較,本文采用準確率(accuracy,ACC)、靈敏度(sensitivity,SE)、特異度(specificity,SP)、ROC(receiver operating characteristic curve)曲線作為評價指標進行定量分析與比較,將骨折視為陽性,非骨折視為陰性,各指標具體計算式為:

式中,FP表示假陽性的個數,TP表示真陽性的個數,FN表示假陰性的個數,TN表示真陰性的個數.其中ACC描述模型整體性能,SE描述模型檢測骨折的性能,SP描述模型檢測非骨折的性能,ROC 曲線橫軸為FPR(false positive rate),表示在所有非此類別下被預測為正確的概率,縱坐標為真陽率TPR(true positive rate),表示在該類別下被預測出來的概率,根據此數值做ROC 曲線,AUC(area under curve)就是該曲線下面的面積,曲線越靠近左上角,表示AUC 值越接近于1,則算法的分類性能越好.各項數據均取多次實驗結果的平均值.
3.1.4 實驗環境
本論文實驗基于Keras 框架進行網絡搭建及訓練,硬件平臺為Intel(R)Core(TM)i7-8750H CPU @ 2.20 GHz,GPU 為NVIDIA Geforce GTX 1060(8 GB 顯存).分類實驗參數設置如下:訓練迭代次數epoch 為100次,批處理大小batch_size 為64,使用隨機梯度下降法(stochastic gradient descent,SGD)進行優化,初始學習率learning_rate 為0.01.動量參數為0.9,學習率衰減值為0.000 1.生成對抗網絡的實驗參數設置如下:訓練迭代次數epoch 為14 000 次,批處理大小batch_size大小為32,使用自適應學習率優化器Adam[20]進行優化,初始學習率learning_rate 設為0.0002,衰減因子設為0.99.
3.2.1 實驗結果與分析
將RF-Net 模型與現有的經典網絡EfficientNet[21]、MobileNet、VGG16[22]、Inception-v3[23]、DenseNet[24]、ResNet-50[25]、ResNet-152[25]、Xception[26]在肋骨數據集上進行對比實驗,在訓練完全收斂的情況下,所有模型在測試集上對比結果如表2所示.

表2 與多種分類模型在肋骨數據集上的性能對比
從表中可看出使用基于生成對抗網絡的數據增強方法,所有模型的準確率均高于90%,表明該方法在肋骨問題上有一定優勢,RF-Net 在肋骨測試集上準確率、AUC、敏感度、特異性分別為0.972 6,0.996 6,0.977 8,0.967 4.4 種指標均高于其他模型,證明本文方法可更精確的檢測出各骨折圖像.具體來說,相較于MobileNet,本文方法的準確率,AUC 值分別提升1.09%,1.05%,參數量降低約65.6%.相對目前最受歡迎的分類網絡EfficientNet,本文方法的準確率、AUC 值增幅分別達到1.20%,1.05%,并且模型參數量降低約79.2%,從而表明本文算法能夠在低參數量的前提下兼顧更優的模型分類性能.
3.3.1 ISIC 2016
為驗證本文模型的分類性能,本文在二分類數據集ISIC 2016[27]進行消融實驗,ISIC 2016 是由ISIC 協會發布的黑色素瘤檢測皮膚數據集.共包含900 張訓練集圖像和379 張測試集圖像,圖像分辨率為224×224,數據集的任務為檢測圖像中的黑色毒瘤為惡性或者良性.實驗預處理過程將對訓練集圖像進行標準化、翻轉、平移等數據增強操作,對測試集僅進行標準化處理.
表3 為本文模型與ResNet-50、Inception-v3、DenseNet-201、MobileNet 四種現有網絡模型及其他論文中模型的對比結果.RF-Net 模型在ISIC 測試集上準確率與AUC 值分別為0.857 8 與0.820 8,相對于MobileNet模型分別提高2.7%,1.3%,與CUMED 算法[28]相比較,RF-Net 準確率,AUC 值分別提高0.3%,2.0%.另一方面,SDL 算法[29]分類性能雖略高于本文算法,但該增幅需要消耗巨大的計算資源.該實驗驗證了本文模型在其他數據集上同樣具有較優的特征識別能力,能夠快速學習與適應不同圖像,即模型具有較好的魯棒性.

表3 與已有方法在ISIC 數據集上的性能對比
3.3.2 數據增強方法對比
為進一步評估基于生成對抗網絡的數據增強方法在改善模型上的能力,使用兩種數據增強方法在和多個分類模型搭配在肋骨數據集上進行對比實驗,將傳統方法實驗訓練集由原圖像與傳統方法生成的圖像構成,而本文方法實驗訓練集由原圖像與生成對抗網絡生成的圖像構成,使用相同測試集進行分類實驗.不同模型分別在兩種方法的測試結果如圖8所示.

圖8 不同數據增強方法對比
圖8 中直線表示傳統方法結果,虛線表示本文方法結果,從圖中可看到本文數據增強方法處理后的模型分類性能顯著優于傳統數據增強方法,準確率增幅均高于2.1%,如RF-Net 模型準確率增幅約為2.4%,且該方法對部分網絡提升更加顯著,如DenseNet-121 模型分類準確率提升約達14.2%.傳統數據增強方法的分類性能較差,原因是模型對部分訓練數據產生過擬合效應,而基于生成對抗網絡的數據增強方法可有效解決該問題,即生成對抗網絡可自學習圖像特征,能夠產生質量更好、特異性更強的圖像,加速模型訓練從而有效提升分類性能.
3.3.3 模塊有效性
為驗證本文RF-block、壓縮策略的有效性,在肋骨數據集上進行對比實驗,通過不同實驗組合以驗證各個模塊對于模型性能的實際影響,共設計MobileNet,MobileNet+ RF-block,MobileNet+壓縮策略及RFNet 四種方案.實驗結果如表4所示.

表4 不同模塊分類性能比對
實驗結果表明,應用RF-block 后的模型準確率與AUC 值分別提高0.38%,0.57%,表明RF-block 能夠結合多尺度特征來有效提升模型特征提取能力,而應用壓縮策略后的模型參數量減少2.20 M,表明壓縮策略可在保持性能的基礎上有效減少模型參數量.該對比實驗驗證了各個模塊的可行性.另外證明了不同模塊能夠結合各自優勢,有效改善模型對肋骨骨折圖像的識別能力.
針對肋骨CT 圖像數據量大,識別難度大等問題,本文提出了一種基于RF-Net 的肋骨骨折識別算法,以實現計算機輔助診斷肋骨骨折病癥.本文方法首先使用生成對抗網絡對肋骨圖像進行數據增強以緩和學習過程中的過擬合現象,然后應用RF-Net 進行分類.在肋骨數據集上的對比實驗表明了本文方法優于多個主流深度學習模型.此外,消融實驗進一步驗證了本文提出的基于生成對抗網絡的數據增強方法的高效性及RF-block 模塊和壓縮策略的有效性.
本文的肋骨識別集中在類別較少的數據集上,在后續的研究工作中,將考慮對更多類型的肋骨骨折病癥做進一步研究.