高峰,張仕瑞
1. 天津大學 精密儀器與光電子工程學院,天津 300072;2. 天津市生物醫學檢測技術與儀器重點實驗室,天津 300072
如今,在全球范圍內肺癌依舊是發病率和死亡率最高的癌癥。而相比于其他國家,我國的肺癌發病率與死亡率為全球第一[1]。研究顯示早期肺癌的術后10年生存率為92%[2],因此患者的早期診斷與早期治療尤為重要。目前肺部疾病的早期診斷中最常用的是計算機斷層掃描(Computed Tomography,CT),醫師通過觀察肺部CT圖像診斷患有肺部疾病。但是每位患者采集得到的CT圖像有數百張,導致醫師的工作負荷大。
自從Hinton[3]提出深度信念網絡(Deep Belief Network,DBN),深度學習方法引起了學術界的浪潮。有相當多學者研究其在肺部CT圖像診斷中的應用,用來輔助醫師的診斷和減少醫師的工作負荷。目前提出方法主要有肺結節中間層切片2D圖像[4-5]或肺結節所在3D圖像[6]作為卷積神經網絡(Convolutional Neural Networks,CNN)輸入,通過在模型中提取與整合輸入圖像特征信息從而實現輔助診斷的應用。而在臨床醫學的發展中,醫師們總結了許多結節特征與其良惡性的關系,如鈣化結節的良性概率為97%、無鈣化結節的良性概率為29%[7]、結節中出現脂成分往往是良性病變[8]、肺癌出現空氣支氣管征比良性病變更加普遍[9]等。
本文方法旨在將醫師標注待診斷肺結節時的上述語義信息,作為模型在提取圖像特征時的先驗知識,通過圖像特征與語義特征的多模態信息[10]融合,實現對肺結節的良惡性診斷。
為了本文方法的可復現性和與其他方法的可對比性,本文中使用的實驗數據集為LIDC-IDRI,該數據集由美國國家癌癥研究所發起收集,主要為了研究高危人群早期肺結節檢測,是研究人員可通過網絡訪問的國際公開資源。該數據集包含1018個研究實例,由4名經驗豐富的胸部放射科醫師分別獨立診斷標注后,獨立復審其他三位醫師的標注,并給出自己最終的診斷結果。在避免強迫共識的前提下,盡可能完整的標注所有結果。
醫師標注信息中有結節的區域、長度以及由醫師肉眼觀察給出的結節特征。特征有:subtlety、internalStructure、calcification、sphericity、margin、lobulation、spiculation、texture、malignancy等,各特征按照不同的診斷意見,標注對應的表示數值。
在本文中針對數據集中各結節,將所有醫師對其標注的均值作為實驗中標注值。在結節的標注區域中間位置以像素大小32×32切割得到圖像作為模型輸入。在結節良惡性的分類中,‘malignancy’特征可被標注為‘1.Highly Unlikely’‘2.Moderately Unlikely’‘3.Indeterminate’‘4.Moderately Suspicious’或‘5.Highly Suspicious’,因此將標注均值大于3的結節視為惡性;均值小于3的結節視為良性;均值等于3的結節不在實驗中使用。
1.2.1 模糊one-hot碼
由于醫師標注的語義信息沒有連續性,不適合在單節點以連續數值表示,因此本文提出模糊one-hot碼,以各特征的每一個可選標注作為一個節點,將醫師標注對應節點設定為1,其他節點設定為0,并將所有特征的標注相連,將語義信息轉換為可輸入模型的離散節點信息,具體的轉換算法如下所示。


1.2.2 結節區域分割
醫師標注的語義信息只針對于結節,因此為了模型能夠將結節區域與語義信息關聯,對結節區域做分割處理,去除結節以外信息。在本文中為得到結節區域采用的方法為區域生長法[11],由于在該算法中設定不同的閾值可切割得到不同的結節區域,且較難找到適合于每一個結節的算法閾值,因此將設定不同閾值得到的圖像同時輸入至模型中,使模型在訓練中可自適應找到適合的閾值。區域生長法的初始種子點設定為圖像中間4個像素,設定不同閾值實施區域生長法效果如圖1所示。

圖1 區域生長法效果圖
1.2.3 訓練樣本擴增
針對模型訓練時樣本數量少的問題,對輸入圖像分別采用隨機仿射變換實現數據擴增。圖2為對原始圖像做隨機放射變換的效果圖

圖2 仿射變換效果圖
本文提出整體模型主要由提取圖像深度特征的子模型(Image Feature Extracting sub-Model,IE模型),整合醫師標注語義信息的子模型(Semantics Integration sub-Model,SI模型),以及融合圖像特征與語義特征的部分構成。模型圖中FULL表示全連接層、Conv表示卷積層。
IE模型如圖3所示,即分別以大小不同的卷積核提取深度圖像特征并融合后輸出深度特征信息。將原圖像輸入至3×3卷積核大小的卷積層,原因是對原圖進行卷積過程中,如卷積核大則較容易將結節區域與其他組織區域混合起來。將區域生長算法設定閾值較大的輸出圖像輸入至5×5卷積核的卷積層;將設定閾值較小的輸出圖像輸入至7×7卷積核的卷積層。原因是生長區域法設定閾值較大時輸出結節區域較小;相反地,設定閾值較小時輸出圖像較大。在卷積過程中各卷積核的移動距離為1×1,并且對圖像做padding處理,使得不同卷積核大小的卷積層輸出圖像大小相同。

圖3 IE模型
SI模型如圖4所示,即將醫師標注語義信息轉換為模糊one-hot碼后輸入該模型,經過全連接層輸出深度特征信息。

圖4 SI模型
將圖像特征與語義特征融合的部分,實質是多模態融合[10]。多模態的融合方法有前融合、后融合、混合融合等。后融合會導致臨近輸出層的層節點數為4,經過實驗得出該融合方法不易訓練。混合融合會導致圖像或語義其中一種模態的信息表達節點數失衡,因此最終選擇前融合方式實現多模態融合。整體模型具體如圖5所示,即輸入預處理結節圖像與先驗知識,分別經過IE模型與SI模型提取特征后融合,在模型末端通過LogSoftMax激活函數預測結節的良惡性。

圖5 整體模型
考慮到當深度學習方法實際應用于臨床診斷時,若進行預測時需要由醫師向模型輸入語義信息則仍然有相應工作量,較難實現進一步的診斷自動化。為減少上述整體模型在診斷中的語義輸入過程,將對其進行改進。
在SI模型之前加入由輸入圖像提取語義信息的子模型(Semantics Extracting sub-Model,SE模型)。其結構為IE模型的輸出端連接全連接層,使其輸出值為醫師標注語義信息。SE模型如圖6所示,為實現多標簽分類,在其末端設置Sigmoid激活函數。訓練該子模型時使用全部訓練集對其進行,即將設定不同閾值區域生長法的輸出圖像輸入SE模型,對應的模糊one-hot碼作為輸出標簽進行訓練。

圖6 SE模型
改進的整體模型如圖7所示。將已訓練的SE模型去掉Sigmoid激活函數層后固定其權重作為語義提取器置于SI模型前。改進的整體模型將醫師標注結節時的先驗知識融合于模型中,醫師標注結節語義信息作為特權信息,在預測過程中只輸入圖像信息。

圖7 改進的整體模型
本文中采用五折交叉驗證[12]對改進的整體模型分類性能進行評價,模型性能指標分別為準確率Γ、靈敏度χ、特異性ξ以及ROC曲線線下面積ψ,各指標定義如公式(1)所示。

式中,γ、?、λ、σ分別表示真陽性、真陰性、假陽性、假陰性的結節個數;m+為驗證集正例數量;m-為驗證集反例數量;D+為驗證集中正例集;D-為驗證集中反例集;∏(?)為示性函數;f(·)為訓練后的模型。
表1為本文提出方法與其他方法的模型性能對比,表中各實驗使用數據均為LIDC-IDRI。由表1可以看出,本文提出方法的模型分類準確率、靈敏度、特異性均相對高于其他方法的模型性能。說明了本文提出的將醫師對結節的語義標注信息作為先驗知識融合于深度學習模型中是一種可采用的網絡搭建方式,也為深度學習方法在臨床診斷的應用提供了新的方法。

表1 不同方法性能對比
本文提出一種融合先驗知識的肺結節深度學習分類方法,與其他方法的模型輸入相比,將醫師標注結節時語義描述作為模型的先驗知識,在模型中與輸入圖像融合實現良惡性分類。為了將醫師語義信息輸入模型,提出“模糊one-hot碼”,將醫師標注語義信息轉換為矩陣信息。
醫師標注語義只針對肺結節本身,因此在CT圖像輸入模型前,對其進行生長區域法預處理。為了更好的提取規律性不明顯的肺結節,使用算法時設置不同的閾值,將得到圖像分別輸入至獨立的卷積層使模型自適應各結節的適合閾值。
為了減少實際使用過程中醫師語義信息的輸入,設計了由圖像提取語義信息的模型,訓練后固定權重置入整體模型中,醫師的語義信息作為深度學習中特權信息,將模型改進為只需輸入圖像信息。
有研究指出,結節在肺中的生長速度、存在位置、患者煙齡等信息亦可用于診斷良惡性的依據,若結節病變容積明顯增大,倍增時間30~400 d則幾乎100%為惡性[13]。若位于右肺或上葉則為惡性可能性更大[14]。年齡55~74歲,且吸煙≥30包/年(戒煙<15年)為高危人群[15]等。因此,將針對融合上述信息的模型結構,以及對語義信息的轉換算法展開進一步研究。
在新技術方法不斷出現的醫學研究中,本文認為將先驗知識與新方法融合起來更有利于應用新技術,因此提出融合醫師先驗知識的深度學習良惡性分類方法。目前深度學習方法仍然有大部分“黑箱子”問題,因此采用深度學習方法時,也將臨床醫學中總結得來的信息融合于模型中,使深度學習方法可更好應用于醫學領域。