高陽
(河北北方學院附屬第一醫(yī)院,河北張家口 075000)
近年來隨著計算機技術(shù)的發(fā)展,深度學習算法(Deep Learning,DL)被廣泛應用于圖像識別、自然語言處理等領(lǐng)域[1-2]。目前,計算機輔助診斷系統(tǒng)(Computer Aided Diagnostic,CAD)成為了重要的臨床輔助診療手段。而人工智能(Artificial Intelligence,AI)技術(shù)也已滲透到健康管理、輔助治療與康復等醫(yī)療細分領(lǐng)域中。根據(jù)現(xiàn)有的醫(yī)學數(shù)據(jù)可知,肺癌仍是目前最為常見且致死率極高的惡性腫瘤之一[3-4]。由于肺癌早期的癥狀并不明顯,而中晚期的治療效果不佳,所以提前對肺部結(jié)節(jié)進行監(jiān)測并完成早期診斷,對于提升肺癌患者的存活率具有重要的意義。現(xiàn)階段,肺部CT 影像、相關(guān)檢驗數(shù)值是判別良性與惡性結(jié)節(jié)的主要參照。因此,運用深度學習算法來提取圖像特征,了解結(jié)節(jié)的位置、形態(tài)及暈征,可以為醫(yī)生的臨床診斷篩查提供重要的輔助參考。
但由于CT 圖像通常存在邊緣模糊及偽影嚴重等問題,導致其特征提取較為困難,所以需要借助復雜結(jié)構(gòu)的深度學習網(wǎng)絡來解決[5-10]。然而,隨著DL網(wǎng)絡深度的增加,受制于計算機運算能力的不足以及訓練樣本的缺失,DL 算法的性能難以發(fā)揮。增強學習(Reinforcement Learning,RL)是機器學習領(lǐng)域中的另一個研究熱點,相較于DL 其更側(cè)重于事物感知及思想表達,更強調(diào)對于完成目標策略的學習,這也為改善疾病的預測診斷模型提供了新的思路。基于上述分析,文中將RL 和DL 算法的思想相融合,設計了一個增強深度學習的網(wǎng)絡,從而為CAD 技術(shù)的發(fā)展提供了新的思路。
隨著類似于文中疾病預測診斷的復雜場景出現(xiàn),需要將具有感知能力的DL 與具備決策能力的RL 相結(jié)合,利用DL 實現(xiàn)大規(guī)模輸入數(shù)據(jù)的抽象化,再借助RL 不斷優(yōu)化問題的解決路徑。增強深度學習算法(DRL)[11-15]的基本原理如圖1 所示。

圖1 增強深度學習算法原理
DL 算法通過多層非線性網(wǎng)絡,將低階特征進行組合與提取,以獲得高階特征,而RL 算法則借助智能體(Agent),累積環(huán)境中的懲戒值,從而得到達成目標的最優(yōu)解。該文所采用的DRL 是一種端到端的感知控制模型,其動作過程主要包括三個步驟:
1)在模型動作的每個時刻,Agent 均會與環(huán)境進行交互并得到對環(huán)境的一個觀察信息數(shù)據(jù),再將該數(shù)據(jù)交由DL 進行感知,總結(jié)出該觀察的特征描述;
2)基于現(xiàn)實上下文的預期值來評價動作過程的價值,并將最優(yōu)值映射為當前過程的最優(yōu)策略;
3)得到上述動作的環(huán)境反饋,然后重復步驟1)-步驟2),以獲得實現(xiàn)目標的最優(yōu)策略。
根據(jù)上文描述,可以采用馬爾可夫決策過程(Markov Decision Process,MDP)[16]對RL 進行建模。將圖1 中的環(huán)境S、動作A、獎賞ρ和狀態(tài)轉(zhuǎn)移概率f定義為四元組(S,A,ρ,f)。對于智能體Agent 在st∈S的狀態(tài)下,獎賞函數(shù)可用R表示為:
此時,能夠獲得在st狀態(tài)下Agent 執(zhí)行at(at∈A)所得到的立即獎賞:
根據(jù)四元組的定義,f可以表示為:
根據(jù)式(3),可以得到Agent 在st狀態(tài)下因為執(zhí)行at轉(zhuǎn)移到st+1的概率為:
將S→A上的動作映射記為策略π;Qπ(s,a)為模型的動作值函數(shù),其表示在s時,執(zhí)行a,遵循策略π直至某一情節(jié)結(jié)束,則Qπ(s,a)可以表征為:
其中,E[.]表示求期望,Rt為獎賞的累計和。記π*為S→A上的最佳策略,π*和π共享動作值,即:
式(6)遵循貝爾曼最優(yōu)方程,可以通過迭代該方程來求解Q值,迭代方法如下:
其中,r和γ是偏置與調(diào)節(jié)系數(shù)。
根據(jù)上文對于增強學習基礎理論的敘述,此次將深度卷積網(wǎng)絡(Deep Convolutional Neural Network,DCNN)與RL 算法相結(jié)合,得到了深度卷積Q網(wǎng)絡(DCQN)。該網(wǎng)絡的基本結(jié)構(gòu),如圖2 所示。從圖中可以看出,DCQN 網(wǎng)絡在引入DCNN 網(wǎng)絡后,由全連接層向RL 算法輸出Q值。為了防止DCNN 網(wǎng)絡及RL 算法結(jié)合后出現(xiàn)迭代不穩(wěn)定的現(xiàn)象,文中還引入了回放記憶單元。DCQN 網(wǎng)絡的訓練流程如圖3所示。

圖2 DCQN網(wǎng)絡結(jié)構(gòu)

圖3 DCQN網(wǎng)絡訓練流程
訓練過程中的轉(zhuǎn)移樣本記為et,其也可以由四元組表示為:
與環(huán)境交互后,Agent 將所有的轉(zhuǎn)移樣本逐一存儲在回放記憶單元中。記θ為DCNN 網(wǎng)絡的參數(shù),每次迭代時,均從回放記憶單元中隨機抽取批量樣本,并使用梯度下降法(Gradient Descent,GD)對DCNN 網(wǎng)絡進行更新。引入該機制后,可以有效避免樣本關(guān)聯(lián),從而保證迭代過程的穩(wěn)定。
在所設計的DCQN 網(wǎng)絡中,值函數(shù)優(yōu)化的目標函數(shù)Yi表示如下:
式中,Q(s′,a′|θ
i)是目標值網(wǎng)絡的輸出。在迭代過程中,使用當前Q值和目標Q值的均方誤差作為網(wǎng)絡迭代使用的誤差函數(shù):
在迭代過程中,需要使用式(10)所示的梯度進行誤差傳播,則有:
為了保證算法評估時的公平性,該次仿真采用了統(tǒng)一的計算機軟硬件平臺。該計算平臺的相關(guān)參數(shù)如表1 所示。

表1 算法仿真平臺參數(shù)
文中使用的檢驗數(shù)據(jù)為肺部CT 圖像,其由肺部圖像數(shù)據(jù)庫聯(lián)盟(LIDC)提供,所有圖像均有肺部結(jié)節(jié)。根據(jù)先前的臨床診斷數(shù)據(jù),可將其分為良性結(jié)節(jié)與惡性結(jié)節(jié),此次還統(tǒng)一進行了人工數(shù)據(jù)標注。該數(shù)據(jù)集的數(shù)值信息,如表2 所示。

表2 數(shù)據(jù)集參數(shù)
在評價模型的性能時,文中采用了精確率(Precision)、召回率(Recall)與ZSI 相似指數(shù)這三個指標,其定義如下:
其中,各個符號的釋義如表3 所示。

表3 數(shù)據(jù)集結(jié)構(gòu)組成
該次所采用的DCQN網(wǎng)絡結(jié)構(gòu)信息,如表4所示。

表4 DCQN網(wǎng)絡結(jié)構(gòu)信息
DCQN 網(wǎng)絡主要基于卷積運算對臨床診斷圖像進行特征提取,再利用池化運算降低網(wǎng)絡中的參數(shù)。所設計的DCQN 包括13 個卷積層和5 個池化層(4 個最大值池化、一個平均池化),模型的輸出層則采用Sigmoid 函數(shù)。模型在訓練時,采用動態(tài)學習率調(diào)整機制。此外,數(shù)據(jù)集中75%為訓練樣本,剩余25%則為測試樣本。
該算法實現(xiàn)了從肺部CT 圖像中提取肺部輪廓,然后再判別肺結(jié)節(jié)性質(zhì)的功能。部分樣本的肺部輪廓分割與肺結(jié)節(jié)性質(zhì)識別示意,分別如圖4 和圖5 所示。作為對比,此次還采用同結(jié)構(gòu)的DCNN網(wǎng)絡作為對照組。其中圖4(a)、(c)與圖5(a)、(c)為DCNN 網(wǎng)絡的運行效果;圖(4)(b)、(d)及圖5(b)、(d)則為DCQN 網(wǎng)絡的運行效果。此外,圖4(a)、(b),圖5(a)、(b)為原始的CT 圖像;圖4(c)、(d),圖5(c)、(d)是算法運行后的圖像。

圖4 肺部輪廓識別效果

圖5 肺結(jié)節(jié)性質(zhì)識別效果
不同算法在圖像分割及肺結(jié)節(jié)病理識別預測時的相關(guān)計算結(jié)果,如表5 所示。

表5 肺部病例識別與預測結(jié)果
從圖4 中可以看出,該算法在進行輪廓提取時,可以基于臨床檢驗數(shù)據(jù),利用器官間特征與位置間的關(guān)系,進行特征提取及編碼,從而實現(xiàn)輪廓的自動化提取。而由表5 可知,DCNN 網(wǎng)絡較增強學習算法,在圖像輪廓提取上具有更高的精度。而與DCNN網(wǎng)絡相比,DCQN 在包含正例、反例、壞點等情況下的綜合識別精度提升了9.13%。這說明通過將兩個算法相結(jié)合,可以進一步提升DCNN 網(wǎng)絡對圖像提取的精度。
從圖5 可以看出,在識別肺部結(jié)節(jié)時,算法可以有效克服外部干擾,并對不規(guī)則形狀、高模糊度及灰度分布不均勻的肺部結(jié)節(jié)完成準確識別。同時表5也給出了算法在肺結(jié)節(jié)病例預測上的結(jié)果,由表可知,DCNN 網(wǎng)絡的識別精度、召回率、ZSI 均優(yōu)于增強學習算法,而將兩個算法結(jié)合后,DCQN 算法的三個指標相比DCNN 網(wǎng)絡分別提升了0.052、0.039 和0.043。綜合上述結(jié)果可以看出,DCQN 算法具有較高的精度及較廣的適用范圍。
文中基于深度學習和增強學習的優(yōu)點,結(jié)合醫(yī)學圖像、數(shù)值檢驗的應用場景特點設計了一個DCQN 網(wǎng)絡。該網(wǎng)絡在醫(yī)學圖像分割、肺結(jié)節(jié)預測的相關(guān)指標上較現(xiàn)有方法均有了顯著改善。因此,隨著計算機輔助診療技術(shù)的進一步發(fā)展,所提算法將會有更廣闊的應用前景。