姚 瓊,王覓也,2,師慶科,2,張夢嬌,鄧 悟
1(四川大學華西醫院 信息中心,成都 610041)
2(四川大學華西醫院 醫療信息化技術教育部工程研究中心,成都 610041)
當前,以機器學習為代表的人工智能技術已經在越來越多的行業領域中被廣泛應用.深度學習[1-3]作為機器學習的重要組成部分,近年來發展迅速,并且在計算機視覺、自然語言處理、語音處理等領域取得了突破性的進展,甚至在某些場景上已經超過了人類專家的水平.
醫療領域相較于社交媒體、電子商務等行業來說更為的傳統保守,同時也與廣大群眾的生命健康密切相關,現代醫療技術的發展可以保障并顯著提升大眾生活質量.自2018年開始,在醫學和醫療衛生領域中與深度學習相關的研究熱度急劇升溫,越來越多的學者開始關注并嘗試將深度學習相關技術應用在醫療領域中[4],期待在解決疾病篩查、健康管理、診治過程中的質量控制、優化資源配置等諸多問題中提供更有效的解決方式.但是,醫療領域由于其行業特殊性,有著專業性強、錯誤代價高、應用場景復雜、數據高度敏感等特點,雖然目前已經出現不少研究成果,但是要將這些技術落實到臨床應用場景,還有很多問題亟待解決.
目前基于深度學習解決某些特定醫療問題的論文較多,但系統性地介紹深度學習在醫療領域應用的論述較少,雖然最新研究成果展現出來的評價指標不斷地提高,但論及深度學習在醫療領域研究和實施的困難挑戰卻鮮有提及.本文嘗試介紹深度學習的基本理論和常見深度神經網絡模型,同時對深度學習在醫療領域中的應用場景進行梳理,介紹典型使用案例及研究進展.最后,本文還將對深度學習在實踐應用中的常見問題,以及在醫療領域臨床應用所面臨的挑戰進行介紹,并且結合行業的研究成果和作者的相關經驗,給出一些可能的解決思路和方案.
機器學習一直都是人工智能領域中的重要研究方向.其中,傳統機器學習會將特征抽取和預測過程分開,需要領域專家和機器學習工程師協作完成數據處理、特征提取、特征轉換等操作,然后設計合適的預測函數完成學習任務.傳統機器學習的主要問題是模型的表達能力有限,需要花費大量精力從事特征工程,而且相關工作也基本憑借經驗,或者通過大量的實驗才能得到較好的效果.深度學習可以讓原始數據在模型中經過多次轉換,每次轉換后可以形成更有效的特征表示,這種直接向模型提供原始數據,弱化甚至丟棄特征工程,以模型輸出作為結果直接優化目標任務,稱之為端到端的學習任務.
當前深度學習主要采用人工神經網絡(artificial neural network,ANN)來實現,它是一種受生物神經系統工作方式啟發而構造出的數學模型.人工神經網絡由人工神經元及它們之間的連接構成,人工神經元的工作邏輯可以使用多種線性、非線性數學函數來定義,而它們的作用參數通過訓練數據學習優化而來.實踐證明,構造復雜多層的人工神經網絡是當下深度學習最有效的實現方式.
多層感知機(multilayer perceptron,MLP)是最簡單的深度神經網絡模型,當前在很多場景仍然被廣泛使用.同時,卷積神經網絡(convolutional neural network,CNN)、循環神經網絡(recurrent neural network,RNN)等理論先后被提出,而且近年在解決計算機視覺、語音處理、自然語言處理等領域獲得巨大的成功[2].目前,應用場景中大量無標簽數據集相對容易獲取,因此深度自編碼器(deep autoencoder,DAE)[5]的使用頻率也非常高.當前深度學習領域中,常見的神經網絡模型結構如圖1所示.

圖1 常見深度神經網絡模型結構
2.2.1 卷積神經網絡
CNN 是近年來深度學習在計算機視覺領域取得突破性成果的基石,其網絡結構主要由卷積層和池化層組成.圖像處理領域中,卷積是常用的特征提取手段,不同卷積核可以得到不同特征圖,而CNN 的卷積層便是用來提取視野中的局部特征.卷積核是模型的參數,通過訓練可以自動學習得到有效的特征表達,使同一個卷積核與圖像所有像素做運算,可以避免參數膨脹.池化層主要緩解卷積層對位置過度敏感的問題,也降低特征的維度和訓練參數的規模,常見的池化類型有最大池化層、平均池化層等.
2.2.2 循環神經網絡
很多應用場景中,網絡的輸出除了與當前輸出入有關,還同之前一段時間的輸出相關.RNN 便是一類具有短期記憶能力的神經網絡,神經元在接受其它神經元信息的同時,也可以獲取自身存儲的狀態信息,在自然語言、時序信號的處理中RNN 被廣泛使用,諸如機器翻譯、文本生成、自動圖像描述等都是比較典型的研究成果.理論上,RNN 可以處理任意長度的序列信息,但是RNN 學習過程中如果記憶依賴的步程太長,容易產生梯度爆炸或者梯度消失的問題,所以現實情況下RNN 只能實現“短期記憶”.通過引入門控機制可以解決這類問題,目前廣泛應用的包括門控循環單元(gated recurrent unit,GRU)和長短期記憶網絡(long short-term memory,LSTM)[2],LSTM 通過引入輸入門、遺忘門、輸出門來控制信息的傳遞路徑,使LSTM 可以記錄很長的步程,增強了RNN 類網絡的實用性.
2.2.3 深度自編碼器
DAE 常常用來處理無標簽數據集,由encoder 和decoder 兩個部分組成,encoder 用于將輸入數據壓縮到一個更小維度的表示,而decoder 嘗試從低維表示中重建原始數據,通過訓練不斷減少重建誤差,使得神經網絡能夠從原始數據中提取最重要的部分.DAE 的這種特性常用來抑制原始數據中的噪聲,被應用在圖像重建、消噪等領域[6].同時,最中間的隱藏層可以作為原始數據的嵌入表示,具有數據降維壓縮的功能,與PCA算法相比,DAE 通過多層網絡和激活函數的作用,可以對原始數據做更強的非線性變換表達[5,7,8].
現代醫療領域中常見數據類型大致可分為:結構化數據、影像視頻類、文本類、時序生物信號類.
結構化數據通常以電子表格、數據庫表等形式存儲,比如患者個人基本信息、入院信息、檢驗結果等,因為其結構定義良好,在機器學習中經常使用.影像數據在醫療中也很常見,比如X 光片、超聲圖像、MRI 等.自由文本類數據可見于醫生的診斷報告、醫囑信息、病歷文書等.時序生物信號來自于儀器儀表的測量,例如病人的心電信號、腦電信號,以及各種動態生命監控數據等,在ICU 中大量生理指標的實時檢測和監控更加常見.電子病歷(electronic medical records,EMRs)是醫院信息化建設過程中產生的,管理著病人幾乎所有醫療信息,而其中囊括的數據類型也是多種多樣的.
計算機視覺是深度學習最為成功的應用領域,同時醫學影像也是醫生用于診斷和評估疾病的常用手段,近年來深度學習處理醫學影像的研究占據了深度學習在醫療領域應用中的絕大部分比重[4].在醫療領域中,通常需要處理的影像類型包括MRI、X 光片、CT、超聲、PET、組織切片病理圖等,以及內窺鏡、膠囊內視鏡等視頻數據,處理任務涵蓋了圖像分類、目標識別、圖像分割、圖像檢索等,表1 中對這些應用情形及學習任務的最終效果進行了總結[9-26].

表1 深度學習在醫學影像相關任務的應用
3.2.1 圖像分類
圖像分類任務是模型根據輸入的圖像進行預估,并輸出一個對應的判別標簽及其置信度.經典網絡AlexNet 于2012年被提出,當年以很大優勢贏得了ImageNet 大規模視覺識別挑戰賽,從此基于CNN 的應用開始受到了大家重視,并且開啟了計算機視覺研究的新局勢.此后,GoogLeNet、VGG、ResNet、DenseNet等現代卷積神經網絡也相繼產生,在影像分類、分割等任務[9]中被廣泛的使用.
Esteva 等[10]基于Inception v3 主干網絡,直接使用多達13 萬份帶標注的臨床影像數據來訓練,帶標注的訓練數據集樣本如圖2所示,訓練任務是檢驗該深度神經網絡對于皮膚癌分類預估的性能,對照組是由21 名皮膚科醫生獨立標注結果,結果顯示深度學習的分類結果相比人類專家更好.同時,該實驗證實了在大規模、高質量的標注數據集上,普通的CNN 也能夠產生很好的預估效果.

圖2 皮膚癌分類的訓練樣本樣例
Yala 等[11]結合就診者的電子病歷信息和乳腺造影圖像,探究這些就診者5年內患乳腺癌的風險,并且實際跟蹤這些人在之后5年中是否實際患有乳腺癌作為標注,用來訓練模型并評價算法.作者使用Tyrer-Cuzick 模型作為基線,對比了邏輯回歸、單獨ResNet預估、以及結合兩者混合模型的預估結果,最終發現結合電子病歷信息和造影圖像模型的AUC 指標提升明顯,這同時也啟示結合領域內其它信息更有助于提升深度學習的預估和分類效果.Han 等[12]基于乳腺組織病理學圖像進行多分類實驗,完成了對包含導管癌、纖維腺瘤、小葉癌等8 類乳腺癌的分類任務,相對于傳統二分類檢測任務提供更豐富的臨床診斷信息.作者采用了一種結構化的深度卷積神經網絡,優化了特征空間中相同分類和不同分類樣本的相似度計算方法,在大規模數據集上,多分類學習任務的測試精度達到了93.2%.
3.2.2 目標識別
目標識別任務用于對圖像中特定結構或模式進行檢測,并標示出對應目標的位置信息.在深度學習中,目標識別任務一般被分為兩階和一階目標檢測,其中兩階段目標識別算法以R-CNN[13],以及改進的Fast RCNN[14]和Faster R-CNN[15]比較常見,而一階目標識別算法最具有代表性的是YOLO[16].
R-CNN 是最早將CNN 應用在目標檢測任務中的算法,奠定了兩階目標識別的處理流程和算法框架,其實現步驟為:首先采用Selective Search 方法生成若干候選區域,接著對每個候選區域使用CNN 提取得到固定長度的特征向量,依次將特征向量輸入到SVM 進行分類判別,最終再使用一個線性回歸器對得到的目標框進行精修.Fast R-CNN 的改進實現中,作者對整個圖像提取特征圖,降低對每個候選區域單獨抽取特征帶來的計算復雜度,并且將SVM 和線性回歸器集成到了深度神經網絡中,避免數據交換的開銷,整個系統架構上也更為優雅.Faster R-CNN 使用RPN(region proposal network)網絡作為目標候選算法,利用Anchor 機制將區域生成與卷積網絡聯系到了一起,提升了目標識別任務的效率和精確,使得兩階目標檢測走向了實時化.YOLO 是最早提出的基于深度學習實現的一階目標識別算法,該算法將原始圖像分割成若干個網格,并對每個網格直接做前景、背景分類的判別預估,YOLO 算法的目標檢測精度和R-CNN 類算法大致相當,但是運行速度卻快得多,性能上滿足實時視頻流處理,最新優化版本已經可以在移動設備上實時處理視頻數據流了.
Li 等[17]在較少的X 光影像標注數據集上,用統一模型架構同時完成了肺部疾病的定位和判別任務,輸出可能的病灶位置及對應疾病的種類和置信度.作者把輸入圖像劃分成若干小片,再將這些小片合并成一個包,結合圖像級別的標注信息執行多示例學習(multi instance learning,MIL)訓練任務,使用多個獨立判別器對多種胸部疾病在共享特征的情況下做獨立訓練和預估,損失函數綜合這些判別器的誤差.該方法提供了疾病多分類判別的實現思路,同時圖像級別的弱標簽標注可以有效降低訓練數據的獲取成本,在實踐中更具應用價值.除了2D 靜態醫學影像,當前越來越多的應用場景在于完成視頻流中特定目標的識別和跟蹤任務,對目標識別的性能有了更高的要求.Urban 等[18]通過CNN 完成對結腸鏡檢查中息肉的識別標注,其準確率達到96.4%,并且處理速度達到98 fps,完全勝任結腸鏡檢查的實時視頻流處理.作者使用20 段結腸鏡檢查視頻,累計視頻時長達到了5 小時,讓4 名專業結腸鏡醫師在有和沒有CNN 輔助的情況下進行息肉的檢查,結果前者檢出的息肉組織數量比后者多了一倍,對于輔助結腸鏡醫生減少臨床息肉漏檢率意義重大,因為漏檢會讓病人錯過最佳治療時機,圖3 所展示的是在結腸鏡檢查過程中,算法自動對可疑組織的標注提示.Aoki 等[19]首次基于CNN 完成對無線膠囊內窺鏡檢查中糜爛和潰瘍病灶的檢測和概率預估,檢出準確度達到了88.2%,而且臨床應用時適當提升模型的靈敏度,將更加有助于醫師降低異常情況的漏檢率.

圖3 結腸鏡檢查中息肉組織的識別和標注提示
3.2.3 圖像分割
圖像分割任務相比目標識別更為精細,需要識別出對應目標并將其邊界精確的描繪出來,該任務的輸出一般是像素級別的分割描述,醫學影像的語義分割容易受到周圍組織的干擾,分割任務的難度大.圖4 是對胸部X 光片的肺組織,以及對眼底圖像的視網膜血管的分割效果圖.

圖4 肺部X 光片和眼底圖像的分割效果
深度學習領域最早研究分割任務的是全卷積網絡(fully convolutional network,FCN)[20],FCN 得名源自其網絡結構將傳統CNN 最后若干個全連接層和Softmax操作以卷積層替代,于是整個網絡都是由卷積層和池化層組成.不斷地對圖像執行卷積和池化操作,得到越來越小、越來越抽象語義化的特征描述,最末端的輸出可以認為是每個像素作為目標分割的概率.雖然最終輸出層的結果語義正確,但缺少細節信息,因此作者選擇一些中間卷積層的結果做類似反卷積操作并且融合起來,補充了淺層網絡提取的細節信息,這種融合多尺度特征的方法保證了最終分割結果的魯棒性和精確性.U-Net[21]借鑒了FCN 的思想,設計出更優雅的圖像分割框架:它由contracting 路徑和expansive 路徑組成,前者不斷地卷積和池化完成下采樣操作,而后者拼接對等分辨率的特征后,執行反卷積完成上采樣操作,不斷恢復圖像原始分辨率.整個網絡框架形似一個完美對稱U 字型,而且每個分辨率層次的特征都保留并得到了充分的利用,實現了更豐富細致的分割結果.
Larrazabal 等[8]提出了一種基于DAE 的圖像分割后處理方案,該方案獨立于圖像分割流程,可以用于任何圖像分割算法的后處理.在訓練DAE 的時候,隨機對標注圖像進行降級和擾動,比如切除某些區域、添加隨機噪聲等,以提升DAE 的消噪能力,實踐結果表明不僅對于隨機森林這類傳統分割算法,甚至對于未收斂的U-Net 模型所得到的不完全分割結果,使用該方法處理后也有很好的最終分割效果.隨著CT、MRI等越來越普及,對于3D 圖像的分割需求也越來越迫切.Dou 等[22]設計實現了3D 深度監督網絡(3D DSN)模型,用于對CT 圖像中的肝臟器官進行準確分割,相比傳統3D CNN 在體積重疊誤差、相對體積差異等指標上都有明顯改善,而且對比其它算法處理速率提升很多.作者通過對CNN 的初始層、中間層提取出來的特征進行反卷積,然后獨立運行預估結果并對比標注結果計算誤差,在充分利用多尺度特征的同時也解決了梯度消失的難題,在少量標注訓練樣本的條件下實現了模型的快速收斂.Myronenko[23]使用類似于U-Net網絡的下采樣-上采樣的框架實現多模態3D MRI 的腦組織的語義分割任務,作者在嘗試各種網絡設計和優化手段后,發現對訓練圖像執行盡可能大尺度的切片,以及添加額外變分自動編碼器(variational autoencoder,VAE)來輔助正則化可以顯著提升分割精度,該算法采用高性能GPU 完成模型的訓練任務,獲得了BraTS 2018 比賽的冠軍.3D 圖像的處理對于計算能力的要求極高,但是這些年隨著計算機硬件的發展和云計算的普及,為這一類深度學習的應用提供了有力的支撐.
3.2.4 圖像檢索
醫療領域中,醫生不僅需要關注個體病患不同階段、不同類型的醫學影像,還需要在醫學影像庫中快速檢索相似部位和相似疾病的其它影像,乃至于多模態圖像的跨庫檢索需求,可以為醫生提供更多的信息,以便做病情診斷評估和臨床決策.伴隨現代醫學影像在臨床中的大量使用,醫院的影像規模十分龐大,快速、準確地提供圖像檢索技術成為了挑戰.
醫學圖像檢索的關鍵要素是特征表示和相似度描述.傳統上,基于內容的圖像檢索(content based image retrieval,CBIR)的實現,都是離線對入庫圖像完成圖形學的特征抽取,比如常見的SIFT、SURF 等特征描述,然后將這些特征存儲在數據庫中,在線檢索的時候,對檢索圖像做相同的特征抽取操作,再采用歐式距離、余弦相似度等指標來衡量相似度,和檢索庫中各個圖像作相似度對比,排序后返回檢索結果.
上述傳統實現方式依賴于影像專家和數據專家的經驗來提取有效特征,對于多模態影像的特征抽取和相似度比較也很困難,而深度學習作為一種表示學習,可以自動獲得更有效的特征表示.Anavi 等[24]對于胸部X 光片,將傳統圖像處理技術鎖提取的SIFT-BoVW、LBP、Binary 特征同使用CNN 提取的特征做對比,結果顯示使用CNN 提取得到的特征相比傳統圖像特征檢索效果最好.Qayyum 等[25]使用網絡公開的多模態醫學影像數據集,對這些影像按照器官進行24 個分類的粗粒度標注,然后采用監督學習的方式訓練CNN,并以網絡最末端的3 個全鏈接層輸出作為特征表示,測試得到多模態圖像檢索精度達到69%,相同條件下優于其它算法.Swati 等[26]利用深度神經網絡檢索MRI 圖像,作者使用VGG19 網絡結構,并加載使用已經在ImageNet 中超過120 萬張帶有1 000 分類標簽的自然圖像數據集上預先訓練的模型參數.從預訓練模型開始,將原始VGG19 網絡的FC8 從1 000 分類調整為目標任務的3 分類問題,在已標注的3 000 多張MRI數據集上做模型精調,mAP 達到了96%,該流程是典型遷移學習應用場景,效果提升明顯.Oliveira 等[27]使用領域索引(domain index)處理多庫多模態醫學影像,設計出了可以彈性擴展的系統架構,對于大型醫院、醫聯體實現海量醫學影像的快速檢索具有一定的參考價值,同時該框架還簡化了機構對于多庫醫學影像的維護管理工作.
傳統處理時序類信號時,一般需要使用傅立葉變換、小波變換等方式對原始信號進行預處理,可以抑制信號噪聲,同時在頻域處理信號往往更加簡單有效.然后,領域專家憑借經驗手動提取信號特征后,再實現具體的分類、判別等任務.深度學習在絕大多數場景都能夠完成端到端的學習任務,在使用深度學習處理時序信號時,可以直接將原始信號輸入到深度神經網絡中訓練模型優化目標任務.
Acharya 等[28]實現了對ECG 信號心率失常疾病中4 種類型進行分類,他們構建了11 層CNN,然后把ECG 原始信號采樣后直接送入深度神經網絡執行訓練任務,在驗證集上測試分類準確度達到了92.5%,而且作者增加了卷積層神經元個數后再次實驗,分類準確度提升到了94.9%,說明更多神經元構成的神經網絡有助于在訓練過程中獲得更有效的特征.Hannun 等[29]也采用CNN,并將網絡深度擴展到34 層,同時采用更大規模的標注數據集進行訓練,完成對心律失常疾病的14 分類任務.作者將算法的分類結果同幾位心臟病專家綜合后的標注結果作對比,結果顯示在絕大多數種類的分類任務中,深度學習算法的F1 指標都顯著高于專家手動標注結果.還有Rajput 等[30]的研究,他們將時域一維ECG 信號進行剪切分段后,采用短時傅立葉變換和小波變幻得到二維信號頻譜圖像,然后采用圖像處理的思路將它們送入到DenseNet 中,在相同測試集上效果要優于Hannun[29]的實現.CNN 的特征學習優勢明顯,同時由于ECG 是時序信號,RNN 或LSTM可以挖掘時序上的依賴信息,于是Andersen 等[31]提出了CNN-LSTM 混合深度網絡結構,首先利用CNN 進行特征表示學習,再利用LSTM 進行序列學習,也展示出了比較好的分類效果.
在臨床條件下,ECG 采集過程很容易受到干擾,對ECG 進行噪聲消除十分重要.傳統方式經常使用小波變換來消除噪聲,但實踐中可能會因為閾值選取不當等問題導致信號重建產生偏差,甚至會影響到最終診斷結果的準確性.Chiang 等[6]在DAE 的基礎上采用了全卷積網絡代替原先的全連接網絡,處理結果的信噪比、均方誤差等指標都明顯好于單獨使用DNN、CNN 的處理結果.
醫療領域中,因為結構化的醫療數據格式規則、存取方便,對其研究和應用挖掘地比較充分.然而,醫療領域中非結構化的自由文本數據更多,除了醫學教參和科研論文之外,諸如臨床診斷報告、影像檢查報告、醫囑信息等內容,都是醫生認真檢查、深思熟慮后的結論,因此蘊含著極大的研究和應用價值.同時,近年來以醫學知識圖譜和電子病歷為基礎,以人工智能推理為核心所構建的臨床決策支持系統(clinical decision support system,CDSS),已經成為新一代醫院信息系統建設的重要內容,對于提高臨床醫護人員診斷和護理的工作效率,提高醫療質控水平,減少醫療事故的發生意義重大,圖5 展示了典型的臨床決策支持系統的典型系統架構.但是,自然語言處理一直都是機器學習領域的研究難點,而且醫療領域的文本數據還涉及到大量的領域內部命名實體、行業術語及表述習慣等問題,因此基于深度學習的自然語言處理在醫療領域的應用相比而言成熟度較低.

圖5 臨床決策支持系統架構圖
3.4.1 疾病分類編碼
ICD(international classification of diseases)是世界衛生組織制定和維護的人類疾病標準化、統一化的分類系統,各個國家和地區對本地疾病分類管理也有相關規范,ICD 對于醫療衛生資源分配、公共衛生建設意義重大[32].目前,疾病分類編碼仍舊采用人工標注的方式來完成,但是由于疾病種類數目太過繁多,很多疾病類間差異也很細微、界定模糊,采用人工標注需要消耗大量精力,而且難以保證標注結果的準確性和一致性.因此,學者們一直嘗試采用機器學習的手段完成該任務,期望通過自然語言處理技術,根據診斷病歷自動完成相關疾病的編碼任務.ICD 分類多、疾病的分布不均衡,是一個典型極端性多分類問題.
Baumel 等[32]對比使用SVM、CBOW、CNN 和HA-GRU 四種算法,采用公共的MIMIC 數據集完成ICD-9 疾病編碼,其中SVM 采用了TD-IDF 對文本單詞計算權重,而CBOW 和CNN 都使用了稠密的嵌入向量表示字符.HA-GRU 是一種層級的雙向GRU 網絡,采用底層雙向GRU 網絡編碼語句,而級聯的上層雙向GRU 網絡用于接收底層所有語句編碼,這種設計是考慮到GRU 處理太長文本會有性能瓶頸和效果損失,結果顯示HA-GRU 相比基線算法效果提升明顯.Qiu 等[33]采用人工標注的942 份分類結果作為訓練數據集實現對ICD-O-3 癌癥疾病編碼,在使用TDIDF 作為單詞權重條件下,結合樸素貝葉斯、邏輯回歸、SVM 等傳統分類器,同CNN 實現的自動特征提取和分類的結果做對比,結果使用CNN 方式分類優勢明顯.Mullenbach 等[34]采用了帶Attention 機制的CNN,使用MIMIC-III 數據集做ICD-9 編碼,測試效果相比之前的HA-GRU 算法[32]也有明顯的提升.
3.4.2 文本數據挖掘
文本數據挖掘可以應用于電子病歷結構化、臨床決策支持、異常事件檢測、信息語義化檢索等場景.傳統上對自由文本信息絕大多采用基于規則的專家系統處理,但是后期的維護工作極其繁重復雜,因此越來越多基于機器學習的方法被嘗試用于解決這類難題.目前,通過對自由文本形式的資料進行清洗和整理,識別命名實體,推斷實體間的關系,通過語義分析建立強大的醫學知識圖譜和知識庫,在疾病風險評估、智能輔助診療、醫療質量控制及醫療知識問答等智慧醫療領域都有著很好的發展前景.
Yala 等[35]采用Boost 算法處理乳腺病理學報告,完成多達20 種有關疾病類型、器官組織特性等數據的自動提取分類,并將這些數據整理后進行結構化存儲和展示.其總體分類準確度超過了90%,基本同基于規則的處理方法效果相當,但是極大節約了工作量.Borjali 等[36]探索了采用深度學習方法從純文本的醫療報告中提取相關信息,完成對醫療不良事件的檢測統計工作,并以髖關節置換術后脫位的案例進行試驗.作者設計實現了類似于HA-GRU[32]的層級結構BiLSTM和CNN 兩種深度網絡模型,最終結果顯示基于深度學習方案的Kappa、分類精度指標明顯高于K-NN、隨機森林、SVM 等為代表的傳統機器學習算法,并且CNN 的效果要好于層級BiLSTM的實現.值得注意的是,IBM、Google、Amazon、騰訊等[37,38]大型商業公司,以及國內外許多醫療科技企業,也都在積極布局深度學習在醫療領域的應用,嘗試將他們在深度領域的經驗技術賦能于醫療健康事業中.
3.4.3 診斷報告的自動生成
醫護人員每天都要花費很多的時間處理文本工作[7],雖然報告模版、常用語填充等方式簡化這方面的工作,但是這類工具既不靈活也不智能,仍然耗費醫護人員寶貴的時間精力.當自動圖像描述的功能被提出后,自動生成醫學影像報告的功能也開始被大量研究了.自動圖像描述的報告會基于對醫學影像或信號的處理結果來生成,在提高醫師的工作效率,同時提供獨立的診斷結果供參考和對比.
Wu 等[39]將自動圖像描述應用在糖尿病視網膜眼底圖像的診斷上,作者直接使用經典的CNN-LSTM網絡結構,即首先使用CNN 抽取特征,再依據特征使用LSTM 生成對應的文字描述,作者的訓練數據集使用了370 張臨床眼底圖像,并對每張圖像人工添加5 種自然語言描述作為標注,其測試結果顯示對病變眼底圖像生成的報告準確度能達到90%,但當測試集包含正常眼底圖像后,整體準確度下降到只有60%左右,算是診斷報告的最簡單嘗試.Liu 等[40]提出通常情況的自動圖像描述所生成的內容都比較簡短,同時研究重心也偏向于生成文本的可讀性,但是臨床報告常需要生成很長的描述段落,而且相較于語言的可讀性,對結果描述的準確性是首要考量的.作者使用了CNNRNN-RNN 網絡結構,CNN 用于學習圖像特征,然后RNN 依據圖像特征生成話題,而后一個RNN 再依據生成的話題和圖像特征生成自然語言描述,最后再使用強化學習對生成的結果進行優化,最終生成報告的準確性和可讀性的質量很高.
不過,Pino 等[41]使用隨機返回、持續正向返回、相似圖像報告返回等簡單驗證手段,發現當前所謂領先算法所使用的評價指標并不可靠,比如ROUGE、BLEU 等經常是用于機器翻譯方面的應用,用于醫學影像報告自動生成這類應用場景,上述評價指標或許不太合適,因此還需設計更加科學合理的評價指標.
深度學習領域中,通過大量帶標注數據集進行訓練,幾乎都可以得到一個預估誤差很小的神經網絡,但是缺少相關理論和方法來解釋其因果關系,這是一個長期困擾深度學習的難題.對于諸如醫療領域這種關鍵場景,“黑盒”應用具有相當大的隱患,尤其對于涉及到責任、糾紛等問題,這種不能解釋的系統很難得到醫生的信任和接納.目前,絕大多數的智能醫療解決方案至多充當為一個獨立建議者的角色,最終結論仍然需要由醫生和護士的確認.同時,無法解釋性也就意味著無法針對性地對算法作出改良,更多情況下只能通過不斷暴力嘗試來“拼湊”出一個恰到好處的模型.
針對如何解決深度模型解釋性問題,當前提出的CAM 和Grad-CAM[42-44]或許有所幫助,但仍屬于比較粗糙的辦法.原理上,CNN 隨著不斷卷積和池化操作,越接近末端的網絡學習到的特征越抽象,但也越接近于任務目標.因此,Grad-CAM 選擇CNN 最末端的卷積層,然后計算流入該層神經元相對某個分類的權重信息,該權重信息表示了特征相對于這個分類的敏感程度,進而得到熱力圖,圖6 展示了圖像分類和圖像分割任務中的Grad-CAM 熱力圖,顏色越深的部位則表示對最終計算結果支持程度越重要.目前很多基于深度學習的應用都會附上熱力圖以證明模型的可信度[40,43,45],但這種方式難以應用在其它類型的深度神經網絡類型,而且隨著深度網絡的結構越來越復雜,要徹底理解深度神經網絡的因果關系還很困難.Doppalapudi 等[46]在對肺癌生存期預測的實驗中,深度學習同樣顯示出比傳統機器學習更好的預估效果,作者使用SHAP(shapley additive explanations)來分析輸入特征對最終預估結果的重要性,得到良性腫瘤數目、受檢查者年齡、是否接收手術是決定生存期最為重要的因素,該結論同醫生的主觀經驗相符.

圖6 圖像分類和分割任務的Grad-CAM 熱力圖
對于已經構建完成的神經網絡模型,在實驗和應用場景中常會發生模型參數或網絡結構的微調,都可能會導致模型性能有巨大的變化,深度學習的魯棒性也有待研究.深度模型也易于遭遇對抗攻擊、模型和數據投毒等安全問題,確保其安全穩定地運行仍面臨著不小的挑戰,目前也有不少學者開始專注于研究這類問題的解決方式[47].
在機器學習領域,絕大多數應用場景都是基于監督學習完成,模型效果很大程度上取決于已標注訓練數據集的規模和質量[10,29],但是醫療領域的數據存在諸如標注數目有限、樣本分布不均衡、字段數據缺失現象普遍等問題.
首先,醫療領域作為一個高度專業化領域,只有經驗豐富的醫師產生的標注結果才是相對可靠的,這決定了生成高質量標注數據集是一個產量低、代價高昂的任務.而且,標注結果本身也存在一定的主觀性,即使都是經驗豐富的醫師,他們的標注結果常常也會很不一致[48],而且同一個人對相同樣本的標注也會經常有前后不一致的情況,使得模型的訓練和評價任務更為艱難.醫療領域的樣本分布也是極不均衡的,現實場景中大量樣本都是正常或常見疾病,嚴重疾病都是罕見匱乏的,直接依賴這樣的樣本分布難以訓練出有效可靠的模型.機器學習對于常見案例可以給出相對可靠的預估,而罕見或訓練樣本中沒遇到的疾病,其預估結果往往難以預料[3].同時,現實情況中數據缺失也很常見,醫生會根據患者的個體情況作出不同的檢查和診療方案,這類樣本是否選擇,以及相關字段如何補齊,預估結果是否可靠也是需要考慮的問題.
通過數據增強(data augmentation)技術可以擴充訓練樣本,經典圖像增強手段包括更改圖像對比度、疊加噪聲,更改圖像亮度、飽和度、對比度,以及對圖像進行旋轉、切割、縮放、形變等操作,然后對標注結果做必要的調整,可以有效擴充標注數據[43].在訓練U-Net 網絡的時候[21],作者將有限的標注樣本進行圖形學彈性變換,不僅擴充和平衡了標注訓練樣本,同時也讓模型“學習”了形變相關的知識,在醫學影像中軟體組織的彈性形變是很常見的情形.Zhang 等[49]研究了基于深度學習的DST(deep stacked transformations)神經網絡完成圖像增強擴充訓練樣本后,驗證模型遷移在未知測試數據集上的泛化能力,結果顯示DST 神經網絡的穩定性相比傳統圖像增強技術和基于Cycle-GAN 的圖像增強技術提升很多,Dice 指標提升超過30%,而且采用DST 神經網絡在少量標注數據上進行圖像增強后訓練模型,然后在大規模未知數據集上的預估已經可以和最先進的監督學習在大規模標準樣本上訓練模型的預估效果相媲美了.Zhao 等[50]發現MRI 在患者腦灰質和腦白質的病變檢測和分類中十分有效,但是因為檢測價格、設備限制等各項因素,腦部CT 影像比MRI 影像更為常見,但同時CT 影像對于軟體組織對比度很差,很難直接用來進行腦灰質、腦白質、腦脊液的病變檢測.作者通過改進U-Net 網絡,使用帶標注的CT 影像構造出對應的MRI 影像,因為構造前后的圖像是自然配準的,所以MRI 可以復用原標注信息執行監督學習,測試結果證明了利用CT 影像完成軟組織標注和診斷任務的可行性.主動學習也可以用于解決標注數據缺乏問題,算法的基本原理是系統塞選出不確定性樣本交由專家標注,并將標注結果放入訓練集中持續優化模型.Kuo 等[51]在使用基于不確定性樣本選擇機制時,引入預估標注時間作為代價參考因素,該模型綜合標注收益和標注代價,讓醫生在寶貴的時間中產生更多有價值的標注結果.
遷移學習[26,52-54]目前在深度學習中經常被使用.訓練初始可以使用已有的大量高質量標注的自然圖像訓練模型,先“學習”線條、形狀、邊緣等知識,最后再將該網絡較前端部分的輸出作為特征抽取算子,或者固定其較淺部分的模型參數,再根據目標任務優化末端部分的模型參數,就可以使用較少標注數據使整個模型快速收斂[26].為了節省計算資源,目前越來越多的場景采用標準主干網絡并加載預訓練模型,再根據目標任務調優的遷移學習方案.遷移學習在2D 圖像的訓練任務中十分常見,但是在3D 圖像處理中研究案例很少,相鄰圖像的上下文相關信息無法挖掘,即使嘗試使用RNN 或LSTM 來學習相鄰圖像的相關特征,考慮到計算量和模型復雜度等因素幾乎也是無法實現的,而且通常3D 圖像標注數據很少,因而模型很難訓練.為此,Liu 等[55]提出了3D AH-Net 模型,它使用ResNet作為主干網絡,并基于ImageNet 的預訓練模型作為起點,然后再將目標任務中3 張相鄰的2D 圖像模擬成RGB 三個通道對編碼器網絡做精調,在保持網絡結構不變的同時引入相鄰上下文關系.作者設計了全新解碼器代替原先解碼器,把3D 卷積操作拆分成2D 卷積操作和1D 卷積操作,在充分利用單個圖像內部特征的同時,保持圖像間相關性輸出一致.最終,在乳腺病變檢測、肝臟分割兩個測試任務中,該網絡效果領先傳統網絡(例如3D U-Net),而且在訓練和預估任務上也有著明顯的性能優勢.Liang 等[56]研究了醫學圖像應用中深度學習的模型泛化問題,實驗對比了遷移學習中3 種常用實現手段的泛化性能,針對目標數據集的模型微調的泛化收益最為明顯.
課程式學習[57,58]作為一種訓練策略,值得對于醫療領域這類標注數據少、樣本分布不均衡場景嘗試.該訓練策略啟發自人類學習過程,普通人在學習過程中常從較簡單的任務開始,接著不斷增加學習難度,這種難度逐步增加的學習過程更有效率.但是,如何確定樣本的難易程度也是比較微妙的事情,Jiménez-Sánchez等[58]的研究表明:如果先學習困難的樣本,再學習比較容易的樣本,最終模型的預估效果反而會變差,而且這種難易程度和人類直觀感受的難易程度是不一致的.
深度學習在醫療領域的應用研究,研究成果部分是基于特定醫療機構的內部數據,往往難以復現.而絕大多數都是基于網絡公開數據集,這類數據集規模普遍都很小,而且一些字段信息也刪除掉了.考慮到各醫療機構的就診條件、設備差異、運行參數、病人分布等因素都可能存在差異性,如此小規模的訓練集是否能夠代表真實應用場景的樣本分布,以及訓練所得的模型在其它設備、其它機構是否同樣有效還存在巨大挑戰[47].當前看來,除了采用超大規模、多樣性的標注數據訓練模型外,通過數據增強、多任務學習、遷移學習等手段對提高模型的泛化能力對增加臨床使用的適應能力具有一定的意義[43,49].
深度學習結合醫療領域本來就是個交叉課題,通常需要數據專家、算法、工程技術、醫療領域專家的緊密合作才行.但目前情形而言,醫療機構本身對這方面的研究精力和資源投入有限,同外部機構合作研究交叉課題機會也不多,整個流程還需要醫院管理層和倫理委員會的審批和監督,如此嚴格的高準入門檻阻礙了大部分研究機構和學者獲取真實、有效、豐富的醫療數據,著力共同攻克相關領域難題的機會.
傳統醫療設備和信息系統,在實施部署后便進入常規維護流程,后期的維護工作都相對有限,而基于深度學習的醫療應用,后期維護任務也更加的復雜.深度學習需要持續跟蹤使用場景,通過不斷優化模型才能保持和提升效果,而且隨著新數據的產生,或者醫療設備、使用應用場景發生變化,原有模型都需要不斷地更新維護.現代醫學影像的分辨率越來越高,同時3D 影像技術應用越來越廣泛,因此還需要購置先進的硬件設備以提供強大的計算能力.當前深度學習只擅長于對特定應用場景進行建模,而大型綜合醫療機構中的科室數目、疾病類型、服務場景都是海量的,這意味著巨大應用潛力的同時,復用性低也意味著巨大的投入負擔,深度學習的應用實施對基礎信息設施有著較高的要求,這無疑會增加醫療機構運營和管理維護的成本.總之,對于醫療機構來說,深度學習應用是一個需要持續性、高投入的場景,對此醫療機構的態度勢必會更加的謹慎.
當前公眾對于個人隱私問題越來越關注,尤其對于醫療健康信息尤為敏感,數據保護也是當前醫院管理的重中之重.美國在1996年就簽署頒布了健康保險流通與責任法案(health insurance portability and accountability act,HIPAA),HIPAA 包含了一系列規定來保障受保護健康信息(protected health information,PHI)的安全性和隱私性,PHI 涉及到年齡、聯系方式、社會保險號等字段,HIPAA 適用于包括直接接觸病人并處理病人數據的醫院、醫療服務提供商、研究機構和保險公司等主體.歐盟于2018年也出臺了通用數據保護條例(general data protection regulation,GDPR)用于個人敏感數據的保護.我國對健康隱私的保護機制也在不斷地健全和完善.2021年1月1日實施的《中華人民共和國民法典》中定義了個人信息包括自然人的姓名、出生日期、身份證件號碼、生物識別信息、住址、電話號碼、電子郵箱、健康信息、行蹤信息等,同時要求醫療機構及醫務人員應當對患者的隱私和個人信息保密.
雖然HL7、IHE、DICOM、openEHR 等標準的制定和實施,在技術層面上解決了醫療數據交換和流通的難題,但對于隱私問題的過分擔憂會嚴重阻礙對這些信息的挖掘利用和互操作[59],對醫療數據實現脫敏是一種解決思路.相關研究[60]已經嘗試用機器學習和深度學習的方式,自動對患者個人醫療信息進行PHI歸類判別,以代替傳統的手動或基于規則的專家系統來完成相應工作.Catelli 等[54]嘗試將文本嵌入表示和BiLSTM+CRF 模型應用于COVID-19 意大利語電子病歷數據集的去標識化操作,其評測效果優勢顯著,也展現出通過深度學習對醫療數據實現脫敏去標識化后,共享醫療信息快速應對公共衛生事件的重要價值和意義.相信終有一天,公眾和社會對于患者健康數據的使用將會更加安全理性.
本文介紹了深度學習的原理和常見深度神經網絡模型,結合實踐介紹了深度學習在醫療領域中的影像和視頻處理、信號處理、自然語言處理等典型醫療數據的應用,包含了科學研究和臨床應用的最新研究進展、研究熱點等問題,其中以醫學影像的研究成果最為顯著.本文還對深度學習在醫療領域中的應用困難和挑戰進行了討論,其中包括模型的解釋性、穩定性等深度學習的固有難題,以及醫療領域標注數據缺乏、樣本分布不均衡等行業特定問題,目前主流方法通過使用數據增強、遷移學習、課程學習等技術解決這類問題.同時,面對大量存在的無標注數據和弱標注數據,無監督學習、弱監督學習、半監督學習等算法也有很大的研究價值.深度學習在醫療領域的應用是一個交叉課題,需要多領域專家協作才能取得進展,雖然數據交換在技術上不再困難,但考慮到隱私、監管合規等因素,數據壁壘是目前發展的重要阻礙.
中國是一個幅員遼闊、人口眾多,同時醫療資源分布很不均衡的國家,伴隨著人口老齡化程度不斷地加深,醫療服務的供需矛盾將更加的尖銳,而運用現代信息技術有助于解決醫療資源的分配和醫學知識技能的共享問題[10,56].近年來深度學習在醫學領域的應用有著豐富的收獲,是一個極具意義的研究方向,但是距離臨床應用還有很多問題亟待解決,期待深度學習技術能夠更快更好地造福于人類健康事業.