任曉麗
山西醫科大學汾陽學院 (山西汾陽 032200)
近年來,隨著數據的劇增、算法的不斷優化及計算能力的迅猛提高,大規模的神經網絡逼近不同函數及大數據擬合成為可能。深度學習(deep learning,DL)融入醫學影像數據,逐步涌現出了各種輔助診斷、預后預測和決策分析的智能模型[1]。基于醫學影像智能計算是目前智慧醫療領域的研究熱點[2],相應的產品也已落地,相關文獻[3]全面分析了使用DL 技術為新型冠狀病毒肺炎診斷所開發的系統應用。基于DL 醫學影像正逐步邁向智慧醫療下精準診斷的環節,期間也存在尚待解決的些許問題。
DL 是先進的機器學習(machine learning)方法,以數據驅動方式分析任務,針對特定問題的大規模數據集自動學習數據特性,從訓練數據中選擇正確的特征,最后在測試數據中做出正確決策。其中深度模型是手段,特征學習是目的。迄今為止在醫學影像領域,國內外學者主要就MRI、CT、X 線、超聲、正電子發射計算機斷層顯像(positron emission tomography,PET)、病理、光學圖像等開展了DL研究工作[4]。
DL是具有多層非線性處理單元的神經網絡[5],基礎模型主要是深度神經網絡,從函數逼近論的角度講,深度神經網絡是一個多層復合函數。理論上任意一個多元函數可以表示成若干個單變量函數的復合,這是機器學習中通過深度神經網絡來逼近任意高維函數的理論依據,故可基于多層次的“神經元”結構,采用多隱層,進行分層非線性映射學習。其中非線性激活函數為最終擬合函數生成基函數,訓練神經網絡就是在學習這些基函數,通過數量眾多的激活函數的線性變換及復合來逼近非常復雜的函數,由此解決了人工設計基函數的困惑。
DL將特征提取融入算法,省去了傳統機器學習中手工提取的步驟,直接的好處在于,從原始輸入到最終輸出無需人工設計模塊,模型根據數據自動調節的空間變大,模型的整體契合度增加。DL借助多層函數(或深度)復合的多次變換,將樣本在原空間的特征表示變換到一個新特征空間,通過逐層特征變換,自動提取不同空間的“特征”,進而發現高維數據中的復雜結構,從輸入端的數據直接得到輸出端的結果,是一種端到端的學習方法。其中卷積神經網絡憑借強大的特征自動提取功能,成為DL的一個重要組成部分[6],傳統CNN由輸入層、卷積層和池化層的組合、全連接層及輸出層構成,如圖1所示。深度神經網絡具有不同的體系結構和拓撲,適合某些特定的應用程序[7],目前有關醫學圖像分割的DL最新研究大多數都依賴于U-Net網絡,針對不同的分割任務,網絡結構也有相應的更改[8]。

圖1 傳統CNN 結構圖
當前醫療中高達90% 的數據來自醫學影像,影像歸檔和通信系統(picture archiving and communications system,PACS)融合了不同設備(如MRI、CT、超聲等圖像)的數據,并進行統一存儲、管理。醫學數字成像與通信標準(digital imaging and communication in medicine,DICOM)定義了臨床影像數據交換的格式,其發展和完善為醫學影像的發展創造了新的契機。據不完全統計影像數據的年增長率高達30%之多[5],總量已然達到“5V”數據,即大量(volume)、高速(velocity)、多樣(variety)、價值(value)、真實性(authenticity)。
醫學影像屬非結構化數據(患者受保護類的信息屬結構化數據),數據對象的空間關系信息及蘊含的特異性情況具有重要的統計學意義,對各種疾病信息的挖掘會產生潛在的利用價值。DL模型“訓練”和“驗證”得以穩定運行的根本是大數據,尤其是高質量的結構化數據,而醫學影像中數據的諸多變化及不完備因素一度成為DL在醫學領域發展的瓶頸。
由于缺乏標準約束和整體規劃,不同的醫院或醫師使用的操作系統的無線多址協議不同,對于不同的醫用場景,成像模態、掃描參數、重建卷積、質控各不相同,以及針對特定需求的特殊設計等,諸多因素導致數據的廣泛異質異構性,如數據本身異構,表現為數據結構、語義等差異;數據環境異構,表現為硬件平臺、操作系統、數據庫管理系統等差異。上述迥異性整體上使得數據信息孤立、分布漂移,制約共享。當影像數據與疾病類型相結合時,DL 在醫學影像各類任務(重建、分類、檢測、分割和配準等)中,以及與一些應用程序相關聯的任務中,面臨著大量的高度復雜性[9]。由此如何將大量不同數據提取、篩選并標注以便捷地用于DL,是醫學影像數據處理的根本問題。
不同類別的醫學影像的樣本數量差異很大,陰性和陽性樣本數往往表現為陽性明顯少于陰性。臨床病例數據規模表現出典型的長尾分布[9],少數的常見疾病有足夠的數量供大規模分析,而多數疾病在臨床上的數據量缺欠。但少數樣本有時恰是DL 關注的根本。這種不平衡現象通常用不平衡率(imbalance rate,IR)衡量:

式中nmaj為多數類樣本數據量,nmin表示少數類樣本數據量[10]。
網絡在類別不平衡的數據中進行訓練,結果易偏向較大數量的類別[11],因為DL 在關系抽取任務中,往往基于類別平衡、數據分布均勻的假設。這種天然的樣本不平衡問題導致DL 在醫學影像領域的算法泛化能力下降。
綜上由于醫學影像數據各異不均,且數據的采集、整理及標注過程煩瑣且代價昂貴,使得大型標注數據集匱乏,嚴重影響DL算法的普適性,因為標注數據的多少決定了DL擬合函數的“智能”。目前DL技術在針對新型冠狀病毒肺炎的診斷應用中,主要挑戰是患者的影像數據不完整、雜亂、不明確及缺乏標準性[3]。
構建高質量的結構化數據集,有效提高DL模型的準確性和魯棒性,具體如下。(1)采集:進一步規范相關醫療系統數據標準,以滿足DL模型對數據參數及質量的要求,盡量覆蓋各種成像模態設備的機型、質控指標及疾病類型等參數變量,弱化影像多源數據的異質性;進一步優化影像的采集與重建過程,對數據進行高倍降采樣,充分利用DL技術填充未采集的數據,DL技術可以突破傳統依靠圖像稀疏性的假設,利用大量數據來優化求解圖像重建問題[12],替代了常見的基于多次迭代優化的圖像重建的逆問題求解算法,提高了采集效率,同時可降低噪聲、提高圖像質量,基于數據驅動DL的 MRI重建,重點在于利用深度網絡學習欠采樣數據到全采樣數據(k空間或圖像)的端到端映射關系[2]。(2)標注:立足數據和場景需求,直接面向學習目標,利用專業醫師的領域量化知識,如病變位置、范圍、良惡性評分等,盡量使用“金標準”進行學習標簽標注(如病理、基因型、生存期等),提高標注的準確性。(3)建立數據集:建立多中心數據集,創新數據共享機制,建立標準的醫學影像大樣本數據庫。
基于DL 對高維數據強大的特征提取能力,有機融合其他方法,具體如下。(1)深度主動學習:主動學習即通過標記少量的樣本獲得模型的收益最大化[13],從數據集入手,設計精妙的查詢規則,從未標記的數據中選擇最佳樣本并查詢其標簽[13],學習算法主動地提出一些標注請求,將經過篩選的數據反饋給專家以備標注,這樣可減少訓練數據集及其標注成本,其核心過程是篩選,有機結合深度、主動學習,將深度主動學習應用于醫學影像領域的具體工作有很多。(2)深度遷移學習:適當解脫DL 的數據獨立且分布均勻的依據,將知識從源域遷移到目標域以解決數據不足的問題,基于網絡的深度遷移學習,首先在原領域預訓練網絡(如結構、參數等),再用于目標任務中,使其成為新的神經網絡的一部分[14],即在多種類別的大規模基準數據集上預訓練網絡,幫助網絡學習在目標任務上重用的通用特征,之后在預訓練網絡感興趣的目標(對應的標簽數據集較少)上進行微調,遷移學習已成功應用于某些器官的影像分析中,但其推廣還需要更多的證據[7]。
目前,機器學習主要存在于產生統計依賴性的物理機制中[15],現有的DL同樣依據樣本數據獨立且均勻分布的假設,沒有考慮變量的因果屬性。DL關注的重點是學習,缺乏良好的被理解的方式,故DL通常被認為是不易解釋的“黑匣子”,與醫師依據因果關系溯源病因不同。由于目前關于模型是基于何種特征做預測的研究較少,當模型預測結果與醫師判斷不一致時,醫師就得不到有效證據的解釋[16]。醫師如要理解DL在醫學影像中的現實性、可行性和實用性意義[7],這種費解確實是一個鴻溝。因此,探索基于因果關系的學習算法將有助于發現更豐富、更自然的醫學問題[17]。未來的模型應注重系統變量的因果生成過程,于學習中介入推理,生成基于因果性的接近醫師的診病方式,如利用因果關系的某一層級——反事實的方法賦予機器一種“想象”,當患者的疾病與原有模板中的病例不同時,可能對此自動聯想加工,做出正確的診斷。相關文獻[17]使用由1 617個臨床場景組成的測試集,得到反事實算法性能較關聯算法有大幅提升,這有利于通常難以診斷的罕見病及重癥病例的檢測,同時避免了基于相關性的診斷產生的誤差對這些病例帶來的嚴重后果。可見因果推理是將機器學習應用到醫學診療中的重要元素,它可促進統計依賴結構的表象學習方法向支持干預、計劃和推理的模型改進[15]。同時基于因果屬性的學習模型對數據集所蘊含的規律、知識的理解,也有助于解決目前DL的弱解釋性問題。
醫學影像是以DL為核心的醫療人工智能最有潛力的落地領域[16],DL的中心任務是提取蘊含在圖像中的信息,目前學習主要是基于數據驅動進行多層復合函數的擬合,其擬合的智能程度深受影像數據的諸多變化、不確定因素的制約,故需規范數據、改善采集,讓數據成為新的范式,并結合其他方法改進算法,如在DL中有機嵌入主動學習等方法,削弱DL對標注數據的貪婪程度,同時鑒于現階段DL在數學本質上只有“記憶”能力,沒有“理解”能力,從而探索基于因果關系的學習方法,以增強影像輔助診療的準確性,有助于未來DL精準賦能醫療,以及促進智慧醫療距離真正落地更進一步。