孫 安 蕭 毅 樊榮榮 孫 瑤
心血管疾病是全世界居民最常見的死亡原因,而冠狀動脈(冠脈)鈣化積分已被證明是心血管事件(包括卒中)的一個強有力的獨立預測因子,被指南推薦用于臨床決策[1],早期準確進行冠脈鈣化評估是避免相關風險進一步增加的關鍵。近年來,在心血管影像領域,得益于掃描技術的迅速發展及由此產生的大量影像數據,人工智能(artificial intelligence,AI)的研究飛速發展。而機器學習是人工智能的分支,它在冠脈鈣化的一系列研究應用,如圖像自動分割識別、自動模型構建及預后判斷等方面已表現出巨大的潛能。本綜述將從常用的機器學習技術、冠脈鈣化常用的計算機體層成像(computed tomography,CT)掃描方案、不同機器學習技術在自動化冠脈鈣化積分模型構建中的應用和目前存在的挑戰等方面進行闡述。
機器學習(machine learning,ML)的主要任務有分類、聚類、關聯分析和偏差分析等,而機器學習在冠脈鈣化圖像分割與識別中最重要的任務是分類[2],在這種情況下,ML算法通常也稱為分類器。分類器大致可以分為2種,即基于特征輸入的ML和基于圖像輸入的ML。
常見的基于特征輸入的ML有支持向量機、樸素貝葉斯、決策樹和K-近鄰等。這類ML通過使用諸如閾值、邊緣系統和輪廓模型等技術來提取輸入對象的多維特征(如對比度、形狀等),并將對象進行特定類別(如病變/非病變、良性/惡性)的分類[3]。其中,支持向量機是最常用的分類器,可以與多種復雜的大數據(如生物信息)兼容,并且比其他分類器的準確度更高,可以在不增加輻射劑量或掃描時間的情況下,多維度地自動化預測心血管風險,但是它對核心函數的要求較高;而其他分類器像樸素貝葉斯,雖然準確度不及支持向量機,但是對小規模的數據集比較友好;而決策樹算法,主要通過回答“Yes or No”來分類鈣化,便于實現較簡單的心血管疾病風險預測。
常見的基于圖像輸入的ML有卷積神經網絡(convolution neural network)、深度神經網絡、遞歸神經網絡等[3]。這類ML則與上述算法不同,它們跳過了對象的分割提取,避免了不準確特征選擇和分割可能帶來的錯誤,直接對單個體素進行分類。例如,Lessmann等[4]為了有效解決CT圖像中冠脈鈣化和背景體素的數量不平衡問題,同時使用兩個卷積神經網絡方案,第一個主要是分割出冠脈血管造影CT(CTA)中不包含肺組織或脂肪的候選體素,第二個則在候選體素中進一步細分出鈣化與非鈣化。類似地,Cano-Espinosa等[5]使用3D回歸卷積神經網絡直接對心臟結構進行自動識別,完全避免了基于特征輸入的傳統分類,最后在不到1 s的時間內實現自動鈣化評分。但是,這類分類器需要大量的訓練數據集和強大的硬件設施支持,而且隨著多層神經網絡的疊加,其難度和時間成本也將成倍增加。
多層螺旋CT是檢測冠脈鈣化(coronary artery calcium)最常用的無創性工具,可以快速、安全和準確地計算冠脈鈣化積分。傳統的冠脈鈣化積分測量是在門控CT平掃上進行的,但現有報告表明,通過非專用CT掃描方案獲得的圖像同樣可以在縱隔窗上實現對冠脈鈣化的準確評估[5-6]。
目前臨床常用的冠脈鈣化CT掃描方案主要有3種:門控CT、非門控胸部CT和冠脈CTA。除了海量的數據所帶來的工作量激增的問題外,這3種CT掃描方案在臨床應用中各自存在一定的局限性。①門控CT,即心電門控CT,它是測量冠脈鈣化積分的金標準,通過患者屏氣并結合心電觸發技術,排除了呼吸和心臟搏動所產生的影響。其在應用中的局限性主要來源于機器本身或患者不配合所造成的偽影,故在臨床上通常作為冠脈CTA檢查的一部分,很少單獨進行。②非門控胸部CT,這類CT在臨床上最易獲得,應用也最為廣泛,而要在這類CT上準確進行冠脈鈣化評估,主要面臨的困難是圖像噪聲大、存在呼吸和心臟的搏動偽影以及對低CT值的微小鈣化難以檢出等。③冠脈CTA,它是所有方案中最能清楚顯示解剖位置的CT掃描方式。但CTA檢查時需要患者接受對比劑注射,不僅輻射劑量較高,費用也較貴;同時,鈣化斑塊的閾值選擇、血管內鈣化斑塊的識別與尺寸測量等也都是CTA在臨床上比較棘手的問題。以上3種CT掃描方案各有利弊,面對心血管影像數據多樣化、復雜化的發展趨勢,選擇合適的掃描方案,建立一個合理且有針對性的自動化鈣化積分模型變得更加迫切。
為了滿足不同的臨床需求,出現了很多應用于不同場景的冠脈鈣化智能評估模型。根據所選擇訓練數據集的不同,這些ML大致可以分為兩類:一類是僅僅利用門控或/和非門控CT平掃數據集訓練完成;另一類是同時利用冠脈CTA、門控和/或非門控CT平掃訓練完成。
1.1 心電門控CT
在過去十幾年來,從半自動模型到性能更好的全自動冠脈鈣化評估模型,國外學者提出了很多方案。例如,Brunner等[7]早期選用以心臟為中心的坐標系統,并通過用戶定義種子點來進一步確定冠脈鈣化位置,雖然該模型最終顯示具有較高的準確度,但是其實施需要人工的參與,且未對每支冠脈鈣化情況進行細化。為此,Wolterink等[8]提出使用CT閾值提取候選鈣化點,并通過位置、大小、形狀和強度等特征來描述冠脈鈣化情況,然后用二類分類器來區分冠脈鈣化的陽性與陰性,并用多類分類器進一步細化冠脈各分支鈣化情況。最終結果顯示,該方案與手工標注結果相比,無論是整體還是每個分支的冠脈鈣化積分評估均表現出極高的一致性。
1.2 非門控胸部CT
為了消除呼吸與心臟搏動對冠脈鈣化積分評估所造成的影響,Shadmi等[6]提出利用閾值,連同成分分析和形態學來檢測肺、主支氣管和氣管隆突,然后根據肺和隆突的位置將心臟周圍區域劃分為3個連續的重疊序列,依次輸入U-Net和DenseNet神經網絡。最后結果顯示,該模型預測的14 365名受試者的冠脈鈣化積分與其心血管不良事件有一定的相關性。然而,該方案對于靠近主動脈壁的鈣化的假陽性率較高,后期需要大量的附加標注工作進行校正。為此,Vos等[9]改用一對回歸卷積神經網絡,繞過繁瑣的中間標識,同時實現對來自不同掃描類型(非門控和門控CT)的數據直接進行自動化冠脈鈣化積分評估,結果顯示,該模型更穩、更快、更準,能在不到0.3 s的時間內獲得所有的結果,且一致性較高。
除了門控和非門控CT平掃外,冠脈CTA作為另一種非專用的冠脈鈣化積分CT掃描方案,對冠脈鈣化評估同樣有著重要的預測價值[10-11]。根據訓練集中的CTA和CT平掃圖像是否來自同一患者,可以分為以下兩類。
2.1 冠脈CTA和CT平掃屬于同一患者
(1)冠脈CTA和門控CT來源一致時:在臨床實踐中,門控CT作為冠脈CTA檢查的一部分,可以和冠脈CTA同時獲得圖像資料,它能協同CTA完成對冠脈鈣化點的自動分割。在已有的報道中,影響較大的是Wolterink等[12]的研究,他們先后利用3個卷積神經網絡從不同的平面(軸向、矢狀面、冠狀面)對50組CTA和門控CT圖像進行心臟檢測,隨后將3種卷積神經網絡采取單一及兩兩組合方式分別對另外200組圖像進行冠脈提取,最后結果顯示,所有成對卷積神經網絡的表現都優于單個神經網絡,且在最好的組合內有83%的患者被正確歸類。然而,該方案計算過程非常復雜,且與僅用門控CT開發的自動化模型相比,是否為更優解還沒有相關報道。
(2)冠脈CTA和非門控胸部CT來源一致時:可直接通過冠脈CTA來自動定位平掃圖像中的冠脈,并自動化預測冠脈鈣化情況。如Yang等[13]直接提取40例冠脈CTA圖像中的冠脈樹的解剖區域,將其變形到該患者的非門控胸部CT平掃圖像中,剔除圖像噪聲后得到冠脈鈣化位點,最后有97.50%的患者被正確分類。類似地,Saur等[14]從127例冠脈CTA圖像中提取主動脈和冠脈結構,然后在該患者非門控胸部CT圖像中通過閾值法提取候選冠脈鈣化位點,最后將2幅CT圖像進行匹配,實現對冠脈鈣化的自動預測。雖然上述方法均能更好地解決冠脈分割問題,但無法避免非門控胸部CT圖像中偽影對冠脈鈣化預測的影響,未來仍需添加其他損失函數來減小誤差。
2.2 冠脈CTA和CT平掃并非同一患者
冠脈CTA和非門控(或門控)CT平掃的數據集來源不一致時,可以利用有限的冠脈CTA圖像訓練出冠脈的位置特征,然后將其變形配準到不同患者的非門控(或門控)CT圖像中。Shahzad等[15]選用10例CTA圖像作為特征數據集,并將它們與其余85幅CTA圖像的冠脈密度信息進行整合后作出冠脈位置預測,然后,直接與另外209例患者的門控CT圖像進行配準并自動預測冠脈鈣化。研究結果顯示,在1.5 mm和3 mm層厚的CT數據集測試中,分別有95%和89%的患者的心血管病風險分層被正確歸類。雖然上述方法都與金標準有較高的一致性,但是卻缺少對冠脈解剖變異的訓練,在后期會需要大量手工校準。
(1)數據的“量”和“度”:一方面在冠脈鈣化評估模型開發初期,大量且準確的冠脈鈣化數據集是建模的關鍵,一旦樣本“量”不足或者數據分布偏倚,ML算法就不能準確地捕捉到數據的特點,模型整體的精度便會降低;另一方面,對于不同CT掃描方案的選擇與分配、訓練集/驗證集的劃分、數據異質性/代表性的比例以及ML工具的準確性/通用性之間的權衡問題(“度”),至今還沒有具體的方案報道。
(2)冠脈鈣化評估模型的穩定性:與專用心電門控CT相比,非門控胸部CT圖像的信噪比較低,同時冠脈鈣化影像噪聲會隨著層厚、掃描參數、核心算法和重建方法的不同而變化。此時,關于冠脈鈣化的準確識別和大小測量不僅對以往參與標記的醫生來說是一個難題,對模型整體的穩定性也是一個極大挑戰。
(3)法律及隱私問題:在臨床應用中,ML常會錯認冠脈鈣化、錯估危險分層,此時的責任到底是屬于提供AI工具的科技公司,還是給患者看病的醫生,又或者是屬于給數據集貼上標簽的研究員,這方面至今沒有明確的法律界定。而隱私問題,往往是患者最關注的,當患者未同意披露個人隱私時,醫師很難完全保證模型對其潛在信息做到完全規避。而且當患者選擇后期數據撤回時,也無法完全消除在模型開發時數據輸入所帶來的影響。
總之,盡管目前機器學習下的自動化冠脈鈣化研究還存在很多不足,但無可否認的是,處于AI時代下的心血管診斷領域,不管是綜合信息識別,還是提供臨床決策支持,一系列臨床路徑都有得到精簡和改善。在未來,多學科、多專業的合作是關鍵。一方面,我們需要找到可平衡冠脈鈣化評估模型中數據選擇的解決方案;另一方面,更需要兼顧臨床需求、應用場景等因素,優化冠脈鈣化診斷模型的穩定度與準確度,讓更多的人群受益。