劉未央,張培芳,高雨霏,陳 煦,林錫祥,楊菲菲,汪安安,何昆侖
1 北京安德醫智科技有限公司,北京 101300;2 醫療大數據應用技術國家工程研究中心,北京 100853;3 解放軍總醫院醫學創新研究部 醫學大數據研究中心,北京 100853;4 解放軍總醫院第四醫學中心 心內科,北京 100048
超聲心動圖是診斷心臟結構和功能的一線影像學手段,在臨床應用廣泛。但由于超聲心動圖需要手工測量,參數眾多,人力不足[1-8]。近年來人工智能技術,特別是深度學習神經網絡,被廣泛應用于超聲心動圖智能識別領域,包括心腔結構的自動分割、心臟參數的自動獲取以及心臟疾病的自動診斷,大大提高了超聲心動圖的診斷效率,臨床應用前景可觀[1-3,6-7]。研發自動識別超聲心動圖特征的AI模型時,需要超聲醫生對大量超聲心動圖影像進行精確和分割輪廓勾畫,AI通過學習的準確率可以達到三甲醫院高年資超聲醫生水平。然而,AI模型的性能主要受超聲圖像勾畫質量的制約,直接影響AI模型在臨床實踐中的成敗。目前未看到針對超聲心動圖心腔勾畫質量的相關研究,尤其是勾畫質量定量分析的研究[1,3,6,8]。本文通過研究超聲心動圖影像的左心室內膜分割勾畫質量,并對對勾畫質量進行客觀、精確的定量評估,分析圖像質量對勾畫質量的影響以及醫學影像分析師再培訓對勾畫質量的影響,并提出控制“人為差異”的質控方法,為類似超聲心動圖AI研究提供參考。
1研究對象 從解放軍總醫院病例庫中隨機選取2021年6 - 8月442例患者的超聲心動圖心尖二腔(apical 2-chamber,A2C)和心尖四腔切面(apical 4-chamber,A4C)影像(包含Phillips等多機型)。442例患者的影像資料不包括年齡和性別信息。為了粗略估計他們的性別和年齡分布,課題組選取2021年10 - 12月超聲心動圖病例庫的分布[總共3 753例,男性2 059例,占54.86%,女性1 694例,占45.14%,中位年齡60歲(1 ~ 100歲)]作為參考。
2超聲影像評價人員分組 課題組選取3名三甲醫院高年資超聲心動圖醫生。第一名是副主任技師,有18年超聲心動圖臨床經驗;第二名是技師,有12年超聲心動圖臨床經驗;第三名是主治醫師,有12年超聲心動圖臨床經驗。課題組同時選取4名被解放軍醫學院聘用的醫學影像分析師(女性)。她們主要分析X線片和CT成像以及磁共振和超聲心動圖影像,在影像分析領域有至少3年以上工作經驗,具備基礎醫學知識,在標注任務之前進行了3個月的超聲心動圖專業培訓。
3數據集構建 如圖1所示,由三甲醫院高年資超聲醫生把原始超聲圖像根據質量分成三個等級(好、中、差)。分級標準:左心室內膜邊緣顯示完整,圖像對比度好,無明顯偽影,評為“好”;左心室內膜邊緣顯示嚴重缺失,噪聲大,有明顯偽影,評為“差”;介于“好”與“差”之間的圖像,評為“中”。圖像質量標簽的建立過程:高年資醫生用LabelMe軟件打開一個超聲心動圖A2C或者A4C切面視頻,通常含3個完整心動周期,約100幀圖像;高年資醫生根據經驗找出擁有最高質量的一個心動周期影像,給這段影像一個質量標簽(好、中、差)。

圖1 好、中、差三個等級圖像質量的原始圖像和雙輪廓勾畫圖像對比范例圖Fig.1 Example diagram of comparison between original image and double contour sketch image with good, medium and bad quality
4輪廓勾畫參考標準 超聲心動影像的人工勾畫質量除了受超聲圖像質量影響,還與醫學影像分析師對超聲心動圖的認知、經驗等密切相關。對于左心室內膜的輪廓勾畫,目前沒有統一的標準。因此,為了研究醫學影像分析師輪廓勾畫水平的量化方法,請3名三甲醫院高年資超聲心動高年資醫生分別對每組超聲心動圖數據的A2C和A4C切面視頻進行輪廓勾畫,包括選取舒張末和收縮末期相,對相應期相的超聲圖像勾畫左心室內膜。每例輪廓勾畫由另外2名高年資醫生(非輪廓勾畫高年資醫生)審核,當2名審核高年資醫生一致同意時該輪廓勾畫數據成為參考標準;當2名審核高年資醫生的意見不一致時,由1名更高年資的仲裁高年資醫生面對面共同討論決定,最后形成輪廓勾畫參考標準。他們標注全部442例影像數據集。醫學影像分析師的左心室內膜勾畫質量將以此參考標準為基準進行評估。
5勾 畫 質 量 評 估 指 標 在AI分 割 任 務 中,Dice值通常用來衡量AI模型與參考標準的差異,同理也可以用來衡量人工輪廓勾畫與輪廓參考標準的差異,是描述輪廓相似度的一種指標[9]。Dice值定義如下:其中A代表人工輪廓勾畫左心室內膜輪廓內的面積,B代表參考標準左心室內膜輪廓內的面積。Dice值代表兩個輪廓的重合度,Dice值越高,勾畫質量越高,Dice值最大值為1。

6左 心 室 射 血 分 數(left ventricular ejection fraction,LVEF)計算方法 LVEF是超聲醫生用來診斷心臟疾病和評價心臟功能的關鍵指標之一,基于二維超聲心動圖計算LVEF的最準確方法是雙平面辛普森(Simpson)法[3,8,10]。超聲醫生需要對相應切面視頻通過目測找出舒張末和收縮末圖像,手動描記左心室內膜輪廓,根據雙平面辛普森法計算舒張末容積(EDV)和收縮末容積(ESV)[3,11-14],如下公式所示:

其中n代表左心室橫截線的個數(如取值20),ai代表A4C切面左心室橫徑長度,bi代表A2C切面左心室橫徑長度,L代表A4C切面左心室縱徑長度。我們可以通過左心室內膜的人工輪廓勾畫來計算LVEF,并用醫學影像分析師的輪廓勾畫生成的EF(即LVEF)與參考標準輪廓勾畫生成的EF的誤差來衡量醫學影像分析師勾畫質量[15]。
7培訓過程 A2C切面和A4C切面的左心室內膜輪廓勾畫培訓過程如下。首先,由三甲醫院高年資超聲醫生講述如何識別左心室二尖瓣的打開和關閉、乳頭肌、腱索和正常心肌,然后勾畫左心室內膜輪廓。醫學影像分析師按照高年資醫生的講解對左心室內膜進行勾畫,在LabelMe軟件中,從左心室內膜邊緣的瓣根部出發,運用鼠標沿順時針依次勾畫內膜邊緣點,直到最后一個點與第一個點重合,形成閉合的左心室內膜輪廓。高年資醫生對醫學影像分析師的勾畫結果進行逐一審核并指出問題,提升醫學影像分析師的勾畫準確性。第一次培訓,高年資醫生指導醫學影像分析師勾畫100例數據,學習并分析勾畫差異的原因,這個過程持續兩個星期,考核合格后醫學影像分析師開始第一次勾畫測試(442例數據),形成的輪廓勾畫數據稱為“第一次標注”。針對其中存在的共性和普遍問題,進行第二次培訓。高年資醫生繼續指導醫學影像分析師分析另外100例數據,過程持續兩個星期,考核合格后進行第二次勾畫測試(442例數據)。在兩次培訓后考核醫學影像分析師勾畫圖片計算出來的EF值與高年資醫生輪廓勾畫圖片計算出來的EF值的接近程度。每名醫學影像分析師在“第一次標注”的圖像質量分布和“第二次標注”的圖像質量分布是一致的。培訓流程如圖2所示。

圖2 勾畫質量控制流程(標注人員為醫學影像分析師,標注數據為超聲心動圖影像)Fig.2 Flow chart of contour delineation quality control process(Labeling people are medical imaging analysts, and labeled data are the echocardiographic images)
8分析指標 1)考察圖像質量(好、中、差)對醫學影像分析師勾畫質量的影響。2)考察醫學影像分析師的再培訓對其勾畫質量的影響。
9統計學方法 將所有醫學影像分析師經過兩次培訓后的舒張末(ED)輪廓勾畫與參考標準相比,并且按照3個圖像質量評級(好、中、差)分別進行統計,計量數據以Md(IQR)、最大值和最小值表示。
1超聲圖像質量對醫學影像分析師勾畫質量的影響 如圖3所示,經過第二次培訓后,總共有404例患者的影像被醫學影像分析師標注,圖像質量分布“好”45例、“中”158例、“差”201例。舒張末Dice中位數隨著圖像質量降低而顯著降低,“好”圖像質量對應的Dice中位數為0.941,“中”為0.936,“差”為0.928。隨著圖像質量按照好、中、差降低,舒張末Dice值的四分位距越來越大,“好”對應的四分位距為0.022,“中”為0.039,“差”為0.040。醫學影像分析師經過兩次培訓后的收縮末(ES)輪廓勾畫輪廓與參考標準相比隨著圖像質量降低并不呈正比例降低,“好”圖像質量對應的Dice中位數為0.918,“中”為0.92,“差”為0.902,而且收縮末Dice中位數顯著低于舒張末Dice中位數。隨著圖像質量(好、中、差)降低,收縮末Dice值的變化幅度也不呈比例變化,“好”對應的四分位數為0.059,“中”為0.048,“差”為0.062。提示了對于收縮末期,高級醫生與醫學影像分析師勾畫的差異與圖像質量無關。

圖3 與參考高年資超聲醫師相比,醫學影像分析師兩次培訓后在好、中、差圖像上勾畫左心室內膜輪廓4的Dice值的箱形圖。(a)表示舒張末期相的Dice值,(b)表示收縮末期相的Dice值Fig.3 Boxplots of Dice coefficients between labelers and experienced sonographer for left ventricular endocardial border length delineation by image quality at end-diastole (a) and end-systole (b) after the two training sessions
2醫學影像分析師再培訓對勾畫質量的影響 如圖4所示,所有箱形圖的縱坐標軸表示EF差值(輪廓勾畫所得的EF值-參考標準EF值,用?EF表示),其下限和上限被設定為-70%和30%,4名醫學影像分析師以a、b、c、d表示。第一次培訓后,a標記樣本為81個,b標記樣本為82個,c標記樣本為81個,d標記樣本為106個。第二次培訓后,a標記樣本為139個,b標記樣本數量為72個,c標記樣本為51個,d標記樣本為58個。每名醫學影像分析師標記樣本中“好”、“中”和“差”分布趨勢一致。由第一行箱形圖可見,第一次培訓后4名醫學影像分析師的?EF中位數分別為-6.488%、-10.106%、-7.772%、-6.702%;由第二行箱形圖可見,第二次培訓后4名醫學影像分析師的?EF中位數分別為0.423%、-4.403%、-4.208%、-0.686%,更加接近理想的零值。由此可見,第二次培訓提升了所有4名醫學影像分析師的?EF中位數,其中3名提升大約6%,1名提升3.6%。在?EF四分位差方面,第一次培訓后4名醫學影像分析師分別達到14.542%、15.796%、17.489%、15.486%,第二次培訓后分別達到10.277%、12.245%、11.12%、7.562%。由此可見,第二次培訓縮小了所有4名醫學影像分析師的?EF四分位差,分別為4.3%、3.6%、6.4%、7.9%。

圖4 四名醫學影像分析師在第一次(上)和第二次(下)培訓后輪廓勾畫所得的EF值與參考標準EF值的差值箱形圖。每列對應一名醫學影像分析師,以a、b、c、d表示Fig.4 Ejection fraction (EF) difference between labelers and reference for four different labelers, and the first row indicates contour delineation quality after the first training and the second row indicates contour delineation quality after the second training. Each column corresponds to one labeler, denoted by medical imaging analyst a, medical imaging analyst b, medical imaging analyst c, and medical imaging analyst d
3不同超聲圖像質量的輪廓勾畫范例 如圖5所示,a組(好)圖像對比度高,邊緣清晰,醫學影像分析師的兩次勾畫輪廓與參考標準輪廓無明顯差異。b組(中)圖像有明顯的晃動偽影,且左心室內膜顯示不完整,醫學影像分析師第一次勾畫輪廓與參考標準差異大,而第二次勾畫輪廓與參考標準差異明顯縮小。c組(差)圖像左心室內膜模糊不清,顯示不完整,且有更加明顯的偽影,醫學影像分析師的第一次勾畫輪廓與參考標準差異很大,雖然第二次勾畫輪廓更加接近參考標準,但差異依然偏大。

圖5 醫學影像分析師好、中、差圖像質量分級的輪廓勾畫示例:原始(左上)、參考標準(右上)、第一次培訓后輪廓勾畫(左下)、第二次培訓后輪廓勾畫(右下)A:“好”圖像質量的輪廓勾畫范例(收縮末);B:“中”圖像質量的輪廓勾畫范例(收縮末);C:“差”圖像質量的輪廓勾畫范例(舒張末)Fig.5 Examples of labeled data with different image quality: original (top left), the reference contour delineation by experienced doctors (top right), the post-first-training contour delineation (bottom left), and the post-second-training contour delineation (bottom right)A: contour delineation example of "good" image quality (end systole); B: contour delineation example of "medium" image quality (end systole); C: contour delineation example of "bad" image quality (end diastolic)
本研究首次通過多維度對比研究,定量評價了圖像質量對勾畫質量的影響,定量評估了針對性的輪廓勾畫再培訓后醫學影像分析師的勾畫質量提升效果。對于圖像質量對勾畫質量的影響,圖像質量越好,舒張末Dice值的中位數和四分位數間距越好。然而,收縮末Dice值不同于舒張末Dice值,收縮末Dice值較舒張末Dice值明顯偏低,收縮末Dice值對于“好”圖像質量和“中”圖像質量沒有顯著區別。
本研究發現,舒張末左心室內膜輪廓由于心肌組織較為松馳,超聲圖像的心肌心腔對比度下降,醫學影像分析師對內膜輪廓的判斷受圖像質量的影響明顯;加之舒張末左心室面積最大,即使小的輪廓誤判也會造成左心室面積的絕對值有明顯的改變(導致Dice值的明顯改變),因而導致舒張末Dice值對圖像質量很敏感。相反,收縮末心肌組織較為密集,超聲圖像的心肌心腔對比度偏高,“好”和“中”的圖像質量在收縮末趨同,只有“差”的圖像才會導致醫學影像分析師對收縮末內膜輪廓的明顯誤判。同時,收縮末Dice中位數較舒張末Dice中位數偏低的原因是醫學影像分析師對收縮末內膜輪廓的判斷出現了系統性的偏差,普遍比參考標準偏小。
在研究醫學影像分析師輪廓勾畫再培訓對勾畫質量的影響過程中,我們有3個發現:1)醫學影像分析師的?EF普遍為負值,說明醫學影像分析師的EF值普遍較高年資醫生的參考標準偏低,此為系統性偏差;2)輪廓勾畫再培訓提升了4名醫學影像分析師與參考標準的?EF,其中位數提升3.5% ~ 6.0%,其四分位數間距提升3.5% ~ 7.9%;3)輪廓勾畫再培訓對4名醫學影像分析師的提升效果各不相同,醫學影像分析師(d)的提升效果最顯著(?EF中位數提升6%,?EF四分位數間距提升7.9%)。
我們發現,醫學影像分析師在培訓的兩個月輪廓勾畫水平進步迅速,但培訓過后繼續更多的訓練,輪廓勾畫水平提升緩慢。根據Yang等[1,7,15-16]研究,深度學習模型訓練中依賴大量的標簽化數據,這就需要花費大量時間進行輪廓勾畫,且如果數據有限或算法復雜,則可能會過度擬合,導致預測偏差。
圖像質量差的超聲心動圖往往是由于患者病情復雜、患者特殊身體條件、采圖醫生操作技能、采圖探頭和超聲信號處理算法的局限性等造成的。這些質量偏差的超聲心動圖在臨床上占比偏大,所以不能從本研究中排除[17-18]。如何獲得這些超聲心動圖勾畫的參考標準是超聲心動圖AI研究的難點之一。超聲心動圖AI產品的臨床價值在于,通過學習三甲醫院高年資超聲醫生對超聲心動圖的判讀,從而達到高年資超聲醫生的水平,將超聲醫生從繁重的重復性工作中解脫出來,大大提高臨床效率,解決普遍存在的人為差異大的問題。所以本研究中采用了3名高年資超聲醫生對左心室內膜的一致輪廓勾畫為參考標準,是課題組在權衡各種條件限制后找到的最優方案。
本研究存在一定的局限性。首先,對于人眼觀察來判斷三個圖像質量分級(好、中、差),這種主觀性判斷不夠科學、精確。未來課題組還將定義多個圖像質量鑒別標簽,研究多維度、定量化地表達超聲圖像質量等級,從而更加科學地提高醫學影像分析師的勾畫質量,研發超聲影像質量領域的AI算法。課題組還將針對不同廠家設備和不同機型的超聲圖像進行輪廓勾畫的質量評價。根據Yang等[7]研究,在數據采集方面,不同疾病超聲圖像采集的切面和數目不同,視頻長度也有差異,因此建立標準化的超聲心動圖圖像采集流程至關重要。在準確的超聲心動圖輪廓勾畫數據集的基礎上,課題組將研究心腔輪廓分割AI模型[5-7],進而還有針對多種任務的模型,包括圖像質量分類模型、切面快速識別模型、心臟疾病鑒別診斷模型等。
本研究花費最少時間、投入最小成本,考察了圖像質量對超聲醫生勾畫質量的影響;課題組能夠快速得知醫學影像分析師的培訓效率。我們把圖像質量分類為好、中、差三個檔次分別進行輪廓勾畫評估,醫生在短時間內就完成了442例樣本的質量分類。在接下來的培訓流程設計中,應更加有效地培訓盡可能多的醫學影像分析師,為判斷超聲輪廓勾畫醫生數量的需求和培訓程序的進一步優化提供了理論指導。
利益沖突:作者沒有利益沖突需要聲明。