孟祥峰,王浩,張超,任海萍
中國食品藥品檢定研究院 光機電室,北京 100050
當前以深度學習[1-2]為代表的人工智能技術已廣泛用于醫療領域,如糖網篩查[3-6],這些技術本質決定了訓練集的質量對人工智能(Artificial Intelligence,AI)產品的核心算法性能有重要影響,醫學AI使用的訓練集數據[7-8]區別于其他領域,需要獲得倫理批準,圖像獲得后還需進行標注等處理以獲得“金標準”,建設周期長,成本高。此外,國內外也沒有相關標準和規范對AI訓練集的質量進行約束,不同國家、地區、機構建立的訓練集的起源、數據質量、可溯源性、標注的參考標準、數據多樣性往往存在較大差異。因此在訓練數據集數量不足、數據質量參差不齊的情況下,AI的性能本身就受到了很大的限制。
AI軟件在特定訓練集訓練或測試時,會得到很好的效果,然而在新的數據集上的表現就很難保證,這也說明其泛化能力差,容易出現過擬的現象。一旦數據出現“噪聲”的擾動,魯棒性能差的AI就可能產生系統性的質量問題,這對于AI企業、醫生、患者,甚至整個行業將造成損失和浪費。
實際上對于糖網AI的訓練集即眼底圖像,在獲取、傳輸過程中本身的格式、分辨率等有可能發生改變,甚至AI軟件本身為了節省計算機資源,也會對圖像進行預處理(如壓縮、圖像背景裁剪等),這對于軟件就是一種擾動,圖像在人的視覺上可能和原始的圖像不可區分,但對于AI,圖像擾動帶來的變化是敏感的,很可能會對最終的決策產生影響。
目前對于醫療AI產品的算法評價多采用“黑盒”測試的方式。由于AI軟件系統對數據的處理、計算和決策過程對用戶是不可見的,因此可從AI軟件的輸入、輸出端入手,在輸入端(即測試數據集)采取圖像變換的形式(如圖像壓縮、背景裁剪、濾波等),模擬圖像采集過程中實際存在的圖像改變,進而觀察輸出的變化。這個過程也是對AI軟件的對抗攻擊過程,通過模擬對抗測試[9],實現人工智能醫療器械在實際使用時的風險和可靠性評價。
本文采用實際臨床100張眼底圖像,對AI軟件進行模擬對抗測試,原始圖像分類[10-16]與分布,見表1。
分別對原始圖像進行圖像壓縮、圖像背景裁剪、圖像平滑濾波變換。
(1) 圖像壓縮。使用雙三次插值,將原始圖像等比壓縮,比例范圍為50%~100%,步長5%,將原始100張圖像分成11組,總共1100張圖像。
(2) 圖像背景裁剪。在原始圖像兩側分別填充黑色背景,尺寸為0~100像素,步長10像素,將原始100張圖像分成11組,總共1100張圖像。
(3)圖像平滑濾波。使用moving average濾波,卷積核1~21個像素的均一矩陣,步長2像素,將原始100張圖像分成11組,總共1100張圖像。
對以上3種變換共3300張圖像在3種算法上進行測試,算法均為轉診篩查功能。表1中0、1、5、6類為金標準的陰性,2、3、4類為金標準的陽性。當算法將表1中圖像判為不轉診時,即為AI算法的陰性;判為轉診時,即為AI算法的陽性。對每種算法每種變換的每組結果給出混淆矩陣,見表2。
計算靈敏度與特異性,靈敏度特異性計算公式如式(1)~(2)所示。
靈敏度:

特異性:

式中,N1,1為真陽性的數量,即被AI算法正確地預測為陽性的眼底數據;N1,2為假陽性的數量,即被AI算法錯誤的預測為陽性的眼底數據;N2,1為假陰性的數量,即被AI算法錯誤的預測為陰性的眼底數據;N2,2為真陰性,即被AI算法正確地預測為陰性的患者數據。

表2 AI測試結果的混淆矩陣
經三個AI算法的原始圖像及圖像壓縮處理后的圖像的測試結果分別如圖1~3所示。從圖1可以看出,圖像壓縮的變化對算法1的靈敏度和特異性引起的變動不大,然而對于算法2(圖2)和算法3(圖3),隨著圖像分辨率的降低,靈敏度出現下降,特異性出現上升。對于醫生,圖像分辨率越高,可能越有利于讀圖的準確率,然而對于算法2和算法3,靈敏度和特異性的變化趨勢相反,需要研發者進行權衡。
經三個AI算法的原始圖像及背景裁剪處理后圖像的測試結果分別見圖4~6。圖像背景裁剪變化的是圖像上的黑色背景,即圖片中不包含眼底信息的部分,客觀上也能節省AI的計算資源,同時不影響醫生對于圖像的判斷。然而AI產品的響應出現了波動。測試結果顯示,算法1的靈敏度保持平穩,特異性的變化小于2%(圖4);算法2和算法3(圖5~6)的靈敏度和特異性都有5%左右的波動。這也說明非病灶區的圖像變化對AI產品也會造成影響,AI魯棒性應引起注意。
經三個AI算法的原始圖像及平滑濾波處理后的圖像的測試結果分別如圖7~9所示。圖像平滑濾波作為常見預處理算法,一般是用于抑制圖像獲取時所產生的高頻噪聲或偽影,尤其對于糖網1期和2期的判斷,高頻噪聲可能會影響微血管瘤和出血點的識別。根據測試結果,對于算法1,隨著平滑濾波卷積核的增大(意味著濾波器截止頻率下降),靈敏度和特異性均有下降(圖7);對于算法2和算法3平滑濾波卷積核越大,靈敏度越低,特異性越高(圖8~9)。
從每個算法的性能變化角度看,對于算法1,圖像壓縮、圖像背景裁剪對靈敏度幾乎無影響,特異性有輕微波動,波動量在3%以內;平滑濾波引起靈敏度和特異性同時下降,波動量達10%左右;算法2和算法3圖像壓縮、圖像平滑濾波操作客觀上導致圖像空間頻率降低,引起靈敏度下降,特異性上升,波動量接近20%;圖像背景裁剪引起結果的小幅波動,波動量在5%以內。

表1 模擬對抗測試用原始數據集分類與分布

圖1 算法1圖像壓縮后靈敏度及特異性變化曲線

圖2 算法2圖像壓縮后靈敏度及特異性變化曲線

圖3 算法3圖像壓縮后靈敏度及特異性變化曲線

圖4 算法1圖像背景裁剪處理后靈敏度及特異性變化曲線

圖5 算法2圖像背景裁剪處理后靈敏度及特異性變化曲線

圖6 算法3圖像背景裁剪處理后靈敏度及特異性變化曲線

圖7 算法1圖像平滑濾波處理后靈敏度及特異性變化曲線

圖8 算法2圖像平滑濾波處理后靈敏度及特異性變化曲線

圖9 算法3圖像平滑濾波處理后靈敏度及特異性變化曲線
本次實驗使用臨床數據模擬了幾種圖像預處理對眼底圖像引起的變化,包括為了節約內存而進行的圖像等比壓縮、因軟件而異的圖像黑色填充比例調節,以及為了降低圖像噪聲的圖像平滑處理。三種待測算法在測試中的表現具有明顯差異。
綜合來看,算法1在本次實驗中性能的穩定程度優于算法2和3。三種圖像預處理中,圖像平滑濾波對AI結果的影響最大,說明降噪需謹慎處理。考慮到部分眼底相機或AI軟件本身就具有降噪的功能,研發人員應當關注這些功能對AI算法的訓練和優化帶來的影響。黑色背景填充本身雖然與病灶無關,但對魯棒性也有一定影響,在兼顧硬件運行效率的同時應權衡其帶來的風險。
隨著AI技術在醫療領域的飛速發展,醫療AI的種類也越來越多,應用在各個領域,如骨科、消化科、眼科、胸科等多個領域,對測試集的需求越來越大,對數據來源、采集設備、試驗條件、人員操作、預期人群等多樣性的要求也越來越高。從以上試驗結果可以看出,對抗測試的方法對于比較不同AI軟件性能的差異提供了一個新的維度,對于客觀評價醫療AI軟件魯棒性提供了一種有效思路,這也擴展了使用單一測試集評價產品的能力。理想情況下,用于AI產品質量評價的數據集應無限大,包含人群、設備、場景等各種多樣性以及可預見的數據波動。然而,受制于實際條件和成本,數據集難以包含真實世界的所有情況。采用模擬對抗的方式,有針對性地對樣本進行擴充,有希望以較低的成本提高測試的科學性和發現產品質量風險的能力,值得繼續深入。