高永晴 周 祥 劉東旭 徐 宵 董子唯 賀 佳,2△
【提 要】 目的 通過使用雙因素混合效應方差分析的ORH(obuchowski-rockette-hillis,ORH)方法,評價人工智能輔助臨床診斷試驗多閱片者的診斷結果。方法 選擇400例疑似肋骨骨折患者的CT圖像,其中經專家(金標準)確診骨折188例,未骨折212例。分別采用兩種不同方式閱片:一是3位低年資醫生單獨進行閱片;二是先使用人工智能(artificial intelligence,AI)輔助檢測軟件標記疑似骨折區域后,再由3位低年資醫生閱片,簡稱AI+醫生閱片。最后對其靈敏度和特異度進行分析。結果 將單獨醫生閱片和AI+醫生閱片的結果分別與金標準閱片結果進行一致性比較:AI+醫生閱片檢出骨折靈敏度優于單獨醫生閱片,AI+醫生閱片檢出骨折特異度非劣效于單獨醫生閱片。利用ORH方法分別估計并比較兩種閱片方式:AI+醫生閱片與單獨醫生閱片檢出骨折靈敏度差值的95%置信區間為0.303(0.273,0.334);特異度差值及置信區間為-0.014(-0.076,0.048)。結論 對于多閱片者的肋骨骨折閱片診斷試驗,可以使用ORH方法對其進行評價,本文的“AI+醫生閱片”方法可以有效地提高低年資醫生對肋骨骨折診斷的準確度。
人工智能(artificial intelligence,AI)可以用于醫學影像輔助診斷[1],通過幫助醫生定位病灶、分析病情[2],可以提高診斷的準確度[3-4]。評價人工智能輔助檢測軟件的診斷試驗,常用統計指標是靈敏度和特異度[5]。由于不同放射科醫生之間閱歷、知識水平和操作能力存在差別,而患者之間的疾病表現、正常結構也存在差異[6],這些差異影響醫生給出準確的閱片結果,最終影響對輔助診斷軟件有效性的評價。為此,通常推薦采用多閱片者研究設計,即多名閱片醫生都以兩種閱片方式(AI聯合醫生閱片和單獨醫生閱片)閱讀每份患者的影像數據,控制閱片的難度和兩種閱片方式所涉及的其他混雜因素[7]。本文針對骨折輔助檢測軟件,臨床試驗采用3位低年資醫生對全部病例重復閱片,使用雙因素混合效應方差分析模型的ORH(obuchowski-rockette-hillis)方法,評估閱片醫生對其診斷的準確度。
選擇2019年6月至2019年9月來自兩家某三甲醫院因胸部外傷行急診CT掃描的400例患者的CT圖像,經過放射科專家閱片(金標準)診斷為有肋骨骨折188例,無肋骨骨折212例。研究的人工智能產品為骨折輔助檢測軟件,對于肋骨骨折CT檢查的患者,CT掃描后的圖像自動發送到AI服務器進行處理,AI返回的結果自動接入結構化報告中,醫生閱片時可在報告看到AI結果,做出診斷。具體操作由3位影像放射科專家(工作經驗>10年)對肋骨骨折CT圖像進行評價,取大于等于2位放射科專家一致的閱片結果作為“金標準”結果。再選擇3位低年資醫生(工作經驗<10年)以兩種閱片方式閱全部病例:一種為單獨醫生閱片,另一種為骨折輔助檢測軟件聯合醫生閱片(即AI+醫生聯合閱片),兩種閱片方式的順序隨機,中間設置1個月洗脫期。診斷試驗的數據如表1和表2。

表1 靈敏度分析數據(骨折患者)

表2 特異度分析數據(非骨折患者)
ORH方法可以用于分析多閱片者多病例研究設計ROC療效指標[8-10],也可用于分析靈敏度、特異度[11]。本研究主要使用ORH方法分析靈敏度和特異度。

θij=μ+τi+Rj+(τR)ij+ij
(1)


(2)
當已知Cov2和Cov3時,用于閱片方式效果的零假設(H0:τi=0;i=1,…,t)的實際使用的檢驗統計量是:
(3)
其中MS(T)是閱片方式的均方:
(4)
用MS(T*R)表示閱片方式與閱片者交互作用的均方,即
(5)
(6)
現用θi表示閱片方式i的預期閱片者性能指標,給出θi估計的(1-α)100%的置信區間;
(7)
(8)
df2=
(9)
為了比較不同閱片方式的準確度,給出θ2-θ1估計的(1-α)100%的置信區間;
(10)

(11)
k=1時給出的是協方差矩陣的無偏估計∑c|r=Sc|r/Nc。
上述ORH方法可以使用Octave 6.1.0軟件的iMRMC_Binary程序實現,該軟件由美國食品與藥品管理局(FDA)的Chen和Wunderlich編寫。
本研究共納入400例來自不同受試者的影像資料,總的閱片結果見表3。在564例骨折的CT影像數據中,單獨醫生共檢出骨折342例;AI+醫生檢出骨折513例:在636例未骨折的CT影像數據中,單獨醫生的閱片結果為未骨折585例;AI+醫生的閱片結果為未骨折576例。

表3 肋骨骨折檢出性能分析
使用ORH方法對單獨醫生組閱片和AI+醫生組閱片兩種診斷方式進行分析,結果見表4。

表4 對肋骨骨折CT的兩種不同診斷方式的診斷試驗分析結果
本研究結果顯示,兩種診斷方法的準確度明顯不同,其中AI+醫生組閱片診斷肋骨骨折的靈敏度和特異度分別為0.910和0.906,而單獨醫生閱片分別為0.606和0.920。兩者靈敏度的差值為0.303(95%CI:0.273,0.334),特異度的差值為-0.014(95%CI:-0.076,0.048),說明AI+醫生組閱片的靈敏度優效于單獨醫生閱片,AI+醫生組閱片的特異度非劣效于單獨醫生閱片(優效界值為0,非劣效界值為-0.1)。同時,也可以看到3個不同的閱片者之間具有一定的差異。
使用ORH方法的主要目的是在有多閱片者相關結構的診斷試驗中,可以有效地對標準進行過估計,從而可以對診斷試驗的準確度進行正確的估計。ORH模型屬于兩因素方差分析模型,已有的研究表明,通過改進ORH方法中的自由度估計,ORH方法在某些情況下等效于三因素混合效應方差分析模型[9-10],有研究也證實了這一觀點。ORH模型包含固定的閱片方式效應和隨機的閱片者效應和閱片者與閱片方式的交互效應,通過方差分析模型誤差相關性,可以將患者視為隨機因素[12],利用這一模型還可以對關注的指標進行假設檢驗。