徐可,石波,周春美,曾卓華,謝楊,劉家開
成都醫(yī)學院第二附屬醫(yī)院·核工業(yè)四一六醫(yī)院 超聲醫(yī)學科,四川 成都 610057
近年來的研究表明,成年人中甲狀腺結(jié)節(jié)的患病率高達65%,其中甲狀腺癌又是一類高發(fā)的惡性腫瘤,因此對甲狀腺結(jié)節(jié)性質(zhì)的準確判斷顯得尤為重要[1-2]。超聲因其簡單、無創(chuàng)、快速、便攜等優(yōu)勢已廣泛應用于甲狀腺結(jié)節(jié)的篩查與診斷中[3]。甲狀腺結(jié)節(jié)診斷指南是判斷結(jié)節(jié)良惡性的重要依據(jù)與標準,結(jié)合我國國情,2020年中華醫(yī)學會超聲醫(yī)學分會淺表器官與血管小組制訂并推出《2020甲狀腺結(jié)節(jié)超聲惡性危險分層中國指南:C-TIRADS》[4]。林蔚等[5]研究發(fā)現(xiàn),中國(超聲)甲狀腺影像報告和數(shù)據(jù)系統(tǒng)(Chinese Thyroid Imaging Reporting and Data System,C-TIRADS)評估甲狀腺結(jié)節(jié)時有較高的敏感性。近年來人工智能(Artificial Intelligence,AI)技術(shù)得到了快速的發(fā)展,Lee等[6]利用VGG激活模型圖開發(fā)了一個用于定位和區(qū)分轉(zhuǎn)移性淋巴結(jié)的AI預測模型,該模型預測淋巴結(jié)轉(zhuǎn)移的靈敏度、特異性、準確率分別為79.5%、87.5%、83.0%,與李盈盈等[7]研究的AI預測模型診斷效能相近。Peng等[8]研究發(fā)現(xiàn),深度學習AI模型(ThyNet)輔助策略可以顯著提高超聲科醫(yī)生的診斷能力,并有助于減少甲狀腺結(jié)節(jié)不必要的穿刺。雖然AI技術(shù)在醫(yī)學影像診斷方面已展現(xiàn)出一定優(yōu)勢,但尚處于起步階段,有其自身的局限性,如產(chǎn)品性能不穩(wěn)定、容易受超聲圖像質(zhì)量及圖像采集標準化影響,從而使判讀結(jié)果的準確性大大降低,因此不能直接作為參考標準[9]。本研究旨在探討AI診斷系統(tǒng)聯(lián)合醫(yī)師C-TIRADS分類對甲狀腺結(jié)節(jié)以及不同大小結(jié)節(jié)的診斷效能,以期為臨床工作中最大程度地發(fā)揮AI輔助的診斷作用提供依據(jù)。
回顧性分析2020年10月至2021年5月于我院行甲狀腺超聲檢查并有病理結(jié)果的514例患者的臨床資料。納入標準:① 結(jié)節(jié)以實性或?qū)嵭圆糠譃橹鳎倚圆糠郑?5%)者;② 術(shù)前行超聲診斷且資料完整者;③ 手術(shù)或穿刺病理結(jié)果明確的甲狀腺結(jié)節(jié)者;④ 術(shù)前未行內(nèi)分泌、化療及放療、消融及同位素治療者。排除標準:① 超聲圖像質(zhì)量較差,對結(jié)節(jié)特征不能充分顯示者;② 病灶過多,不能區(qū)分病理結(jié)果者。最終224例患者入組,結(jié)節(jié)共225個,其中男性56例、女性168例,平均年齡(43.88±12.70)歲,結(jié)節(jié)最大長徑85 mm,平均長徑(21.54±16.14)mm。根據(jù)結(jié)節(jié)最大長徑分組,≤10 mm結(jié)節(jié)98個,>10 mm結(jié)節(jié)127個。所有患者均對本研究知情并簽署知情同意書,且通過本院倫理委員會審查(2016016)。
1.2.1 超聲檢查
采用法國聲科公司的SuperSonic Aixplorer超聲診斷儀,SL15-4探頭(頻率4~15 MHz),將探頭探查條件調(diào)整為甲狀腺模式,由1名高年資醫(yī)師進行甲狀腺超聲掃查,囑患者取仰臥位,充分暴露頸部,橫切、縱切動態(tài)掃查甲狀腺腺體,詳細記錄結(jié)節(jié)的大小、位置、形態(tài)、邊界、內(nèi)部回聲、形狀、縱橫比、有無鈣化等。結(jié)果判讀:由另外1名高年資醫(yī)師對結(jié)果進行判讀,當結(jié)果不一致時進行討論,以討論一致的結(jié)果作為最終診斷結(jié)果。嚴格按照《2020甲狀腺結(jié)節(jié)超聲惡性危險分層中國指南:C-TIRADS》[4]對結(jié)節(jié)進行分類,指南中對滿足垂直位、不規(guī)則、模糊、甲狀腺外侵犯、實性、極低回聲、微鈣化的結(jié)節(jié)各加1分,對伴有彗星尾征象的減1分,對1個結(jié)節(jié)全面評估后進行計數(shù)。-1分為2類結(jié)節(jié)(惡性風險0),0分為3類結(jié)節(jié)(惡性風險<2%),1分為4A類結(jié)節(jié)(惡性風險2%~10%),2分為4B類結(jié)節(jié)(惡性風險10%~50%),3~4分為4C類結(jié)節(jié)(惡性風險50%~90%),5分為5類結(jié)節(jié)(惡性風險>90%),6類結(jié)節(jié)為經(jīng)活檢證實為惡性結(jié)節(jié)。將≤4A類定義為良性,≥4B類定義為惡性[10]。
1.2.2 AI甲狀腺輔助診斷系統(tǒng)
AI甲狀腺輔助診斷系統(tǒng)由浙江德尚韻興公司研發(fā),該系統(tǒng)采用自主研發(fā)的深度學習框架DE-Light,只檢測灰階二維超聲圖,不檢測血流圖、彈性圖。由進行超聲掃查的同1名高年資醫(yī)師操作,操作前已經(jīng)過系統(tǒng)的AI操作培訓,分別于甲狀腺橫切面、縱切面采集圖像,該AI輔助診斷系統(tǒng)直接與采集卡對接,圖片實時進行傳輸,AI根據(jù)算法自動識別病灶,并圈畫出該結(jié)節(jié),同時給出結(jié)節(jié)良、惡性概率值,若發(fā)現(xiàn)AI無法自動識別結(jié)節(jié),醫(yī)師手動在輔助診斷系統(tǒng)勾畫靶區(qū)結(jié)節(jié),切忌隨意勾畫,必須沿著毛刺邊緣進行勾畫,不同切面系統(tǒng)給出的概率值不同,測量3次,取最高數(shù)值作為AI最終診斷結(jié)果,定義<0.6為偏良性,≥0.6為偏惡性。
1.2.3 聯(lián)合診斷
以C-TIRADS分類診斷結(jié)果為基礎,若AI診斷為惡性則上調(diào)一個類別,但5類不再上調(diào);若AI診斷為良性,則C-TIRADS分類下降一個類別,但2類不再下調(diào)。
采用SPSS 23.0和MedCalc 18.2.1軟件進行統(tǒng)計分析。以病理結(jié)果為金標準,繪制受試者工作特征(Receiver Operating Characteristic,ROC)曲線,計算各指標的靈敏度[即真陽性率=a/(a+c)]、特異性[即真陰性率=d/(b+d)],其中a代表真陽性,即病例組內(nèi)陽性的例數(shù);b代表假陽性,即對照組內(nèi)陽性的例數(shù);c代表假陰性,即病例組內(nèi)陰性的例數(shù);d為真陰性,為對照組內(nèi)陰性的例數(shù)。并計算約登指數(shù)(即正確指數(shù)=靈敏度+特異性-1)。ROC曲線下面積(Area Under Curve,AUC)>0.8表示指標具有良好的診斷效果,采用Z檢驗進行C-TIRADS分類、AI、AI+C-TIRADS分類的各評價指標的差異比較,以P<0.05為差異具有統(tǒng)計學意義。
225個結(jié)節(jié)中惡性結(jié)節(jié)占比58.2%,良性結(jié)節(jié)占比41.7%,良惡性結(jié)節(jié)病理類型及分布數(shù)量如表1所示。

表1 225個結(jié)節(jié)病理結(jié)果[n(%)]
225個結(jié)節(jié)中,醫(yī)師C-TIRADS診斷良惡性結(jié)節(jié)準確度為91.1%,AI診斷良惡性結(jié)節(jié)準確度為82.7%,AI+CTIRADS分類診斷良性結(jié)節(jié)準確度為95.1%,聯(lián)合診斷的準確度優(yōu)于2種方法單獨診斷,見表2。

表2 C-TIRADS分類、AI、AI+C-TIRADS分類的診斷結(jié)果及與病理對照
對于≤10 mm結(jié)節(jié),醫(yī)師C-TIRADS分類診斷良惡性結(jié)節(jié)準確度為81.6%,AI診斷良惡性結(jié)節(jié)準確度為89.8%,AI+C-TIRADS分類診斷良惡性結(jié)節(jié)準確度為98.0%,聯(lián)合診斷的準確度優(yōu)于2種方法單獨診斷,見表3。

表3 醫(yī)師C-TIRADS分類、AI、AI+C-TIRADS分類對≤10 mm結(jié)節(jié)的診斷結(jié)果與病理對照
對于>10 mm結(jié)節(jié),醫(yī)師C-TIRADS分類診斷良惡性結(jié)節(jié)準確度為98.4%,AI診斷良惡性結(jié)節(jié)準確度為77.2%,AI+C-TIRADS分類診斷良惡性結(jié)節(jié)準確度為92.9%,醫(yī)師C-TIRADS分類診斷的準確度優(yōu)于其余2種診斷方法,見表4。

表4 醫(yī)師C-TIRADS分類、AI、AI+C-TIRADS分類對>10 mm結(jié)節(jié)診斷結(jié)果與病理對照
AI+C-TIRADS分類診斷特異性(95.74%)、約登指數(shù)(0.9040)、AUC(0.952)均高于醫(yī)師C-TIRADS分類診斷(Z=2.085,P=0.037)及 AI診斷(Z=5.547,P<0.001);醫(yī)師C-TIRADS分類診斷靈敏度(96.95%)及AUC(0.900)高于AI單獨診斷(Z=2.054,P=0.040),差異有統(tǒng)計學意義(P<0.05),見表5和圖1。

圖1 3種診斷方法對總體ROC曲線

表5 醫(yī)師C-TIRADS、AI、AI+C-TIRADS分類對總體診斷效能比較
對于≤10 mm結(jié)節(jié),AI+C-TIRADS分類診斷靈敏度(98.36%)、特異性(97.3%)、約登指數(shù)(0.9566)、AUC(0.978)均高于AI(Z=2.828,P=0.005)及醫(yī)師C-TIRADS分類診斷(Z=4.185,P<0.001);AI診斷的特異度(89.19%)、約登指數(shù)(0.7940)、AUC(0.897)高于醫(yī)師C-TIRADS分類診斷(Z=1.993,P=0.046,差異有統(tǒng)計學意義(P<0.05),見表6和圖2~3。

圖2 3種診斷方法對≤10 mm結(jié)節(jié)ROC曲線

圖3 二維超聲甲狀腺左側(cè)葉≤10 mm結(jié)節(jié)超聲聲像圖及AI識別圖像

表6 醫(yī)師C-TIRADS分類、AI、AI+C-TIRADS分類對≤10 mm結(jié)節(jié)診斷效能比較
對于>10 mm結(jié)節(jié),C-TIRADS分類診斷的靈敏度(100%)、特異性(96.49%)、約登指數(shù)(0.9649)、AUC(0.982)均高于聯(lián)合診斷(Z=2.269,P=0.023)及AI診斷(Z=5.464,P<0.001);AI診斷的靈敏度(74.29%)、特異度(80.70%)、約登指數(shù)(0.5499)、AUC(0.775)不及聯(lián)合診斷(Z=4.803,P=0.001),差異有統(tǒng)計學意義(P<0.05),見表7和圖4~5。

表7 醫(yī)師C-TIRADS、AI、AI+C-TIRADS分類對>10 mm結(jié)節(jié)診斷效能比較

圖4 3種診斷方法對>10 mm結(jié)節(jié)ROC曲線

圖5 二維超聲甲狀腺左側(cè)葉>10 mm結(jié)節(jié)超聲聲像圖及AI識別圖像
目前甲狀腺結(jié)節(jié)的檢出率逐年增加,臨床用于甲狀腺超聲檢查的指南也在不斷更新,從2011年韓國學者Kawk在Radiology發(fā)表的Kawk-TIRADS(甲狀腺影像及數(shù)據(jù)報告系統(tǒng))[11]、2016年韓國放射學會和甲狀腺放射學會發(fā)表的Korean-TIRADS指南[12],再到2017年美國放射學會發(fā)布的ACR-TIRADS[13],每一種指南都有其優(yōu)勢和局限性,且各個醫(yī)院對指南的使用并不統(tǒng)一,會給患者和臨床醫(yī)生帶來困惑?!?020甲狀腺結(jié)節(jié)超聲惡性危險分層中國指南:C-TIRADS》[4],從我國的實際出發(fā),是一種全新的計數(shù)分類的方法,指南中通過回歸方程篩選出5個可疑惡性征象并對其賦值進而計數(shù)分類,使用簡便快捷,可操作性強。Zhu等[14]對2309個甲狀腺結(jié)節(jié)分別用美國放射學會ACRTIRADS指南、中國版C-TIRADS指南、韓國版Kawk-TIRADS指南及美國甲狀腺協(xié)會ATA指南對甲狀腺結(jié)節(jié)進行良惡性診斷,發(fā)現(xiàn)C-TIRADS指南的準確性為84.71%,高于其他3種指南,并且AUC最大為0.905,進一步說明C-TIRADS相比其他3種指南有較高的診斷效能。本研究發(fā)現(xiàn)醫(yī)師C-TIRADS分類對總體樣本診斷的靈敏度高于聯(lián)合診斷及AI單獨診斷,即可篩出較多的惡性結(jié)節(jié),差異有統(tǒng)計學意義(P<0.05)。李潛等[15]研究發(fā)現(xiàn),應用C-TIRADS指南診斷比AI診斷技術(shù)S-detect聯(lián)合醫(yī)師C-TIRADS診斷有更高的靈敏度(97.37%vs.96.21%),與本研究結(jié)果相近。本研究認為醫(yī)師C-TIRADS分類診斷靈敏度高而特異性偏低的原因為良惡性結(jié)節(jié)在超聲征象上有重疊,且C-TIRADS指南是通過對可疑惡性征象進行計數(shù)進而分類,這可能會導致部分良性結(jié)節(jié)如腺瘤、結(jié)節(jié)性甲狀腺腫、炎性病變等分類過高,假陽性率上升。
AI技術(shù)可對復雜的醫(yī)學圖像特征進行定量評估,已經(jīng)被越來越多地應用于甲狀腺結(jié)節(jié)的診斷中[16]。本研究發(fā)現(xiàn)AI單獨診斷的AUC及約登指數(shù)低于聯(lián)合診斷及C-TIRADS單獨診斷,與方明娣等[10]的研究結(jié)果一致。Wildman-Tobriner等[17]研究發(fā)現(xiàn),運用AI輔助診斷系統(tǒng)來修正ACR-TIRADS分級后,相比醫(yī)師ACR-TIRADS分級,AUC由0.91提高至0.93,特異性也由47%提高至65%,本研究中AI單獨診斷及AI聯(lián)合醫(yī)師C-TIRADS診斷特異性較醫(yī)師C-TIRADS單獨診斷特異性高,與Verburg等[18]的研究結(jié)果一致。本研究采用的德尚韻興公司研發(fā)的AI輔助診斷系統(tǒng)是基于算法的學習來自主識別結(jié)節(jié),繼而得出結(jié)節(jié)的良惡性概率值,與傳統(tǒng)的通過識別結(jié)節(jié)惡性征象而判讀結(jié)節(jié)良惡性有所不同,其診斷的過程不依賴人的主觀性。
對于≤10 mm的甲狀腺腫瘤,其被定義為甲狀腺微小癌,其中絕大多數(shù)為甲狀腺乳頭狀癌,鑒于其病灶微小,惡性征象表現(xiàn)不顯著,且部分患者甲狀腺腺體內(nèi)常出現(xiàn)良惡性病灶并存的表現(xiàn),常規(guī)超聲常出現(xiàn)漏診、誤診的情況,因此探尋一種新的可靠的診斷方法顯得尤為重要[19-20]。本研究將甲狀腺腺結(jié)節(jié)按最大長徑分為≤10 mm組及>10 mm組,發(fā)現(xiàn)AI、AI+C-TIRADS分類對≤10 mm結(jié)節(jié)診斷的特異性、約登指數(shù)及AUC均大于醫(yī)師C-TIRADS分類單獨診斷,差異有統(tǒng)計學意義(P<0.05)。本研究中部分甲狀腺小結(jié)節(jié)在早期并不會出現(xiàn)典型的惡性征象,即沙礫樣鈣化,且向周圍組織浸潤性生長也不明顯,纖維化改變不顯著,所以醫(yī)師主觀上可能會出現(xiàn)誤判的情況。AI是對10萬余例有病理結(jié)果的結(jié)節(jié)進行深度學習繼而研發(fā)所得,所以其能快速對異常區(qū)域進行標記,進而量化分析得出良惡性概率值,降低了誤判的概率[21-22]。
本研究發(fā)現(xiàn)對于>10 mm結(jié)節(jié),AI及聯(lián)合診斷的診斷效能低于醫(yī)師C-TIRADS分類診斷。方貞燕[21]的研究發(fā)現(xiàn),隨著結(jié)節(jié)體積增大,AI診斷的靈敏度及準確性呈下降趨勢,且AI診斷的準確性與該系統(tǒng)的技術(shù)原理和系統(tǒng)的穩(wěn)定性密切相關(guān),不同品牌的AI診斷系統(tǒng)在臨床實踐中的表現(xiàn)可能會出現(xiàn)較大的差異,因此醫(yī)師需要對所使用的AI系統(tǒng)的優(yōu)勢充分了解,最大程度地發(fā)揮AI的輔助作用。
本研究存在的局限性:① 樣本量過少,在今后研究中進一步將>10 mm結(jié)節(jié)按照大小進行分組,探討AI診斷系統(tǒng)聯(lián)合醫(yī)師C-TIRADS分類對其的診斷效能;② 樣本中惡性結(jié)節(jié)偏多,絕大部分是乳頭狀癌,對分類診斷準確性有一定影響。
AI診斷系統(tǒng)聯(lián)合醫(yī)師C-TIRADS分類可提高對良惡性結(jié)節(jié)診斷的準確度、特異性,尤其對于≤10 mm結(jié)節(jié),其整體診斷效能更優(yōu);對于>10 mm結(jié)節(jié),醫(yī)師C-TIRADS分類診斷的準確度、靈敏度、特異性更好。