曾 晨,孔俊灃,鐘 雯,劉 嵩,曾文兵,喬 虹,杜文威,趙 勇
(1.哈爾濱醫(yī)科大學附屬第二醫(yī)院內(nèi)分泌科,黑龍江 哈爾濱 150000;2.重慶大學附屬三峽醫(yī)院放射科,重慶 404100;3.重慶大學附屬三峽醫(yī)院兒童保健科,重慶 404100;4.重慶市開州區(qū)人民醫(yī)院放射科,重慶 405400)
骨齡評估(bone age assessment,BAA)已廣泛應(yīng)用于臨床醫(yī)學、體育科學、法醫(yī)學、預(yù)防醫(yī)學、生物學等領(lǐng)域。當前常用的骨齡測評方法有:G-P 圖譜法、CHN 法[1]、TW3 法[2]、中華05RUS-CHN 法[3]等。傳統(tǒng)骨齡評估人工閱片效率低下,不同閱片者水平不盡相同而重復(fù)性差,人工閱片的可靠性及骨齡推斷的準確性受到質(zhì)疑,臨床迫切需要人工智能(artificial intelligence,AI)技術(shù)來幫助醫(yī)師評估骨齡。重慶大學附屬三峽醫(yī)院于2020 年5 月引進了一套深度學習的兒童骨齡智能評估系統(tǒng),該系統(tǒng)的臨床效能還待驗證。本研究旨在通過采用中華05RUS-CHN 法,探討適于重慶三峽庫區(qū)兒童青少年臨床應(yīng)用的深度學習骨齡評測系統(tǒng),現(xiàn)報道如下。
1.1 一般資料 納入2020 年6 月-2021 年7 月重慶大學附屬三峽醫(yī)院放射科PACS 系統(tǒng)中經(jīng)過深度學習兒童骨齡智能評測系統(tǒng)評估的2500 例左側(cè)手腕骨骨齡X 線片為研究數(shù)據(jù)集,其中隨機選擇2100例(84.00%)為訓練集,200 例(8.00%)為驗證集,另200 例(8.00%)為測試集。納入標準:①受檢者及其父母均來自重慶三峽庫區(qū);②受檢者有完整的基本信息及臨床資料。排除標準:①手腕骨X 線骨齡片圖像差,不符合診斷要求;②手腕骨有器質(zhì)性病變。測試集兒童青少年生活年齡及性別分布見圖1。

圖1 測試集樣本的年齡和性別分布
1.2 檢查設(shè)備及投照方法 投照設(shè)備為銳柯DRX Evolution。被檢查者左手掌面向下并緊貼探測器,拇指與食指約30°,其余指骨自然分開,中指軸與前臂軸呈直線;掌指完全顯示,尺橈骨遠端顯示3~4 cm;球管中心線正對第3 掌骨頭,管片距約90 cm。
1.3 深度學習兒童骨齡智能測評系統(tǒng) 采用依圖醫(yī)療研發(fā)的兒童手部X 射線骨齡輔助評估軟件,版本號V2.0,界面見圖2。采用的遠程平臺為:chrome 瀏覽器192.168.100.219/bone_age。該軟件評估的骨齡數(shù)據(jù)稱為AI 模型。

圖2 依圖醫(yī)療骨齡測定及生長發(fā)育評估預(yù)測軟件界面
1.4 參考金標準及對照組 從多個醫(yī)療中心(重慶大學附屬三峽醫(yī)院、重慶市開州區(qū)人民醫(yī)院、哈爾濱醫(yī)科大學附屬第二醫(yī)院)招募3 名從事兒童影像及1名從事兒童內(nèi)分泌專業(yè)醫(yī)師作為專家組,4 名專家(主任醫(yī)師1 名,副主任醫(yī)師3 名)均有10 年以上評分法評估骨齡經(jīng)驗。4 名專家對納入研究骨齡片進行雙盲評估,要求嚴格按照中華05 RUS-CHN 法[4]標準線條圖及文字說明判斷,禁止參考AI 模型標準圖譜,取專家組測得骨齡均值為本研究參考金標準。2 名有6 年以上骨齡評估經(jīng)驗的影像科醫(yī)師(醫(yī)師A、醫(yī)師B)為對照組,對照組醫(yī)師再次培訓中華05 RUS-CHN 法的臨床應(yīng)用并獨立閱片。按照雙盲原則,2 名醫(yī)師分別獨立評定200 例兒童的13 塊RUS骨骺的發(fā)育等級,確定各骨等級的得分并相加得到手腕骨成熟度總分,依據(jù)各年齡組骨成熟度得分百分位數(shù)曲線得出200 例兒童青少年骨齡,同時記錄各自完成時間。
1.5 統(tǒng)計學方法 使用SPSS 22.0 軟件(SPSS Inc.,Chicago,IL,USA)和GraphPad Prism7 軟件(Graphpad Software,San Diego,CA,USA)。為比較AI 模型和人工閱片結(jié)果之間差異,使用多種變量。AI 模型和醫(yī)師對照組評測骨齡的準確性采用平均絕對誤差(mean absolute error,MAE)衡量,用配對樣本t檢驗比較MAE 差異及評估用時差異。應(yīng)用組內(nèi)相關(guān)系數(shù)(intraclass correlation coefficients,ICC)分析AI 模型和對照組與參考金標準評估骨齡的一致性,ICC>0.75 為一致性良好。使用Bland-altman 分析計算AI模型和參考金標準結(jié)果差異的平均值和95%置信區(qū)間。使用±0.5 歲和±1.0 歲內(nèi)準確率評估各組與參考金標準之間的準確性。P<0.05 為差異有統(tǒng)計學意義。
2.1 AI 模型、對照組醫(yī)師與參考金標準準確率比較AI 模型與參考金標準之間的MAE 為0.46 歲[95%CI(0.36,0.56)],2 名對照組醫(yī)師與AI 模型評估的MAE 比較,差異無統(tǒng)計學意義(P>0.05);當誤差范圍在±1.0 歲及±0.5 歲以內(nèi),AI 模型評估骨齡的準確率分別為92.50%、75.50%,AI 模型與2 名對照組醫(yī)師評估骨齡的準確率比較,差異無統(tǒng)計學意義(P>0.05),見表1 及圖3。

圖3 AI 模型、對照組與金標準絕對誤差值的分布比較

表1 各組MAE 及骨齡評估的準確率比較
2.2 一致性檢驗 參照參考金標準,AI 模型[ICC=0.98,95%CI(0.97,0.99)]、醫(yī)師A[ICC=0.98,95%CI(0.98,0.99)]、醫(yī)師B[ICC=0.98,95%CI(0.98,0.99)]三組評估骨齡的一致性良好,三組ICC 均>0.75。AI模型和參考金標準評測骨齡偏差的95%一致性界限為(-1.225,+0.98),見圖4。

圖4 Bland-altman 分析金標準與AI 模型結(jié)果的一致性
2.3 AI 模型與對照組醫(yī)師評估骨齡時間比較 AI 模型、醫(yī)師A、醫(yī)師B 完成1 份骨齡評估用時分別為(1.31±0.82)s、(604.8±81.5)s、(672.5±132.4)s,2 名對照組醫(yī)師評估用時長于AI 模型,差異有統(tǒng)計學意義(P<0.05),見圖5。

圖5 AI 模型組和對照組醫(yī)師平均閱片速度比較
深度學習是學習樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,深度學習極大的促進了人工智能在醫(yī)學尤其放射學領(lǐng)域的運用。骨骼X 線片包含了顯示變化的黑白灰階,骨齡圖像就是訓練深度學習算法的理想數(shù)據(jù)庫[5]。深度學習方法較傳統(tǒng)機器學習方法在骨齡評估應(yīng)用中更有潛力[6-8]。近年來眾多學者致力于骨齡評估的人工智能研究與開發(fā),Spampinato C 等[9]研發(fā)的自動化骨齡評估模型—BoNet 及Lee H 等[10]研發(fā)的帶有檢測與分類卷積神經(jīng)網(wǎng)絡(luò)的深度學習平臺分別被稱為深度學習運用于兒童骨齡評估中的里程碑和最新成果。
不同骨齡評價方法評估相同骨齡片存在系統(tǒng)性偏差[11,12],因此驗證骨齡智能評估模型的準確性需要選擇合適的評價方法,即所選方法要體現(xiàn)其種族性、地域性及時代性。本研究AI 系統(tǒng)提供了G-P 圖譜法、TW3 法、中華05 RUS-CHN 法。G-P 圖譜法直觀,但易受評估者主觀因素影響,不同醫(yī)師評估結(jié)果差異大[13,14]。TW3 法盡管基于評分系統(tǒng),但其樣本數(shù)據(jù)來源于歐州兒童青少年,不完全適用于我國兒童青少年,同時TW3 法骨骼發(fā)育等級分布中每級時間跨度大,不能準確區(qū)分接近成年型骨發(fā)育成熟度。本研究采用中華05 RUS-CHN 法基于以下考慮:①中華05 RUS-CHN 法是基于當代中國兒童樣本,并在CHN法基礎(chǔ)上,參照TW3 法制定的適合我國兒童青少年骨發(fā)育成熟度的測評方法;②中華05 RUS-CHN 法行業(yè)標準中主要推薦了橈-尺-掌指骨13 塊骨的RUS 系列,該系列方法詳細描述了我國兒童青少年的骨發(fā)育特征及長期趨勢[15];③該法對骨齡等級讀片的可靠性進行了論證[16]。不同評估者之間或同一評估者不同時期評估骨齡具有可變性,為保證骨齡參考金標準的準確性,本研究采用多個醫(yī)療中心專業(yè)人員評估骨齡。
本研究顯示,當誤差范圍在±0.5 歲及±1.0 歲以內(nèi),AI 模型評估測試集的準確率分別為75.50%、92.50%,與報道[10,17]基本相符,2 名醫(yī)師與AI 模型評估骨齡的準確率比較,差異無統(tǒng)計學意義(P>0.05),表明AI 模型達到了人工評估的準確率。近來有研究報道[18-20],基于深度學習兒童骨齡智能測評系統(tǒng)分別采用G-P 圖譜法、TW3 法、中華05RUS-CHN 法的驗證研究中,測試集的MAE 分別為0.536、0.46、0.37 歲。本研究基于中華05 RUS-CHN 法評估重慶三峽庫區(qū)兒童青少年骨齡,測試集的MAE 為0.46 年,2 名醫(yī)師與AI 模型評估的MAE 比較,差異無統(tǒng)計學意義(P>0.05),提示該模型評估骨齡具有可行性并在準確性方面與人工評估類似。ICC 數(shù)值表明AI 模型與參考標準評估骨齡的一致性良好,人工評估與參考標準評估骨齡的一致性不優(yōu)于AI 模型。通過繪制Bland-altman 圖,本研究發(fā)現(xiàn)AI 模型和參考標準評測骨齡偏差的95%一致性界限為(-1.225,+0.98),優(yōu)于Wang F等[21]采用G-P 圖譜法并運用相同人工智能系統(tǒng)測評骨齡的一致性結(jié)果。AI 模型骨齡評估效率遠高于對照組醫(yī)師,表明該系統(tǒng)可作為骨齡評估的便利工具。
本研究AI 模型與參考金標準不一致主要表現(xiàn)為:①較小兒童(女9 歲以下、男10 歲以下),第3、5掌骨/中節(jié)指骨及第1、3、5 近節(jié)指骨7 個掌指骨中,等級4、等級5 這2 個等級不一致多見,分別為:女29.61%(114/385)、男34.09%(105/308);②大兒童(女12 歲以上、男13 歲以上),骨骺與骨干開始融合、骨骺與骨干融合過半2 個等級不一致較多,分別為:女18.97%(74/390)、男25.17%(36/143);③3 例指骨骨骺與骨干局部重疊,AI 模型判讀為完全融合;1 例指骨骨骺線早閉,AI 模型判讀為骨化中心未出現(xiàn)。可見,該模型還需優(yōu)化及深度學習。本研究不足:①參考標準為人工評估,不能完全避免主觀因素影響;納入樣本年齡及性別構(gòu)成比情況盡管與臨床比較相符,仍可能存在選擇偏倚;②測試集樣本偏少,未對各具體年齡段進行細致分析,以后還需擴大樣本量從多角度持續(xù)研究。
總之,運用中華05 RUS-CHN 法評估重慶三峽庫區(qū)兒童青少年骨齡,基于深度學習的兒童骨齡智能評估系統(tǒng)準確性高、耗時短,與參考標準及對照組具有很好的一致性,可用于該地區(qū)兒童青少年骨齡的輔助評估。