孫夢莎,丁永紅,顏子夜,2,蘇曉鳴
1. 杭州依圖醫療技術有限公司,浙江 杭州 310012;2. 上海市醫學影像與知識圖譜人工智能重點實驗室,上海 200051
近年來,兒童超重肥胖問題日漸突出,兒童性早熟患病率逐年上升,發育遲緩患病率仍需進一步降低。中國居民營養與慢性病狀況報告(2020年)顯示,6~17歲及6歲以下青少年兒童超重肥胖率分別達到19%和10.4%[1]。這些小兒內分泌問題的發生與遺傳、環境因素以及生活方式有密切關系,若不及時治療,會給患兒體格發育、心理發育、就業、婚姻等帶來許多不良影響。而診斷該類疾病的關鍵指標之一就是骨齡,但是現有骨齡評估方法在效率、準確上還存在不足,制約了骨齡檢測在臨床的廣泛應用。
隨著人工智能技術的快速發展,圖像識別相關的人工智能技術在醫學影像領域內得到了深度應用,例如糖尿病眼底視網膜病變,乳腺癌淋巴結轉移的早期預警和皮膚癌的分類等[2-3]。在骨齡檢測領域,2018年RSNA骨齡機器學習挑戰賽中,數十名挑戰者上傳了模型,證明AI在做出準確而省時的預測上具有巨大潛力[4]。斯坦福醫學院的一項研究也表明,深度學習卷積神經網絡模型對兒童骨齡成熟度評估的準確性與放射科專家相似[5]。
骨齡是通過評估骨骼在不同階段的不同發育形態,以年齡的形式、以歲為單位進行表達的生物學年齡。兒科醫生和內分泌學家認為骨齡可以反映孩子的生物學年齡,并且是從出生到成年常規使用的唯一獨立生物學成熟度指標[6]。檢查骨齡僅需拍攝左手(包含全掌和腕部)X光正位片,有效輻射劑量小于0.00012 mSv,對兒童非常安全[6-7]。
許多因素影響骨骼發育的進程,包括營養、遺傳、激素和疾病狀態等[6]。與日歷年齡相比,骨齡與身體發育的許多指標(例如生長速度、初潮、肌肉質量、骨礦物質質量)具備更強的相關性,更能準確反應兒童及青少年生長發育實際情況[8]?;加邪l育遲緩、生長激素缺乏、甲狀腺功能減退、營養不良等疾病的兒童,骨齡通常落后于年齡;患有性早熟、先天性腎上腺增生、超重肥胖等疾病的兒童,骨齡通常提前于年齡[9-10]。因此通過檢測骨齡可以及早了解兒童的生長發育潛力以及性成熟趨勢,對于一些內分泌疾病的診療具有很大的指導意義。接受治療的內分泌疾病患兒,需要每半年或一年到院監測骨齡以評估療效。除臨床診斷外,在體育科研領域,骨齡是預測運動員發育的關鍵指標[11-12];在法醫學領域,骨齡作為鑒定年齡的重要手段,有助于精準量刑[13]。
骨齡的評價方法主要有計數法、圖譜法和計分法三種:① 計數法通過計算腕部骨化中心數目推算骨齡,誤差較大,且需要多部位攝片,增加了輻射劑量,目前幾乎不再使用;②Greulich-Pyle(G-P)圖譜法,是將被檢者的手腕部X光片與標準Ⅹ光片圖譜比較(標準圖譜代表該年齡兒童的平均水平),以最相像的標準片作為被檢者的骨齡。目前該方法在全世界使用最為廣泛,但圖譜法精度只能精確到半年至一年,主觀性強。研究表明,同一個閱片者采用G-P圖譜法進行兩次讀片,兩次骨齡差異可達0.89歲,不同閱片者之間對同一骨齡片評定骨齡的差異可達1.25歲[14-16];③Tanner-Whitehouse(TW)計分法,根據手腕部20個骨化中心的出現及形態改變進行成熟度評級,計算評分總和得出骨齡TW法操作繁瑣,需要進行專業訓練,使用起來非常耗時,判讀一張骨齡片至少需要20 min。因此,當前的骨齡判讀存在以下幾個挑戰:
(1)骨齡判讀耗時長,兒科醫生資源少,難以進行精細化判讀。國內兒科醫療資源緊缺,只有極少數醫生有精力開展精準骨齡檢測。
(2)主觀因素影響大,難以精準評估發育狀況。由于醫生之間閱片經驗與能力的差異,判讀結果一致性不佳;同一位醫生對于同一張片子前后判讀結果、不同醫生之間判讀結果均有差異。
(3)隨訪過程長,難以準確追蹤療效。對于生長發育異常的兒童,需要每半年或者一年時間進行骨齡復查,追蹤其療效,但是骨齡歷次變化細微,沒有專業追蹤隨訪工具以及嚴謹的評價標準,很難準確追蹤其臨床療效(圖1)。

圖1 一名生長激素不完全缺乏兒童,在接受生長激素治療后,每半年的骨齡復查圖像。
(4)國內兒童發育狀況變化大,參考人群具有年代局限性。我國專家在TW計分法基礎上進行了多次改良,最新的參考人群標準為2006年修訂制定的中華05法,距今已有十余年[16]。
骨齡影像智能檢測模型包括影像體位自動檢測、關鍵骨化中心識別、關鍵骨化中心評級、生長發育測評等模塊如圖2所示。

圖2 基于深度學習的AI骨齡系統模型
手腕骨影像質量(如輕微旋轉、偽影等不規范拍攝問題)會影響結果準確性。因此,系統在閱片初始需要對骨齡片進行位置校正,從而提升識別精確度和拍片質量容錯性。模塊采用卷積層用于提取骨齡圖像特征,建立特征點與手部在現實空間中深度之間的關系,從而獲得圖像景深,實現骨齡攝片中手腕骨在3D空間的映射。在3D的狀態下對各個手腕骨進行識別和定位,對于非標準姿態的手腕骨影像,進行定位多層迭代優化,從而識別攝片中旋轉或者非標準的手姿態,自動將其糾正至標準體位(圖3)。

圖3 手腕骨影像體位自動檢測,提升拍片質量容錯性
骨齡圖像關鍵骨化中心包括遠端橈骨、遠端尺骨、腕骨、掌骨和指骨,骨化中心的準確定位直接影響檢測結果。針對各類骨化中心的分布、密度特征、邊緣形狀等特點,系統采用基于卷積神經網絡上的Faster R-CNN深度學習技術,得出具有高辨識度的特征圖,應用基于全卷積神經網絡的Region Proposal Network(RPN)技術提取候選框,得到一系列疑似手指骨及腕骨的區域,再通過ROI classifier得到特征區域的精確定位并進行檢測識別,從而完成關鍵骨化中心的自動分割和勾畫。
系統通過基于深度學習的對齊定位算法獲取每塊骨骼對應的多個關鍵點,將待檢測骨化中心生長發育點的特征信息與數據庫中與對應性別的多個基準骨化中心特征信息應用貝葉斯網絡的不確定性知識推理模型進行預測,確定該骨骼生長階段,實現準確分級,綜合分析得出骨齡(圖4)。

圖4 卷積神經網絡和深度級聯回歸算法實現骨齡準確分級
骨齡影像智能檢測系統依據臨床常用指標(兒童身高體重,父母身高等參數),自動生成詳細完善的診斷報告,包含骨齡評價、身高評價、發育評價、身高預測等指標。同時基于精確到月的骨齡結果,結合歷史隨訪數據,系統可對生長趨勢和臨床療效進行全方位監測如圖5所示。

圖5 AI骨齡影像智能檢測系統
骨齡影像智能檢測系統已廣泛應用于臨床工作,可有效提升醫生診斷效率與準確率。
該試驗隨機選取了250份兒童骨齡片(男性125份,女性125份),由依圖AI系統與醫生(4位經驗豐富的內分泌學家和2位經驗豐富的放射學家)使用TW3標準分別進行判讀,將兩者的判讀效率、準確性和可靠性進行比較[17-19]。
判讀效率上,TW3-AI模型的平均處理時間為1.5±0.2 s,明顯短于內分泌科醫生或放射科醫生花費的平均時間525.6±55.5 s。
準確性與可靠性上,TW3-AI模型與專家判讀結果的均方根(Root Mean Square,RMS)為0.50年,表明兩者高度一致,AI性能不遜于醫生人工評估;且由于AI與醫生的RMS優于醫生間的RMS,因此相對于醫生AI具有更高的穩定性(表1和圖6)。

圖6 AI模型與閱片者之間的骨齡評估一致性

表1 6名閱片者與AI-TW3模型之間骨齡評估的統計學差異
該試驗隨機選取了745份生長發育異常病例骨齡片(360名男孩和385名女孩),金標準由兩名經驗豐富的醫生(1名具有10年閱片經驗的放射科醫生和1名具有15年閱片經驗的內分泌科醫生)使用G-P標準達成的骨齡結果共識,通過該試驗分析基于G-P標準依圖AI系統的閱片效率與結果準確性[20]。
閱片效率上,兩位醫生每張骨齡片的平均判讀耗時約2 min,而AI模型僅需要1~2 s;這表明與人工分析相比,人工智能系統效率明顯。
準確性上,AI系統與金標準相差1歲以內的平均比例為84.60%,其中12~18歲組別的比例最高,可以達到89.45%(圖7)。該結果表明依圖AI系統可以提供與經驗豐富的審閱者相當的骨齡評估能力[20]。

圖7 通過不同年齡組與金標準的比較來確定AI 骨齡系統的判讀準確性
該試驗選取了52個生長激素缺乏兒童病例,每個兒童在兩年隨訪內每隔6個月拍攝一張骨齡片,入組骨齡片共290張。兩名經驗豐富的兒科醫生使用中華05標準對入組影像進行判讀,首先在無AI輔助下獨立判讀,幾周后加入AI輔助判讀。通過試驗分析在AI輔助下,醫生的閱片效與結果一致性是否得到提升。
閱片效率上,純人工組閱片單張骨齡判讀平均耗時達2.6 min,在AI輔助下1位專家的閱片速度提升了1倍,閱片速度達到1.45 min/張;另一位專家閱片速度提升2倍,達到0.84 min/張。說明依圖AI可以極大提升閱片速度。
一致性上,經混合線性模型檢驗,兩位醫生在骨齡動態評估中存在顯著差異(P<0.001);在使用AI輔助評估后,兩位醫生在骨齡動態評估中無明顯組間差異(P=0.91)(表2),表明使用依圖AI系統輔助評估可以降低醫生差異對骨齡結果的影響,提升結果一致性。從圖8可以直觀看出,使用AI輔助前兩位醫生的骨齡評估值存在一定差異,而AI輔助后兩位醫生的評估值非常接近(幾乎重合);同時醫生2的骨齡判讀結果基本都超過兒童日歷年齡,與生長激素缺乏兒童骨齡表現不符,而在AI輔助下的骨齡判讀結果更接近臨床病癥表現。

表2 AI輔助前后醫生間對骨齡動態評估值的影響

圖8 在AI輔助下,兩個醫生的判讀一致性更高
由上述對比研究表明使用人工智能方法進行骨齡的判別是可行的。在此過程中現有TW3和G-P方法存在的精度和速度問題可以得到顯著改善。其中在準確性方面,人工判讀除了精度外,還存在的閱片者之間以及在重復閱片判讀的差異問題。在本研究中對不同閱片者之間的差異進行了對比,表明利用人工智能后可使醫生之間的診斷結果無差異。對于重復閱片問題,需要設計一定的洗脫期,將作為下一步的研究重點。
在產品功能上,在進行骨齡判讀基礎上,提供了發育測評的功能。本研究中是以回顧式方法對現有的隨訪結果進行了對比研究,表明評估結果對既有的發育是相符的。在后續研究中,以前瞻式開展長期的隨訪研究來進行發育水平預測,尤其是與治療過程相結合,形成對治療的預后評估,具有重要的研究價值。
精準判定骨齡是開展兒童內分泌診斷和治療的基礎。本文利用依圖AI系統進行對照試驗,與既有研究相比,本研究對TW3、G-P和中華05三種方法都進行對比,并進行了閱片者之間差異性對照。同時在骨齡判讀基礎上,進行了發育測評的研究。上述研究結果表明骨齡影像智能檢測系統將骨齡的閱片時間從15 min縮短至秒級,有效提升了放射科和兒科醫生的工作效率,減輕了醫生的工作壓力。在判讀準確性上,臨床試驗證明系統與專家判讀結果高度一致,同時系統對于同一張片子數次檢測結果的統一性可有效避免人為主觀誤差,保證判讀結果穩定性,對于療效追蹤時觀察骨齡細微變化有著重要作用。
在我國兒科醫療資源緊缺,尤其基層兒科醫生診療能力不足的環境下,該系統的推廣有望提升基層骨齡檢測能力,從而有利于兒童內分泌疾病篩查和診療的開展,更好地保證我國兒童的健康成長。