李江山,楊志宇,蔡鴻斌,林智星,黃妙云(通信作者)
福建醫科大學附屬協和醫院;福建省腫瘤智能影像與精準放療重點實驗室;福建省消化、血液系統與乳腺惡性腫瘤放射與治療臨床醫學研究中心 (福建福州 350001)
全腦全脊髓放射治療(craniospinal irradiation,CSI)技術在成人及兒童腦腫瘤的多學科治療中具有重要作用[1]。體質較弱或年齡偏低患者在較長的CSI 單次治療中,與傳統俯臥位CSI 相比,基于仰臥位的CSI 表現出較好的治療順應性和體位保持[2];而相對于成人定位圖像,兒童掃描獲得的是縮小版圖像。因此,接受CSI 治療的患者中存在或俯或仰呈互為倒置及呈比例縮放的定位圖像。近年來,隨著人工智能及大數據技術的快速發展、深度學習框架的免費開源和計算機硬件的提升,圖像自動輪廓分割勾畫質量得到了改善[3-4]。AccuContour 是基于深度學習算法的商用圖像自動勾畫軟件,其提出了一種基于深度學習和傳統算法模型結合的方法,該方法分為數據收集及標注、模型訓練、模型預測產生結果3 部分。軟件出廠自帶按部位訓練模型和部分癌種靶區模型,通過選擇軟件自帶模型中的頭頸部模型、男胸部模型、女胸部模型、腹部模型、男下腹部模型、女下腹部模型組合,再勾選需自動勾畫的危及器官(organs at risk,OARs),生成自定義的CSI 勾畫模板。國內外眾多學者對AccuContour 的自動勾畫效果進行了評估分析,但鮮有報道其對CSI 患者的自動勾畫效果[3]。任何類型及規模組織的放射治療均面臨各種各樣可能影響到其目標實現的風險[5]。因此,本研究選取2012 年1 月至2022 年12 月于我院接受CSI 的患者,應用AccuContour 軟件自動勾畫靶區和OARs,利用風險評估技術探討CSI 患者形變圖像的不確定性對AccuContour 軟件數據完整、可臨床使用的固有穩健設計目標是否存在影響,并對靶區和OARs 做出風險分型及勾畫差異歸因分類,制定臨床行動策略和軟件升級響應的風險應對。
回顧性分析2012 年1 月至2022 年12 月于我院接受CSI 的40 例患者,其中仰臥位定位和俯臥位定位分組患者各20 例,且同一固定體位分組中成人和兒童各10 例。仰臥成人(supine and adult,SA)組中位年齡為53.0(29.0)歲,頭頂至骶骨長度為83.5(4.5)cm,男6 例,女4 例。仰臥兒童(supine and child,SC)組中位年齡為7.5(6.0)歲,頭頂至骶骨長度為63.7(13.2)cm,男4 例,女6 例。俯臥成人(prone and adult,PA)組中位年齡為50.5(21.0)歲,頭頂至骶骨長度為84.6(4.8)cm,男5 例, 女5 例。 俯臥兒童(prone and child,PC)組中位年齡為12.0(4.0)歲,頭頂至骶骨長度為70.7(10.2)cm,男4 例,女6 例。同年齡段不同體位組的年齡和頂骶長差異無統計學意義(P>0.05),同體位不同年齡段組的年齡和頂骶長差異有統計學意義(P<0.05)。本研究經醫院醫學倫理委員會批準,由于研究屬于回顧性分析,無需簽署知情同意書。
納入標準:成人年齡大于25 歲且定位圖像頭頂至骶骨長度大于80 cm,兒童年齡小于15 歲且定位圖像頭頂至骶骨長度小于80 cm;無遠處轉移;臨床資料完整。排除標準:合并全內臟反位;只能被動體位定位;存在器官切除或移位手術史;合并其他腫瘤;合并嚴重心、氣胸疾病。
所有患者均行螺旋CT 模擬定位掃描。仰臥組以一體架、頭枕及頭頸肩膜、體膜固定定位。俯臥組以真空墊、船型枕及熱塑膜固定定位。管電壓為120 kV,管電流為300 mAs,掃描范圍為頭頂至骶椎下緣,層厚5 mm,圖像分辨率為512×512。(1)人工勾畫:將分散于不同治療計劃系統(treatment planning system,TPS)的CT 定位圖像和已勾畫或部分勾畫的輪廓文件統一傳輸并導入Eclipse v15.6(VARIAN Inc,USA)。由1 名具有16 年勾畫經驗的副主任醫師參照SIOPE 指南[1]修改和補充勾畫靶區和OARs,包括腦、脊髓腔、左右眼球、左右視神經、左右晶體、左右腮腺、喉、甲狀腺、氣管、左右肺、食管、胃、心臟、肝臟、左右腎臟,并將勾畫好的輪廓文件傳入AccuContour 進行數據分析(后文OARs 所指包含腦和脊髓腔)。(2)自動勾畫:將所有患者的CT 定位圖像從Eclipse 傳至AccuContour v3.2(MANTEIA,中國)中,選擇自帶訓練模型組合自定義的CSI 勾畫模板進行自動勾畫。模型訓練模塊在獲取訓練集數據后,依次構建損失函數池、圖像分割模型池和可選擇參數池。首先,基于所述可選擇參數池隨機選擇相應的損失函數、圖像分割模型和訓練參數值構建訓練模型,并基于訓練集數據對訓練模型進行訓練,獲取訓練好的訓練模型;然后,對每一個訓練好的訓練模型在對應的驗證集上進行戴斯相似系數(Dice similarity coefficient,DSC)值計算處理,獲取每個訓練好的訓練模型驗證測試的DSC 值;最后,選擇DSC 值最高的對應的訓練好的訓練模型作為最終的OARs 自動勾畫模型[6]。
使用AccuContour 軟件中的勾畫差異分析功能,分別選擇人工和自動勾畫輪廓作為參考,對比勾畫結構,進行參數分析。使用軟件內嵌評價參數包括DSC、95 百分位豪斯多夫距離(95th percentile Hausdorff distance,HD95)。
1.3.1 DSC
用于計算2 個集合間的重疊區域所占比例,DSC 取值范圍為0~1,0 表示最差,1 表示重疊性最佳,其計算公式如下。
式中,VA和VB分別表示A 集合和B 集合體積。
1.3.2 HD95
基于距離度量來衡量點集相似性的參數,HD95 取值范圍為0~INF,0 表示偏離最小,INF無限大表示最差,其計算公式如下。

風險管理指南[7]中界定風險準則為組織基于其目標,確定其所能承受的風險數量和類型,考慮如何界定度量后果和可能性并支持決策過程。風險管理評估技術標準[5]規定了風險技術的選擇和應用指南。本研究采用標準中以下兩種風險分析方法。(1)德爾菲(DELPHI)法為一種綜合各類專家觀點并促其一致的方法,有利于風險源與影響的識別、可能性與后果分析及風險評價,需要獨立分析和專家投票。分析步驟包括組建專家團隊、編制首輪問卷、首輪問卷分析對比和匯總、不同意見進行新一輪問卷、循環以上過程直到達成共識。(2)危險與可操作性分析(hazard and operability study,HAZOP)法是一種綜合性的風險識別過程,用于明確可能偏離預期績效的偏差,并可評估偏離的危害度,其使用一種基于引導詞的系統,分析步驟包括確定研究目標和范圍、成立多專業成員團隊、建立關鍵引導詞、收集必要的文件。
1.4.1 風險后果分析準則
本研究結合風險后果可容許程度,利用DELPHI法將不同自動勾畫結果由5 位具有10 年以上勾畫經驗及勾畫審核權限的專家評審,對勾畫結果是否進行修改作出臨床定性評判并定量統計DSC 和HD95。首輪共識,評判出不可接受、必須做出勾畫修改的OARs,統計后總體或分組DSC 中位數小于0.8,而HD95 中位數大于等于10 mm。將未達成完全一致的評判再次進行評審和統計,達成第二輪共識,專家廣泛可接受、直接臨床使用的OARs,其統計后總體和分組DSC 中位數大于0.9,而HD95 小于5.5 mm。第三輪結合分組是否具有統計學差異進行中間區域細化,最終達成本單位的風險準則共識,見表1。由于較高風險的中間區域仍需增加臨床投入,因此分型上向更高風險等級的分型靠攏。

表1 風險后果分析準則的界定
1.4.2 風險可能性分析準則
HAZOP 法可識別過程、系統和程序的失效模式、失效原因,廣泛用于軟件設計評審中[5]。本研究成立由勾畫醫師、審核醫師、計劃劑量師、審核物理師多專業人員組成的團隊,采用技術系統常用的關鍵引導詞開展HAZOP 分析,分析輸出見表2。在引導詞關聯上去除不匹配的伴隨和兼容性,加入人為錯誤的引導詞—人因,達成最后共識并賦予新術語構造解釋型引導詞。

表2 風險可能性分析準則的界定
使用SPSS 26.0軟件對評價參數進行統計分析。計量資料以M(IQR)表示。對PC、PA、SC 與SA 4 組數據采用克魯斯卡爾-沃利斯非參數檢驗。使用Origin 10.0 軟件對評價參數進行箱線分析圖繪制。箱體范圍(Q)取25 百分位數到75 百分位數,須線界值為Q~1.5IQR,異常值1.5~3.0IQR,極值大于3.0IQR,分組內連線基于中位數。P<0.05 為差異有統計學意義。
統計所有患者總體和4 組DSC。總體DSC 中位數最高的OARs 為腦、肝臟、左右肺、左右腎、心臟和左右眼球,DSC 均大于0.9。其余OARs 的DSC 雖較低但也大于0.75。4 組經克魯斯卡爾-沃利斯非參數檢驗有統計學意義的OARs 見表3。統計所有患者總體和4 組HD95??傮wHD95 中位數最小(約1 mm)的是左右晶體,其次(2~4 mm)為左右眼球、左右肺和腦;最大(≥10 mm)的是食管、氣管、脊髓腔和胃,其余OARs 中位數約為5 mm。4 組所有OARs 中僅食管HD95 的克魯斯卡爾-沃利斯非參數檢驗結果差異有統計學意義(P=0.028<0.05),但兩兩比較,差異無統計學意義(調整后P>0.05),可認為4 組食管的HD95 差異無統計學意義。

表3 4組DSC差異有統計學意義的OARs [M(IQR)]
對4 組OARs 的DSC 參數做箱線分析圖。依照后果分析準則,對OARs 進行風險分型。不同分型OARs 匯總比較如圖1~3 所示。對各分型的OARs 各取一實例進行展示見圖4。

圖1 4 組DSC 箱線分析圖之魯棒型器官

圖2 4 組DSC 箱線分析圖之平衡型器官

圖3 4 組DSC 箱線分析圖之審慎型器官

圖4 部分OARs 自動勾畫與人工勾畫對比實例
逐例逐層回顧統計各OARs,結合DSC 和HD95,依照可能性分析準則,將自動勾畫與手動勾畫的差異歸因分析列于表4。其中Ⅳ~Ⅶ類主要影響體現在異常值和極值。不同風險引導詞的實例見圖5。其中Ⅰ~Ⅵ類歸因引導詞各展示a、b 兩種例子。

圖5 自動勾畫與人工勾畫差異歸因實例

表4 自動勾畫風險可能性分析結果
結合后果和可能性,在明確風險性質、等級并考慮收益和成本后,對軟件做臨床應用和開發響應的風險應對建議(見表5)。遵循安全工程領域的“最低合理可行”準則(as low as reasonably practicable,ALARP)[5],剩余風險需降到合理可行范圍內的最低程度。例如,魯棒型OARs 出現Ⅵ類左右器官識別錯誤,此時應采取較高的風險應對以降低剩余風險。

表5 軟件應用方和開發方的風險應對
人工智能技術特別是深度學習的最新進展催生了一系列用于放療輪廓自動勾畫的軟件,但這些軟件在臨床應用前有必要進行前期驗證和測試[8-9]。Baroudi 等[10]綜述了定量、定性、劑量學、對效率的影響、對患者預后影響預測及其他考量(諸如風險評估等)的評價方法,以用于評價一個新的軟件應用是否為“臨床可接受的”。所有這些評價方法均有其優勢和局限性,缺乏標準化的評估指標。本研究參照國標風險管理指南,結合定性和定量評價方法,對我院引入的AccuContour 軟件進行臨床應用前的驗證和測試。將接受CSI 患者作為先導研究,以期發現軟件應用的偏差風險,進而針對性應對。實踐中可直接根據應對等級要求,利用軟件的OARs 標簽添加不同策略標識,再利用標識做后續使用的勾畫審核指導。
本研究結果表明,AccuContour 軟件應用于CSI 患者靶區和OARs 的自動勾畫具有良好的勾畫效果,但數據完整、臨床可使用的固有穩健設計目標受到形變圖像的影響,部分勾畫結果存在不適用風險。分析原因為,魯棒型OARs 不論何種形變圖像均表現出優良的勾畫效果,這可能得益于OARs 是實質器官、體積較大、邊界清晰且與周邊組織器官的對比度高。應用方和開發方按最低風險應對后,仍需監督剩余風險。平衡型OARs 雖然軟件勾畫差異歸因也主要集中分布在Ⅰ~Ⅲ類,但需增加臨床投入成本以獲取適用效益,建議軟件開發方進行風險可能性改變的進一步優化升級。審慎型OARs 之于喉、氣管和食管,兒童組仰臥、俯臥的勾畫效果均比對應體位的成人組差。這可能與兒童的含腔器官未發育完全,其位置形態、質地層次、腔隙大小等解剖表觀差異有關。而胃和左右晶體則表現出仰臥位優于俯臥位而年齡段差異不顯著。原因為俯臥位時部分患者胃內容物墜滯腹前而含氣胃移至背后鄰左肺下葉以至于軟件錯將其識別成左肺的一部分,以及俯臥時胃的受迫擠壓造成移形走位致使軟件識別不到位。至于晶體,可能是俯臥位船型枕的引入造成CT 上顱面側的異態,加之納入模型訓練樣本不夠,導致泛化能力不足從而引起軟件圖像分割出現錯誤。這類風險分型的OARs 受形變圖像影響尤甚,臨床需審慎使用,可以承擔一定風險以獲取機會,也可部分不采用以規避風險。對軟件開發方提出消除風險修正升級應對建議。而對于左右器官識別錯誤的臨床禁忌亟待開發方做必要的應急修正。
國內外學者關于AccuContour 軟件自動勾畫的研究多針對單器官[11-12]或局限單部位病種[13-17]。李金凱等[16]研究DSC 對比明顯較高。分析其研究,手動勾畫結果是基于自動勾畫修改得來的。這種方法勾畫結果受到自動勾畫的偏導影響,不修改或少修改造成結果均優于其他研究。李華玲等[17]研究的DSC 較低,除了不同研究間數據量、CT 圖像質量、OARs 勾畫原則差異外,考慮到其研究較早,軟件版本不同可能是重要原因。
本研究存在3 個方面的不足和機遇。(1)本研究著重基于圖像雙重形變的風險源事件,而風險具有多聯復雜性。體現在即使是魯棒型OARs(如肝和腎),仍會存在箱線圖1 中的極值。回顧病例引起勾畫偏差的原因是存在偽影。正如宋威等[18]研究的牙齒修復物和夏春軍等[19]研究的口腔植入物,產生的金屬偽影可影響OARs 的自動勾畫且與偽影嚴重等級呈正相關。肝病例的金屬偽影和腎病例的造影劑偽影也降低了勾畫重疊性,增加了風險。而且2 例右腎也符合造影劑代謝潴留不同引起的偽影,嚴重等級與造成的勾畫效果差異呈正相關。這些研究提示圖像偽影也是風險源事件,應用方在使用軟件時對受偽影影響層面需給予核查關注,同時也是開發方的優化升級要點。(2)明確環境信息中確定的內部參數為基于軟件自帶的模型。當手動勾畫標準習慣與自帶模型訓練標簽差異時,如脊髓腔的標準勾畫需包含兩側神經根、喉的習慣勾畫包含構成的軟骨,此時就加大了風險。陳飛等[20]認為小樣本自主訓練模型是可行的且有臨床使用價值。龔筱欽等[14]比較了自主訓練模型和自帶模型的勾畫后得出,對OARs 的自動勾畫,軟件自帶的模型效果更好。雖結論并未達到完全統一,但自主訓練為后續研究提供了一種可能。當然,環境信息改變后,風險評估和風險應對也應隨之改變。(3)界定風險范圍為軟件的固有穩健性,符合風險范圍要求的針對性。而有國內外學者認為勾畫的幾何學參數不能完全反映劑量的分布水平,評價勾畫效果還應包括劑量學的準確性[21-22]。因此,還需多層面擴展對軟件的勾畫應用進行研究。
綜上所述,AccuContour 軟件對不同輪廓勾畫精度參差不齊,需應用方和開發方合作以提升人工智能輪廓軟件的全面評估和策略應對水平。開發相關的評價指標并表征有意義的閾值以填補共識缺失將是重要的研究領域。更具挑戰的是,應用軟件可識別人類評價的重要性并引導人類注意力集中于具有不確定性的輪廓區域,并能部署涵蓋多方參與的、推動智能勾畫良性發展的生態系統。因此,我們期待能夠增強智能勾畫與人類互動工具的出現。同時,官方正式的軟件勾畫評價指南仍亟待相關部門的開發完善,提供具體、可操作性強的標準規范以確保勾畫軟件的合規研發和使用,指引軟件相關方增強監管責任和風險意識,確保智能勾畫安全、可靠、可控、可持續發展。