魏濤 彭思意 李旭英 倪虹 辜夢聃 李金花,
(湖南省腫瘤醫院 1.麻醉科 2.早期臨床實驗中心 3.護理部,湖南 長沙 410013)
譫妄是一種常見的急性臨床綜合征,表現為隨時間波動的意識改變和注意力不集中[1]。按其表現形式可分為安靜型、躁動型和混合型,其中安靜型常為臨床所忽視[2]。隨著認識的不斷深入,有學者發現30%~50%的譫妄是可以預防的,國內外指南均指出譫妄的管理以預防為主[3]。術后譫妄(postoperative delirium,POD)是指患者在經歷外科術后出現的譫妄,其發生具有明顯的時間特點,一般發生在術后24~72 h[6]。2017年歐洲麻醉協會發布的術后譫妄指南將POD觀察時間調整為患者麻醉蘇醒期至術后120 h內[7]。術后譫妄可使住院時長延長,醫療費用明顯增加,并增加圍手術期短期及遠期并發癥的發生風險,嚴重影響患者及其親屬[8-10]。近期有學者針對ICU患者[4]和院內患者[5]進行了譫妄預測模型的系統評價,其納入人群不一,不僅包含內科人群,也包含外科人群,缺乏針對性,本研究旨在全面檢索國內外有關成人術后譫妄的預測模型研究,從預測模型的基本特征及構建方法、方法學質量,預測效能和模型中的預測因子等角度出發進行系統總結與比較,以期更好地為術后患者譫妄預測模型的構建及應用以及預防提供理論依據。
1.1文獻檢索策略 計算機檢索中英文數據庫,檢索采用主題詞和自由詞相結合的方式進行,從中國知網、萬方數據庫、維普、中國生物醫學文獻等數據庫檢索中文文獻,中文檢索詞為(術后譫妄或術后急性腦綜合征)和(預測模型或危險因素或預警模型或風險評估);在pubmed、embase(OVID)、EBSCO (ASP),Cochrane圖書館等數據庫中檢索英文文獻,檢索詞為(postoperative or postsurgical) and(deliri* or acute brain syndrome)and (prediction model/tool OR prognostic model OR risk stratification model OR model OR predictor OR risk assessment),檢索詞段限定為題目、摘要及關鍵詞,并追溯納入文獻的參考文獻,文獻語種限中、英文。時間限建庫至2021年6月。
1.2方法
1.2.1納入標準 (1)研究對象為術后患者,其種族、國籍、病程及手術部位不限。(2)研究內容是術后患者譫妄預測模型的構建,具體說明了評估術后譫妄使用的工具及評估的方法,預測模型建立后進行了內部或外部驗證。
1.2.2排除標準 (1)未描述模型建立過程或方法。(2)對于同一研究團隊不同年份發表的相同類型的研究,排除信息不全的研究。(3)綜述及動物研究等。
1.2.3資料提取 文獻檢索完成后,由2名研究者獨立完成文獻篩選,通過閱讀文獻標題、摘要等信息,嚴格按照納入與排除標準篩選文獻,對有爭議的文獻,請第3名資深研究者做出判斷。確定文獻后,下載原文并全文閱讀,提取相關數據,內容包括發表年份、研究對象、研究類型、譫妄評估工具、模型建立方法、模型的受試工作者曲線下面積(the area under receiver operating characteristic curve,AUC)、預測因子或變量等。
1.2.4文獻偏倚風險及適用性評價 采用預測模型研究的偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)對文獻的偏倚風險和適用性進行評估。該評估工具由荷蘭wolff等[11]學者于2019年開發,用于評價開發、驗證或更新預后或診斷的多因素預測模型。該研究工具包含兩個部分:偏倚風險評價和適用性評價。前者從研究對象、預測因子、結果及統計分析4個領域進行評價,每個領域分別包含2/3/6/9個標志性問題,后者從研究對象、預測因子和結果3個領域進行評價,嚴格按照等級評定標準對納入文獻的偏倚風險和適用性進行評價[12]。所有納入文獻的方法學質量評價過程由兩個研究者獨立進行,遇有爭議,由資深的第3名研究者仲裁決定。
2.1檢索結果 共檢索出2 462篇文獻,其中中文文獻658篇,英文文獻1 804篇,查重后初篩2 222篇,通過閱讀題目及摘要排除2 195篇文獻。在閱讀分析40篇文獻后,20篇因未做模型驗證被排除,同一研究團隊在不同雜志上發表文章,排除數據較少的文章1篇[13],本研究最終納入文獻21篇,包含英文文獻15篇,中文文獻6篇。
2.2納入文獻的一般情況 共納入21篇患者術后譫妄預測模型的研究,其中12篇為國外研究,9篇為國內研究,其中6篇為回顧性研究,其余15篇均為前瞻性研究。最早的預測模型發表于1994年,有14篇文獻發表于近3年,4篇研究的研究對象為心臟術后患者,4篇為髖部骨折患者。在納入的模型中,建模樣本量為112~303 863,驗模樣本為66~202 575、2項研究進行了內部驗證和外部驗證,9篇僅進行了外部驗證,10篇研究采用了CAM評估患者是否出現譫妄,3項研究使用了譫妄觀察量表(DOS)。譫妄發生率因研究對象和病種的不同有較大變化,為5.5%~52%。共20項報告了預測模型的AUC值,其中2項研究為機器學習模型,其余11項研究的建模組AUC值在0.66~0.91,驗模組AUC值為0.65~0.90。見圖1。

圖1 納入21項研究的一般情況和譫妄評估方法二維碼
2.3納入模型的方法學質量評價 納入的21篇文獻中,偏倚風險評價高風險的有19項研究,高風險領域主要是統計分析方面,2項研究不清楚風險等級。適用性評價方面,19項研究為低適用風險,2項風險等級不清楚,見表1。

表1 納入21篇文獻的偏倚風險和適用性評價
2.4納入模型的建模方法 在建模方法方面,21項研究中有19項采用logistic回歸的方法建模,2項采用機器學習的方法建模;在預測因子賦分方法上,8項依據回歸系數得出計算譫妄的發生概率的公式,7項研究采用因子賦值法,根據各因子回歸系數整數化或未整數化對因子進行賦值,通過計算因子分數之和預測患者術后譫妄風險。通過計算譫妄概率的研究平均AUROC值為0.815,根據因子賦值法的研究平均AUROC值為0.688,根據機器算法的研究平均AUROC值為0.827。19項研究中,6項研究報道了風險分層的具體方法,其中3項是根據因子分數之和將譫妄發生風險分層,1項是根據專家咨詢和課題小組談論制定,見表2。

表2 納入21篇文獻的建模方法
2.5納入模型的預測因子 納入的21項研究中,最多納入了71個預測因子,最少納入了2個預測因子。進一步將所有預測模型中的納入的預測模型分為易感因素和誘發因素兩大類。本次系統評價中,最為常見的術后譫妄易感因素是年齡(13個),其次是認知功能(11個);最為常見的誘發因素是水電解質紊亂(6個),見表3。

續表2 納入21篇文獻的建模方法

表3 納入21項研究的預測因子
本系統評價納入的21個預測模型中,文獻整體偏倚風險較高,整體適用性風險較低。15項研究建立的模型AUC>0.7。認知功能異常、年齡及內環境紊亂是模型中常用的預測因子。
3.1術后譫妄預測模型的整體偏倚風險較高 預測模型的偏倚風險跟研究設計、預測因子的設定及評估、結局指標的界定及評估和統計學處理等密切相關。本系統綜述納入的21篇文獻中,有19項研究偏倚風險為高風險,2項研究偏倚風險不確定,整體偏倚風險較高。
19項整體偏倚風險判定為高風險的研究中,因統計學處理領域為高偏倚風險,其他領域為低偏倚風險而整體判定為偏倚高風險的研究有14項。主要原因包括陽性事件樣本量缺乏、自變量的統計學處理缺乏依據、根據單因素分析結果篩選預測因子、預測模型的性能評估缺乏評判指標。PROBAST工具中指出,對于預測模型的開發研究,每個自變量的事件數需不小于20[12]。這提示在構建臨床預測模型時,可從研究設計和樣本量上衡量,當采用隊列研究時,總體樣本量的計算方法為:n≥預測因子數量×20/陽性事件發生率,以保證有足夠的陽性事件;當采用巢式病例對照研究時,保證陽性事件數至少為預測因子的20倍即可;自變量的統計學處理缺乏依據方面,主要體現在連續性變量的分類處理上缺乏依據,在未檢驗連續性變量是否與結局變量之間存在線性擬合的情況下對其進行分類處理[36],且分類方法缺乏科學性,例如將人群按身高分為≥1.6 m和<1.6 m,年齡每隔10歲分一組等[21-22];根據單因素分析結果篩選預測因子是大多數預測模型開發選用的常規做法,納入的21項研究中,有18項的預測因子的篩選是經過單因素分析步驟,但常常會因自變量間的共線性等問題而造成有效預測因子的丟失。建議在自變量較少時,納入全部變量,采用逐步回歸的方法進行多因素logistic 回歸分析;自變量較多時可采用單因素分析進行初篩,但要適當調整檢驗水準并結合專業選擇納入多因素分析的變量以避免漏掉重要的變量[37]。在預測模型的性能評估方面,性能評估主要包含區分度和校準度兩方面[38],大多數的研究采用了AUC來描述模型的區分度,但在校準度上,有16項研究報道,其中部分采用了Hosmer-Lemeshow(H-L)擬合優度檢驗量化模型校準度。有文獻指出,H-L檢驗得到的P值并不能用來衡量校準度,推薦采用Brier得分,得分越接近0,校準度越好[39]。
其余整體偏倚性風險高的研究,除了統計學處理領域偏倚風險高以外,因回顧性研究設計類型判定為高風險的研究有6項,因術后譫妄評估周期過長而判定為高風險的有2項。其中一項為術后30 d[21],另一項為術后6個月[25]。術后譫妄是一種短期的術后并發癥,歐洲協會定為術后1星期以內[7],國內術后3~5 d[6],建議往后的研究對術后譫妄的界定慎重考慮。
3.2模型中預測因子的預測強度較高 納入的21項研究中,15項研究的AUC在0.7以上,由于研究對象和納入變量的差異,各模型預測因子的數量及類型不盡相同,但存在一定的共性。認知功能損害、年齡和內環境紊亂是術后譫妄預測模型中使用較多的譫妄易感因素和誘發因素。通過分析發現,一半以上的模型使用了年齡和認知功能損害兩個易感因素,由于研究對象的不同,年齡分類在不同的術后譫妄預測模型中的臨界值不同,增大了研究間的異質性。內環境紊亂是術后譫妄預測模型中使用最多的誘發因素。內環境紊亂包括酸堿平衡失調、電解質紊亂如鉀離子等。邢煥民等[13]研究指出,當患者出現代謝性堿中毒時會影響中樞神經系統,出現躁動、精神錯亂等表現;當患者出現代謝性酸中毒時,除影響中樞神經系統外,還會造成離子失衡,出現心臟收縮乏力,使得有效循環血量減少,進而加重大腦功能障礙。因此醫務人員應積極糾正患者酸堿失衡和電解質紊亂,維持患者內環境的穩態。
3.3本研究的優勢與局限性
3.3.1優勢 (1)系統整合了近年來發表的術后譫妄預測模型,對研究對象、預測因子、預測效能以及模型使用方法進行了較為全面的介紹,可方便研究者選取相應模型指導臨床實踐。(2)首次采用PROBAST工具對發表的術后譫妄預測模型進行質量評價,剖析出目前預警模型構建中存在的主要問題是統計學處理方面,可為后期研究的開展提供參考。
3.3.2局限性 (1)本研究僅納入了中文及英文文獻,可能存在一定的發表偏倚。(2)21個術后譫妄預測模型的適用人群有所不同,譫妄評估工具等方面存在異質性,預測價值會有差異[40]。本文僅對納入的預測模型進行了定性總結,未進行定量分析,在臨床應用模型時需要注意模型的適用對象。(3)雖然大多數的模型具有較好的預測效能,但模型開發過程中的統計處理領域存在問題,在臨床應用前尚需進一步驗證模型的穩定性。(4)部分模型開發時間較早,是否適用于當下臨床實踐有待進一步探究。
綜上所述,本研究納入的21個術后譫妄預測模型,整體的預測性能較好,適用性風險較低,有利于醫護人員早期篩查術后譫妄的高發人群。但整體偏倚風險較高,醫務人員可結合自身實際,將已有模型進行驗證用于臨床,也可結合PROBAST開展大樣本的前瞻性隊列研究,構建一個扎根于本土的術后譫妄預測模型。