王 浩,張興平**,龔后武,孫 研,文 騰,袁術鵬,蘇明亮,李言生,蘇 杭,栗翊超,韋葭蔚
(1. 中國中醫科學院望京醫院信息中心 北京 100102;2. 中國中醫科學院研究生院 北京 100700;3. 東華軟件股份公司 北京 100190)
隨著社會的發展,人口老齡化已成為一個全球化的現象,骨傷科的老年患者數量亦顯著上升。對于老年骨科患者而言,手術治療能夠及時解除病痛,降低各種因臥床引發的并發癥。然而,由于年齡、生理狀況及合并疾病等因素影響,老年患者對手術創傷的耐受能力不一,手術潛在風險高[1]。因此,手術風險預測對于高齡骨科手術患者尤為重要。骨科醫生為針對可逆性風險因子作出調控,就務必要掌握圍手術期的所有風險因子。
臨床一般采取手術方式為骨折患者開展治療,但手術治療往往會導致患者失血過多,引發低蛋白血癥,導致患者預后不良,使患者在手術后仍然承受較大的痛苦[2,3]。術后患者低白蛋白血癥的發生率較高,為70%-80%[4]。低蛋白血癥可引起組織、器官水腫,導致患者出現胸腔積液、腹水、肺水腫、切口不愈合、吻合口瘺等并發癥,影響機體對創傷的修復。研究證實,低蛋白不僅能延緩機體組織愈合、降低抗感染能力、增加術后并發癥發生率及病死率,還與病情嚴重程度及預后密切相關[5]。
目前少有針對高齡老年骨科手術患者低蛋白血癥篩選獨立危險因素及建立風險預測模型的報道。近年來,大數據分析逐漸引起關注,尤其是在醫療衛生領域。因此,本研究的研究對象為中國中醫科學院望京醫院骨傷科治療的526 例高齡手術患者,通過對其臨床醫療數據作回顧性分析,構建高齡骨科患者術后發生低蛋白血癥的大數據風險預測模型,最終為今后高齡骨傷科患者術后并發癥相關治療和預防策略提供依據。
收集 2003 年 7 月 7 日至 2014 年 12 月 22 日時間段于中國中醫科學院望京醫院骨科住院的高齡患者(說明1:數據要求患者為單次手術,若患者多次手術時,時間間隔超過半年,則可以算作新的病例。經篩查發現數據中有重復出現的病案號24例,均為二次住院的手術,審核時間間隔發現均超過半年,故作為新的病例來研究,因此原數據新增24 例,共550 例,最終清洗剩余548例)(說明2:本文中的高齡是指入院時年齡大于等于60 周歲)。其中年齡83.79 ± 3.23 歲,男性182例,女性366例。
本研究的結局為患者術后是否出現低蛋白血癥,將所需的患者信息內容集中于臨床科研一體化數據倉庫中。研究特征涵括患者年齡、性別、檢查檢驗、診斷醫囑、就診時間等。人口學特征、生命體征、實驗室檢查等臨床變量,作為建模候選變量。低蛋白血癥的判斷標準“血清總蛋白水平小于60 g·L-1,清蛋白小于35 g·L-1”定為低蛋白血癥[6]。
對檢查檢驗指標的連續型特征統一量綱,并按術前術后劃分,并取極值(同期多次檢查的最高、最低值);離散型特征做了類別規范;數據規則結果如表1、表2。數據預處理流程包括:①異常值處理。修正處理:部分記錄錯誤的數據,若可以修正的,取均值或邊界值;刪除處理:錄入時產生,無法追溯的,刪除處理為缺失值。②缺失值處理[7]。補全:部分缺失值經醫學專家確認后在原數據補全。部分缺失值采用陰性值補全。部分缺失值不予補全。決定不采用插補法或多重插補法予以補全。刪除規則:分析中對缺失太多的變量特征,經與醫學專家討論確認進行特征刪除,其他缺失在分析中均采用個案刪除的方式。③極端值處理。尚未做處理。④特征標準化。連續特征采用標準分數(z-score)標準化方法轉換,經轉換后的數據滿足均值為0 標準差為1;離散特征做獨熱編碼onehot變換,實現離散特征的“標準化”。

表1 統一單位的變量

表2 離散特征類別規范

圖1 數據處理流程圖
采用Python2.7對數據進行建模分析,分析流程如圖1 所示。定量資料若符合正態分布,以表示,用Student'sttest 做組間比較。不符合正態分布的定量資料以中位數表示,用Wilcoxon 秩和檢驗做組間比較。定性資料以n(%)表示,用卡方檢驗做組間比較。以P值小于0.05表示差異具有統計學意義。
利用7種目前流行的機器學習模型對構建立老年骨折患者發生低蛋白血癥的大數據風險預測模型,通過ROC(Receiver Operating Characteristic,受試者工作特征)曲線下面積AUROC 評價模型預測效果。通過3個指標:準確率、召回率和F值評價機器學習算法性能[8]。
各個指標具體的含義為:

表3 分類結果混淆矩陣

真陽性(True Positive,TP);真陰性(True Negative,TN);假陰性(False Negative,FN);假陽性(False Positive,FP)。
準確率越高,說明模型的敏感性越高;召回率越高,說明模型的特異性越好;F值越大,說明模型的總體性能越好。
研究收集 2003 年 7 月 7 日至 2014 年 12 月 22 日期間中國中醫科學院望京醫院骨科患者526例(說明:數據要求患者為單次手術,若患者多次手術時,時間間隔超過半年,則可以算作新的病例。經篩查發現數據中有重復出現的病案共24 例,均為二次住院的手術,審核時間間隔發現均超過半年,故作為新的病例來研究)。其中病例組男性患者73 例,年齡84.78 ± 3.58歲;女性患者142例,年齡84.45±3.65歲。對照組男性104 例,年齡83.13 ± 2.81 歲;女性207 例,年齡83.98 ±3.12 歲。本研究526 例患者中,存在低蛋白血癥的共有215 例,占總人數的40.87%;無低蛋白血癥的共有311例,占總人數的59.13%。
將年齡、麻醉方式_椎管內麻醉、平均紅細胞壓積min(注min:minumum,最小值)、住院時間、總膽紅素min、白細胞計數max(注max:maximum,最大值)、血清總白蛋白min、血鉀max、堿性磷酸酶min、血鈣max、白蛋白定量min等多個因素納入多元預測模型。利用網格搜索(GridSearch)方法進行參數尋優,并使用k-折交叉驗證對模型評估。研究通過邏輯回歸[9]、決策樹[10]、隨機森林[11]、支持向量機[12]、AdaBoost[13]、GBDT[14](Gradient Boost Decision Tree,梯度提升決策樹)、XGBoost[15]等7 種目前流行的機器學習模型。對比模型擬合及預測效果,選擇最佳算法作為最終的老年骨折患者發生低蛋白血癥的大數據風險預測模型。其中以邏輯回歸模型為最佳,訓練集的10 折交叉驗證AUC 值高達80.77%。低蛋白血癥預測模型特征按重要性排序(圖2中橫坐標絕對值)如下:麻醉方式_椎管內麻醉、白蛋白定量min、血鈣max、平均紅細胞壓積min、總膽紅素min 等,表明它們是老年骨折患者發生低蛋白血癥的獨立危險因素。重要特征排序詳見圖2。

圖2 低蛋白血癥邏輯回歸預測模型特征重要性排序

圖3 高齡骨折患者術后低蛋白血癥風險預測ROC曲線圖
邏輯回歸模型在測試集上準確率達77.36%,召回率達95.00%。上述結果均說明模型擬合效果很好,得到的邏輯回歸模型具有統計學意義。軟件繪制ROC曲線(圖3),AUC 為0.8077,提示模型效果良好。低蛋白血癥邏輯回歸模型為:f(x)=1/{1+exp[-(1.19*麻醉方式_椎管內麻醉+0.44*平均紅細胞壓積min+0.39*住院時間+ 0.28*總膽紅素min + 0.07*白細胞計數max-1.07*白蛋白定量min-0.53*血鈣max-0.25*堿性磷酸酶min - 0.16*血鉀max - 0.13*血清總白蛋白min)]}

表4 不同機器學習模型的預測性能比較
經過在訓練集上對7個機器學習模型進行參數調節優化,獲得了優化后的預測模型以及在測試集上進行測試后得到評價指標值,XGBoost 模型、決策樹Decision Tree 模型和隨機森林Random Forest 模型等7個不同機器學習模型的預測性能對比(表4)。通過表4 可以看出,在準確度方面,SVC(Support Vector Machine,支持向量機)模型表現最優,其準確率比Random Forest、LR(logistic regression,邏輯回歸)模型高約4%。7 種模型的召回率差異較為明顯,以SVC、LR 最佳(達 95.00%),Decision Tree、XGboost、GBDT(Gradient Boosting Decision Tree,梯度提升決策樹)、Adaboost(adaptive boosting,自適應提升)次之(均為70.00%),Random Forest 最差(僅達65.00%)。綜合,F值以SVC 最佳(0.87),說明支持向量機模型的總體預測性能較好。
由表4 可以發現,SVC 模型的總體性能可知,SVC模型對高齡骨科患者術后低蛋白血癥病例數據的擬合程度較高且穩定性好,SVC 模型可以幫助骨科醫生處理術后低蛋白血癥預測的相關問題。
本文提出了一種基于不同機器學習算法的高齡骨科患者術后低蛋白血癥風險預測模型。從預測模型的分類預測準確度方面來看,在高齡骨科患者數據上搭建術后低蛋白血癥風險預測模型是成功的,有較高的預測精度、良好的性能。機器學習模型(如集成模型)常見于數據挖掘、人工智能領域研究,研究報道機器學習模型是可以推廣到相關醫療領域中[16,17]。利用基于不同機器學習算法的高齡骨科患者術后低蛋白血癥風險預測模型對實驗結果進行分析,結果表明相較于其他機器預測模型,基于邏輯回歸的高齡骨科患者術后低蛋白血癥風險預測模型能夠輔助醫療工作者在疾病診斷的過程中提高準確率的同時降低誤診率和漏診率。
本次研究,邏輯回歸算法分析結果給出了檢查指標因素指標(病例數據處理過程中文本結構化出現偏倚,檢驗指標較客觀)的重要性評分,為骨科高齡手術患者術后低蛋白血癥的診斷流程給出了一些有意義的指標。預測模型準確率和特征重要性排序feature importance 中檢查檢驗特征的評分優于其他特征。實驗結果表明,邏輯回歸與其他機器學習算法相比較,具有模型易懂、容易調整、訓練高效、魯棒性強等優越性。
高齡老年患者,機體各系統功能低下,加上創傷打擊和傷后進食較差,機體代謝長期處于負氮平衡,有很多患者在術前血清白蛋白含量和血清總蛋白含量低于正常值低限[18]。所以若要降低術后出現低蛋白血癥的概率,臨床醫師就應該重視在術前發現上述情況,并且患者存在低蛋白的一系列表現,應給予更積極地處理[19]。
低蛋白血癥不是一個獨立的疾病,而是各種原因所致氮負平衡的結果。主要表現營養不良。血液中的蛋白質主要是血漿蛋白質及紅細胞所含的血紅蛋白。血漿蛋白質包括血漿白蛋白、各種球蛋白、纖維蛋白原及少量結合蛋白如糖蛋白、脂蛋白等,總量為6.5~7.8 g%。若血漿總蛋白質低于6.0 g%,則可診斷為低蛋白血癥。對低蛋白血癥一般經及時、合理的治療,均可取得一定療效[20-22]。
除有原發疾病的表現外,其主要臨床表現是營養不良。氮負平衡使皮下脂肪和骨骼肌顯著消耗,病人日益消瘦,嚴重者呈惡液質狀態[23]。胃腸道粘膜萎縮,胃酸分泌減少,消化酶減少,因而食欲差。疲乏、無力也是常見癥狀,病人不愛活動,體力下降,反應漸趨遲鈍,記憶力衰退。多有輕、中度貧血,經常頭暈,可有體位性低血壓和心動過緩。浮腫的發生與血漿有效滲透壓減低有關。體液的滲透壓與其所含溶質的分子量成反比,白蛋白分子量較小,是維持膠體滲透壓的主要成分,血漿與組織液的總滲透壓相差不大,但因血漿內所含不能滲透過毛細血管壁的白蛋白較多,故血漿的滲透壓較高,從而使水分有從組織液進入血漿的趨勢[24]。血漿白蛋白減少時,有效滲透壓減低,使組織間潴留過多的水分,而出現浮腫,浮腫嚴重時可出現胸水及腹水,此外,還可有性功能減退、閉經、骨質疏松、機體抵抗力差等。血漿纖維蛋白原減少者可有出血傾向[25]。
引起低蛋白血癥的原因包括:①蛋白攝入不足或吸收不良,如胃腸道淤血,胃癌,膽道疾病等。②蛋白質合成障礙,如各種原因的肝臟損害,使肝臟蛋白合成能力降低所致[26,27]。③長期大量蛋白質丟失,如消化道潰瘍,大面積創傷,腎病綜合征,狼瘡性腎炎,惡性高血壓,糖尿病腎病等[28,29]。④蛋白質分解加速,如長期發熱,惡性腫瘤,甲狀腺功能亢進等。以上種種原因都可能會使氮負平衡,進而造成低蛋白血癥。
高齡骨科患者術后發生低蛋白血癥的大數據風險預測模型給出的特征重要性排序為臨床上尋找危險因素提供有意義的證據。特征重要性排序顯示,白蛋白定量是預測模型重要性特征。眾多研究表明在老年患者術后感染、應激所致基礎代謝率加速,對蛋白質的需求增加[30]。IL1、IL6、TNF-α等炎癥因子影響機體蛋白代謝,導致低蛋白血癥是通過作用于肝細胞抑制白蛋白mRNA 的表達實現的;病情嚴重的患者,造成稀釋性低蛋白血癥的原因是應激狀態時全身毛細血管通透性增加,導致血管內白蛋白滲透至組織間隙及快速補液[31]。
白蛋白是脂類、電解質等物質轉移運輸的主要載體和自由基清除劑,乃保障凝血的關鍵因子[32]。低蛋白血癥導致多器官功能不全的機制在于通過降低血漿膠體滲透壓,致使大量液體在組織間隙滯留,減少有效循環血量,增高血液黏度,進而,造成微循環障礙,造成重要器官灌注不足[33]。
綜上所述,進行白蛋白檢測可作為一種鑒別低蛋白血癥的重要手段,可準確評估患者術后病情和預后。
另外,本研究的邏輯回歸高齡骨科患者術后低蛋白血癥的特征重要性評估顯示:住院時間、白細胞計數、總膽紅素分別排在靠前位置,說明這三個變量對該模型的重要性較大,其中白細胞計數考慮為術后感染引發白細胞數增加相關。預測模型特征重要性排序中還包括血清總白蛋白、血鉀、堿性磷酸酶等,因本研究樣本量的限制,故需要對模型優化深入分析以上特征對模型重要性的機制。
本文針對骨科領域的術后并發癥風險預測問題,提出了一種基于不同機器學習算法的高齡骨科患者術后低蛋白血癥風險預測模型。開始抽取患者臨床HIS(hospital information system,醫院信息系統)數據中提取特征,而后把以上特征作為低蛋白血癥風險預測的輸入,喂入7 種不同機器學習模型來對低蛋白血癥進行預測,最后將比較7中機器學習模型預測性能。
數據建模結果表明,基于邏輯回歸算法的高齡骨科患者術后低蛋白血癥預測模型各評價標準最佳。分析特征重要性排序,我們發現了對模型貢獻較高的風險因素。據此給骨科醫生針對高齡骨科患者術后低蛋白血癥的預防與質量帶來了參考意義。本研究存在的不足之處:首先采集以往的病例資料進行回顧性分析,數據可靠性方面存疑,可能存在結果偏倚。受納入數據量所限,模型有待大數據驗證。