








Construction and performance verification of a predictive model for PICC related blood flow infection in tumor patients based on machine learning algorithms
LI Xiaoling YAN Xiaoxia YANG Ning LI Xiaohong
1.Shanghai Shibei Hospital,Shanghai 200443 China;2.Shanghai Pulmonary Hospital;3.Shanghai North Station Hospital
Corresponding Author "LI Xiaohong,E?mail:lixiaohong121@163.com
Keywords "machine learning algorithms;tumor patients;peripherally inserted central catheter,PICC;catheter-related blood stream infection;prediction model
摘要""目的:探討腫瘤病人經(jīng)外周靜脈置入中心靜脈導管(PICC)相關性血流感染預測模型的構建及效能驗證。方法:選取2021年4月—2023年3月收治的腫瘤病人2 608例作為研究對象,所有病人住院期間均行PICC導管置管,根據(jù)病人是否發(fā)生PICC導管相關性血流感染分為發(fā)生組和未發(fā)生組。基于機器學習算法,分別采用支持向量機(SVM)、XGBoost及Logistic回歸分析方法構建腫瘤病人PICC導管相關性血流感染發(fā)生預測模型,并進行分析比較,得出具有預測效能的算法模型。結果:兩組病人的血小板計數(shù)、PICC留置時間、導管留置時間、傷口敷料類型、是否有導管移位以及單次置管穿刺次數(shù)比較,差異有統(tǒng)計學意義(Plt;0.05);XGBoost預測模型中血小板計數(shù)對模型影響最大,其次為D?二聚體水平;在SVM模型中,血小板計數(shù)的沙普利加性解釋(SHAP)值最大,表明其對模型的影響最為明顯;而Logistic回歸模型中最終納入PICC留置時間、導管留置時間、傷口敷料、是否有導管移位、單次置管穿刺次數(shù)5個因子,且XGBoost預測模型區(qū)分能力最高。結論:病人是否發(fā)生PICC導管相關性血流感染在多個指標上有差異,且不同模型的影響因素不同。SVM及XGBoost構建的預測模型的敏感度與準確度上優(yōu)于Logistic回歸模型,可以對PICC導管相關性血流感染風險作出相對精準的評估和預測,在臨床工作中能有效降低PICC導管相關性血流感染的發(fā)生率。
關鍵詞""機器學習算法;腫瘤病人;經(jīng)外周靜脈置入中心靜脈導管;導管相關性血流感染;預測模型
doi:10.12102/j.issn.2095-8668.2025.07.016
經(jīng)外周靜脈置入中心靜脈導管(PICC)是指經(jīng)貴要靜脈、頭靜脈或肘正中靜脈穿刺,通過腋靜脈到達上腔靜脈與心房連接處的中心靜脈導管[1]。與其他靜脈導管比較,PICC導管有諸多優(yōu)點,但是在臨床使用過程中仍會出現(xiàn)導管堵塞、導管相關性局部感染和導管相關性血流感染(catheter?related blood stream infection)及移位脫落等[2?3]。而導管相關性血流感染是長期置管常見的并發(fā)癥,指留置導管期間及拔除血管后48 h內(nèi)發(fā)生的原發(fā)性、與其他部位感染無關的感染,病人局部出現(xiàn)為紅、腫、痛及滲出等炎癥表現(xiàn),嚴重者可能會出現(xiàn)寒戰(zhàn)或低血壓等全身感染表現(xiàn)[4?5]。導管相關性血流感染發(fā)生率是醫(yī)院感染的一個重要指標,但是目前腫瘤病人中PICC導管相關性血流感染確切發(fā)生率存在爭議[6]。Madabhavi等[7]進行的單中心前瞻隊列研究顯示,在腫瘤病人中導管相關性血流感染發(fā)生率為12.5%;Lee等[8]進行一項多中心前瞻隊列研究顯示,腫瘤病人中導管相關性血流感染發(fā)生率為5.2%;Liu等[9]進行的單中心前瞻隨機對照試驗結果表明,在腫瘤化療病人中導管相關性血流感染發(fā)生率為16.8%;Wan等[10]的研究結果顯示,導管相關性血流感染發(fā)生率為28.1%(含腫瘤及非腫瘤危重病人)。本研究課題組對3所醫(yī)院2021年PICC置管腫瘤病人進行回顧性調查,結果顯示,導管相關性血流感染發(fā)生率為6.2%~16.8%。盡管上述相關研究數(shù)據(jù)存在差異,但都表明PICC置管腫瘤病人中導管相關性血流感染發(fā)生率較高。
為了降低導管相關性血流感染的發(fā)生率,保障病人安全,國內(nèi)外均制定了專門針對血管內(nèi)導管相關感染的預防與控制技術指南,相關指南一致推薦對導管相關性血流感染進行有效預防,是降低其發(fā)生率最經(jīng)濟、最高效的措施[11?12]。而科學、準確的風險評估是預防導管相關性血流感染發(fā)生極其重要的一個環(huán)節(jié),但目前臨床上尚缺乏廣泛使用的導管相關性血流感染風險評估工具。隨著我國護理信息化建設的推進,產(chǎn)生了大量高質量的數(shù)據(jù),作為一種新穎的數(shù)據(jù)處理工具,人工智能(AI)中的機器學習算法數(shù)據(jù)分析能力相對較強,廣泛用于醫(yī)學研究中[13]。因此,本研究主要探討基于機器學習算法的腫瘤病人PICC導管相關性血流感染預測模型的構建及效能驗證,實現(xiàn)對PICC導管相關性血流感染發(fā)生風險作出相對精準的評估和預測,在臨床工作中能有效降低PICC導管相關性血流感染的發(fā)生率。現(xiàn)報道如下。
1 對象與方法
1.1 研究對象
本研究通過醫(yī)院信息系統(tǒng)收集上海市北醫(yī)院、上海肺科醫(yī)院、上海市北站醫(yī)院于2021年4月—2023年3月收治的行PICC置管的住院腫瘤病人的臨床資料,并進行回顧性分析,病人所在科室為腫瘤科、胸外科。納入標準:1)均為本課題研究醫(yī)院首診病例[14?15];2)住院期間實施PICC置管術,且置管的目的為化療、胃腸外營養(yǎng)、靜脈輸液治療;3)置管前均無血培養(yǎng)陽性。排除標準:1)精神異常、凝血功能異常或伴有自身免疫系統(tǒng)疾病者;2)導管留置時間lt;7 d、年齡lt;18歲;3)置入導管后48 h內(nèi)拔管;4)相關研究指標缺失gt;3.0%者。本研究樣本量采用一種新型的預測模型樣本量計算[16],得出至少需要納入樣本量為1 900例;考慮10%~20%的樣本量可能不符合要求,因此至少需要樣本量為2 260例;考慮結果的穩(wěn)定性,本研究共納入樣本量2 608例。本研究已通過上海市北醫(yī)院醫(yī)學倫理委員會審批(審批號:YL?20220523?02)。
1.2 研究方法
1)PICC導管相關性血流感染。病人帶有血管內(nèi)導管或拔除血管內(nèi)導管48 h內(nèi)出現(xiàn)菌血癥或真菌血癥,伴有發(fā)熱(體溫≥38 ℃)、寒戰(zhàn)或低血壓等感染表現(xiàn),除靜脈導管外無其他明確的感染源[17?18]。2)PICC導管相關性血流感染影響因素分析。查閱病人病歷資料并統(tǒng)計相關資料:①一般資料,包括性別、年齡、手術史、是否留置導尿管、是否使用激素、是否腸外營養(yǎng)、是否機械通氣、化療次數(shù);②臨床指標,包括病人入院時白細胞計數(shù)、中性粒細胞百分比、血小板計數(shù)、C反應蛋白(C?reactive protein,CRP)、降鈣素原(procalcitonin,PCT)及D?二聚體(D?dimer,D?D)水平等;③PICC導管相關情況,包括PICC置管部位、置管前是否使用抗生素、PICC留置時間、PICC導管類型、導管留置時間、固定方法、傷口敷料、是否有導管移位、單次置管穿刺次數(shù)等,篩選出差異有統(tǒng)計學意義的風險因素[19]。3)構建基于機器學習算法的預測模型。本研究采用機器學習算法,參考多因素Logistic回歸的樣本量粗略估計方法,結局變量中比較少的一類,建模樣本量至少為自變量數(shù)目10倍以上。本研究結局變量2個水平(有導管相關性血流感染和無導管相關性血流感染),通過查詢文獻,初步估算有意義的自變量(風險因素)有20個,則導管相關性血流感染發(fā)生的樣本量約為200例。結合本研究3所醫(yī)院2021年導管相關性血流感染發(fā)生率為6.2%~16.8%,取均值11.5%,則建模樣本量約為1 739例。參考多因素Logistic回歸建模要求,建模樣本量為總樣本量的2/3,則總樣本量為2 608例。將入組的2 608例病人采用隨機數(shù)字表法分為2個部分,其中70%(2 086例)為訓練集,用于模型訓練與構建;30%(522例)作為測試集,用于模型最終表現(xiàn)的測試[20]。將預測結局分為二分類結果,選擇支持向量機(support vector machine,SVM),通過預測值沙普利加性解釋(shapley additive explanations,SHAP)值體現(xiàn),該值越高,預測因子越重要,通過SHLearn庫實現(xiàn))、XGBoost(采用gain值衡量某個特征的增益,該值越大,特征對模型影響越大,通過xgboost庫實現(xiàn))及Logistic回歸分析[通過回歸系數(shù)或比值比(OR)及95%置信區(qū)間(CI)體現(xiàn),通過scikit?learn庫構建腫瘤病人PICC導管相關性血流感染發(fā)生預測模型[21]。
1.3 質量控制方法
為了保證本研究的順利完成,本研究團隊包括臨床專家、靜脈治療專科護士、護理研究生、計算機教授及數(shù)學建模專家等;入組病例篩選、病案的復核及數(shù)據(jù)庫的構建均需要由專人(經(jīng)統(tǒng)一培訓后)進行操作;將獲得的數(shù)據(jù)建立數(shù)據(jù)庫,并由雙人錄入,比較差錯。為了保證3種構建模型的一致性,建模時均由同一人操作,且構建過程中需對獲得的數(shù)據(jù)多次討論,確定算法[22]。
1.4 統(tǒng)計學方法
采用極端梯度增強XGBoost、Logistic回歸和SVM建立機器學習模型;所有統(tǒng)計分析均采用R 3.6.3和Python 3.7完成。符合正態(tài)分布的定量資料采用均數(shù)±標準差(x±s)描述,行t檢驗;偏態(tài)分布數(shù)據(jù)用中位數(shù)和四分位數(shù)描述,行非參數(shù)檢驗。根據(jù)有無合并導管相關性血流感染將病人分為感染組和非感染組,采用R 3.6.3軟件進行單因素Logistic回歸分析,以Plt;0.05為納入多因素分析的標準,篩選出兩組差異有統(tǒng)計學意義的風險因素,以受試者工作特征(ROC)曲線評估風險因素聯(lián)合預測價值;采用馬修斯相關系數(shù)評估二元分類模型性能;采用FI系數(shù)評估模型預測精度,Brier為風險指數(shù)。
2 結果
2.1 PICC導管相關性血流感染發(fā)生影響因素的單因素分析(見表1)
本組2 608例PICC置管病人,發(fā)生PICC導管相關性血流感染143例,發(fā)生率為5.48%。
2.2 PICC導管相關性血流感染發(fā)生影響因素的特征分析
將單因素分析中差異有統(tǒng)計學意義的變量納入其中。基于機器學習算法構建預測模型,結果表明:XGBoost預測模型中血小板計數(shù)對模型影響最大,其次為D?D水平;SHAP值在SVM模型中,血小板計數(shù)對模型影響最大;而Logistic回歸模型中,將PICC導管相關性血流感染是否發(fā)生危險(是=1,否=0)作為因變量,將單因素分析中差異有統(tǒng)計學意義的變量(Plt;0.05)作為自變量,納入到多因素Logistic回歸分析中,校正各自變量,采用向后逐步回歸分析(血小板計數(shù)由于有共線性排除到模型外),結果顯示,除單次置管穿刺次數(shù)外,其余變量對結局的影響均有統(tǒng)計學意義(Plt;0.05),見表2、表3和圖1、圖2。
2.3 PICC導管相關性血流感染不同預測模型的性能
不同預測模型性能結果表明,馬修斯相關系數(shù):訓練集中SVMgt;XGBoostgt;Logistic回歸分析;測試集中XGBoostgt;SVMgt;Logistic回歸分析。FI系數(shù):訓練集中SVMgt;XGBoostgt;Logistic回歸分析;測試集中XGBoostgt;SVMgt;Logistic回歸分析。ROC曲線下面積(AUC):訓練集和測試集中XGBoost均最高,表明XGBoost預測模型區(qū)分能力最高。見圖3、圖4、表4。
3 討論
3.1 腫瘤病人PICC導管相關并發(fā)癥及導管相關性血流感染發(fā)生的影響因素分析
目前,PICC是臨床腫瘤病人靜脈化療常用的輸液通道[23]。而導管相關性血流感染是PICC最為嚴重的并發(fā)癥之一,發(fā)生率為0.2%~9.2%[24]。臨床實踐觀察到皮炎、導管相關性血栓、局部感染、滲液等并發(fā)癥往往發(fā)生在導管相關性血流感染前,主要是因為發(fā)生皮炎處的皮膚完整性受到不同程度的破壞,局部抵抗力下降,導管維護頻次增加,增加了感染的發(fā)生率[25]。本研究結果顯示,PICC導管相關性血流感染發(fā)生影響因素有血小板計數(shù)、PICC留置時間、導管留置時間、傷口敷料、是否有導管移位、單次置管穿刺次數(shù)(Plt;0.05)。根據(jù)SVM預測模型,血小板計數(shù)、D?D水平對導管相關性血流感染發(fā)生率影響最大,表明在腫瘤PICC病人中,導管相關性血流感染發(fā)生的相關影響因素較多,且獨立危險因素眾多,但與臨床實踐的結果并不一致。導管相關性血栓或穿刺點滲液是病原菌生長的良好培養(yǎng)基等,這些并發(fā)癥均可能增加導管相關性血流感染的發(fā)生風險[26]。本研究并未納入這些并發(fā)癥發(fā)生情況,主要原因是這些并發(fā)癥的發(fā)生可能與已納入本研究的某些指標存在因果關聯(lián),可能會影響模型的構建,如局部皮膚感染與導管留置時間以及穿刺次數(shù)可能相關,而導管相關性血栓可能與導管留置時間相關。因此,本研究中未納入并發(fā)癥相關研究指標,這解釋了研究結果與其他臨床實踐報道結果的差異性。
3.2 機器學習算法在腫瘤病人PICC導管相關性血流感染中的應用分析
隨著我國護理信息化建設的推進,產(chǎn)生了大量高質量的數(shù)據(jù),作為一種新穎的數(shù)據(jù)處理工具,AI中的機器學習算法數(shù)據(jù)分析能力極強,被用于臨床醫(yī)學研究獲得廣泛認可。采用導管相關性血流感染發(fā)生預測模型,實現(xiàn)早發(fā)現(xiàn)、早干預的目的。AI是一項利用計算機替代人類,實現(xiàn)認知、識別、分析及決策功能的技術。而機器學習在AI中發(fā)揮了重要的作用[27]。機器學習包括SVM、邏輯回歸分析、決策樹等,隨著上述算法的不斷發(fā)展,相繼用于醫(yī)學研究中。機器學習算法對復雜的非線性關系數(shù)據(jù)更有優(yōu)勢[28]。
對于PICC病人,唐倩蕓等[3]建立的列線圖預測模型結果顯示,糖尿病、惡性腫瘤、血液病、腸外營養(yǎng)、雙腔、附加裝置、曾住重癥監(jiān)護病房及留管時間是PICC病人發(fā)生導管相關性血流感染的獨立風險因素(Plt;0.05),AUC為0.930。盡管上述風險因素或模型對預測導管相關性血流感染有提示意義,但仍存在一定的局限性,如Meta分析得出部分影響因素同臨床護理實踐存在差異[2],性別、置管季節(jié)、穿刺方式、住院時間長同感染關系尚有待于進一步探討。在傳統(tǒng)統(tǒng)計學模型中,密歇根PICC導管相關血流感染風險預測(MPC)評分僅納入6個因素,多腔PICC臨床應用較少,臨床實踐應用局限性較大,缺乏普適性[29]。
本研究結果顯示,XGBoost預測模型中血小板計數(shù)對模型影響最大,其次為D?D水平;SHAP值在SVM模型中,血小板計數(shù)對模型影響最大。不同預測模型性能結果表明,XGBoost預測模型具有良好的精確度和區(qū)分度;Logistic回歸模型中納入了PICC留置時間、導管留置時間、傷口敷料、是否有導管移位、單次置管穿刺次數(shù)5個影響因素。因此,腫瘤病人PICC置管過程中,除了密切監(jiān)測PICC留置時間、導管留置時間、傷口敷料、是否有導管移動、單次置管穿刺次數(shù)5個影響因素外,還應及時檢測血小板計數(shù)和D?D水平。可采用XGBoost模型,針對病人發(fā)生導管相關性血流感染風險,可進行前瞻性護理干預,以鞏固治療效果,降低PICC導管相關性血流感染發(fā)生率。
4 小結
綜上所述,基于機器學習算法的SVM及XGBoost預測模型性能在敏感度與特異度上優(yōu)于Logistic回歸模型,其中XGBoost模型的AUC最高,為0.778,提示預測效能最好,是目前腫瘤病人PICC導管相關性血流感染發(fā)生預測模型的最優(yōu)算法。預測模型可以更好地篩選高危病人,幫助腫瘤病人更好地預防PICC導管相關性血流感染。然而,本研究仍有一定的局限性:首先,本研究是一項觀察性研究,潛在偏倚的風險高于隨機對照試驗;其次,應盡可能多地收集影響預后的因素。因此,在未來的研究中,除了繼續(xù)擴大樣本量,還要納入更多可能相關的因素進行分析。
參考文獻:
[1] 劉佳,和茵,劉鑫.腫瘤患者PICC導管相關性感染的危險因素及護理對策[J].昆明醫(yī)科大學學報,2021,42(1):173-176.
[2] 王鏡美,賴宗浪,余雨楓,等.腫瘤患者PICC血流感染影響因素的Meta分析[J].右江民族醫(yī)學院學報,2020,42(5):624-629.
[3] 唐倩蕓,邢柏.預測PICC導管相關血流感染風險的列線圖模型的建立與驗證[J].中國醫(yī)藥導報,2020,17(36):45-48.
[4] YU J Y,JEONG G Y,JEONG O S,et al.Machine learning and initial nursing assessment-based triage system for emergency department[J].Healthcare Informatics Research,2020,26(1):13-19.
[5] 張倩瑩,邱迪聰,張澤勇.利用機器學習預測術前護理對手術壓瘡預防的效果[J].中國數(shù)字醫(yī)學,2021,16(4):45-49.
[6] 孫玉萍,宋崗,張建美,等.基于機器學習的PICC相關性上肢深靜脈血栓形成預測[J].循證護理,2021,7(15):2071-2075.
[7] MADABHAVI I,PATEL A,SARKAR M,et al.A study of the use of peripherally inserted central catheters in cancer patients:a single-center experience[J].Journal of Vascular Nursing,2018,36(3):149-156.
[8] LEE J H,KIM M U,KIM E T,et al.Prevalence and predictors of peripherally inserted central venous catheter associated bloodstream infections in cancer patients:a multicentre cohort study[J].Medicine,2020,99(6):e19056.
[9] LIU X M,TAO S,JI H X,et al.Risk factors for peripherally inserted central catheter (PICC)-associated infections in patients receiving chemotherapy and the preventive effect of a self-efficacy intervention program:a randomized controlled trial[J].Annals of Palliative Medicine,2021,10(9):9398-9405.
[10] WAN R,GU L L,YIN B,et al.A six-year study of complications related to peripherally inserted central catheters:a multi-center retrospective cohort study in China[J].Perfusion,2023,38(4):689-697.
[11] 國家衛(wèi)生健康委辦公廳醫(yī)政醫(yī)管局.血管導管相關感染預防與控制指南(2021版)[J].中國感染控制雜志,2021,20(4):387-388.
[12] LAMBE C,POISSON C,TALBOTEC C,et al.Strategies to reduce catheter-related bloodstream infections in pediatric patients receiving home parenteral nutrition:the efficacy of taurolidine-citrate prophylactic-locking[J].JPEN,2018,42(6):1017-1025.
[13] 汪淑華,程博,朱麗群,等.基于機器學習算法的PICC相關性血栓風險預測模型比較研究[J].中華現(xiàn)代護理雜志,2022,28(16):2144-2151.
[14] 劉莉莉,劉玉秋,仰欣,等.血液透析患者帶隧道帶滌綸套導管相關性血流感染危險因素分析及預測模型構建與驗證[J].中國血液凈化,2021,20(11):773-777.
[15] KAGAN E,SALGADO C D,BANKS A L,et al.Peripherally inserted central catheter-associated bloodstream infection:risk factors and the role of antibiotic-impregnated catheters for prevention[J].American Journal of Infection Control,2019,47(2):191-195.
[16] RILEY R D,ENSOR J,SNELL K I E,et al.Calculating the sample size required for developing a clinical prediction model[J].BMJ,2020,368:m441.
[17] 張慧,陳丹丹,邵靜,等.基于KNN算法與logistic回歸的代謝綜合征風險預測模型構建與對比研究[J].重慶醫(yī)學,2023,52(13):2019-2023.
[18] 安旭,黃大偉,焦明遠,等.基于全血細胞計數(shù)的機器學習算法構建侵襲性乳腺癌預測模型[J].標記免疫分析與臨床,2023,30(4):665-671.
[19] 楊磊,聶艷武,朱凱,等.不同機器學習算法在烏魯木齊市NAFLD風險預測模型中的應用[J].現(xiàn)代預防醫(yī)學,2021,48(18):3270-3276.
[20] 汪淑華.基于機器學習的PICC相關性血栓風險預測模型構建[D].江蘇大學,2023.
[21] 張弛,王萍,蘇佳山,等.基于機器學習算法的干眼預測模型研究[J].國際眼科雜志,2021,21(9):1644-1648.
[22] 吳蓉蓉,魯珊珊,張久樓,等.基于機器學習預測超時間窗急性前循環(huán)大血管閉塞患者機械取栓預后的研究[J].臨床放射學雜志,2022,41(3):404-409.
[23] GRAVDAHL E,HAUGEN D F,F(xiàn)REDHEIM O M.Use of peripherally inserted central venous catheters and midline catheters for palliative care in patients with cancer:a systematic review[J].Supportive Care in Cancer,2024,32(7):464.
[24] 上官藝,王孟,王春娟,等.基于機器學習的缺血性卒中功能預后預測模型研究[J].中國卒中雜志,2021,16(9):895-900.
[25] 陶雍,李顏霞,薛嵋,等.腫瘤病人PICC留置期間接觸性皮炎與導管相關感染的相關性分析[J].全科護理,2021,19(33):4659-4662.
[26] 賈靈芝,王蒙蒙,張敏,等.PICC相關血流感染并深靜脈血栓形成成功保留導管的臨床護理[J].齊魯護理雜志,2022,28(5):159-161.
[27] 楊佳蕾,陳思玎,孟霞,等.基于機器學習預測血糖異常急性缺血性卒中患者預后模型研究[J].中國卒中雜志,2022,17(7):730-736.
[28] 陶雍,毛靜玉,薛嵋,等.腫瘤患者PICC導管相關血流感染風險預測模型的構建[J].中國護理管理,2022,22(11):1718-1721.
[29] HERC E,PATEL P,WASHER L L,et al.A model to predict central-line-associated bloodstream infection among patients with peripherally inserted central catheters:the MPC score[J].Infection Control and Hospital Epidemiology,2017,38(10):1155-1166.
(收稿日期:2024-04-03;修回日期:2024-11-07)
(本文編輯"薛佳)