朱鴻 袁羽佳 王俊祎 劉洋 方彥鵬
(貴州中醫(yī)藥大學(xué)第二附屬醫(yī)院超聲醫(yī)學(xué)科,貴州 貴陽 550003)
1.1一般資料 根據(jù)我院2020年01月至2022年03月部分職工的體檢數(shù)據(jù),隨機提取653例,簽署知情同意書后,進(jìn)行疲勞量表問卷填寫及心臟超聲檢查,用于構(gòu)建模型,變量來源包括職工的性別、年齡、生化指標(biāo)、心臟超聲、疲勞分值等。排除已患有各種基礎(chǔ)疾病者。
1.2研究方法 本研究的重要數(shù)據(jù)包括疲勞量表分值及心臟超聲結(jié)果。慢性疲勞的癥狀是難以定義的,尤其在主觀感覺上。許多專家于1992年共同研制了疲勞量表-14[1](Fatigue Scale-14,FS-14),以計算疲勞分值的方式來篩選疲勞病例,測定疲勞癥狀的嚴(yán)重性,并可評估臨床療效。FS-14由14個問題組成,每個問題都與疲勞相關(guān),從不同角度反映疲勞的輕重,其包含軀體疲勞及腦力疲勞兩個方面,受試者根據(jù)實際情況回答“是”或“否”。軀體疲勞分值最高為8,腦力疲勞分值最高為6,兩者之和為疲勞總分值,最高分值為14,分值越高,反映疲勞越嚴(yán)重。而心臟超聲檢查主要包括各房室腔大小、主動脈及肺動脈內(nèi)徑,左心室的收縮功能及舒張功能、心臟血流動力學(xué)等等有關(guān)數(shù)據(jù)。尤其是左室舒張早期血流峰值(E),左室舒張晚期血流峰值(A)及E/A比值等與左室舒張功能相關(guān)的數(shù)據(jù)。通過對653例醫(yī)務(wù)人員的體檢數(shù)據(jù)、心臟超聲、疲勞量表相關(guān)問卷的采集和數(shù)據(jù)錄入,使用機器學(xué)習(xí)XGBoost算法,建立人工智能診斷模型,得出受試者工作特征曲線(ROC),計算出AUC(Area Under Curve)值以獲取其有效性。
1.3統(tǒng)計學(xué)方法 機器學(xué)習(xí)(machine learning,ML)是應(yīng)用計算機模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,在疾病的診斷、預(yù)后中具有較高的準(zhǔn)確性。Xtreme Gradient Boosting(XGBoost)[2]是一種專為診斷而設(shè)計的機器學(xué)習(xí)算法,它可將單獨預(yù)診斷效果很弱的分類器組合成為穩(wěn)健的估計器,建立診斷模型,通過計算增益(Gain)對變量池中的變量進(jìn)行選擇,由xgboost自動計算并自動選擇。
2.1XGBOOST決策樹 將收集到的數(shù)據(jù)按照7:3劃分為訓(xùn)練集和測試集,先利用訓(xùn)練集得出決策樹。從決策樹中可以看出,影響被解釋變量左室舒張功能是否降低最重要的解釋變量(節(jié)點分類依據(jù))為疲勞指數(shù)score,其作為根節(jié)點,信息增益gain有212.71,信息增益度之和約為251.98。除此之外年齡也為比較重要的影響因素,開始出現(xiàn)在第三級的非終端節(jié)點中,共出現(xiàn)了4次,信息增益度gain約為12.96;而性別(男2,女1,>1.5為男性,<1.5為女性)則最晚出現(xiàn)非終端節(jié)點分類依據(jù),說明性別對于被解釋變量左室舒張功能降低與否影響較小,且在整個決策樹中作為非終端節(jié)點只出現(xiàn)了1次,信息增益度gain之和約為2.13。根據(jù)以上模型可以看出,疲勞指數(shù)是最直接可以判定一個人是否會出現(xiàn)左室舒張功能降低情況的解釋變量,而隨著年齡增大,左室舒張功能降低情況更可能出現(xiàn),中老年女性比中老年男性更可能出現(xiàn)左室舒張功能降低情況。
2.2XGBOOST模型決策樹的混淆矩陣 利用測試集得到的決策樹,可以得到以下混淆矩陣。陽性預(yù)測值PPV=TP/(TP+FP)=50/(50+17)=0.7463;真陽性率TPR=TP/(TP+FN)=50/(50+9)=0.8475;真陰性率TNR=TN/(TN+FP)=120/(120+17)=0.8759。可以看出該模型的陽性預(yù)測值、真陽性率、真陰性率都較高,該模型可信度較高。
2.3XGBOOST模型決策樹的ROC曲線 在本文中,選擇進(jìn)一步利用ROC曲線來檢測模型的準(zhǔn)確性。ROC曲線全稱為受試者工作特征曲線 (receiver operating characteristic curve),它是根據(jù)一系列不同的二分類方式(分界值或決定閾),以真陽性率(敏感性)為縱坐標(biāo),假陽性率(1-特異性)為橫坐標(biāo)繪制的曲線。ROC曲線是研究二分類問題中一種簡便、高效的綜合性工具,它通過連接真陽率與假陽率在不同切斷點或者閾值下的值,構(gòu)造出一條單調(diào)遞增曲線,曲線下的面積AUC( receiver operating characteristic curve)即可作為衡量診斷效果的指標(biāo),面積數(shù)值越大,則代表該分類方法越有效。ROC曲線在算法效度研究、心理測評、臨床醫(yī)學(xué)診斷中都有廣泛的應(yīng)用[3]。AUC取值范圍在0.5和1之間。AUC越接近1.0,檢測方法真實性越高;等于0.5時,則真實性最低,無應(yīng)用價值。本模型的AUC值為0.759,較大,說明本模型應(yīng)用價值較高。

圖1 ROC曲線
慢性疲勞綜合征(chronic fatigue sydrome,CSF)是20世紀(jì)90年代中期由日本學(xué)者Fukuda首次提出[4]。迄今為止,其判定并無金標(biāo)準(zhǔn)。在我國,目前尚無CFS診治指南,現(xiàn)有診斷主要基于主觀問卷調(diào)查,少有客觀實驗室指標(biāo)。雖然CFS與心血管系統(tǒng)疾病的研究相對較少,但有研究表明CFS與心血管系統(tǒng)功能的降低密切相關(guān)[5-7];另有通過心臟磁共振證實CFS患者的心臟容積、心輸出量明顯降低[8];Hollingsworth KG通過對一百多例CFS患者心臟超聲檢查發(fā)現(xiàn),CFS患者的左室射血分?jǐn)?shù)、舒張末期容積和心輸出量均明顯降低,且這種心功能的降低與CFS的病情嚴(yán)重程度呈正相關(guān)[5]。換言之,心臟超聲指標(biāo)已被證實與慢性疲勞的發(fā)生、嚴(yán)重程度密切相關(guān)。
在本研究中,以醫(yī)護(hù)人員作為研究對象并建立相關(guān)隊列,初步建立了以疲勞分值及心臟超聲等客觀指標(biāo)的CFS預(yù)測模型,為CFS的進(jìn)一步診斷和治療提供了理論依據(jù)。