999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Logistic回歸模型和隨機森林模型診斷糖尿病周圍神經病變效能的比較

2022-05-25 13:27:36桑祎瑩黃仕鑫
廣西醫學 2022年5期
關鍵詞:重要性分析模型

桑祎瑩 黃仕鑫 易 靜 曾 慶

(1 重慶市衛生健康統計信息中心統計與政策研究部,重慶市 401120,電子郵箱:1341475734@qq.com;2 重慶市渝北區人民醫院,重慶市 401120;3 重慶醫科大學公共與衛生管理學院,重慶市 401120)

糖尿病周圍神經病變(diabetic peripheral neuropathy,DPN)在糖尿病患者中的發生率為41%~91%,是糖尿病常見的慢性并發癥之一,可嚴重影響糖尿病患者的生活質量[1-2]。DPN的發病機制十分復雜,目前主要認為氧化應激、神經炎癥和細胞凋亡在DPN的發病機制中起著關鍵作用[3]。早期診斷、早期治療是延緩DPN發展、改善患者預后的關鍵[4]。

近年來,數據挖掘技術已經被廣泛應用于零售、金融、保險、電信、生物信息、醫療衛生等領域中,在醫療衛生領域,隨著醫學的進步和信息技術的發展,數據挖掘技術在疾病的相關因素分析、預后預測、診斷等方面得到了良好的應用[5]。在慢性病學研究中,Logistic回歸模型簡單易用,而隨機森林模型算法穩健,對納入模型的數據結構不做要求、不存在共線性與過擬合[6],因此兩者用途非常廣泛。本研究采用Logistic 回歸模型和基于機器學習理論的隨機森林模型建立DPN診斷模型,并比較這兩種模型診斷DPN的效果,為計算機輔助早期診斷DPN提供參考,從而改善患者的預后。

1 資料與方法

1.1 臨床資料 納入2016年1~12月在重慶醫科大學附屬第二醫院內分泌科確診為DPN的患者(共計2 199例)為病例組,同時采用簡單隨機抽樣法從同期體檢對象中選取2 610例非DPN的體檢人群作為對照組。病例組納入標準:(1)均為2型糖尿病患者[7];(2)符合DPN的診斷標準。對照組納入標準:(1)無糖尿病及神經疾病病史;(2)神經系統檢查無陽性體征;(3)本次體檢中未發現有高血脂、高血壓、高血糖。兩組研究對象排除標準:(1)其他病因引起的神經病變;(2)嚴重動靜脈血管性病變;(3)化療藥物及其他藥物引起的神經損傷;(4)有嚴重心、肝、腎功能障礙者;(5)臨床檢驗指標缺失率>40%[8]。

1.2 DPN的診斷標準[7](1)有明確的糖尿病病史。(2)診斷糖尿病時或之后出現的神經病變:有臨床癥狀 (疼痛、麻木、感覺異常等)者,5項檢查(踝反射、針刺痛覺、震動覺、壓力覺、溫度覺) 中任意1項異常;無臨床癥狀者,5項檢查(踝反射、針刺痛覺、震動覺、壓力覺、溫度覺)中任意2項異常。(3)需排除其他病因引起的神經病變、嚴重動靜脈血管性病變、藥物引起的神經毒性作用,以及腎功能不全相關的代謝毒物所致的神經損傷。

1.3 數據收集 本研究僅納入19個臨床檢驗指標進行分析,包括超敏C反應蛋白、糖化血紅蛋白、LDL、HDL、三酰甘油、總膽固醇、總膽紅素、總蛋白、白蛋白、ALT、AST、堿性磷酸酶(alkaline phosphatase,ALP)、γ-谷氨酰轉肽酶、尿素、尿酸、血紅蛋白、鈣、鉀、鈉。病例組的臨床指標為住院患者入院時檢測,由信息科導出病案數據。

1.4 統計學分析

1.4.1 數據預處理:采用K-means法對19個臨床檢驗指標進行缺失值填補,以改進數據的質量,并提高數據分析的可行性和準確性。應用R 3.6.0軟件有放回地重復隨機抽取全部樣本的70%作為訓練樣本(共3 395例),余下的30%的樣本作為測試樣本(共1 414例)。

1.4.2 Logistic回歸模型的建立:應用SPSS 22.0統計軟件對4 809例觀察對象涉及的19個臨床檢驗指標進行單因素分析,計量資料以(x±s)表示,組間比較采用t檢驗或t′檢驗,以P<0.05為差異有統計學意義。以單因素分析篩選出的差異有統計學意義的臨床檢驗指標作為Logistic回歸模型的自變量,以是否患有DPN作為二分類Logistic回歸模型的因變量。應用SPSS 22.0統計軟件對訓練樣本和測試樣本進行逐步Logistic回歸(α入=0.05,α出=0.15)分析,以P<0.05為差異有統計學意義。

1.4.3 隨機森林模型的建立:利用訓練樣本生成隨機森林模型,其中需設置兩個重要參數,包括以模型誤判率最低的變量個數作為隨機森林模型樹節點預選變量個數,以及以模型誤差趨于穩定的決策樹數量作為隨機森林模型中樹的數量。采用逐一增加變量的方法從19個臨床檢驗指標變量中選出模型誤判率最低的樹節點變量個數,結果顯示訓練樣本生成節點變量個數為4,決策樹數量為400時隨機森林模型誤差趨于穩定。因此,本文構建了決策樹節點處變量個數為4,決策樹數量為400的隨機森林模型,并利用多數投票的方式對測試樣本的類別做出預測,判定是否為DPN。同時,隨機森林模型具有評估變量重要性的功能,變量的重要性評分越高說明該變量對模型判別情況的影響越大。

1.4.4 模型診斷效能的評價:采用R 3.6.0軟件繪制受試者工作特征(receiver operating characteristic,ROC)曲線評價模型的診斷效能,其中曲線下面積越接近1說明其診斷價值越高。

2 結 果

2.1 多因素Logistic回歸模型 將19項臨床檢驗指標進行單因素分析,對照組與病例組之間19項指標的差異均有統計學意義(均P<0.05),見表1。將這19項臨床指標作為Logistic回歸模型的自變量(均以連續型變量納入),以DPN的診斷結果(DPN=1,非DPN=0)作為因變量進行多因素Logistic回歸分析。通過逐步法剔除變量后,最終有14項臨床檢驗指標納入回歸模型,見表2。經測試集樣本驗證,模型正確率為81.4%,ROC曲線下面積為0.882,見表3。

表1 單因素分析結果(x±s)

表2 Logistic回歸分析結果

2.2 隨機森林模型 將19項臨床檢驗指標納入分析,隨機森林模型中各變量相應的重要性評分,見圖1。訓練樣本3 395例,節點處變量個數為4,決策樹數量為400,基于此參數對測試集樣本(1 414例)的數據進行分類;經測試集樣本驗證,模型正確率為96.7%,ROC曲線下面積為0.963,見表3。

表3 Logistic回歸模型與隨機森林模型的診斷效能評價結果(n=1 414)

圖1 隨機森林模型變量重要性評分

注:僅展示前15個指標;Mean Decrease Accuracy代表的是隨機森林模型預測準確性的降低程度,該值越大表示重要性越大;Mean Decrease Gini代表的是通過基尼指數計算每個變量對分類樹每個節點觀測值的異質性的影響。

3 討 論

DPN多起病隱匿,進程緩慢,患者開始無自覺癥狀,待其臨床癥狀出現時,周圍神經已出現不可逆的病理改變,這給治療帶來較大困難,因此,早期診斷和早期治療顯得尤為重要[9-10]。傳統檢測方法對DPN早期患者的檢出率比較低,診斷存在片面性和延誤診斷等不足[11]。

隨機森林模型以建立N棵決策樹為基分類器,進行集成學習后得到一個組合分類器,結合了Bootstrap隨機重采樣技術和隨機子空間方法,通過自助法重采樣技術以有放回的方式抽取多個不同的訓練集樣本,在每一個樣本數據集上訓練決策樹分類器,決策樹集成產生之后,采用多數投票的方式對未知樣本的類別做出預測。與Logistic回歸模型相比,隨機森林模型不僅訓練速度快而且容易實現,穩健性較高,同時可以自動辨別模型的相關變量,避免了單獨觀察某一個指標的片面性和主觀性,且不易出現過度擬合的情況[12-14]。張曉林等[15]分析采用隨機森林算法和Logistic回歸法構建的首發缺血性腦卒中患者出院90 d的復發預測模型的預測效果,結果顯示隨機森林模型的準確性、靈敏度、約登指數分別為89.2%、81.3%、0.425,均高于多因素Logistic回歸分析模型;梁冰倩等[16]采用隨機森林預測模型和Logistic回歸預測模型對高尿酸血癥進行預測,結果顯示隨機森林預測模型的ROC曲線下面積、靈敏度、特異度、準確率分別為0.759、97.2%、54.5%、0.920,均優于Logistic回歸分析模型。以上結果說明隨機森林模型對疾病的預測效果較Logistic回歸模型有顯著優勢。因此,本研究除采用Logistic回歸模型外,還采用隨機森林模型建立DPN的診斷模型,并對兩種診斷模型的效能進行比較。

本研究中,經測試樣本驗證,Logistic回歸模型和隨機森林模型的正確率分別為81.4%、96.7%,靈敏度分別為72.5%、98.3%,特異度分別為89.2%、95.2%,ROC曲線下面積分別為0.882、0.963,提示隨機森林模型對DPN的早期診斷能力優于Logistic回歸模型。因此,基于機器學習理論的隨機森林模型,或可為計算機輔助早期診斷DPN提供一種客觀可靠的方法。同時,隨機森林模型的分析結果給出了各個變量指標的重要性評分,從隨機森林變量指標的重要性可以看出,超敏C反應蛋白、糖化血紅蛋白、尿酸、白蛋白等變量的重要性更靠前。其他學者也發現,超敏C反應蛋白、糖化血紅蛋白、尿酸、白蛋白等實驗室指標對于早期識別、預防和治療DPN有積極作用[17-19]。以上重要性靠前的變量或可作為研究DPN風險因素的重點關注指標。

總之,隨機森林模型對DPN的診斷效能優于Logistic回歸模型,同時隨機森林模型的分析結果給出了各個變量指標的重要性評分,可為DPN的早期診斷提供重要的依據。本研究的不足之處:僅采集了實驗室指標作為變量,且實驗室指標的采集不全面;同時由于某些指標數據的缺失值大于40%,未納入分析,故可能遺漏某些早期診斷DPN的關鍵特征因素。DPN的影響因素繁多,利用模型進行診斷仍存在很大的挑戰,因此,下一步將使用更全面的樣本集對本研究中的模型進行驗證和改進,從而建立更準確的診斷模型。

猜你喜歡
重要性分析模型
一半模型
“0”的重要性
隱蔽失效適航要求符合性驗證分析
論七分飽之重要性
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
主站蜘蛛池模板: 福利国产微拍广场一区视频在线| 精品少妇三级亚洲| 午夜a级毛片| 国产成人精品午夜视频'| 一级片免费网站| 国产精品久久久久无码网站| 国产激情第一页| 思思99热精品在线| 成年人免费国产视频| 日韩免费毛片| 国产无码性爱一区二区三区| 国产色网站| 国产精品美乳| 欧美国产精品不卡在线观看| 亚洲综合色吧| 免费观看精品视频999| 亚洲黄色成人| 四虎成人精品| 制服丝袜在线视频香蕉| 中文字幕日韩欧美| 国产精品成人观看视频国产 | 日本欧美精品| 中文字幕乱码二三区免费| 日韩a在线观看免费观看| 亚洲91精品视频| JIZZ亚洲国产| av天堂最新版在线| 日本不卡视频在线| 国产午夜精品鲁丝片| 91麻豆精品国产高清在线| 国产女人在线视频| 999国产精品| 久久a毛片| 91成人在线观看| 国产亚洲成AⅤ人片在线观看| 国产欧美性爱网| 国产97视频在线观看| 精品国产网站| 免费国产一级 片内射老| 色男人的天堂久久综合| 国产欧美视频在线观看| 99热这里都是国产精品| 女人爽到高潮免费视频大全| 亚洲一区二区视频在线观看| 国产在线视频自拍| 无码网站免费观看| 视频二区中文无码| 亚洲成人精品久久| 91精品国产一区自在线拍| 一本色道久久88| 永久在线播放| 国产综合精品一区二区| 九九热精品视频在线| 久久久噜噜噜| 亚洲一区二区日韩欧美gif| 国产爽歪歪免费视频在线观看 | 国产精品页| 中文字幕日韩欧美| 精品亚洲国产成人AV| 美女扒开下面流白浆在线试听 | 国产十八禁在线观看免费| 国产欧美视频一区二区三区| 中文字幕亚洲乱码熟女1区2区| 欧美在线视频不卡第一页| 亚洲中文无码av永久伊人| 熟妇丰满人妻| 国产成人8x视频一区二区| 国产在线麻豆波多野结衣| 国产女人18水真多毛片18精品| 亚洲综合极品香蕉久久网| a欧美在线| 国产日韩久久久久无码精品| 国产男女免费视频| 69视频国产| 国产精品欧美激情| 亚洲成aⅴ人在线观看| 一级毛片在线播放| 在线观看免费AV网| 婷婷伊人久久| 欧美色99| 亚洲丝袜中文字幕| 日韩国产欧美精品在线|