陳淑良 常紅 王冬平 張策


[摘要] 目的 采用數據挖掘方法,考察2型糖尿病的危險因素,確定最優風險預測模型,為建立手機APP軟件提供算法,為糖尿病I級預防提供風險預測支持。 方法 收集某醫院2016年1月—2017年7月的糖尿病患者全數據集,共5 571例,通過與同期體檢健康對照組5 571例進行對比研究,分別建立Logistic 回歸模型和多層感知器神經網絡模型,比較優劣,確定最終預測模型。 結果 結果顯示 Logistic 回歸和多層感知器神經網絡模型對訓練樣本的預測準確率分別為89.7%、80.4%,對測試樣本的預測準確率分別為89.8%、79.8%。 結論 Logistic回歸模型對2型糖尿病風險預測效能較高,預測結果也更容易結合臨床實際,用于風險控制手機APP軟件后臺編程。
[關鍵詞] 2 型糖尿病;風險預測分析;Logistic回歸模型;多層感知器神經網絡模型;決策樹分析模型
[中圖分類號] R587.1????????? [文獻標識碼] A????????? [文章編號] 1672-4062(2019)02(b)-0001-03
Establishment and Application of Risk Prediction Model for Type 2 Diabetes Based on Data Mining
CHEN Shu-liang1, CHANG Hong1, WANG Dong-ping2, ZHANG Ce1
1.The Second Affiliated Hospital of Dalian Medical University, Dalian, Liaoning Province, 116027 China; 2. Zhongshan College, Dalian Medical University, Dalian, Liaoning Province, 116023 China
[Abstract] Objective To investigate the risk factors of type 2 diabetes by using data mining methods, to determine the optimal risk prediction model, to provide algorithms for establishing mobile APP software, and to provide risk prediction support for diabetes level I prevention. Methods A total of 5 571 patients with diabetes mellitus from January 2016 to July 2017 in the hospital were enrolled. A logistic regression model and a multi-layer perceptron neural network model were established by comparing with 5 571 healthy people in the same period, comparing the pros and cons, determine the final prediction model. Results The results showed that the prediction accuracy of the logistic regression and multi-layer perceptron neural network model for training samples were 89.7% and 80.4%, respectively, and the prediction accuracy for the test samples was 89.8% and 79.8%, respectively. Conclusion Logistic regression model has higher predictive effect on risk of type 2 diabetes, and the prediction results are more easily combined with clinical practice. It is used for background programming of risk control mobile APP software.
[Key words] Type 2 diabetes; Risk prediction analysis; Logistic regression model; Multilayer perceptron neural network model; Decision tree analysis model
隨著經濟發展,生活水平的提高,人口不斷向老齡化、城鎮化方向發展,糖尿病已經成為嚴重危害人類健康的重大公共衛生問題,其中全世界約有3.5億人患有2型糖尿病(T2DM)[1]。流行病學資料顯示我國每年新發的2型糖尿病人數達到 680 萬~740萬[2],由于2型糖尿病臨床確診前有較長的潛隱期,因此,對高危人群的篩查和防治是控制2型糖尿病發病的有效途徑[3]。近年來,數據挖掘方法廣泛應用于醫學領域,在疾病診斷、預后、風險評估等方面表現出良好的應用價值[4-6],也為臨床慢性病的控制提供了有效的工具和手段[7]。在前期的文獻檢索過程中,發現對糖尿病及其并發癥的研究較多,但各研究的樣本量不多,從數百例到數千例不等,達不到數據挖掘的準確度要求[8-9]。該研究收集2016年1月—2017年7月11 142例數據,預測未知人群的2型糖尿病風險,做好慢性病的I級預防,并期望將這種數據模型軟件化,制成手機APP軟件,為2型糖尿病以及其他慢性疾病的I級預防提供理論依據及必要的預測工具,現報道如下。
1? 資料與方法
1.1? 一般資料
對醫院的內分泌科住院的糖尿病患者全數據集5 571例進行分析。同時,在同期42 716名體檢中心健康人數據集中隨機抽取5 571名數據作為對照組,隨機種子數為1 794,數據處理過程中對數據進行脫敏操作,保護患者隱私,通過醫院倫理委員會審查。
納入的糖尿病患者,診斷均符合2010版《中國2型糖尿病防治指南》[10]診斷標準:①糖尿病癥狀加上隨機血糖檢測,靜脈血漿葡萄糖≥11.1 mmol/L或②空腹血糖(FPG)靜脈血漿葡萄糖≥7.0 mmol/L或③葡萄糖負荷后2 h血糖≥11.1 mmol/L,癥狀不典型者,臨床診斷必須經過另一天的重復試驗所證實。
1.2? 變量及定義
①文化程度分為“高學歷”“低學歷”;②吸煙分為 “是” “否”;③飲酒分為“是”“否”;④地區分為市區、市區外;⑤婚姻分為“已婚”‘未婚;⑥職業分為腦力為主、體力為主;⑦體質指數 (body mass index,BMI)= 體重(kg)/身高(m)2;⑧高血壓:確診為高血壓者;⑨甘油三酯(TG):正常值0.4~1.81 mmol/L;⑩糖化血紅蛋白:正常值≤6.5%;{11}高血脂疾病史:均符合《血脂異常防治建議》中關于高血脂的診斷標準,已被確診為高血脂癥;{12}冠心病疾病史[11]:以往被確診為冠心病;{13}甲狀腺疾病史[12]:以往被確診為甲狀腺性疾病;{14}糖尿病家族史:根據既往病例判斷,直系親屬患有糖尿病。
1.3? 統計方法
采用SPSS 17.0統計學軟件進行數據統計分析。采用軟件的隨機數功能從全數據集中選取70%,作為訓練樣本。余下的30%作為測試樣本。訓練樣本用于計算參數和建立Logistic回歸模型和神經網絡模型,測試樣本用于評估預測效果。
2? 結果
2.1? 一般情況
該研究共納入11 142例數據,糖尿病組男性3 124例,女性2 447例,平均年齡(62.49±0.17)歲,健康對照組男性 3 002例,女性2 569 例,平均年齡(44.75±0.19)歲[13-14]。
2.2? logistic 回歸分析
模型變量篩選過程采用多因素建模篩選,按照“一般情況”(性別、年齡、文化程度、職業、民族、家庭住址、婚姻狀況、吸煙情況、飲酒)“既往病史”(家族史、高血壓、冠心病、甲狀腺、高血脂)“檢驗結果”(收縮壓、舒張壓、總膽固醇、低密度脂蛋白、高密度脂蛋白、甘油三酯、谷草轉氨酶、谷丙轉氨酶、糖化血紅蛋白、BMI),將因素分為不同的模型,分別回歸,將有意義的因素篩選出來進入最終的模型,得出糖尿病的最終影響因素。
Logistc回歸結果,如表1,建立多因素預測方程為:
P=1/(1+e(16.089-0.09×年齡+2.687×高血壓病史-1.471×冠心病病史-4.549×甲狀腺病史-0.021×收縮壓+0.005×谷草轉氨酶+2.941×糖尿病家族史+0.129×糖化血紅蛋白)。
根據所建方程對訓練樣本進行預測,其預測準確率為89.7%。其對測試樣本的預測準確率是89.8%。
2.3? 多層感知器神經網絡分析
該多層感知器神經網絡模型共分為2層。見圖1。以2.2中篩選出的變量為自變量,以是否發生糖尿病為因變量建立多層感知器神經網絡模型,其對訓練樣本的預測準確率為80.4%,對測試樣本的預測準確率為79.8%。
3? 討論
該文研究結果表明,二個模型預測準確率均較高,Logistic回歸模型得出的因素比較全面,對2型糖尿病的風險預測結果相對準確,可以較好地應用于慢病風險預測。我們結合臨床實踐,并考慮決策樹在多類別選擇時,錯誤可能會增長的比較快,故該次研究未采用,多層感知器神經網絡模型雖然有諸多優勢,但其是一個黑箱系統,至今沒有明確的公式,結果不容易解釋,同時其對數據預測準確率也不優于Logistic模型。數據顯示,兩個模型在影響因素的選擇方面取得了良好的一致性,印證了對真實世界數據集預測的相符性[15-18]。
該文最終采用Logistic回歸模型用于手機預測APP的編程,是目前流行病學和醫學中最常用的分析方法之一。首先從該文的結果可以看出,相同條件下Logisitc模型結果準確率較高,其次其可以將建模結果公式化,相比于神經網絡模型,更適用于軟件編程等實際應用過程,另外, Logistic回歸中的回歸系數和OR值,可對模型和變量具有較好的解釋性,從而量化影響因素對輸出變量的影響,可應用于慢病風險預測。采用Logistic回歸模型結果,可進一步編寫具有自學習能力的慢病風險預測手機APP軟件,利用手機APP軟件,公眾可把相關危險因素輸入軟件,即可自行簡便且免費獲得罹患該疾病風險的初步信息,并根據專業醫生建議制定不同的防控措施,以期降低糖尿病的發病率。
[參考文獻]
[1]? Nathan DM. Diabetes: advances in diagnosis and treatment[J]. JAMA, 2015, 314(10): 1052-1062.
[2]? 中華醫學會糖尿病學分會.新診斷2型糖尿病患者短期胰島素強化治療專家共識[J].中華醫學雜志,2013,93(20):1524-1526.
[3]? Bhushan R, Elkind-hirsch KE, Bhushan M, et al. Improved glycemic control and reduction of cardiometabolic risk factors in subjects with type 2 diabetes and metabolic syndrome treated with exenatide in a clinical practice setting[J]. Diabetes Technol Ther, 2009, 11(6): 353-359.
[4]? 吳偉,郭軍巧,安淑一,等.使用思維進化算法優化的神經網絡建立腎綜合征出血熱預測模型[J].中國衛生統計,2016,33(1):27-30.
[5]? 葉華容,楊怡,林萱,等.BP神經網絡在高頻彩超特征診斷乳腺癌中的應用[J].中國衛生統計,2016,33(1):71-72.
[6]? Tseng WT, Chiang WF, Liu SY, et al. The application of data mining techniques to oral cancer prognosis[J]. J Med Syst, 2015, 39(5): 59-66.
[7]? Gonzalez GH, Tahsin T, Goodale BC, et al. Recent advances and emerging applications in text and data mining for biomedical discovery[J]. Brief Bioinform, 2015, 17(1): 33-42.
[8]? 黃雅鈴,楊曉波,龍禹,等.廣西地區妊娠期糖尿病的危險因素分析及其風險預測模型的建立[J].廣西醫科大學學報,2017,34(6):835-838.
[9]? 呂喆,陳亦棋,沈麗君,等.2型糖尿病患者糖尿病視網膜病變風險預測模型的建立和初步驗證[J].中華眼底病雜志,2017,33(3).
[10]? 中華醫學會糖尿病學分會.中國2型糖尿病防治指南(2010年版)[J].中國實用鄉村醫生雜志,2011,20(6):4-5.
[11]? 中華醫學會心血管病學分會,中華心血管病雜志編輯委員會.非ST段抬高急性冠狀動脈綜合征診斷和治療指南[J].中華心血管病雜志,2012,40(5):353-367.
[12]? 黨樂,胡雅婷,張永莉.多種抗體檢測在甲狀腺疾病診斷中的應用價值[J].中國醫藥導報,2016,13(18):65-68.
[13]? 楊小軍,張雪超,李安琪.利用Excel和Tableau實現業務工作數據化管理[J].電腦編程技巧與維護,2017(12):66-68.
[14]? 陳春明,孔靈芝.中華人民共和國衛生部疾病控制司.中國成人超重和肥胖癥預防控制指南[M].北京:人民衛生出版社,2006.
[15]? 宋健,吳學森,張杰,等.三種統計學模型在糖尿病個體患病風險預測中的應用[J].中國衛生統計,2017(2):312-314.
[16]? 趙曉華.基于大數據下2型糖尿病及并發癥患者就診信息的挖掘研究[D].廣州:廣州中醫藥大學,2016.
[17]? Leon BM, Maddox TM. Diabetes and cardiovascular disease: Epidemiology, biological mechanisms, treatment recommendations and future research[J]. World J Diabetes, 2015, 6(13): 1246-1258.
[18]? 王東營,張琨,許天敏.宮頸癌患病危險因素及一級預防[J].現代腫瘤醫學,2017,25(11):1827-1830.