宋華翠 辛鐵君 戴翔 劉洋春子 張瑩 高莉潔



【摘要】目的:分析某企業高血壓主要危險因素,建立發病預測模型。方法:利用某企業2006-2016年體檢的大數據,采用廣義估計方程篩選高血壓病的危險因素,采用BP神經網絡模型建立高血壓發病預測模型。結果:BP神經網絡模型對各自變量對預測高血壓的重要性依次為體檢年齡、體重指數、性別、混合型高脂血癥、飲酒習慣、高甘油三酯血癥、吸煙習慣、飲食習慣,經過驗證對高血壓病有較好的預測能力。結論:BP神經網絡模型能夠較好的解決多因子復雜疾病預測問題,具有較好的預測效果。本研究對高血壓病的主要危險因素的重要性排序,可對該疾病干預提供依據。
【關鍵詞】BP神經網絡;高血壓;危險因素;變量
Abstract Objective: To analyze the main risk factors and incidence prediction of hypertension in an enterprise. Methods: Generalized estimation equations were used to analyze single-factor analysis and multi-factor analysis, and BP neural network model was used to analyze the physical examination data of 180363 hypertensive patients detected by 512,000416 persons. Results: The importance of the main risk factors of chronic diseases was ranked, and the importance of BP neural network model to the prediction of hypertension in each variable was medical examination age, body mass index, gender, mixed hyperlipidemia, drinking habits, and high triglyceride blood. Disease, smoking habits, eating habits. The ability to recognize high blood pressure is better than the ability to high blood pressure. Conclusion: The BP neural network model can better solve the multi-factor complex disease prediction problem, has a better prediction effect and the importance ranking of the main risk factors, and provides a basis for developing disease intervention.
Keywords: BP neural network, hypertension, risk factors, variables
前言
高血壓是心血管疾病的主要危險因素,近年來我國高血壓患病率呈明顯上升趨勢,高血壓是由多基因遺傳和多種環境不良因素交互作用而成,其長期發展可導致動脈粥樣硬化病情的發展及形成加速,引發心肌缺血、缺氧及壞死,形成冠心病。多個危險因素的聯合作用導致了高血壓疾病的發生,影響慢性病發生的危險因素它們之間往往存在復雜的非線性關系。BP(Back Propagation)網絡是1986年由Rumelhart和McCelland為首的科學家小組提出,是一種按誤差逆傳播算法訓練的多層前饋網絡,是目前應用最廣泛的神經網絡模型之一。BP網絡能學習和存貯大量的輸入-輸出模式映射關系,而無需事前揭示描述這種映射關系的數學方程。人工神經網絡(artifieial neural networks,ANN)可以更好地揭示這些變量間的關系,通過數據挖掘可以分析多個變量對結果變量的作用大小,更好地揭示這些變量間的關系,預測疾病發生概率。本研究就是運用這種模型預測高血壓。
1 對象與方法
1.1 研究對象
選取2006年1月-2016年12月,年齡18歲以上某企業員工在職與退休員工51.2416萬人次的體檢數據。
1.2 研究內容
本研究從年齡、性別、行為生活方式、體檢監測指標等方面,進行高血壓風險因素相關性分析,對有統計學意義的變量建立預測模型,并進行自變量的重要性分析。
1.3 研究方法
為確定本研究中所使用的變量,分別對各年組高血壓進行廣義估計方程分析單因素分析和多因素分析,對有統計學意義的變量建立預測模型,并進行自變量的重要性分析,篩選有意義的變量納入BP神經網絡模型,采用多層感知器方法進行高血壓模型構建,通過對比ROC曲線下面積驗證預測效果,
1.3.1 廣義估計方程(generalized estimating equations,GEEs) 是Liang和Zeger (1986)在廣義線性模型的基礎上提出來主要被應用于水平數為兩水平的縱向觀察資料的分析,用于分析存在相關性數據的一種回歸模型。
1.3.2 ?BP 神經網絡模型人工神經網絡(Artificial Neural Network,ANN)是通過對人腦的基本單元——神經元的建模和聯結,來探索模擬人腦神經系統功能的模型,其信息處理是通過信息樣本對神經網絡的訓練,使其具有人的大腦的記憶、辨識能力,完成各種信息處理功能。它的學習規則是使用最速下降法,通過反向傳播來不斷調整網絡的權值和閾值,使網絡的誤差平方和最小。BP神經網絡模型拓撲結構包括輸入層(input)、隱層(hide layer)和輸出層(output layer)(如圖1所示)。
2 結果
2.1 篩選高血壓危險因素
廣義估計方程分析服從二項分布,選取聯接函數為logit,工作相關矩陣選擇獨立,以高血壓作為因變量(表1),進行單變量廣義估計方程分析,結果如表2。經單變量廣義估計方程分析,在α=0.05的檢驗水準下,高血壓體檢年齡、性別、體重指數、飲食習慣、飲酒、吸煙、運動習慣、血糖異常、有高甘油三酯血癥、有高膽固醇血癥、有混合型高脂血癥11個變量均有統計學意義,P<0.05。將高血壓單因素分析有統計學意義的高血壓11個變量,最終進入方程模型的變量分別為體檢年齡、性別、體重指數、飲食習慣、飲酒、吸煙、運動習慣、有高甘油三酯血癥、有混合型高脂血癥9個變量進一步進行多變量廣義估計方程分析。選取聯接函數為二項logit,工作相關矩陣選擇獨立,進行廣義估計方程分析,分析結果見表高血壓表見表3。分析結果顯示,高血壓體檢年齡、性別、體重指數、飲食習慣、飲酒、吸煙、有高甘油三酯血癥、有混合型高脂血癥8個變量有統計學意義,其中體檢年齡、體重指數、性別、飲酒、有高甘油三酯血癥、有混合型高脂血癥是高血壓的危險因素,OR值分別為1.076(1.075,1.077)、1.189(1.184,1.194)、1.921(1.847,1.998)、1.625(1.578,1.672)、1.354(1.318,1.391)、1.628(1.566,1.691)。
2.2 構建BP神經網絡模型
將高血壓危險因素廣義估計方程多因素分析有統計學意義的8個變量納入BP神經網絡模型,采用多層感知器方法進行模型構建,本研究采用自動體系結構建立BP神經網絡模型。
對原始數據文件進行隨機化抽樣,將數據劃分為"訓練樣本(50%)"、"檢驗樣本(30%)"、"保持樣本(20%)"3個區塊,高血壓如圖1所示。為了隨機過程可重復,事先指定固定種子一枚,設置隨機數固定種子為91919876。
輸入層包含8個變量體檢年齡、性別、體重指數、飲食習慣、飲酒習慣、吸煙習慣、有高甘油三酯血癥、有混合型高脂血癥,共18個單位數。輸出層為因變量高血壓,有2個單位數。隱藏層數為1,隱藏單位數為6,激活函數為雙曲正切。輸出層為因變量高血壓,有2個單位數,激活函數為Softmax,錯誤函數為交叉熵。樣本分類預測結果,如圖2所示,本研究構建的高血壓神經網絡預測模型,模型誤差在1個連續步驟中未出現優化減少現象,模型按預定中止。模型在3個分區中的不正確預測百分比較接近。模型分類表,軟件默認采用0.5作為正確和錯誤的概率分界,將3大分區樣本的正確率進行交叉對比,如圖3所示。訓練樣本預測不正確百分比為26.2%,正確的百分比為73.8%;測試樣本不正確的百分比為26.7%,正確的百分比為73.3%;保持樣本的不正確百分比為26.4%,正確的百分比為73.6%。模型的參數估計值如圖4所示。從圖5的觀察預測圖可以看出,按照高血壓患病與否與預測結果進行分組,縱坐標為預測概率。以0.5為分界時,對不患高血壓的識別能力較好于對患高血壓的識別能力。
2.3繪制ROC曲線
ROC曲線下的面積將本模型預測結果繪制ROC曲線,高血壓曲線下的面積為0.802,95%可信區間為(0.800,0.803),P值<0.001,有統計學意義,如圖6,圖7所示。
2.4 對高血壓主要危險因素重要性排序
BP神經網絡模型對各自變量對預測高血壓的重要性進行分析,各變量標準化的重要性依次為體檢年齡、體重指數、性別、混合型高脂血癥、飲酒習慣、高甘油三酯血癥、吸煙習慣、飲食習慣。
3 討論
高血壓為多因子疾病,因子本身分布多態,致病因素多,各因素間關系和作用方式復雜,預測因子之間本身也存交互作用、多重共線性,干擾統計模型的擬合效率,干擾了高血壓預測和病因研究。傳統的模型處理變量之間的共線性問題,進行高血壓等復雜疾病預測具有一定的局限性。人工神經網絡是模擬生物神經網絡進行數據處理的一種數學模型,在神經網絡中,對外部環境提供的模式樣本進行學習訓練,并能存儲這種模式,對外部環境有適用能力,能自動提取外部環境變化特征。SPSS神經網絡中,包括多層感知器和徑向基函數(RBF)兩種方法。多層感知器 (Multi-layer ?Perceptron,MLP)是一種前向結構的人工神經網絡,映射一組輸入向量到一組輸出向量,由多個節點層組成,每一層全連接到下一層。每個節點都是一個帶有非線性激活函數的神經元,它的過程會根據預測變量的值來生成一個或多個因變量的預測模型。人工神經網絡可以更好地揭示這些變量間的關系,通過數據挖掘可以分析多個變量對結果變量的作用大小,更好地揭示這些變量間的關系,預測疾病發生概率。驗證證明該模型具有較好的預測效果。
通過廣義估計方程篩選出體檢年齡、性別、體重指數、飲食習慣、飲酒、吸煙、有高甘油三酯血癥、有混合型高脂血癥8個變量有統計學意義,與文獻報道的高血壓危險因素基本相一致。BP神經網絡模型對各自變量對預測高血壓的重要性進行分析,各變量標準化的重要性依次為體檢年齡、體重指數、性別、混合型高脂血癥、飲酒習慣、高甘油三酯血癥、吸煙習慣、飲食習慣。運用多層感知器進行模型構建,發現訓練樣本預測不正確百分比為26.2%,正確的百分比為73.8%;測試樣本不正確的百分比為26.7%,正確的百分比為73.3%;保持樣本的不正確百分比為26.4%,正確的百分比為73.6%,模型的參數估計值如圖7所示。從圖8的觀察預測圖可以看出,按照高血壓患病與否與預測結果進行分組,縱坐標為預測概率。以0.5為分界時,對不患高血壓的識別能力較好于對患高血壓的識別能力。
本文由于調查的危險因素基于體檢報告系統,報告系統危險因素較少,不夠全面,缺少生活習慣,家族史等信息,存在一定的局限性。
參考文獻:
[1]Lee DS,Massaro JM, WangTJ, et aL. Antecedent blood pressure,body mass index,and the risk of incident heart failure in later life[J]. Hypertension, 2007, 50:869-87621.
[2]Lim SS,Vos T,Flaxman AD,et a1.A comparative risk assessment of burden of disease and injury attributable to 67 risk factors and risk factor clusters in 21 regions, 1990- 2010: a systematic analysis for the Global Burden of Disease Study 2010[J].Lancet,2012,380 (9859):2224-2260.
[3]王隴德.中國居民營養與健康狀況調查報告[M].北京:人民衛生出版社,2005.53-57.
[4]孫蓉,顧建建,孫峰等江蘇省自然人群高血壓患病率及相關因素分析[J]. 江蘇臨床醫學雜志。2002 ,6(6):534-536
[5] 曾坪,羅森林,吳曦. 社區人群主要行為因素與高血壓的相關性分析[J ]. 臨床合理用藥雜志,2009,2(9):28-30.
[6]王麗娜,曹麗,張敬一,等河北省成年居民高血壓病狀況及相關因素分析[J ].中國慢性病預防與控制,2008,16(2):1148-1152.
[7]毛浩丹,吳建方,周義紅,等常州市農村地區人群高血壓流行病學調查[J ].疾病控制雜志,2005,9(5):406-408.
[8]張良均,曹晶,蔣世忠.神經網絡實用教程[M].北京:機械工業出版社,2008:31-36.
[9]Taghadomisaberi S,Omid M,Emamdjomeh Z,et al.Determinationof cherry color parameters during ripening by artificial neuralnetwork assisted image processing technique[J].J Agr SciTechnol,2015,17(3):589-600.
[10]Türkyilmazi,Ka?an K.License plate recognition system usingartificial neural networks[J].ETRI J,2017,39(2):163-172.
[11]JovanovicL, Gondos B,Type 2 diaberes;the epidemic of the new millennium .Ann Clin Lab Sci,1999,29:33--42
[12]高飛,高焱莎.我國高血壓流行病學現狀[J].中日友好醫院學報,2012,26(5):307-309.
[13]種冠峰,相有章.中國高血壓病流行病學及影響因素研究進展[J].中國公共衛生,2010,26(3):301-302.
[14]高飛,高炎莎.我國高血壓流行病學現狀[J].中日友好醫院學報,2012,26(5):307-309.