呂航+杜漸+劉媛+王昊
摘要:目的 探討多層感知器(MLP)模型在中醫(yī)人格、體質(zhì)預(yù)測(cè)糖尿病性冠心病患病風(fēng)險(xiǎn)中的預(yù)測(cè)效能,為該病客觀化預(yù)測(cè)提供新方法。方法 采用單因素Logistic回歸進(jìn)行變量篩選,篩選有統(tǒng)計(jì)學(xué)意義的中醫(yī)人格、體質(zhì)類(lèi)型指標(biāo),作為MLP及多因素Logistic回歸的分析變量,以構(gòu)建中醫(yī)人格、體質(zhì)對(duì)糖尿病性冠心病患病風(fēng)險(xiǎn)的預(yù)測(cè)模型。采用受試者工作特征曲線(ROC曲線)比較2種模型的預(yù)測(cè)效能。結(jié)果 MLP預(yù)測(cè)模型的靈敏度OR95%CI=0.915(0.862,0.968)、特異度OR95%CI=0.846(0.793,0.912)、AUC OR95%CI=0.913(0.806,0.987),均優(yōu)于Logistic回歸預(yù)測(cè)模型[靈敏度OR95%CI=0.834(0.695,0.953)、特異度OR95%CI=0.762(0.623,0.901)、AUC OR95%CI=0.869(0.730,0.941)]。結(jié)論 在中醫(yī)人格、體質(zhì)對(duì)糖尿病性冠心病患病風(fēng)險(xiǎn)的客觀化預(yù)測(cè)中,MLP模型較Logistic回歸模型具有更好的預(yù)測(cè)效能。
關(guān)鍵詞:糖尿病性冠心病;中醫(yī)人格;中醫(yī)體質(zhì);多層感知器模型;人工神經(jīng)網(wǎng)絡(luò);預(yù)測(cè)模型
DOI:10.3969/j.issn.1005-5304.2017.12.022
中圖分類(lèi)號(hào):R2-05;R259.871 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1005-5304(2017)12-0088-04
Study on Application of Multilayer Perceptron Model in Prediction of the Risk of Diabetes Mellitus Complicated with Coronary Heart Disease by TCM Personality and Constitutions LV Hang1, DU Jian2, LIU Yuan3, WANG Hao2 (1. Nanjing University of Chinese Medicine, Nanjing 210023, China; 2. China Academy of Chinese Medical Sciences, Beijing 100700, China; 3. Jiangsu Provice Hospital on Integration of Chinese and Western Medicine, Nanjing 210028, China)
Abstract: Objective To explore the prediction efficiency of multilayer perception (MLP) model in prediction of diabetes mellitus (DM) complicated with coronary heart disease (CHD) by TCM personality and constitutions; To provide a new method for objective prediction. Methods This research utilized single factor logistic regression to filter out variables, which were significant factors of TCM personality and constitutions as analytic variables for MLP and multivariate logistic regression to establish TCM prediction model of personality and constitutions for DM complicated with CHD. The prediction efficiency of the above models were tested by receiver operating characteristic curve (ROC curve). Results The sensitivity, specificity and AUC of MLP were 0.915 (0.862, 0.968), 0.846 (0.793, 0.912) and 0.913 (0.806, 0.987) respectively, which was better than the logistic regression, while these indexes of logistic regression were 0.834 (0.695, 0.953), 0.762 (0.623, 0.901), and 0.869 (0.730, 0.941) respectively. Conclusion The MLP model is better than logistic regression model in prediction of DM complicated with CHD by TCM personality and constitutions.
Key words: diabetes mellitus complicated with coronary heart disease; TCM personality; TCM constitutions; multilayer perception model; artificial neural network; prediction model
基金項(xiàng)目:國(guó)家自然科學(xué)基金青年基金(81403501);北京市自然科學(xué)基金面上項(xiàng)目(7172249);北京市自然科學(xué)基金預(yù)探索項(xiàng)目(7163236);北京中醫(yī)藥科技發(fā)展資金項(xiàng)目(JJ2015-50);中國(guó)中醫(yī)科學(xué)院中醫(yī)藥“一帶一路”合作專項(xiàng)(ZZ-10-018-04)endprint
通訊作者:王昊,E-mail:wanghao.gomes@163.com
《靈樞·通天》及《靈樞·陰陽(yáng)二十五人》以陰陽(yáng)五行學(xué)說(shuō)為基礎(chǔ),將中醫(yī)人格的內(nèi)涵界定為包括個(gè)體內(nèi)外傾向、情緒體驗(yàn)急緩、認(rèn)知速度快慢、意志強(qiáng)弱等心理特征及行動(dòng)急緩、動(dòng)作隱顯、表現(xiàn)形式等行為表現(xiàn)。中醫(yī)人格、體質(zhì)為個(gè)體心身特征的具體表現(xiàn),其與疾病的發(fā)生、發(fā)展及轉(zhuǎn)歸密切相關(guān)[1],故可通過(guò)辨識(shí)人格、體質(zhì)類(lèi)型預(yù)測(cè)疾病的患病風(fēng)險(xiǎn)。但兩者間常表現(xiàn)為復(fù)雜的非線性映射關(guān)系,且多具有錯(cuò)雜性。因此,要實(shí)現(xiàn)中醫(yī)人格、體質(zhì)對(duì)疾病的預(yù)測(cè),應(yīng)用的建模方法應(yīng)能實(shí)現(xiàn)對(duì)多變量間錯(cuò)雜相互作用的非線性分析。糖尿病合并冠心病是具有高危害性的心身疾病,情志及體質(zhì)等因素均為其病因[2],因而探討中醫(yī)人格、體質(zhì)對(duì)該病的預(yù)測(cè)作用具有重要意義。
多層感知器(MLP)屬多層前饋式人工神經(jīng)網(wǎng)絡(luò),具有高度的非線性全局作用、良好的容錯(cuò)性及強(qiáng)大的網(wǎng)絡(luò)自身學(xué)習(xí)能力,已被證實(shí)在糖尿病等慢病病因預(yù)測(cè)中相較傳統(tǒng)線性模型具有方法學(xué)優(yōu)勢(shì)[3-4],但MLP模型是否同樣適用于中醫(yī)人格、體質(zhì)對(duì)慢病風(fēng)險(xiǎn)的預(yù)測(cè)分析卻鮮有報(bào)道。本研究探討MLP模型在中醫(yī)人格、體質(zhì)預(yù)測(cè)糖尿病性冠心病風(fēng)險(xiǎn)評(píng)估中的預(yù)測(cè)效能,并與Logistic回歸模型的預(yù)測(cè)結(jié)果比較,為中醫(yī)人格、體質(zhì)對(duì)慢病的客觀化預(yù)測(cè)提供新方法。
1 資料與方法
1.1 數(shù)據(jù)來(lái)源
選取2016年2月-2017年2月江蘇省中西醫(yī)結(jié)合醫(yī)院內(nèi)分泌代謝病院區(qū)收治的2型糖尿病患者135例。其中男61例,女74例,平均年齡(54.7±12.1)歲,平均病程(7.3±5.4)年,合并冠心病109例,單純2型糖尿病26例。
1.2 納入與排除標(biāo)準(zhǔn)
納入標(biāo)準(zhǔn):2型糖尿病診斷標(biāo)準(zhǔn)參照《糖尿病中醫(yī)防治指南》[5];冠心病診斷標(biāo)準(zhǔn)參照《實(shí)用內(nèi)科學(xué)》[2];五態(tài)人格測(cè)驗(yàn)中掩飾(L)量表評(píng)分≥5;簽署知情同意書(shū)。排除標(biāo)準(zhǔn):臨床資料不全;患有嚴(yán)重精神及神經(jīng)疾病或認(rèn)知功能障礙患者;合并其他并發(fā)癥患者;糖尿病急性并發(fā)癥者;其他非糖尿病相關(guān)性心臟病患者;伴發(fā)其他疾病者。
1.3 數(shù)據(jù)采集
臨床資料通過(guò)回顧性電子病歷獲取,全部患者均已進(jìn)行詳細(xì)病史采集、常規(guī)血生化檢查、心臟超聲檢查、冠狀動(dòng)脈造影(CAG)等。CAG采用Judkins法,經(jīng)2位心血管介入專業(yè)醫(yī)師共同診斷。
1.4 數(shù)據(jù)規(guī)范
中醫(yī)人格、體質(zhì)類(lèi)型辨識(shí)按薛崇成、楊秋莉編制的自陳量表進(jìn)行。其中“五態(tài)人格測(cè)驗(yàn)”將人格分為太陽(yáng)、少陽(yáng)、陰陽(yáng)和平、少陰、太陰[6];“五五體質(zhì)檢測(cè)”將體質(zhì)分為平人質(zhì)、陽(yáng)熱質(zhì)、陰寒質(zhì)、陽(yáng)虛質(zhì)、陰虛質(zhì)、偏濕質(zhì)、多痰質(zhì)、偏風(fēng)質(zhì)、偏燥質(zhì)、氣虛質(zhì)、血虛質(zhì)、氣滯質(zhì)和血瘀質(zhì)13種類(lèi)別[1]。
1.5 數(shù)據(jù)分析
1.5.1 單因素Logistic回歸模型篩選變量 將五態(tài)人格變量及五五體質(zhì)變量按江蘇地區(qū)常模進(jìn)行轉(zhuǎn)換和賦值,見(jiàn)表1。通過(guò)單因素Logistic回歸,篩選出有統(tǒng)計(jì)學(xué)意義的人格、體質(zhì)類(lèi)型指標(biāo)作為MLP及多因素Logistic回歸的分析變量。
1.5.2 多層感知器神經(jīng)網(wǎng)絡(luò)模型 ①數(shù)據(jù)預(yù)處理。采用隨機(jī)數(shù)字生成器設(shè)置隨機(jī)數(shù)種子,并對(duì)數(shù)據(jù)進(jìn)行歸一化處理,使處理后的輸入、輸出變量均為在(-1,1)區(qū)間的實(shí)數(shù)。將單因素Logistic回歸篩選出的分析變量作為輸入層向量,實(shí)現(xiàn)對(duì)冗余數(shù)據(jù)的清洗。②訓(xùn)練集及檢驗(yàn)集的設(shè)置。使用分區(qū)變量將135例樣本分配至訓(xùn)練集(106例)及檢驗(yàn)集(29例),前者用于建立預(yù)測(cè)模型,后者用于模型的檢驗(yàn)及評(píng)估。
采用SPSS19.0實(shí)現(xiàn)MLP模型的網(wǎng)絡(luò)構(gòu)建及檢驗(yàn)。建立包含輸入層、隱藏層及輸出層3層網(wǎng)絡(luò)結(jié)構(gòu)的MLP模型。其中隱藏層及輸出層的激活函數(shù)分別為雙曲正切及Softmax。
對(duì)建立的MLP模型的驗(yàn)證采用五折交叉驗(yàn)證法,即對(duì)檢驗(yàn)集樣本進(jìn)行交叉驗(yàn)證,并選取均方誤差最小的模型為最優(yōu)預(yù)測(cè)模型。
1.5.3 多因素Logistic回歸模型 以單因素Logistic回歸篩選出的對(duì)冠心病可能具有易感性的中醫(yī)人格、體質(zhì)變量作為輸入自變量,采用向前Wald法進(jìn)行逐步回歸分析,建立糖尿病性冠心病患病風(fēng)險(xiǎn)的多因素非條件Logistic回歸預(yù)測(cè)模型。
1.5.4 模型比較 通過(guò)檢驗(yàn)集樣本進(jìn)行預(yù)測(cè)效果評(píng)估并繪制ROC曲線,比較MLP模型及Logistic回歸模型的預(yù)測(cè)效能。
2 結(jié)果
2.1 單因素Logistic回歸分析
采用向前Wald法,從18項(xiàng)中醫(yī)人格、體質(zhì)因素中篩選出10項(xiàng)可能對(duì)糖尿病性冠心病具有易患性的因素,差異有統(tǒng)計(jì)學(xué)意義,見(jiàn)表2。
2.2 多層感知器預(yù)測(cè)模型
將單因素Logistic回歸篩選出的少陰、陰寒質(zhì)、陽(yáng)虛質(zhì)、偏濕質(zhì)、多痰質(zhì)、偏燥質(zhì)、氣虛質(zhì)、血虛質(zhì)、氣滯質(zhì)、血瘀質(zhì)10個(gè)因素作為輸入向量,以是否合并冠心病為輸出層向量建立的MLP模型中,輸入層包含10個(gè)輸入神經(jīng)元、隱藏層數(shù)為1,包含6個(gè)神經(jīng)元、輸出層包含1個(gè)神經(jīng)元;模型采用由隨機(jī)初始點(diǎn)出發(fā)的調(diào)整的共軛梯度算法進(jìn)行訓(xùn)練,參數(shù)的初始值取[-0.5,0.5]區(qū)間均勻分布的隨機(jī)數(shù),培訓(xùn)錯(cuò)誤的最小相對(duì)變化為0.000 1,培訓(xùn)錯(cuò)誤率的最小相對(duì)變化為0.001;錯(cuò)誤函數(shù)為交叉熵錯(cuò)誤,中止使用的規(guī)則為已超過(guò)的最大時(shí)程數(shù)(100)。4個(gè)最重要的可用于預(yù)測(cè)糖尿病性冠心病患病風(fēng)險(xiǎn)的影響因素依次為陰寒質(zhì)、偏燥質(zhì)、血瘀質(zhì)及少陰人格,見(jiàn)圖1。
2.3 多因素Logistic 回歸預(yù)測(cè)模型
將單因素Logistic回歸篩選出的10個(gè)因素為自變量,以α=0.05為入選變量標(biāo)準(zhǔn),α=0.1為剔除變量標(biāo)準(zhǔn),采用向前Wald法進(jìn)行逐步回歸分析,最終篩選出4個(gè)影響因素建構(gòu)了多因素非條件Logistic回歸模型,見(jiàn)表3。endprint
2.4 模型預(yù)測(cè)效能比較
將檢驗(yàn)集樣本分別代入MLP模型及多因素Logistic回歸模型,繪制ROC曲線,比較2種模型的預(yù)測(cè)效能。MLP預(yù)測(cè)模型的靈敏度、特異度及AUC均優(yōu)于Logistic回歸預(yù)測(cè)模型。見(jiàn)表4、圖2。
3 討論
本研究表明,MLP網(wǎng)絡(luò)模型在中醫(yī)人格、體質(zhì)對(duì)糖尿病性冠心病患病風(fēng)險(xiǎn)預(yù)測(cè)中有較好的預(yù)測(cè)效能,根據(jù)檢驗(yàn)樣本,建立模型預(yù)測(cè)的靈敏度、特異度、AUC均優(yōu)于Logistic回歸模型的相應(yīng)指標(biāo)。MLP模型適用于對(duì)多變量間錯(cuò)雜相互作用的非線性分析,并對(duì)數(shù)據(jù)分布形態(tài)沒(méi)有嚴(yán)苛要求,較Logistic回歸模型具有方法學(xué)優(yōu)勢(shì),由此在疾病預(yù)測(cè)中表現(xiàn)出更好的預(yù)測(cè)效能,這與近年研究結(jié)論一致[7-8]。
MLP模型揭示出對(duì)糖尿病性冠心病具有易患性的4種最重要的中醫(yī)人格、體質(zhì)類(lèi)型依次為陰寒質(zhì)、偏燥質(zhì)、血瘀質(zhì)及少陰人格,與多因素Logistic回歸分析結(jié)果相一致,并符合中醫(yī)學(xué)對(duì)該病病因及病機(jī)的認(rèn)識(shí)。中醫(yī)學(xué)認(rèn)為該病病因多與寒邪內(nèi)侵、情志失節(jié)等因素有關(guān),其病機(jī)可概括為“陽(yáng)微陰弦”,即胸陽(yáng)不振、寒凝血瘀、痹阻心脈;燥熱偏盛體現(xiàn)了消渴癥對(duì)病患體質(zhì)的影響;少陰者多情志不暢,其典型人格特征為心有深思不外露、多疑郁怒。故少陰者易因肝氣郁結(jié)、傷脾生痰、痹阻心脈而提升合并冠心病的風(fēng)險(xiǎn)。此外,MLP模型揭示出10種易患人格、體質(zhì)類(lèi)型,也體現(xiàn)了該病以氣血陰陽(yáng)虧虛為本,以氣滯、痰濁、寒凝、血瘀為標(biāo)的特點(diǎn)[5]。對(duì)比2種模型揭示出的易患人格、體質(zhì)因素,可發(fā)現(xiàn)MLP模型提供的信息更豐富。
傳統(tǒng)線性模型難于實(shí)現(xiàn)對(duì)多變量間復(fù)雜相互作用的非線性映射,因此相關(guān)研究偏于探討中醫(yī)人格、體質(zhì)與疾病的相關(guān)性[9-10],而較少進(jìn)行預(yù)測(cè)分析。MLP模型因具有較強(qiáng)的解決多變量間共線性效應(yīng)及交互作用的能力,可以為中醫(yī)人格、體質(zhì)對(duì)疾病的客觀化預(yù)測(cè)提供新的方法。目前,已有研究偏于探討MLP模型在慢病病因?qū)W預(yù)測(cè)中的應(yīng)用[11],但尚未涉及中醫(yī)人格、體質(zhì)對(duì)疾病的預(yù)測(cè)分析,本研究有助于拓展MLP模型的應(yīng)用范圍。
本研究所采用的方法存在一定局限性,如輸入變量過(guò)多會(huì)導(dǎo)致網(wǎng)絡(luò)訓(xùn)練時(shí)間延長(zhǎng),甚至出現(xiàn)“過(guò)擬合”現(xiàn)象,因此需要采用Logistic回歸等其他模型對(duì)變量進(jìn)行篩選;此外,模型的預(yù)測(cè)效能隨網(wǎng)絡(luò)參數(shù)、激活函數(shù)、初始值及隱層神經(jīng)元節(jié)點(diǎn)數(shù)的不同設(shè)置而異,但上述設(shè)置的主觀經(jīng)驗(yàn)性較強(qiáng),而缺少相應(yīng)的理論依據(jù)。因此,為獲得穩(wěn)定的預(yù)測(cè)效能,應(yīng)綜合運(yùn)用多種數(shù)據(jù)挖掘技術(shù),并對(duì)MLP神經(jīng)網(wǎng)絡(luò)模型的參數(shù)設(shè)置、隱層神經(jīng)元節(jié)點(diǎn)數(shù)的選擇等問(wèn)題開(kāi)展后續(xù)研究。
參考文獻(xiàn):
[1] 王昊,王克勤,薛崇成,等.中醫(yī)人格體質(zhì)論的內(nèi)涵探析[J].中醫(yī)雜志, 2013,54(7):551-554.
[2] 陳灝珠,林果為.實(shí)用內(nèi)科學(xué)[M].13版.北京:人民衛(wèi)生出版社,2010:1043-1044.
[3] 曹文君,徐勇勇,譚志軍,等.基于人工神經(jīng)網(wǎng)絡(luò)模型的多個(gè)慢性病主要危險(xiǎn)因素篩查研究[J].中國(guó)全科醫(yī)學(xué),2015,18(25):3050-3053, 3058.
[4] 馬夢(mèng)羽,沈璐,文天才,等.數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用[J].中國(guó)中醫(yī)藥信息雜志,2016,23(7):132-136.
[5] 中華中醫(yī)藥學(xué)會(huì).糖尿病中醫(yī)防治指南[M].北京:中國(guó)中醫(yī)藥出版社, 2007:7,47.
[6] 薛崇成,楊秋莉.五態(tài)人格測(cè)驗(yàn)量表與艾森克人格問(wèn)卷的對(duì)比探討[J].中華中西醫(yī)臨床研究,2003,1(7):3-11.
[7] 郭奕瑞,李玉倩,王高帥,等.人工神經(jīng)網(wǎng)絡(luò)模型在2型糖尿病患病風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用[J].鄭州大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2014,49(2):180-183.
[8] VOSS R, CULLEN P, SCHULTE H, et al. Prediction of risk of coronary events in middle-aged men in the Prospective Cardiovascular Münster Study (PROCAM) using neural networks [J]. Int J Epidemiol, 2002,31(6):1253-1262.
[9] 田錦鷹,魏東,馬祖,等.糖尿病發(fā)病與中醫(yī)體質(zhì)的相關(guān)性研究[J].中國(guó)中醫(yī)急癥,2013,22(10):1693-1694.
[10] 郜紅.從體質(zhì)因素探討糖尿病的中醫(yī)防治[J].江蘇中醫(yī)藥,2009, 41(8):63-64.
[11] 魏戎,謝雁鳴,田峰,等.病證結(jié)合構(gòu)建慢病風(fēng)險(xiǎn)預(yù)測(cè)模型的思路與方法[J].中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2017,23(2):180-183.
(收稿日期:2017-06-25)
(修回日期:2017-07-24;編輯:向宇雁)endprint