崔夢晶,郭海健,李洋,曲晨,陳宇,胡潔,龐媛媛,李小寧,張徐軍
(1.東南大學 公共衛生學院,江蘇 南京 210009;2.江蘇省疾病預防控制中心 健康教育所,江蘇 南京 210009)
?
·論 著·
應用分類與回歸樹篩選慢性非傳染性疾病健康素養影響因素的研究
崔夢晶1,郭海健2,李洋1,曲晨2,陳宇1,胡潔1,龐媛媛1,李小寧2,張徐軍1
(1.東南大學 公共衛生學院,江蘇 南京 210009;2.江蘇省疾病預防控制中心 健康教育所,江蘇 南京 210009)
目的:探討分類與回歸樹(C&RT)在篩選慢性非傳染性疾病健康素養相關影響因素中的應用。方法:收集2013年宿遷市105例慢性病患者組成病例組,對地區、年齡、性別進行成組匹配選取210例非慢性病患者組成對照組。結果:分類樹模型從納入慢性病健康素養相關的19個變量中篩選出就醫行為素養、運動素養、對健康的理解素養、心理調節素養、家庭年收入、BMI值是否正常以及成癮行為素養等7個有統計學意義的影響因素,并且說明了不同人群各自的影響因素。模型的錯分概率Risk值為0.270,ROC下曲線面積為0.763,模型擬合效果較好。結論:應用分類與回歸樹能較好地篩選出慢性病健康素養影響因素,同時能顯示變量之間的相互作用,還可以研究變量科學定義分界點。
分類樹;分類與回歸樹;慢性非傳染性疾病;健康素養
世界衛生組織(WHO)報告指出,2008年全球約有3 610萬人(占總死亡人數的63%)死于慢性病,其中80%發生在中低收入國家[1-3]。2012年,我國已有超過2.6億的慢性病患者,慢性病導致的死亡占總死亡人數的85%[4]。慢性病的患病率和死亡率逐年增高且增長快速。因此,慢性病作為全球性重要的公共衛生問題不容忽視[5]。然而,我們可以采取有效的措施遏制這種增長[6]。個人健康觀念和生活行為習慣是慢性病發生的重要影響因素,因此在防治慢性病的過程中,患者的主動參與以及自我管理十分必要,而患者的健康素養水平對治療效果有著關鍵性的作用[7]。健康素養是指在衛生保健環境下完成基本的閱讀和計算的能力,以及個人獲得和理解健康信息,并運用這些信息維護和促進自身健康的能力[8]。健康素養的高低在一定程度上影響著健康行為[9]。提高居民慢性病健康素養,不但有利于遏制我國慢性病發病率快速上升的趨勢,也可以有效地改善慢性病患者的不良健康結局[10]。本研究通過分類與回歸樹(classification and regression tree,C&RT)算法分析慢性病健康素養影響因素,為提高慢性病患者的健康素養、降低慢性病發病率、改善慢性病患者健康結局提供依據。
C&RT由Brieman等在1984年提出[11]。此法屬于非參數分類和回歸方法,構建二叉樹的過程包括構建樹—修剪樹—評估樹。若因變量為連續變量,則生成回歸樹;若因變量為分類變量,則生成分類樹。
1.1 模型的構建
1.1.1 樹的生長及變量處理
1.1.1.1 連續型變量 首先對變量的值按照從小到大的順序排列,然后計算每個值作為臨界點所產生的子節點的異質性統計量。目標值為最終葉子的均值或者中位數。
1.1.1.2 分類型變量 首先列出變量兩兩組合的所有可能性,然后計算每種組合下所生成子節點的異質性。目標值為最終葉子中概率最大的類。
1.1.2 分支變量及拆分點的選擇
分類樹最終結果是使樹形模型中每一個葉節點成為純節點或者差異很小。對于分類樹,判斷指標有Gini指標(Gini值越小數據越純)、Twoing指標、Order Twoing等;對于回歸樹,判斷指標有最小平方殘差(使組內方差最小,組間方差最大)、最小絕對殘差等。通過以上指標,分別計算每個變量的各種切分/組合情況,找出該變量的最佳值組合/切分點;再比較各個變量的最佳值組合/切分點,最終找出最佳變量和該變量的最佳值組合/切分點。
1.2 樹的修剪
1.2.1 前剪枝(pre-pruning)
為了防止分類樹的過度擬合,可通過設定樹的深度以及節點中的樣本個數來停止樹的構造,從而對樹進行剪枝。
1.2.2 后剪枝(post-pruning)
構造完整的決策樹之后,采用代價-復雜度剪枝法(cost-complexity pruning)自下而上逐層進行剪枝。代價(cost)主要指樣本錯分率;復雜度(complexity)主要指樹的葉節點數。此法同時度量錯分風險和樹的復雜程度,使兩者越小越好。
1.3 模型評價
1.3.1 錯分概率Risk統計量
利用測試樣本數據選擇出平均錯分代價最小的子樹,主要方法有兩種:測試樣本評估法(test sample estimates)和交叉驗證評估法(cross-validation estimates)。
1.3.2 受試者工作特征曲線(receiver operating characteristic curve,簡稱ROC曲線)
ROC曲線的橫坐標為假陽性率(1-特異度),縱坐標為真陽性率(靈敏度),根據計算出的ROC曲線下面積說明模型的預測價值。
以下應用江蘇省宿遷市健康素養調查數據為例,介紹C&RT算法建立分類樹模型并對其進行評價。
2.1 對象與方法
2.1.1 調查對象
江蘇省宿遷市15~69歲居住≥6個月的居民。
2.1.2 調查方法
采用分層整群隨機抽樣法,抽取宿遷市的2個區,共調查930人,由經統一培訓并考試合格的調查員在社區工作人員的陪同下進行入戶調查。
2.1.3 調查內容
采用《全國居民健康素養監測調查問卷》,問卷內容包括基本知識和理念、健康生活方式與行為以及基本技能3個方面。慢性病定義為由醫療機構確診的高血壓、糖尿病、腦血管病、慢性阻塞性肺病等疾病。具備健康素養定義為答題正確率80%及以上。
2.1.4 統計方法
用EpiData 3.1軟件建立數據庫并進行數據錄入,用SPSS 18.0統計軟件進行統計分析。105例慢性病患者組成病例組;采用單純隨機抽樣技術,從數據庫中按照地區、性別、年齡進行成組匹配(P>0.05),抽取210例非慢性病患者組成對照組。建立分類樹模型并計算ROC曲線下面積。
2.2 分類樹模型建立
2.2.1 模型構建參數
采用Gini指標;最大生長深度設置為8;父節點和子節點中的最小樣本含量分別為40和20。變量設置如下:(1) 因變量:是否患有慢性病(1=患有慢性病,0=未患慢性病);(2) 自變量(19個):對健康的理解素養、運動素養、個人衛生習慣素養、健康相關態度素養、成癮行為素養、生理衛生常識素養、心理調節素養、慢性病相關知識素養、保健與康復素養、理解溝通能力素養、法規政策素養、自我保健技能素養、營養與膳食素養、利用基本公共衛生服務的能力素養、獲取信息能力素養、就醫行為素養等(1為具備健康素養,0為不具備健康素養)、BMI是否正常(1為正常,0為不正常)、文化程度(1為小學及以下,2為初中,3為高中,4為大專/本科及以上)以及家庭年收入(1為0~9 999元,2為10 000~49 999元,3為50 000~99 999元,4為≥100 000元)。
2.2.2 模型結果解釋
根據上述模型參數的構建,所建立的分類樹模型共包含4層,16個節點。該模型共篩選出7個解釋變量。
從分類樹模型圖中可見,樹形結構的第1層是對就醫行為素養進行拆分的,所以就醫行為素養是慢性病發病的重要影響因素。不具備正確就醫行為素養的人群慢性病發病率為48.4%,約為具備正確就醫行為素養人群的2.5倍。影響不同就醫行為素養人群的慢性病健康素養因素各不相同。在不具備正確就醫行為素養的人群中,運動素養成為主要影響因素,具備運動素養人群慢性病的發病率(13.2%)顯著低于不具備運動素養人群(30.4%),說明具備運動素養是慢性病發病的保護因素。而在具備正確就醫行為素養的人群中,篩選出的主要影響因素為對健康的理解素養。不具備對健康的理解素養人群會增加慢性病的發生率。隨后,不具備心里調節素養、家庭年收入過高或過低以及BMI值異常均是慢性病的危險因素。最后,在分類樹的末端顯示不具備成癮行為素養及不具備對健康的理解素養的人群慢性病發生率高(圖1)。
2.3 分類樹模型評價
2.3.1 錯分矩陣和Risk統計量
模型評價方法為交叉驗證評估法。此分類樹模型對慢性病發病預測正確率為73%,其中Risk統計量為0.270,標準誤(St)為0.025,可見模型擬合效果較好。
2.3.2 ROC曲線
分析結果顯示ROC曲線下面積為0.763(95%CI:0.708~0.818,P<0.001),標準誤(St)為0.028,說明該模型預測價值較高,可以有效地篩選出慢性病健康素養相關的影響因素(圖2)。
2008年我國首次對居民健康素養進行調查,結果顯示我國居民健康素養的總體水平為6.48%,而其中慢性病預防素養僅有4.66%,為最低[12]。研究表明低健康素養水平人群發生不良結局的可能性是高健康素養水平人群的1.5~3倍[13]。故進行慢性病健康素養的研究十分必要。
目前國內外對健康素養的研究方法多為卡方檢驗、多元線性回歸法及Logistic回歸分析[14-16]。上述方法對分析資料的類型和分布都規定嚴格,故降低了分析效能;且這些統計分析方法無法處理變量間的共線性影響以及交互作用關系[17]。同時國內缺乏對慢性病健康素養影響因素的研究,其研究人群集中在大學生、流動人口、老年人、一般居民等[7]。且納入的影響因素多為人口學特征;基本知識和理念、健康生活方式與行為以及基本技能三大內容;科學健康觀、傳染病預防素養、慢性病預防素養、安全與急救素養、基本醫療素養以及行為素養6個維度,未能全面細致地分析各類健康素養影響因素[15-16]。
分類與回歸樹模型已被廣泛應用于各類疾病及傷害危險因素的篩查[17-19]。本研究應用C&RT算法,納入19個變量,對慢性病患者健康素養影響因素進行分析,與多元線性回歸法、多因素Logistic回歸分析等經典方法相比,分類與回歸樹模型不僅能分析出各類危險因素,而且具有如下特點:(1) 分類與回歸樹模型以樹形圖作為直觀的表現形式,不受變量間共線性的影響且能顯示出多水平變量間復雜的相互作用關系,易于理解[17,20]。本研究不僅能說明就醫行為素養、運動素養、對健康的理解素養、心理調節素養、家庭年收入、BMI值是否正常以及成癮行為素養等7個變量是慢性病健康素養影響因素,而且可以看出對具備不同就醫行為素養、不同對健康理解素養等人群各自的影響因素。針對不同慢性病患者采取不同干預措施,提高其健康素養具有重要的指導意義。(2) 分類與回歸樹模型可將無統計學意義的分類自動重組為有統計學意義的分類,使分析結果更科學合理[18]。本研究將家庭年收入分為4個等級,結果顯示差異無統計學意義,而模型將其自動合并成有統計學意義的2個等級。與其它主要的分類樹的算法(CHAID、QUEST)相比,C&RT算法的應用范圍更為廣泛,變量類型既可以是連續型,也可以是分散型[11]。

圖1 慢性病健康素養影響因素分類樹模型圖
Fig 1 Classification tree model diagram of health literacy factors on chronic diseases
綜上所述,本研究采用C&RT算法篩選出慢性病健康素養的7個影響因素。可以針對不同人群采取不同策略,提高慢性病患者的健康素養,以減少慢性病的發病率并改善慢性病的發病結局。同時,將C&RT與經典的健康素養研究方法結合起來,運用針對慢性病患者的健康素養調查問卷,可更加全面深入地挖掘出慢性病健康素養影響因素。

圖2 分類樹預測概率ROC曲線
Fig 2 ROC curve of classification tree predicted probability
與此同時,本研究也存在一定的局限性。C&RT模型適用于大樣本量的統計分析,對小樣本量數據進行統計分析時不夠穩定,對結果影響較大[17]。同時,當樹形模型中解釋變量較多時,須進一步研究怎樣處理變量及修剪二叉樹才能保證模型的簡潔又不會損失有用的信息[17]。
[1] New WHO report:deaths from non communicable diseases on the rise,with developing world hit hardest[J].Cent Eur J Public Health,2011,19(2):114-120.
[2] AlWAN A,MACLEAN D R,RILEY L M,et al.Monitoring and surveillance of chronic non-communicable diseases:progress and capacity in high-burden countries[J].Lancet,2010,376(10):1861-1868.
[3] World Health Organization.Global status report on non-communicable diseases 2010[R].Gevana:World Health Organization,2011:9-31.
[4] 程懷志,郭斌,謝欣,等.我國慢性病患病率的社會人口學分析[J].醫學與社會,2014,27(3):4-6.
[5] World Health Organization.Preventing chronic diseases:a vital investment.WHO Global Report[R].Geneva:WHO,2005.
[6] 徐懷伏,王雅珍.南京市某社區老年人慢性病及生活方式調查[J].現代醫學,2015,43(4):485-488.
[7] 張慶華,黃菲菲,朱愛群,等.國內外慢性病健康素養的研究進展[J].中國全科醫學,2014,17(7):814-817.
[8] PARKER R M,WILLIAMS M V,WEISS B D,et al.Health literacy:report of the Council on Scientific Affairs[J].JAMA,1999,281(6):552-557.
[9] 孫浩林,彭慧,傅華.慢性病患者健康素養量表信效度的研究[J].復旦學報:醫學版,2012,39(3):268-272.
[10] 林豐,楊克志,劉國棟,等.深圳某街道居民慢性病預防健康因素影響因素[J].職業與健康,2014,30(18):2649-2653.
[11] 張超.分類樹中C&RT算法與判別分析的比較及其醫學應用[J].數理醫藥學雜志,2008,21(2):139-141.
[12] 衛生部統計信息中心.2008中國衛生服務調查研究,第四次家庭健康詢問調查分析報告[M].北京:中國協和醫科大學出版社,2009.
[13] DEWALT D A,BEKMAN N D,SHERIDAN S,et al.Literacy and health outcomes:a systematic review of the literature[J].J Gen Int Med,2004,19(12):1228-1239.
[14] MIHSIU W.The associations between health literacy,reasons for seeking health information,and information sources utilized by Taiwanese adults[J].Health Edu J,2014,73(4):423-434.
[15] 嚴麗萍,魏南方,安家璈,等.中國農村職業人群健康素養現狀及影響因素分析[J].中國公共衛生,2012,28(7):902-905.
[16] 郭海健,李小寧,黃明豪,等.江蘇省居民健康素養影響因素回歸分析研究[J].江蘇預防醫學,2012,23(1):12-14.
[17] 張勇晶,陳坤,金明娟,等.應用分類樹模型篩選惡性腫瘤危險因素研究[J].中華流行病學雜志,2006,27(6):540-543.
[18] 杜琳,劉偉佳,劉偉,等.SPSS中的分類樹模型在分析傷害影響因素中的應用[J].中國衛生統計,2010,27(5):546-548.
[19] TURE M,TOKATLI F,KURT I.Using Kaplan-Meier analysis together with decision tree methods (C&RT,CHAID,QUEST,C4.5 and ID3) in determining recurrence-free survival of breast cancer patients[J].Expert Syst Appl,2009,36(2):2017-2026.
[20] 趙自強,鄭明.應用分類樹模型篩選logistic回歸中的交互因素 [J].中國衛生統計,2007,24(2):114-116.
Study on health literacy factors of chronic non-communicable diseases by using classification and regression trees
CUI Meng-jing1,GUO Hai-jian2,LI Yang1,QU Chen2,CHEN Yu1,HU Jie1,PANG Yuan-yuan1,LI Xiao-ning2,ZHANG Xu-jun1
(1.SchoolofPublicHealth,SoutheastUniversity,Nanjing210009,China; 2.HealthEducationInstitute,JiangsuProvinceCenterforDiseasePreventionandControl,Nanjing210009,China)
Objective: To explore C&RT methods in screening health literacy factors of chronic non-communicable diseases.Methods: Database was created from Suqian in 2013.Case group composed by 105 patients with chronic diseases.Control group composed of 210 staff without chronic diseases matched by region,age and sex.Results: Seven out of 19 affecting factors were selected,which were willingness to see a doctor,exercise,understanding of health,psychological adjustment,annual family income,BMI index and addictive behaviors.Influence factors of different groups were also explained.The Risk value of model error probability was 0.270,and the area under the ROC curve was 0.763,suggesting that the classification tree model fit the actuality well.Conclusion: The classification tree model can screen out the major affecting factors quickly and effectively and could also identify the cutting-points for continuous and ordinal variables,as well as revealing the complex interaction among the factors at many levels.
classification tree; classification and regression tree; chronic non-communicable diseases; health literacy
2016-03-08
2016-04-26
全國健康素養現狀評估與結果推廣項目(1311206600002)
崔夢晶(1988-),女,江蘇南通人,助理工程師,醫學碩士。E-mail:573426350@qq.com
李小寧 E-mail:395777673@qq.com;張徐軍 E-mail:xjzhang@seu.edu.cn
崔夢晶,郭海健,李洋,等.應用分類與回歸樹篩選慢性非傳染性疾病健康素養影響因素的研究[J].東南大學學報:醫學版,2016,35(5):704-708.
R195
A
1671-6264(2016)05-0704-05
10.3969/j.issn.1671-6264.2016.05.012