魏鳳江 崔 壯 李長平 宋春華 朱 寶 劉媛媛 馬 駿△
公務員是國家黨政機關管理公共事務的中堅力量,隨著社會的發展,工作壓力的增大,其健康狀況越來越受到關注。logistic回歸是分類數據統計分析的一種重要方法,流行病學上常用于研究疾病與致病因子間的聯系,以疾病發生與否為應變量,影響疾病發生的因子為自變量,估計各因子的相對危險度或比數比。決策樹是一種非線性的判別分析的方法,是一種類似于流程圖的結構圖,其中,每個內部節點(非樹節點)表示在一個屬性上的測試,每個分支代表一個測試輸出,而每個樹葉節點(或終結點)存放一個類標號。本研究應用SAS 8.2建立logistic回歸模型和決策樹模型對公務員健康狀況的預測性能進行比較分析。
1.調查對象 本次調查對象為天津市某區的公務員,采用整群抽樣的方法,以該區所有具有公務員待遇的單位為抽樣群體,抽取民政局(44人)、教育局(66人)、國稅局(131人)、財政局(66人)、市政公司(160人)、衛生防疫站(62人)、法院(99人)、工程管理處(112人)8家單位作為調查單位,共發放調查問卷740份。
2.調查方法 根據調查目的自編“天津市公務員健康狀況調查表”,對天津市公務員的一般情況、健康狀況、膳食習慣、生活方式等內容進行現況調查。問卷中慢性病主要包括:高血壓、高血脂、脂肪肝、腦血管疾病、糖尿病、慢性阻塞性肺病、哮喘、腎臟疾病、肝臟疾病、惡性腫瘤等〔1-2〕,共計21 種慢性疾病。
3.信度與效度分析 結合調查目的,參考焦慮自評量表、抑郁自評量表和心理健康癥狀自評量表條目內容,在調查表中納入反映亞健康狀況和心理健康狀況各10項條目。亞健康狀況各題賦分方法為一直如此“1分”、經常“2分”、有時“3分”、沒有“4分”;心理健康狀況各題賦分方法為否“1分”、是“2分”。最后將心理健康和亞健康各題相加得到總分。對心理健康和亞健康問卷部分進行信度和結構效度分析。信度分析克朗巴哈系數為0.80。Kaiser-Meyer-Olkin檢驗其值為0.899,Bartlett檢驗結果P<0.01差別有統計學意義,說明適合用因子分析方法進行結構效度分析。經分析提取出的主成分累積方差貢獻率達到85%,說明對各個題目提取的信息較充分,信度與效度符合要求。
4.數據整理與分析 采用Epidata 2.0建立數據庫,應用SAS 8.2 Enterprise Miner模塊建立logistic回歸模型和決策樹模型。
1.調查對象的一般情況 本調查共發放調查問卷740份,收回720份,回收率為97.3%,有效問卷705份,有效率為97.9%。其中男性公務員488人占69.2%,女性公務員217人占30.8%。調查人群年齡中位數為45.49歲(P25~P75:38.43~51.85歲)。通過調查顯示,該區公務員總體患病率為47.0%,患病率相對較高的前四種疾病分別為高血壓(17.87%),高血脂(17.73%),脂肪肝(15.89%),頸、腰椎疾病(12.77%)。
2.影響因素賦值情況 以是否患有高血壓、高血脂、脂肪肝等慢性病為應變量,以年齡、性別、體質指數(BMI)、家庭月收入、文化程度、婚姻狀況、吸煙、被動吸煙、飲酒、體育鍛煉花費時間、睡眠時間、按時吃飯情況、按時吃早餐情況、公務員類別、心理健康分值、亞健康分值為自變量,見表1。
3.決策樹模型的建立及結果 由于本研究樣本量較小,為了充分利用數據信息,多方面綜合考慮,采用CHAID方法與CART方法相結合進行建模。對所選的16個變量進行重要性篩檢,篩檢出在建模過程中用到的變量按重要性由大到小的順序為:年齡、吸煙、按時吃飯情況、心理健康分值、體質指數、睡眠時間、被動吸煙、公務員類別、體育鍛煉花費時間、性別、文化程度、亞健康分值、飲酒。建立的決策樹模型見圖1,決策樹可以生成一些容易理解的規則,在樹狀圖中可以給出作為每一次分支的變量和變量的測試,如是否吸煙、年齡的大小等。同時,在每一個節點上會列出相應的患病人數和正常人數,并計算出相應的患病率和未患病率。例如,在本研究中,如果年齡小于41.9411歲,并且能夠按時吃飯,并且不吸煙者,那么他患病的概率只有7.5%。

表1 天津市某區公務員健康狀況影響因素的賦值

圖1 決策樹模型生成的樹形圖
4.logistic回歸模型分析結果 本文應用逐步選擇法對方程中引入的變量進行篩檢,建立的方程中共有影響因素12個,根據回歸系數值可知:年齡、體質指數、吸煙、被動吸煙、飲酒、按時吃飯情況、文化程度、婚姻狀況、心理健康分值是患病與否的危險因素;睡眠時間、體育鍛煉花費時間、亞健康分值為患病與否的保護性因素。結果見表2。
5.決策樹和logistic回歸模型比較
接受者工作特征曲線(receiver operating characteristic):簡稱ROC曲線。評價一種診斷技術的傳統方法是使用靈敏度、特異度、準確率等指標。但這些指標受到診斷界點的影響,難以反映診斷方法的優劣。為了更全面地評價診斷方法的診斷價值,必須考慮各種可能的診斷界點。而ROC曲線可通過改變診斷界點,將靈敏度和特異度結合起來,通過計算ROC曲線下面積(AUC),根據曲線的形狀和面積對診斷技術做出定量分析,總體評價診斷的準確性。因此在本研究中評價模型泛化的性能時采用ROC面積作為評價兩種模型預測性能的指標。目前ROC分析已經成為廣泛應用于臨床診斷和人群篩檢研究的一種統計方法〔3-4〕。ROC曲線最佳工作點的確定:一個診斷系統中,同時使用誤診率和漏診率較小,特異度和靈敏度同時最大的臨界點即為最佳工作點。本研究采用較常用的做法,選取使Youden指數最大的那一點〔5〕作為最佳工作點。
本文建立的兩種模型ROC曲線下面積:logistic模型為0.8706(95%CI:0.8431~0.8982),準確度為78.8%;決策樹模型為 0.8881(95%CI:0.8643~0.9119),準確度為80%。對二者ROC曲線面積進行假設檢驗差別無統計學意義(χ2=1.6073,P=0.2049)。兩種模型ROC曲線下面積比較見圖2。

表2 非條件logistic回歸分析結果

圖2 兩種模型ROC曲線下面積圖
1.健康狀況的影響因素分析
本研究結果顯示,該區公務員人群健康狀況不容樂觀,一些常見慢性病患病率較高,如高血壓,脂肪肝,頸、腰椎病等疾病患病率均高于普通人群。對健康狀況影響因素進行分析,年齡、體質指數、吸煙、被動吸煙、飲酒、按時吃飯情況、文化程度、婚姻狀況、心理健康分值是患病與否的危險因素;睡眠時間、體育鍛煉花費時間、亞健康分值為患病與否的保護性因素,這與其他健康相關影響因素研究報道的結果相一致〔6-9〕。
2.決策樹和logistic回歸模型比較
兩種模型對數據的要求不同:進行分析時,決策樹模型對變量量綱的差異、離群值的存在以及有偏分布不太敏感,也就是說對數據準備要求不高。決策樹為確定某一事例類別的序貫決策方法提供了清晰的陳述,一棵小的具有簡單檢驗的決策樹是最受歡迎的,因為人們很容易理解由它導出的規則〔10〕。但有些情況下決策樹模型處理數值型輸入變量的方式會造成一些有價值信息的損失和破壞。而logistic回歸分析要求因變量滿足獨立性,且原因變量與logitP的關系是線性等。
對數據量的要求不同:當每一類的訓練樣本數較小時,決策樹模型容易出錯,且決策樹模型對輸出結果的密度很敏感。有的研究表明〔11〕,logistic回歸模型樣本量選擇中,當各組樣本含量大于原因變量數的20倍時,參數估計的偏差是可以接受的。模型的應用不同:因為決策樹模型方法能產生一些可以理解的規則所以經常被選用。對于某一個已經分過類的記錄來說,只要簡單地沿著從根到葉的路徑走就可以了;另外,決策樹模型建立的模型是把最勝任的拆分變量放在樹的根節點,因此在進行預測時,很容易發現哪些變量最勝任預測工作,可為logistic回歸模型進行變量篩選和決策時提供指導。logistic回歸模型的回歸系數具有可解釋性,在流行病學研究中,常采用一些危險度指標(如暴露優勢比、相對危險度等)來衡量因素與發病(或死亡)的聯系程度或對人群發病的致病作用的大小,這些危險度指標可通過logistic回歸模型的回歸系數求得。
3.對logistic回歸、決策樹模型比較結果的分析
在本次研究中,對兩種模型的準確度和ROC曲線下面積比較,決策樹模型的分析結果均略高于logistic回歸分析的結果,但差別無統計學意義。產生這種結果的原因主要是數據特點決定的。本文針對的是小樣本,而我們本次研究的數據,原因變量與結果變量之間的線性關系的偏離程度不大,導致了兩種模型結果差別不大,但隨著樣本量的增加,原因變量與結果變量之間的線性關系的偏離程度就會變大,原因變量與logitP的線性關系變弱,那么決策樹模型的優越性會更好的體現出來。
目前普遍認為不存在某種方法能適合于任何特點的數據。由于數據內部變量間關系錯綜復雜,建立的模型之間存在不同的差異是肯定的。只要明確了試驗設計類型、研究目的、各種建模方法特點等,將不同的建模方法的結果進行合理的比較,挑選出較優的模型是完全可能的。當對數據進行分析時,如想要建立起預測模型時,可選擇的方法有很多種,應根據實際情況對數據嘗試用不同的方法建立起模型,必要時可將不同的建模技術相結合,例如當遇到的數據量大、涉及到的變量多時,變量之間的關系有可能會錯綜復雜,可先用決策樹模型模型進行變量的挑選,生成一些規則便于發現變量間的交互作用等,將變量挑選后的結果進行下一步logistic回歸等的建模過程;如果變量較少,且原因變量與logitP的線性關系較好,進行危險因素分析時可以直接選用logistic回歸分析即可。
1.趙艷芳,王睿,閻小妍,等.上海居民慢性病與生命質量關系的研究.中國衛生統計,2010,27(1):28-34.
2.陳海光,楊清萍,楊愛紅.老年慢性病住院患者調查分析.中國衛生統計,2007,24(1):99-100.
3.喬友林,侯俊,楊玲,等.我國太行山高發區食管癌流行趨勢及防治策略.中國醫學科學院報,2001,23(1):10-14.
4.黃俊,周申范,唐婉瑩.TNT生化降解時間序列人工神經網絡預報模型.環境科學研究,2000,13(2):3-5.
5.陳衛中,潘曉平,宋興勃,等.ROC曲線中最佳工作點的選擇.中國衛生統計,2006,23:157-158.
6.黃昌華,孫仕強,付孟清,等.深圳市公務員BMI與高血壓、高膽固醇、高血糖關系.中國熱帶醫學,2005,5(6):1369-1370.
7.Perlstein TS,Lee RT.Smoking,metalloproteinase,and vascular disease.Arterioscler Thromb Vasc Biol,2006,26:250-256.
8.Bjartveit K,Tverdal A.Health consequences of smoking 1-4 cigarettes per day.Tobacco Control,2005,14:15-320.
9.Taylor R,Najafi F,Dobson A.Meta-analysis of studies of passive smoking and lung cancer:effects of study type and Continent.International Journal of Epidemiology,2007,36:1048-1059.
10.張洋,陳培友.基于粗糙集理論的決策樹方法在貸款客戶信用評估中的應用.科技和產業,2008,8(1):57-60.
11.陳峰.醫用多元統計分析方法.北京:中國統計出版社,2001:83-111.