米白冰李 強黨少農趙亞玲楊睿海顏 虹△
?
研究健康相關生命質量影響因素的分位數回歸分析*
米白冰1李 強1黨少農1趙亞玲1楊睿海2顏 虹1△
【提 要】 目的 介紹分位數回歸這一方法在健康相關生命質量量表數據分析中的適用性,并通過實例數據展示該方法的應用價值。方法 分別應用分位數回歸和傳統線性回歸模型分析漢中農村居民健康調查中獲得1781例女性的SF-36量表數據及問卷調查資料,了解健康相關生命質量的影響因素,比較兩種方法的結果及其適用性。結果 傳統線性回歸分析顯示患有高血壓是影響農村女性健康相關生命質量的獨立危險因素(β生理機能=-4.39;β軀體疼痛=-2.81;β一般健康狀況=-8.27;β精力=-3.04;β情感職能=-3.00;β精神健康狀態=-2.82;β軀體健康綜合狀況=-1.90)。分位數回歸分析結果確證了上述結論,并進一步探索患有高血壓在不同健康相關生命質量得分百分位上的影響程度的差異。結論 分位數回歸與傳統線性回歸模型的結論并不完全一致,前者獲取信息更多,結果更穩健。故分位數回歸應用于人群健康相關生命質量的研究具有較高的應用價值。
【關鍵詞】分位數回歸 健康相關生命質量 影響因素 SF-36
1.西安交通大學醫學部公共衛生學院流行病與衛生統計教研室(710061)
2.漢中市人民醫院心內科
隨著新的生物-心理-社會醫學模式的觀念深入到衛生保健事業工作中,健康相關生命質量(health-related quality of life,HRQOL)作為評估個體健康狀態的主觀循證指標受到衛生工作者的日益重視[1-3]。值得注意的是,目前多采用EQ-5D量表、WHOQOL量表和SF-36量表等定量評估工具應用于國內臨床療效評估、衛生經濟學評價等實踐工作中對HRQOL進行評估[2,4-6]。研究者多采用傳統的線性回歸模型對上述量表數據結果進行描述和分析。但線性回歸模型分析健康相關生命質量量表數據具有一定的局限性。本研究介紹分位數回歸這一方法,討論其在HRQOL量表數據分析中的適用性,并通過實例數據展示該方法的應用價值。
1.分位數回歸
傳統上,研究者廣泛使用線性回歸模型對健康相關生命質量量表的影響因素進行分析。該方法基于最小二乘回歸原理,其邏輯解釋與人們的直觀想象一致,易于計算,當研究數據符合最小二乘法的假設條件時,該方法具有無偏,高效的優良性質,因此獲得了廣泛的應用。但在實際應用中,傳統線性回歸模型有較為嚴格的限制條件,如方差齊性,隨機誤差獨立性和正態性,當數據分布是偏態或有異常值時,結果的穩健性較差。此外,對于大量的數據,應用傳統線性回歸模型只能得到一條回歸曲線,而一條曲線所能代表的信息有限。故而,針對大量數據存在偏態分布的情況,人們采用分位數回歸的方法進行分析。
分位數回歸模型自Koenker和Bassett提出以來,歷經30年發展完善,現已成為社會學、經濟學、醫學等領域的常用方法之一[7]。它是在給定變量X時,估計應變量Y條件分位數的一個基本方法。其具體原理如下:
設X為實值隨機變量,分布函數為F(χ)=P(X≤χ),則對任意0<τ<1,有

稱該式為X的τ分位數。仿照傳統線性回歸求解過程,我們可以推廣估計條件分位數的函數模型。當給定x時,y的條件分布記作Fy(y|x),則其逆函數表示為Qy(τ|x)=inf{y:Fy(y| x)≥τ}。定義Qy(τ| x)=xTβ(τ)為樣本條件分位數函數,其中x為p維向量,則可由

估計得到,其中τ∈(0,1),β為系數向量,它隨分位值τ的變化。可以看到,分位數回歸的本質是求解任何分位值時,各自變量x的回歸系數。其能在一定程度上全面展示所有數據的信息,但更側重于對特征分布不同位置人群的異質性分析。它不僅可以度量回歸變量在分布中心的影響,而且還可以度量在分布上尾和下尾的影響,因此較之傳統線性回歸模型具有獨特的優勢,能夠得到全面的分析結果,尤其適用于不均勻的條件分布,且分位數回歸系數較傳統線性回歸模型的系數估計更穩健[8]。
2.HRQOL評價方法
HRQOL的評價量表有多種,本文選擇國際通用的SF-36量表中文版進行介紹,該量表自引入中國以來,獲得廣泛的應用,具有良好的信效度[9-11]。通過對36個條目進行計分,獲得分別代表生理機能(physical functioning,PF)、生理職能(role-physical,RP)、軀體疼痛(bodily pain,BP)、一般健康狀況(general health,GH)、精力(vitality,VT)、社會功能(role-emotional,RE)、情感職能(mental health,MH)以及精神健康狀態(social functioning,SF)的八個維度得分,得分從0 到100分,分數越高生命質量越好[12]。各維度得分計算公式如下:

隨后,將上述維度的生命質量得分代入常模中計算分別獲得軀體健康狀況(physical component summary,PCS)和精神健康狀況(mental component summary,MCS),使用PCS得分和MCS得分對人群HRQOL進行綜合評價,因缺乏國人的常模數據,本例中采用美國常模的相關數據計算PCS得分和MCS得分[13]。具體計算公式如下:
首先,對各維度分數進行Z變換:

然后,利用Z變換得分及常模中因子得分系數,計算PCS和MCS得分,公式中Mx、Sx分別代表各維度得分的均值和標準差,Wx和Vx分別代表常模中各維度的因子得分系數。

3.應用分位數回歸評價HRQOL量表數據的必要性
實際過程中,SF-36量表的數據常常存在偏態分布的情況。2010年漢中農村高血壓橫斷面調查中獲得的60歲以上老年人群SF-36量表各維度的得分分布情況如表1。

表1 SF-36量表各維度得分數據分布特點
從偏度、峰度以及極端值的分布比例上可以看出,SF-36量表各維度得分不服從正態分布(P<0.05),且由0分比例和100分比例可知,各維度得分存在不同程度的天花板和地板效[14],存在大量極端值,這一數據分布特點不宜使用傳統線性回歸模型,而應考慮應用分位數回歸方法進行分析。后文通過具體實例展示分位數回歸的具體方法及其相教于傳統線性回歸模型的優點。
以2010年漢中地區農村高血壓橫斷面調查中獲得的1781例女性人群SF-36量表數據進行實例分析,該項調查由西安交通大學公共衛生學院和漢中市人民醫院合作組織,調查過程另文詳述[15]。使用Epidata 3.1軟件建立數據庫,采用雙錄入的方法錄入調查數據,確保錄入質量。采用SAS 9.3進行數據分析,用均數±標準差的形式描述計量資料,用率和構成比描述計數資料,以α=0.05作為檢驗水準。樣本人群一般人口社會學指標、行為習慣、既往疾病史的情況見表2。

表2 納入研究對象的一般情況
本例擬研究在控制年齡、性別、婚姻狀況、文化程度、教育程度、財富指數、收縮壓、舒張壓、體育鍛煉時間、是否吸煙、是否飲酒、是否存在并發癥等影響因素后,是否患有高血壓對農村地區女性HRQOL的影響程度。得出不同百分位數(P10~P90)下SF-36各維度得分上患有高血壓對老年人各維度得分影響的β系數估計值及其95%可信區間,觀察其變化情況,并與傳統線性回歸模型計算得到的β系數估計值及其95%可信區間進行比較,結果見表3。
對SF-36量表各個維度進行傳統線性回歸分析顯示,在控制其他變量的影響后,相對于正常人群,高血壓患者的生理機能、軀體疼痛、一般健康狀況、精力、情感職能、精神健康狀態、軀體健康綜合狀況得分降低(β生理機能=-4.39,P生理機能<0.01;β軀體疼痛=-2.81,P軀體疼痛<0.05;β一般健康狀況=-8.27,P一般健康狀況<0.01;β精力=-3.04,P精力<0.05;β情感職能=-3.00,P情感職能<0.05;β精神健康狀態=-2.82,P精神健康狀態<0.05;β軀體健康綜合狀況=-1.90,P軀體健康綜合狀況<0.01),提示患有高血壓是影響農村女性健康相關生命質量的獨立危險因素。對各維度高血壓的影響進一步做分位數回歸顯示,患有高血壓對不同維度的影響程度與傳統線性回歸模型分析結果有所不同,且隨被調查人群生命質量得分不同分位數而異。可以看到,相比于傳統線性回歸模型,分位數回歸結果顯示患有高血壓對精神健康狀態沒有統計學影響(P>0.05),但對精神健康綜合狀況得分在P20分位數上有明顯影響,提示患有高血壓在該分位數點上是一個獨立的危險因素(β軀體健康綜合狀況|P20=-3.79)。
在具有顯著影響的維度上,分位數回歸模型獲取的信息更豐富,模型較穩健,進一步探索患有高血壓在不同健康相關生命質量得分百分位上的影響程度的差異,發現在生理職能、一般健康狀況和軀體健康綜合三個維度上,患有高血壓在大部分百分位上均為顯著的獨立危險因素。而在精力和情感職能兩個維度上,患有高血壓主要影響各維度健康得分在P20~P50之間的人群,提示患有高血壓主要表現為較低健康相關生命質量人群的獨立危險因素,且表現出一定的趨勢,該維度得分越低的人群,受患有高血壓的影響程度越嚴重。
數據分析結果顯示傳統線性回歸模型與分位數回歸得到的結論并不完全一致。傳統線性回歸分析結果較為簡單,僅分析患有高血壓對不同維度健康相關生命質量的整體影響,受線性回歸假設條件影響較大,若條件不滿足,則結果與實際情況可能存在不同。分位數回歸則可進一步分析其在不同維度得分不同百分位數上的影響,發現其影響程度不同。以患有高血壓對情感職能維度上的影響為例,相對于傳統回歸方法結果(β情感職能=-3.00,P情感職能<0.05),分位數回歸進一步比較了不同百分位點上的影響程度,在肯定患有高血壓對農村女性的情感職能存在負性影響的情況,β系數估計值從-5.68到-0.90,在中低得分女性中(P20到P50百分位)上存在統計學意義(P<0.05),進一步探討影響程度的強弱,發現存在如下趨勢:隨著維度得分百分位數的降低,β值由P50處的-3.94變為P20處的-5.68,變化趨勢明顯,且上述各百分位上β值均有統計學意義。
本研究采用分位數回歸這一方法研究HRQOL的影響因素,分位數回歸避免了傳統線性回歸僅研究影響因素與因變量平均水平的關系的弊端,不僅可以描述應變量與一系列協變量的條件均值的相關性,而且通過估計整體分位數模型能更加全面地刻畫分布的特征,從而得到全面的分析結果,尤其適用于不均勻的條件分布,且分位數回歸系數估計比傳統線性回歸系數的估計更穩健,獲取信息更豐富。綜上所述,分位數回歸應用于人群HRQOL的研究具有較高的應用價值,推薦廣大醫務工作者在科研工作中使用。

表3 SF-36各維度得分傳統線性回歸及分位數回歸結果
本研究的不足之處在于本次調查的數據是一次橫斷面調查,存在一定的信息偏移。此外,尚不能憑一次調查的結果總結該地區居民的生命質量和相關影響因素,但本次調查對于了解高血壓與生命質量的相互關系仍有一定價值,為進一步的研究提供了線索。
致謝:感謝漢中市人民醫院和漢臺區下屬9個鄉鎮的相關衛生人員、被調查村民的積極配合,感謝參加調查的西安交通大學老師及學生的熱情工作,感謝中華醫學基金會的鼎立支持。
參考文獻
[1]周王艷,吉珂,陳家應.我國農村居民健康相關生命質量及其影響因素分析.南京醫科大學學報(社會科學版),2011,(3):189-193.
[2]張耀光,徐玲.中國居民健康相關生命質量研究.醫學與社會,2013,(06):82-84.
[3]張麗.山東三縣農村居民生命質量及其影響因素研究.山東大學,2014.
[4]韋懿蕓,顏艷,王多勞,等.中文版SF-36在社區老年人生存質量評價中的應用.中南大學學報(醫學版),2006,(2):184-188.
[5]徐波,饒和平,馬亞娜.蘇州市城區老年人生命質量及影響因素分析.中國老年學雜志,2009,(21):2791-2793.
[6]潘廷芳,司超增,何慧婧,等.我國6省市人群的健康相關生命質量研究.基礎醫學與臨床,2011,(6):636-641.
[7]Koenker R.Quantile regression.Cambridge:Cambridge University Press,2005.
[8]關靜.分位數回歸理論及其應用.天津大學,2009.
[9]Li L,Wang HM,Shen Y.Chinese SF-36 Health Survey:translation,cultural adaptation,validation,and normalisation.J Epidemiol Community Health,2003,57(4):259-263.
[10]Lam CL,Tse EY,Gandek B,et al.The SF-36 summary scales were valid,reliable,and equivalent in a Chinese population.J Clin Epidemiol,2005,58(8):815-822.
[11]Yang Z,Li W,Tu X,et al.Validation and psychometric properties of Chinese version of SF-36 in patients with hypertension,coronary heart diseases,chronic gastritis and peptic ulcer.Int J Clin Pract,2012,66(10):991-998.
[12]Ware JE,Gandek B,Kosinski M,et al.The equivalence of SF-36 summary health scores estimated using standard and country-specific algorithms in 10 countries:results from the IQOLA Project.International Quality of Life Assessment.J Clin Epidemiol,1998,51(11):1167-1170.
[13]Taft C,Karlsson J,Sullivan M.Do SF-36 summary component scores accurately summarize subscale scores?.Qual Life Res,2001,10(5):395-404.
[14]Seymour J,McNamee P,Scott A,et al.Shedding new light onto the ceiling and floor?A quantile regression approach to compare EQ-5D and SF-6D responses.Health Econ,2010,19(6):683-696.
[15]Zhao Y,Yan H,Yang R,et al.Prevalence and determinants of metabolic syndrome among adults in a rural area of Northwest China.PLoS ONE,2014,9(3):e91578.
(責任編輯:鄧 妍)
New Approach for Analying the Influence Factor of Health-related Quality of Life:the Quantile Regression
Mi Baibing,Li Qiang,Dang Shaonong,et al(Department of Epidemiology and Biostatistics,School of Public Health,Xi′an Jiaotong University Health Science Center(710061),Xi′an)
【Abstract】Objective To introduce quantile regression on its applicability in health-related quality of life data analysis,and showing the method through an example.Methods Respectively applying traditional linear regression model and quantile regression model to analysis SF-36 scales data and the questionnaire survey information about 1781 cases women obtained from Hanzhong rural residents health survey,understanding health related life quality of effects factors,compared two species method of results and applicability.Results Traditional linear regression model displayed the health-related quality of life with hypertensive patients in rural women was lower than normal women(β Physical Function =-4.39;β Bodily Pain =-2.81;β General Health =-8.27;β Vitality =-3.04;β Mental Health =-3.00;β Social Functioning =-2.82;β Physical Component Summary =-1.90).Quantile regression confirmed this conclusion,furthermore,explored the difference between hypertensive and normotensive people in different health-related quality of life score percentiles on each domains.Conclusion Quantile regression and linear regression models discussed are not entirely consistent,the former one provided more information and robust results.Quantile regression applied for analying health related quality of life was higher value to health workers.
【Key words】Quantile regression;HRQOL;Influence factors;SF-36
*基金項目:國家自然科學基金(81230016);美國中華醫學基金會(08-925)
通信作者:△顏虹,E-mail:xjtu_yh.paper@ aliyun.com