施紅英,陳常中,毛廣運,黃陳平,楊新軍
(1.溫州醫科大學 公共衛生與管理學院預防醫學系,浙江 溫州 325035;2.美國哈佛大學醫學院Dana.Farber癌癥研究所,馬薩諸塞州 02115)
基于EmpowerStats的混雜因素篩選及其校正方法
施紅英1,陳常中2,毛廣運1,黃陳平1,楊新軍1
(1.溫州醫科大學 公共衛生與管理學院預防醫學系,浙江 溫州 325035;2.美國哈佛大學醫學院Dana.Farber癌癥研究所,馬薩諸塞州 02115)
目的:介紹和演示一種新的混雜因素篩選和校正方法。方法:從原理簡介、實例講解、軟件操作多角度全面介紹如何根據粗效應值和調整效應值的變化實現混雜因素的篩選以及獨立效應評價。結果:EmpowerStats統計軟件能夠按照一定的標準,科學、簡便地實現混雜因素的識別、篩選及其控制,得到對效應值的最優估計,優于傳統的逐步回歸法。結論:基于效應估計值的改變進行混雜因素的識別和篩選,可以更合理地獲得研究因素的效應估計值。
混雜因素;偏倚;協變量;統計學
眾所周知,一種疾病的預后、一個藥物的療效、一項指標的大小往往是多因素共同作用的結果。當研究某因素(x)與結局變量(y)之間的關聯性或研究某因素(x)對于結局變量(y)的效應大小時,由于某個既與y有關,又與x有關的其他因素(z)的影響,扭曲(夸大、縮小甚至掩蓋)了x與y之間的關系,這種現象就稱為混雜(confounding),因此而產生的系統誤差稱為混雜偏倚(confounding bias),而引起該混雜偏倚的因素(z)為混雜因素(confounding factor)。簡單地說,混雜因素就是會扭曲疾病和暴露之間的關聯性或扭曲某研究因素效應大小的所有因素[1]。例如,在比較不同治療方案(x)的治療效果(y)時,如果不同治療組之間病情、年齡等z變量不均衡,就會導致兩組之間的療效比較存在問題。所以,混雜因素是必須盡量避免和控制的,否則其研究結果可能是有偏甚至是錯誤的。
然而,有學者對具有同行評議的英文醫學期刊中10萬余篇觀察性研究論文進行分析,發現僅9%的論文提及混雜評估問題,即便是一些最為權威的醫學期刊,該比例也只有40%[2]。可見,混雜因素的識別和控制還是一個被學術界忽視的統計學問題。隨著大數據時代的到來和臨床研究的日益增多,尤其是基于真實世界的觀察性臨床研究數量的激增,混雜因素的識別和控制方法成為流行病學和統計學研究熱點之一。如何快速、有效地識別和篩選需要控制的混雜因素,進而更加客觀科學地評價某治療方案的療效或某因素對于結局變量的效應,成為很多臨床醫師或科研工作者統計分析時遇到的最棘手問題之一。
假設我們要研究x對于y的影響,是否需要調整若干個z的影響呢?一般地,我們會先進行單因素分析,然后基于各個z因素與y變量是否有關系即P是否小于0.05決定是否需要調整該z變量。該方法存在兩個問題:①z和y的關系受到其他因素的混雜作用,不一定是他們的真實關系;②P值會受到樣本量或者說檢驗效能的影響,樣本量大得到的P值就會小,反之P值就會大。
第二種做法,很多科研人員會直接采用逐步回歸法,將最后留下來的所有變量所組成的回歸模型中x的效應值,直接作為其對于y的獨立效應值。這樣的做法也是不科學的。比如,一個數據庫中有1個y、5個x,通過后退法依次得到下面3個多重線性回歸方程,表1中數據表示的是3個方程中各個x的偏回歸系數及其可信區間和P值。

表1 3個回歸方程中各個x的效應值[ b(95%CI)P]
根據后退法,首先納入所有5個x擬合方程一,發現x1無統計學意義且P值最大,因此剔除x1,得到方程二;方程二中,x4無統計學意義且P值最大,所以又剔除x4,得到方程三;剩下的3個自變量全部有統計學意義,這是后退法最終得到的結果。據此,如果研究目的是分析x3對于y的作用,那么其獨立效應的最終分析結果就是0.36(此時調整了x2和x5的混雜效應)。
但是,仔細考察3個方程會發現,在調整x4前后,x3的偏回歸系數變化很大,這是為什么?由于x3與x4關系較大,不調整x4,x4的作用就加到x3身上去了;調整了x4,就是把x4的作用從x3中剝離出來,這時看到x3的偏回歸系數就變小了。所以,如果分析目的是確定x3對y的作用,就應該選方程二,因為方程二中的偏回歸系數更確切地表達了x3對y的作用;而不能因為x4的P值大于α,就不調整x4,因為P值會受到樣本量的影響。
因此,目前一些研究認為,在分析x對于y的效應時,是否調整潛在混雜變量z的作用,其更合理的做法應該是根據調整各個z變量前后看x對于y的效應值是否發生了足夠大(通常是10%)的改變[3]。這里,我稱之為基于效應值改變的協變量篩選方法。該方法已在The New England Journal of Medicine、BMJ等權威期刊中使用[4-5],并得到大家一致認可。
如何基于效應值改變進行協變量篩選呢?我們可以分兩步進行分析。步驟1,運行基本模型即然后在基本模型中引入待考察的zi得到模型步驟2,運行完整模型即然后在完整模型中剔除zi得到模型
分別根據兩個步驟中效應估計值b1到b1’的變化,決定是否需要調整zi的作用。但是,x的兩個效應估計值之間變化到多大才能判為混雜、才需要控制呢?不同文獻采用的標準略有不同,多數研究以效應值改變大于10%為標準[6],也有研究以改變大于5%為標準[5]。
然而,在實際醫學科研數據中,需要篩選的z變量往往比較多,此時需要按照上述步驟依次判斷各變量引入模型前后效應估計值的改變情況,其工作量和難度很大。尤其是采用傳統統計軟件比如SPSS、SAS等實現上述過程的篩選和判定,過程較為復雜,并且容易出錯,更是非統計專業人員難以完成的。
基于數據分析思路而設計開發的EmpowerStats軟件,可以采用菜單對話框式操作,非常方便地根據上述標準自動篩選出這些需要控制的混雜因素,為后續多因素分析及獨立效應評價提供基礎。該軟件中的“協變量檢查與篩選”模塊,專門用于篩選哪些協變量應該包括在回歸模型中進行調整、控制,解決了上述難題。其分析結果主要包括:①逐個查看各個協變量和y的關系,看P是否小于檢驗水準α;②調整與不調整這些因素情況下x對于y的效應值有何改變;③匯總在分析x對y的效應時需要調整哪些z因素的作用。
案例:為了研究川崎病(Kawasaki diseaes,KD)疾病類型(1=不完全KD,0=完全KD)對于患者預后y即冠狀動脈損害(coronaryartery lesions,CAL)(1=有,0=無)的獨立效應,課題組記錄了近6年共930例患者的疾病類型和CAL情況,同時還收集了月齡、性別(1=男,0=女)、分娩方式(1=自然分娩,2=剖宮產)、體質量指數(body mass index,BMI)(kg/m2)、治療時機(1=延誤治療,0=及時治療)、治療前CA(1=是,0=否)、血鈉(1=低,2=高)等7個變量信息。現擬篩選其中哪些變量是需要控制的,并在此基礎上估計KD類型對于CAL的獨立效應。
軟件操作:在EmpowerStats軟件的主界面中,選擇“數據分析”菜單下的“協變量檢查與篩選”模塊,按照圖1設置好結局變量、暴露因素和擬篩查的協變量,點擊“查看結果”按鈕即可。
軟件會自動采用兩種方法對協變量進行篩查:①逐個分析協變量與y的關系;②在基本模型中引進協變量與在完整模型中剔除協變量,觀察x的偏回歸系數的變化。隨后列出詳細分析結果。
最后,軟件會根據兩種標準匯總篩選出協變量。本例,根據標準1即基于效應值改變篩選出來的變量有:月齡、治療時機、治療前CA、血鈉;而根據標準2即基于效應值改變結合單因素分析結果篩選出來的變量有:月齡、性別、BMI、治療時機、治療前CA、血鈉。
篩選好協變量后,我們可以采用該軟件“數據分析”菜單下的“多個回歸方程”模塊,根據前述分析結果結合既往研究和專業知識設置調整不同協變量組合下的各種模型,分析查看x對于y的獨立效應,結果見表2。

圖1 協變量檢查與篩選主界面

表2 多個回歸方程分析KD類型對于CAL的獨立效應
軟件自動列出了三種模型中x對于y的效應分析結果。可見,在不調整任何協變量或只調整年齡和性別的情況下,KD類型的OR值都大于1,而且有統計學意義,不完全KD發生CAL風險高于完全KD;但是當調整治療時機、治療前CA等其他混雜因素后,KD類型對于CAL的獨立效應變得無統計學意義了。而表2也正是很多SCI論文中核心結果的表達方式。
值得一提的是,EmpowerStats軟件會自動根據y變量的類型,選擇相應的回歸模型并估計x的效應量。比如本例中y為是否發生CAL即二分類變量,所以軟件選擇的是logistic回歸模型,得到的效應估計值是OR值及其可信區間。如果y是定量變量,軟件自動選擇多重線性回歸模型,并呈現偏回歸系數及其可信區間。如果y是生存資料即包括結局和生存時間,則軟件會自動選擇Cox回歸模型,并呈現危險比(hazard ratio,HR)及其可信區間等分析結果,非常靈活方便。
一項好的科學研究,首先在科研設計時,就必須明確研究中的結局變量y和重點關注的研究因素x,也就是要有一個明確的科研假設,比如體育鍛煉是否會影響血壓值、經常飲酒是否會導致脂肪肝、某個基因多態性是否會影響一個疾病的發生等,這是開展一項研究的首要前提,也是科研設計或復習文獻時非常關鍵的第一步[7],決定研究設計的類型和統計分析方法。有了研究假設之后,不管你采用的是病例對照研究、隊列研究還是實驗研究,接下來的第二個關鍵點,就是要盡可能全面地考慮所有潛在的混雜因素,特別是既往研究已經發現的重要混雜因素,以免造成結果無法解釋等局面。這是進行科研假設探索或驗證性研究中首先要樹立起來的意識。然后,才是想方設法控制和減少這些混雜因素的影響,可以在設計和分析階段分別進行控制。
首先,在設計階段,我們可以采用限制、匹配和隨機化分組等方法避免或減少混雜因素的影響。例如,為了研究吸煙對于肺癌的影響,我們只選擇男性作為研究對象,就可以控制性別的混雜效應。但是這種方法會導致研究對象的代表性受限制,研究結論的外推性受影響。再比如,為了研究A型行為模式對于心梗的影響,選擇340例心梗患者作為病例組,同時選擇與之年齡、性別和社區相同的340例無心梗者作為對照組,進行病例對照研究,就可以消除年齡、性別和社區不同導致的混雜效應,提高檢驗效率;但是也失去了分析該因素的機會,不僅不能分析該因素的單獨效應,也無法分析該因素和其他因素之間的交互作用。所以,要注意避免匹配過度。此外,在實驗研究中,我們通常采用隨機分組的方法,使得研究對象具有同等的機會被分到各個處理組,從而讓一些潛在的混雜因素或主要非處理因素在各組間分布均衡。不過,這三種方法通常只能控制少數混雜因素的干擾。而在醫學研究中,尤其是大數據時代的到來,臨床研究的題目越來越大,涉及的混雜因素也越來越多,如果研究者設計時未考慮和收集一些重要的混雜因素,其研究質量就會大打折扣。在既往很多醫學論文的審稿過程中以及諸多醫務人員科研數據的統計咨詢中,我們發現,國內很多醫務人員往往忽視了混雜因素尤其是重要混雜因素的收集。
其次,如果設計階段已經考慮并收集了可能的混雜因素,那么混雜因素的校正和控制問題就進入了數據分析階段。此時,混雜因素的控制方法可謂是多種多樣,經典的方法包括分層分析、協方差分析、標準化法、多因素回歸模型等。近些年又逐步興起一些新的協變量控制方法,比如傾向性評分法(propensity score,PS)[8-11]、工具變量[12]等,但多適用于統計學專業人員,不能被臨床醫師等廣泛使用。所以,分層分析和多因素回歸模型依然是目前最為常用、最容易理解的控制混雜因素的方法。分層分析,就是將資料按照擬控制的混雜因素進行分層,然后估計某暴露因素和疾病之間關聯性或評價某處理因素的效應大小。如果各層間研究因素與疾病間的關聯性一致,即不存在交互作用,計算調整的效應值即可;如果各層間研究因素與疾病間的關聯性不一致,即存在交互作用,則后續的分析都應該按此分層因素分別進行分析,也就是要分析單獨效應。分層分析容易理解和實現,是論文中控制混雜的最常用方法之一[13];但是,分層分析不能得到一個總的x對于y的獨立效應,而這又是很多研究中需要的核心結果,此時多因素回歸模型成為最重要的替代方法。但是,如前所述,既往人們在使用多因素回歸模型進行混雜的控制時存在一定誤區,導致其往往沒有用好、用巧回歸模型。
最后,為了更有效地控制混雜因素,還需要特別注意混雜變量尤其是定量的混雜變量引入模型的方法。假設年齡是混雜因素,是直接將年齡作為定量變量引入模型?還是將年齡分組后作為等級變量引入模型?或者分類后作為啞變量引入模型?甚至是否需要將年齡的二次項引入模型?都需要考慮各個混雜變量與結局變量的關聯形態等進行綜合確定,而不是隨意引入模型:當年齡對結局變量的影響是線性時,可直接引入模型;但是如果年齡對于結局指標的影響是U型趨勢或不同年齡組對于結局的影響不等比例增加時,則可能需要將其分組后作為啞變量形式引入模型,甚至引入二次項納入模型[14]。
在多因素回歸模型中,采用基于“效應估計值改變量的方法”對潛在混雜因素進行篩選和控制,彌補了傳統方法的不足,不失為較好的混雜因素控制方法之一。本研究詳細介紹了該方法的原理以及采用EmpowerStats軟件實現協變量篩選的具體操作過程,簡單、實用,彌補了傳統方法單純依賴于P值或逐步回歸法篩選混雜因素的局限性,從而使研究中的效應估計值更加科學和準確;而且該軟件無需編寫程序,只需菜單對話框式操作,并根據y變量類型自動選擇統計模型和效應量,直觀方便,可以說是科研人員尤其是臨床醫生在科學研究中實現混雜因素篩選和校正的優選軟件。
[1] KROUSEL-WOOD M A, CHAMBERS R B, MUNTNER P. Clinicians’ guide to statistics for medical practice and research: Part II[J]. Ochsner J, 2007, 7(1): 3-7.
[2] GROENWOLD R H, HOES A W, HAK E. Confounding in publications of observational intervention studies[J]. Eur J Epidemiol, 2007, 22 (7): 413-415.
[3] LEE P H. Is a cutoff of 10% appropriate for the change-inestimate criterion of confounder identi fi cation?[J]. J Epidemiol, 2014, 24(2): 161-167.
[4] KERNAN W N, VISCOLI C M, BRASS L M, et al. Phenylpropanolamine and the risk of hemorrhagic stroke[J]. N Engl J Med, 2000, 343(25): 1826-1832.
[5] BAGLIETTO L, ENGLISH D R, GERTIG D M, et al. Does dietary folate intake modify effect of alcohol consumption on breast cancer risk? Prospective cohort study[J]. BMJ, 2005, 331(7520): 807-810.
[6] LIU T, DAVID S P, TYNDALE R F, et al. Associations of CYP2A6 genotype with smoking behaviors in southern China[J]. Addiction, 2011, 106(5): 985-994.
[7] KROUSEL-WOOD M A, CHAMBERS R B, MUNTNER P. Clinicians’ guide to statistics for medical practice and research: part I[J]. Ochsner J, 2006, 6(2): 68-83.
[8] 趙曉蒙, 李炳海, 王素珍, 等. 經傾向指數匹配后的gp方案與np方案治療非小細胞肺癌的療效評價[J]. 中國衛生統計, 2014, 31(1): 34-36.
[9] 王永吉, 蔡宏偉, 夏結來, 等. 傾向指數第一講傾向指數的基本概念和研究步驟[J]. 中華流行病學雜志, 2010, 31 (3): 347-348.
[10] 王永吉, 蔡宏偉, 夏結來, 等. 傾向指數第二講傾向指數常用研究方法[J]. 中華流行病學雜志, 2010, 31(5): 584-585.
[11] ELLIS A R, DUSETZINA S B, HANSEN R A, et al. Confounding control in a nonexperimental study of STAR*D data: logistic regression balanced covariates better than boosted CART[J]. Ann Epidemiol, 2013, 23(4): 204-209.
[12] STUKEL T A, FISHER E S, WENNBERG D E, et al. Analysis of observational studies in the presence of treatment selection bias: effects of invasive cardiac management on AMI survival using propensity score and instrumental variable methods[J]. JAMA, 2007, 297(3): 278-285.
[13] VOLPP K G, TROXEL A B, PAULY M V, et al. A randomized, controlled trial of fi nancial incentives for smoking cessation[J]. N Engl J Med, 2009, 360(7): 699-709.
[14] LEE C C, LEE M T, CHEN Y S, et al. Risk of aortic dissection and aortic aneurysm in patients taking oral fluoroquinolone[J]. JAMA Intern Med, 2015, 175(11): 1839-1847.
(本文編輯:丁敏嬌)
Selection and adjustment of potential confounders based on changes of effect size using EmpowerStats
SHI Hongying1, CHEN Changzhong2, MAO Guangyun1, HUANG Chenping1, YANG Xinjun1.
1.Department of Preventive Medicine, School of Public Health, Wenzhou Medical University, Wenzhou, 325035; 2.Dana Farber Cancer Institute, Medical College of Harvard University, Massachusetts, 02115
Objective: To introduce a new method for selecting and adjusting confounding factors. Methods: The disadvantage of traditional method for selecting confounders including methods based on P value or stepwise regression was analyzed was analyzed, and a new method based on the change of effect size was proposed to select the potential confounders which need to be controlled. And the study also demonstrated the application of EmpowerStats software using the new method. Results: EmpowerStats statistical software could automatically choose right regression methods and select the appropriate confounding factors based on the change of effect size conveniently. Conclusion: Selecting confounding factors based on the change of effect size is a better choice, and can give a more accurate independent effect, and has been widely used and accepted worldwide.
confounding factors; bias; covariate; statistics
R195.1
A
10.3969/j.issn.2095-9400.2017.05.010
2016-12-15
國家自然科學基金青年基金資助項目(81502893);浙江省公益性技術應用研究計劃項目(2014C33160);浙江省教育廳科研基金資助項目(Y201327770)。
施紅英(1980-),女,浙江麗水人,副教授,在職博士生。