王奉濤 孟艷雷 張珊 吳越
(1.泰維康醫療器械(上海)有限公司,上海 200050;2.青島大學附屬醫院,山東 青島 266000)
logistic regression即logistic回歸分析,又稱邏輯回歸,是一種廣義的線性回歸分析模型,實際上屬于判別分析,起初用于數據挖掘,經濟預測等領域,后被應用于流行病學領域。目前已被引入到護理科研中的橫斷面調查研究、病例對照研究以及隊列研究,在探討引發疾病或并發癥的危險因素、預測疾病的發生風險、臨床試驗評價、護理措施評價等方面有著廣泛的應用[1]。但在實際的護理研究中,有相當一部分研究者在應用logistic回歸過程中都或多或少的存在一些誤區,這使得部分護理研究的結果與實際情況產生偏差,甚至會得出與實際情況完全相反的結果,降低了研究結果的可信度,也降低了研究質量。本文主要通過實際案例剖析logistic回歸應用中的常見問題,旨在為logistic回歸在護理研究中的應用提供參考,以期提高護理研究的質量和水平。

1.2logistic回歸的適用范圍 logistic回歸主要在流行病學中應用較多,現在也已經越來越多的被護理學研究所采用,如尋找疾病或并發癥的危險因素;預測在不同的自變量情況下,疾病或并發癥發生概率的高低等;在橫斷面研究和回顧性研究中更為常見。logistic回歸的因變量的數據類型必須是分類變量,可以是二分類的,也可以是多分類的,而多分類的logistic回歸又分為有序多分類logistic回歸和無序多分類logistic回歸。而自變量的類型則沒有嚴格的限制,連續變量、等級變量、無序多分類變量都可以作為logistic回歸的自變量。
圖形化的統計軟件使得應用logistic回歸分析的門檻大大降低,利用統計軟件,研究者可以省略大量的運算過程。但另一方面,研究者對logistic回歸分析基本原理的理解和應用范圍的把握往往不完善。本文將logistic回歸在應用過程中須注意的問題歸結如下。
2.1樣本量問題 logistic回歸的統計推斷是建立在大樣本下的,只有充足的樣本量才能保證研究結果的可靠性和穩定性。一項護理研究在確定了研究方法和評價指標之后,可以依據研究類型和評價指標的數據類型進行樣本量的計算;但即使滿足研究類型和數據類型的要求,樣本量也不一定能支持logistic回歸分析得出足夠可信的結果。樣本量不足對logistic回歸帶來的主要風險是complete separation(完全分離)和quasi-complete separation(半完全分離)這2種現象[2],表現在結果中是無法得到回歸系數B,或者是Waldχ2過大[3]。按照EPV(event per variable)法,每個自變量至少需要10~15個陽性(或陰性,根據研究的實際需要)事件患者,而確保樣本量滿足EPV的需求,能夠在很大程度上避免以上兩種現象的發生。logistic回歸的樣本量要求為陽性(或陰性)事件患者達到混雜因素的10~15倍[3],而并非要求所有研究對象達到混雜因素的10~15倍;并且真正有效樣本量將根據二分類結局中兩類結果觀察數的最小值而定[2]。比如,某團隊為調查了老年人高血壓發生的危險因素,回顧并統計了某社區64人的高血壓發生情況及其可能的影響因素,結果發現有36人患病。本案例陽性數是36,但是實際上二分類結果中,陰性數量28才是較小值,因此在進行logistic回歸時,最多可以納入研究的因素數量并非64/10,也不是36/10,而應該為28/10,即最多納入2個影響因素。要想納入更多研究因素,就必須擴大樣本量,找到更多的患者,這是保證統計推斷結果可靠性的先決條件,也是護理研究中的常見問題。
2.2數據的適用性
2.2.1數據類型
2.2.1.1自變量和因變量設置問題 logistic回歸的因變量為分類變量,可以是二分類變量,如死亡/存活,患病/未患病等。也可以是多分類變量[4],如等級1/等級2/等級3等,在隊列研究或隨機對照研究這種前瞻性研究中,評價某種措施或因素對疾病的預防或治療效果時,logistic回歸的因變量不應該簡單的分為二分類的有效和無效,而應該根據實際情況分為多分類等級資料。例如某研究在驗證某新型敷貼對住院患者壓力性損傷的預防效果時,對照組患者壓力性損傷發生率為5%,干預組患者為4%,經過二分類logistic回歸未發現2組壓力性損傷預防效果的統計學差異,但干預組發生壓力性損傷的患者中1期壓瘡的比例為70%,2期為27%;而對照組發生壓力性損傷的患者中1期壓力性損傷的比例為32%,2期為60%,此時將因變量簡單歸結為壓力性損傷發生與不發生是不合適的;雖然新型敷料不能顯著降低壓力性損傷發生風險,但卻可以將壓力性損傷分期控制得更低,對壓力性損傷也依然具有預防效果,因此本研究應將壓力性損傷的發生分期設置為因變量。然后進行多分類logistic回歸,才能使研究結果更接近臨床實際情況。
logistic回歸的自變量可以是分類變量,也可以是數值變量。在很多研究中,作者往往將年齡、工作年限、住院時長、收入及量表得分等數值變量轉換為等級變量再引入logistic回歸模型,這種做法本身并不能說是一種錯誤,但這種做法會帶來一系列問題。首先是自變量分組對因變量的效應改變量是否均等的問題(后文會有討論),其次在結果討論時也容易出現偏差,并且分組會降低數據的利用效率。例如某研究在分析社區老年人使用日間照料中心的影響因素時,將年齡分為低齡(60~69歲)、中齡(70~79歲)、高齡(≥80歲)3組,然后引入logistic回歸后發現存在統計學差異,得出結論為年齡是社區老年人使用日間照料中心的影響因素,但事實上這個結論并不嚴謹,因為引入logistic回歸的自變量為年齡段而非年齡,作者在對年齡進行分段時就已經默認年齡段內不存在對因變量的影響;即年齡60歲~69歲在logistic回歸模型中對因變量的貢獻是相同的。所以在類似的研究中,不應該輕易把數值變量轉化為等級資料進行統計分析;當然如果作者是想研究不同年齡段是否會是社區老年人使用日間照料中心的影響因素,則這種分組是合適的,但下結論時應嚴謹。
2.2.1.2啞變量設置 當自變量為數值變量時,可在計算過程中帶入原值;當自變量為等級資料時可進行適當賦值后引入logistic回歸,當自變量為分類變量時,則應設置啞變量,即設立一個參照水平,將m個分類水平的多分類變量轉化成(m-1)個啞變量[5],如表1,3個啞變量的回歸系數分別為β1、β2、β3,第一行是相對于第一水平的優勢比,第二行是相對于第二水平的優勢比,三、四行類似;也可以將每個多分類變量轉化成二分類變量,再引入回歸模型,比如血型,將4種血型分別設置為4個二分類變量:A型(是=1,否=0)、B型(是=1,否=0)、O型(是=1,否=0)、AB型(是=1,否=0),然后再引入回歸模型。

表1 各水平間的優勢比
在實際應用過程中,往往會有研究者將無序分類變量按照等級變量賦值后進行統計分析的情況。例如某研究在分析兒童耳鼻喉術后譫妄發生現狀及影響因素時,將手術部位作為自變量進行單因素分析后發現有統計學差異,遂將其賦值引入logistic回歸模型,具體賦值為:耳部手術=1;鼻部手術=2;喉部手術=3;支氣管/肺內異物取出術=4;其他=5。但實際上手術部位之間的差別不存在等級關系,這樣的賦值方式是一定會使回歸模型產生偏差的,最終多因素分析結果顯示手術部位無統計學差異,但不恰當的賦值使得此研究的結果的可信性大打折扣。正確的做法是將這5種手術部位設置為啞變量,耳部手術(是=1,否=0)、鼻部手術(是=1,否=0)、喉部手術(是=1,否=0)、支氣管/肺內異物取出術(是=1,否=0)、其他(是=1,否=0),然后引入回歸模型進行分析。此外,值得一提的是即使數據為等級資料,其賦值時也必須考慮到自變量的等級變化對因變量效應改變量的影響,即自變量每增加一個等級,因變量的效應改變量是否是相等的。例如某研究在調查三甲醫院手術室護士工作壓力和職業倦怠與離職意愿之間關系時,單因素分析后將職稱作為自變量進行賦值:初級=1;中級=2;高級=3,賦值過程看上去并無問題,但實際上中級職稱比初級職稱的離職意愿增加量,高級職稱比中級職稱離職意愿的增加量,基本是不會相等的;因此這樣的賦值也是不合理的,如果無法確定自變量等級之間的因變量效應改變量,可以將等級資料也作為無序分類變量,設置啞變量后引入回歸模型,這樣就可以有效規避此問題。
2.2.2自變量篩選 對于多因素logistic回歸分析來說,選擇合適的自變量是建立回歸模型的基礎。篩選自變量的方式,最常見的是先進行單因素回歸,然后將P值<0.05的自變量引入模型中,再做多因素回歸,然后我們可以再根據前后偏回歸系數或者OR值的變化,來協助判斷是否需要將其納入到多因素回歸中進行調整和控制。雖然單因素分析的合理性尚存爭議,但這種分析思路呈現了從控制單一因素到控制多個混雜因素的變化過程;單因素回歸分析的結果對于變量的篩選很有意義,而篩選后的變量將直接決定研究結果和回歸模型的意義。在多元線性回歸中,通常對連續變量采用t檢驗或方差分析,對于分類變量中的有序分類變量即等級變量采用秩和檢驗、無序分類變量采用卡方檢驗進行單因素分析,logistic回歸也是一種線性回歸,在實際應用過程中,經常會有研究者將有序分類變量當做無序分類變量進行卡方檢驗,這種做法是不可取的。例如某研究在探討顱腦術后中樞神經系統感染的危險因素及護理對策時,將腦室外引流管分為3個等級,采用卡方檢驗對比其中樞神經系統感染的發生風險,見表2,雖然P<0.05,但結果并不可信;正確的做法應該是將數據作為等級資料進行秩和檢驗,或者進行單因素logistic回歸。

表2 顱腦術后患者中樞神經系統感染(CNSI)的腦室外引流單因素分析
logistic回歸是一種特殊的線性回歸,因變量為轉換之后的logitP,而并非原始因變量P,篩選后的自變量需與logitP存在線性關系;因此適用于多元線性回歸的自變量篩選方法并不完全適用于logistic回歸,所以在進行多因素分析前需采用單因素logistic回歸對變量進行篩選,χ2檢驗的結果可以與單因素logistic回歸的結果互換[6]。而對于連續變量,很多研究采用t檢驗進行變量篩選,雖然大多數情況下t檢驗和單因素logistic回歸的結果是相同的,但例外的情況也不少見;如表3數據所示,調查年齡是否為某病的危險因素時,使用t檢驗和單因素logistic回歸進行變量篩選的結果并不相同(檢驗水準α=0.05),有興趣的讀者可以進行驗證。因此對于連續變量的篩選應采用單因素logistic回歸,而不是對其進行均數比較。一言以蔽之,存在均數差異不代表自變量與logit P存在線性相關關系,尤其是對于多組連續變量的數據。

表3 某病的發病情況與年齡的數據資料
2.3自變量的獨立性 在線性回歸中自變量之間必須是相互獨立的,如果自變量之間存在相關關系,就可能出現共線性問題。共線性是指線性回歸模型中的自變量之間由于存在精確或高度相關關系而使模型估計失真或難以估計準確,即導致回歸結果不可靠。因此在進行線性回歸之前必須要進行共線性診斷。目前通用的方法是采用最小二乘法對共線性進行估計,用相關系數矩陣和方差膨脹因子(Variance Inflation Factor,VIF)評估共線性強度,若VIF>10說明兩個變量之間存在較強共線性,不能直接進行回歸分析。共線性的評估不只是數字間的聯系,在進行共線性診斷之前首先要利用專業知識在邏輯上對自變量進行識別。目前絕大多數護理研究的logistic回歸中都未曾提及共線性問題,但很多研究的自變量間存在明顯的邏輯上的相關關系。例如某研究在探討糖尿病前期的危險因素時,自變量中的BMI與腰圍、年齡和三酰甘油濃度,文化程度和工作體力強度都可能存在共線性問題(見表4);但研究并未提及共線性診斷的相關內容就將其全部引入logistic回歸,其合理性有待商榷;更合理的做法是對自變量進行共線性診斷,如果不存在較強相關性再進行多因素logistic回歸,如果存在較強共線性,則需在進行多因素logistic回歸前刪除其中一個引起共線性的自變量。除了刪除自變量外,共線性問題還可以通過主成分分析、Lasso回歸等方式解決[7]。

表4 糖尿病前期危險因素的logistic回歸分析結果
2.4變量賦值 變量賦值與logistic回歸結果的解釋息息相關。logistic回歸中通常以賦值較小的變量為參照水平,雖然二分類變量的賦值不會對logistic回歸的結果產生影響,但有序分類變量和啞變量的設置則不然;為了更好的解釋分析結果,得出正確結論,必須在文章中說明變量賦值情況,尤其是因變量的賦值,變量賦值地混亂容易產生錯誤的結論,一旦出現研究結果與研究結論不一致的情況將大大降低研究結果和結論的可信性。某研究在探究產褥期盆底功能障礙患者盆底肌鍛煉依從性的影響因素時,經過單因素分析后將年齡、受教育程度、盆底肌功能鍛煉認知程度、盆底肌功能受損程度、睡眠障礙、護理人員專業指導、家庭支持等因素納入多因素分析,賦值情況,見表5,多因素分析結果,見表6。最后得出結論:受教育程度高、盆底肌功能鍛煉認知程度高是盆底肌鍛煉依從性的保護因素,盆底肌功能受損程度輕度、有睡眠障礙、無護理人員專業指導、無家庭支持是盆底肌鍛煉依從性的危險因素(P<0.05)。但該作者在文中并未提及對因變量的賦值,因此在解釋結果時會給讀者帶來很大的困擾;假設作者將依從賦值為1,不依從賦值為0,將得出有睡眠障礙、無護理人員專業指導、無家庭支持是盆底肌鍛煉依從性保護因素的結論;假設作者將依從賦值為0,不依從賦值為1,將得出受教育程度高、盆底肌功能鍛煉認知程度高是盆底肌鍛煉依從性的危險因素,盆底肌功能受損程度輕度是盆底肌鍛煉依從性的保護因素的結論,無法得出作者在文中得出的結論。研究結果與研究結論不一致的情況是每一個護理研究者都必須要避免的。

表5 納入變量及賦值

表6 多因素分析結果
3.1回歸系數β 參數β0是常數項,表示模型中所有自變量均為0時,logit P的值,我們可以將其理解為未納入回歸模型的未知因素對因變量的影響效應;β1,β2…βm是回歸系數,表示在控制其他自變量時,自變量變化一個單位引起的因變量的變化。值得注意的是logistic回歸的因變量為logit P而并非概率P的變化,因為量綱的不同我們在比較自變量對模型的貢獻大小時,不能直接使用回歸系數β,而應該使用標準化回歸系數進行比較。



圖1 logistic回歸曲線

表7 ICU患者EN期間腹瀉相關因素的多因素分析
logistic回歸雖然是線性回歸,但因變量的轉化使得回歸結果的解釋不再像多重線性回歸那么直接;因此要對logistic回歸的結果做出正確合理的解釋就要求研究者對logistic回歸的基本原理有更深入的理解。
對回歸模型的假設檢驗只是驗證了回歸模型和回歸系數是否具有統計學意義,但無法對回歸模型的擬合效果進行評價。如果研究僅限于發現或驗證影響因素,尚可不進行擬合優度評價;但要想說明已建立的回歸模型對實際情況的擬合效果,就必須對所擬合的模型進行評價,即評價模型的預測值是否與觀測值具有較高的一致性。這就是擬合優度檢驗問題,尤其是在應用logistic回歸進行模型預測的時候。但目前為止幾乎沒有護理研究對logistic回歸的擬合優度進行評價和說明,擬合優度檢驗是 logistic 回歸分析過程中不可缺少的一部分,擬合效果良好,所做出的結論才更符合事實;若擬合效果不好,預測值與實際值差別較大,得出的結論就是不可靠的。logistic 回歸的擬合優度可以通過似然比檢驗、Hosmer-Lemeshow檢驗、Cox & SnellR2系數、NagelkerkeR2系數、錯判矩陣等方法進行評價[9],在似然比檢驗、Hosmer-Lemeshow檢驗中,當P>0.05表示模型擬合度較好;Cox & SnellR2系數越接近1,擬合度越好,而NagelkerkeR2系數是Cox & SnellR2系數的調整值;錯判矩陣是指模型預測值與實際值相符的比例,比例越高擬合度越好。實際應用中需根據具體情況選擇合適的評價方法。
統計方法的學習首先是思想和理論的學習,然后才是軟件操作。logistic回歸模型的建立較為復雜,受到多種因素的限制,除了上文提到的問題還有像數據缺失問題、失訪問題以及特殊樣本問題等;因此,在應用中需要格外注意其適用條件,回避常見錯誤。