鞏曉文,李長平,2,胡良平
(1.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室,天津300070;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會,北京100029;3.軍事科學(xué)院研究生院,北京100850*通信作者:胡良平,E-mail:lphu812@sina.com)
醫(yī)學(xué)研究中的資料常涉及結(jié)局變量為多值名義變量的資料。多值名義資料的特點(diǎn)是結(jié)果變量的多種取值之間沒有內(nèi)在等級和數(shù)量大小之分[1]。故在對此類數(shù)據(jù)進(jìn)行統(tǒng)計(jì)建模時(shí),二值和多值有序多重logistic回歸模型均不適用。Andson于1972年提出了多值名義logistic回歸模型,以解決結(jié)局變量為多值名義變量的回歸分析問題[2]。根據(jù)醫(yī)學(xué)研究設(shè)計(jì)類型,研究可分為配對設(shè)計(jì)和非配對設(shè)計(jì),前者一般是指病例對照研究中根據(jù)病例組的重要特征匹配對照而收集數(shù)據(jù);后者是沒有經(jīng)過匹配便可收集數(shù)據(jù),多見于橫斷面研究或隊(duì)列研究。根據(jù)數(shù)據(jù)層級關(guān)系,又可將研究分為“一水平”和“多水平”研究。本文著重討論非配對設(shè)計(jì)多值名義資料一水平多重logistic回歸分析,并結(jié)合實(shí)例,采用SAS 9.4予以實(shí)現(xiàn)。
首先對三值名義資料logistic回歸模型加以說明[3]。假設(shè)某一事件可能有A、B、C三種情況,PiA=個(gè)體i發(fā)生事件A的概率;PiB=個(gè)體i發(fā)生事件B的概率;PiC=個(gè)體i發(fā)生事件C的概率。假定問題中涉及4個(gè)協(xié)變量(即自變量),個(gè)體i的設(shè)計(jì)矩陣所對應(yīng)的向量可以用xi=[1xi1xi2xi3xi4]’來表示(向量中第1個(gè)分量“1”與回歸模型中“截距”相對應(yīng))。不妨沿用二分類logistic回歸分析的思路構(gòu)建模型:

上述思想本質(zhì)上是做了三個(gè)傳統(tǒng)的logistic回歸模型,當(dāng)計(jì)算A發(fā)生的概率時(shí),將B、C合并,其余同理。然而,盡管這樣可以估計(jì)出A、B、C三種事件發(fā)生各自的概率,但忽略了一個(gè)重要前提條件,即:對于任意個(gè)體i而言,其約束條件為PiA+PiB+PiC=1。上述模型無法從理論上保證該約束條件成立。因此,不妨考慮選擇一個(gè)類別為參考(如選擇C為參考),來計(jì)算其他類別相對于該參考類別的概率:

即:βCxi=βAxi-βBxi,亦即:βC=βA-βB。因此,只要估計(jì)出βA、βB和βC中任意兩者,即可求出第三個(gè)。同理,對于K(K≥3)分類的情形,只要估計(jì)出(K-1)個(gè)方程中的參數(shù)即可。求解PiA、PiB、PiC,可得:

由此可見,對于任意個(gè)體i,其A、B、C事件發(fā)生的概率之和恒等于1。
上文介紹了三分類的多重logistic回歸模型,現(xiàn)在推廣到J分類的多重logistic回歸模型[4]。同理,用k(k=1,2,…,J-1,J)表示類別。Pik表示第i個(gè)個(gè)體分到第k類的概率。模型為:
其中xi代表第i個(gè)個(gè)體的協(xié)變量向量,βk代表第k類相對于第J類的回歸系數(shù)向量。經(jīng)轉(zhuǎn)換可得:


2.1.1 問題與數(shù)據(jù)
研究某醫(yī)院非ST段抬高型心肌梗死后血運(yùn)重建治療方式的影響因素。目前血運(yùn)重建的治療方式主要有藥物治療、經(jīng)冠狀動脈介入(PCI)治療和冠狀動脈搭橋(CABG)。共收集1 293例患者的資料(因數(shù)據(jù)過多,此處從略),包括治療方式、年齡、性別、是否吸煙、是否飲酒、是否患高血壓、是否患糖尿病、是否患腦卒中、是否患高脂血癥、是否患陳舊性心肌梗死、是否曾行PCI手術(shù)、是否曾行CABG手術(shù)及入院時(shí)的KILLIP分級,詳細(xì)編碼方式見表1。如果研究者想觀察每一個(gè)變量對回歸結(jié)果的影響,則無需進(jìn)行變量篩選,而將所有的變量都納入模型即可。

表1 變量說明表
2.1.2 分析過程
首先需要?jiǎng)?chuàng)建SAS數(shù)據(jù)集nstemi(因篇幅所限,此處從略)。多值名義資料多重logistic回歸分析可以調(diào)用LOGISTIC、SURVEYLOGISTIC、CATMOD或GLIMMIX過程實(shí)現(xiàn),鑒于LOGISTIC過程比較常用,故本例調(diào)用LOGISTIC過程實(shí)現(xiàn)[5]。


【程序說明】使用名為nstemi的數(shù)據(jù)集。調(diào)用LOGISTIC過程。Class語句指定后面的變量為分類變量。在model語句中使用link=glogit選項(xiàng)要求使用多值名義資料的多重logistic回歸分析;如果省略該語句,那么系統(tǒng)將構(gòu)建累計(jì)logit模型,即認(rèn)為Trt是有序變量。此外,用ref="0"指定以藥物治療作為參考類別,即估計(jì)PCI vs.藥物治療和CABG vs.藥物治療的結(jié)果。為了驗(yàn)證βC=βA-βB,又設(shè)定ref="2"來獲得PCI vs.CABG的結(jié)果。讀者可根據(jù)研究需求選擇合適的參考類別。
2.1.3 主要輸出結(jié)果及解讀
主要輸出結(jié)果見表2。

表2 多值名義資料回歸分析結(jié)果
表2為PCI vs.藥物治療、CABG vs.藥物治療和PCI vs.CABG(設(shè)定ref="2"計(jì)算得到)的回歸結(jié)果。由表2可知,βC=βA-βB。以年齡為例,PCI vs.藥物治療的回歸系數(shù)為-0.0340,CABG vs.藥物治療的回歸系數(shù)為-0.0170,通過SAS結(jié)果可以驗(yàn)證PCI vs.CABG的回歸系數(shù)為-0.0340-(-0.0170)=-0.0170。回歸分析結(jié)果表明:相對于藥物治療而言,年齡越小、KILLIP分級越低(理由是其系數(shù)為負(fù)值,KILLP分級越低表示病情越輕)、男性、有心肌梗死史、既往未做過PCI的患者更傾向于選擇PCI治療;相對于藥物治療而言,年齡越小、沒有糖尿病、既往做過CABG且KILLIP分級越低的患者更傾向于選擇CABG治療。
2.2.1 問題與數(shù)據(jù)
在實(shí)際工作中,為了使模型簡潔或避免變量之間的共線性,在構(gòu)建回歸模型時(shí)往往需要進(jìn)行變量篩選。常見的變量篩選策略包括向前法、向后法、逐步法和最優(yōu)子集法。仍然沿用前面的實(shí)例,如果研究者想要建立一個(gè)預(yù)測模型,并能快速判斷應(yīng)該選擇的治療方式,可采用以下SAS程序。
2.2.2 SAS程序

【程序說明】與上文稍有不同的是,在model語句中添加了selection=stepwise選項(xiàng)用來指定逐步法篩選自變量,除了stepwise之外,還可以選擇forward(向前法)、backward(向后法)和score(最優(yōu)子集法)。SLENTRY=0.05指定效應(yīng)進(jìn)入模型的得分卡方顯著性水平為0.05。SLSTAY=0.05指定在向后消除步中,效應(yīng)保留在模型中的顯著性水平為0.05。
2.2.3 主要輸出結(jié)果及解釋
經(jīng)過逐步法篩選后,模型得以精簡,最終有四個(gè)變量納入模型,分別為Age、HoMI、PCI和KILLIP。相對于藥物治療來說,年齡越小、有心肌梗死史、既往沒有做PCI且KILLIP分級越低的患者越容易選擇PCI治療;相對于藥物治療來說,年齡越小且KILLIP分級越低的患者越容易選擇CABG治療;相對于CABG來說,年齡越小、有心肌梗死史且既往沒有做PCI的患者越容易選擇PCI治療。見表3。

表3 多值名義資料多重logistic回歸分析結(jié)果
根據(jù)表3的回歸系數(shù),計(jì)算每一類的概率:

Logistic回歸分析是醫(yī)學(xué)領(lǐng)域常用的回歸分析方法,傳統(tǒng)的logistic回歸分析是以二分類變量為結(jié)局變量。但在現(xiàn)實(shí)研究中,疾病種類、治療方案等往往存在多種類別。在病例對照研究中,有一個(gè)對照組、兩個(gè)或多個(gè)病例組;或者有一個(gè)病例組、兩個(gè)或者多個(gè)對照組。以上情況涉及沒有等級關(guān)系的多分類結(jié)果,如果對每兩類結(jié)果都采用傳統(tǒng)的logistic回歸分析,可能會增加一類錯(cuò)誤的概率。因此,多值名義資料多重logistic回歸分析應(yīng)運(yùn)而生。
多分類結(jié)果logistic回歸系數(shù)的解釋與傳統(tǒng)二分類的logistic回歸分析相似,不過需要明確所選擇的參照類別是哪一類,以免在結(jié)果解釋時(shí)發(fā)生混淆,因?yàn)橥蛔兞吭诓煌琹ogit函數(shù)的效應(yīng)往往不同。傳統(tǒng)的logistic回歸模型估計(jì)系數(shù)在大多數(shù)情況下與多值名義logistic回歸分析結(jié)果相近[6]。因此,可以將傳統(tǒng)的logistic回歸分析用于變量篩選,最后將各自篩選出的變量并集用于多值名義logistic回歸分析中。隨著SAS軟件的發(fā)展,目前可以通過逐步法、向前法、向后法和最優(yōu)子集法自動實(shí)現(xiàn)變量篩選,而不必手動篩選變量。當(dāng)然,讀者也可結(jié)合臨床實(shí)際選擇不同的變量篩選策略。
此外,在擬合多值名義資料多重logistic回歸分析時(shí)應(yīng)注意以下問題:變量間是否存在共線性問題、樣本量不宜過小、變量間是否有交互作用、啞變量設(shè)置是否合理。當(dāng)遇到異常值時(shí),應(yīng)慎重考慮,并做敏感性分析[7]。