劉文慧 薛付忠 穆玉蘭
病例對照研究(case-control study)是流行病學方法中最基本、最重要的研究類型之一[1],可用于發病危險因素的研究,也可用于臨床回顧性治療與探索預后因素的研究等[2]。其主要研究類型主要分為病例對照不匹配和病例對照匹配[3-5],前者只需對照數目等于或多于病例人數,而后者在目前的軟件實現比較復雜,尤其是匹配因素較多,對照匹配比例較高(如1:2以上)時,很多醫學工作者無從下手。為此,本文介紹通過Empower Stats軟件快速實現病例對照研究的個體匹配。
Empower Stats軟件當前最新版本的創建日期為2017年2月15日,可以從官方網站http://r.empowerstats.cn/cn/index.html下載獲取。
某女性卵巢衰老問卷調查,內容包括編號(ID)、民族(race)、教育程度(edu)、年齡(age)、職業(occupation)、體質指數(BMI,body mass index)、抽煙史(smoking history)、飲酒史(drinking history)、母親絕經年齡(mother’s menopause age)、是否卵巢早衰(SOF,premature ovarian failure)(表1)等項目。其中SOF項表示卵巢早衰(1:是,0:否)。現計劃對發生卵巢早衰的研究對象采用1:1配比的病例對照研究方法,研究卵巢早衰發生的影響因素。匹配的原則是民族相同、教育程度相同、年齡差別2歲。

表1 某女性卵巢衰老調查問卷結果
步驟:
1.打開軟件,點擊“開始運行”。
2.“分析項目”——“創建新項目”——“瀏覽”導入要分析的數據文件。軟件支持.Rdata,.xls,.csv,.txt,.sav,.dat,.sas7bdat等多種數據格式,本例采用.csv格式。
3.選擇分析結果存放目錄、修改“項目名稱”,添加“項目描述”(可采用自動生成結果)。
4.“讀取數據文件”,軟件后臺調用相關R程序,生成簡單的數據分布情況。
5.“數據操作”——“數據記錄”——“病例對照配對”,設置分組變量,配對變量、配對條件與匹配數、研究對象編號。race、edu差異范圍缺失表示完全匹配,age差異范圍2表示age相差2歲以內可以配對。
6.“查看結果”。
運行后,軟件自動彈出結果頁面,并在分析結果存放目錄生成相應的網頁(PROJ1_1_tbl.htm)、日志(PROJ1_1_tbl.log)、R程序(PROJ1_1_tbl.R)及2個匹配結果文件(PROJ1_1_tbl_SOF_match_cc.xls、PROJ1_1_tbl_SOF_match_dd.xls)。
其中自動彈出結果頁面與PROJ1_1_tbl.htm一致,列出了分析數據中無法找到配對的病例編號。可以看出有18個病例沒有找到對照,這18個病例的編號(ID)為25,26,31,…,196。
結果文件PROJ1_1_tbl_SOF_match_cc.xls橫向展示了匹配結果(表2),每行是一個病例。group.id是配對組編號,group.n表示配對組內人數,ID.case、ID.cntl分別表示病例、對照在原始數據文件中的編號。NA表示未找到合適匹配對象。

表2 匹配結果PROJ1_1_tbl_SOF_match_cc.xls
從表2可以看出18個配對組沒有對照(group.id=1,2,…,18),其組內人數均為1(group.n=1),在原始數據中的編號為25,26,…,196。而配對組group.id=19 ,group.n=2,ID.case=1,ID.cntl=118表示配對組19的組內有2個研究對象,其中病例在原數據中的編號是1,對照在原數據表中的編號是118。
結果文件PROJ1_1_tbl_SOF_match_dd.xls則是另一種格式(表3)。此表每行是一個研究對象。group.id、group.n與表2中含義相同,分別表示配對組編號及配對組內的人數。ID表示在原始數據表中的編號。匹配成功的病例和對照排在臨近的兩行,如group.id=19有兩行,一行id=1,SOF=1,另一行id=118,SOF=0,表示原始數據中編號是1的病例匹配到了對照組,其編號是118。表格的右側是原始數據表的其他變量即相應的問卷調查結果,便于進行下一步的數據統計分析。

表3 PROJ1_1_tbl_SOF_match_dd.xls
Empower Stats是一款基于R軟件進行流行病學分析的“傻瓜”軟件,不必具有編程基礎,就能運用R程序進行數據管理、處理和分析。具有編程基礎的則可以通過軟件生成的R文件進行更加合適、個性化的修改。由于其功能強大而操作簡單,該軟件已逐步受到醫學科研工作者的青睞[6-7]。
本文的重點是利用該軟件快速實現病例對照的1:1匹配,相較于公開發表的文獻報道中用Excel VBA、C#語言編程方式實現病例對照個體匹配[8-9]的方法而言,更加的簡單,尤其是對于沒有編程基礎的科研工作者。本文中匹配變量為民族、教育程度和年齡,假如讀者的研究方法與本研究不同,如匹配的變量不同,只需在設置匹配條件界面“用于配對的變量”中選擇自己所需的匹配變量即可。如匹配比例不同(假設為1:2),則只需在相應界面“1:n配對(n=)”處輸入數字2即可。
此外,Empower Stats軟件還可以實現近年來新興的傾向得分匹配(PSM,propensity score matching)[10],該方法被廣泛應用于臨床試驗、流行病學病因研究以及大部分觀察性試驗研究和設計中[11-12],用于降低由于混雜因素導致的選擇性偏倚,從而保證組間基線數據的均衡可比。其操作也非常方便,只需在界面勾選“計算傾向性評分再按評分配對”,并設定傾向性評分配對的病例對照相差范圍即可。
需要注意的是,Empower Stats軟件是一款收費軟件,安裝成功并注冊后可獲得一個月的試用期,期間可以使用軟件的高級模塊(病例對照匹配、廣義估計方程多應變量回歸、隨機(混合)效應模型meta分析等),否則只能使用基本模塊(T檢驗、方差分析、直線相關與回歸、生存分析等)。若通過電子郵件向好友推薦可延長試用期。此外,由于該軟件是基于R軟件來進行數據分析的,因此在安裝該軟件時會自動安裝R軟件。因為其對于數據處理分析全面、功能強大且操作簡單,相信其在醫學科研中的應用前景會更加廣泛。