999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

復雜抽樣調查設計多值名義資料一水平多重Logistic回歸分析

2019-03-16 11:22:22劉媛媛李長平胡良平
四川精神衛生 2019年6期
關鍵詞:模型設計

劉媛媛,李長平,2*,胡良平

(1.天津醫科大學公共衛生學院衛生統計學教研室,天津300070;2.世界中醫藥學會聯合會臨床科研統計學專業委員會,北京100029;3.軍事科學院研究生院,北京100850*通信作者:李長平,E-mail:1067181059@qq.com)

在調查研究中,常見的結果變量及其取值除了二值資料、多值有序資料之外,還包括如血型“A型、B型、O型、AB型”或疾病分型“A型、B型、C型”這樣的資料,稱為多值名義資料。此類資料特指因變量或結果變量為多值名義變量,而自變量可以是定性的、定量的或混合型的資料[1]。現在,復雜抽樣調查設計在實際調查研究中使用越來越多,對由此獲得的復雜抽樣數據進行統計分析時,需充分考慮由不同的抽樣方法而產生的不同“抽樣權重”。本文通過不同分析策略對復雜抽樣調查設計多值名義資料進行多重logistic回歸分析,并探討不同策略之間的差異。

1 多值名義資料多重logistic回歸模型簡介

1.1 簡單隨機抽樣下多值名義資料多重logistic回歸模型的構建

對于結果變量為多值名義變量的logistic回歸模型,其結果變量的多個取值之間是“無序的”,假設結果變量Y的取值的類別個數為(D+1)個,這時,總是以其中一個取值類別作為對照,將其他類別與對照類別進行比較,共生成D個logistic回歸模型,所構建的logistic回歸模型也被稱為擴展的logistic回歸模型或廣義logit模型[2]。見式(1)。

其中,α1,…,αD是D個截距參數,β1,…,βD是D個參數組成的向量,βi代表第i類相對于第(D+1)類的回歸系數向量,x代表協變量向量。此模型最早由McFadden[3]介紹,并被作為多項logit模型而熟知。

對上式進行轉換可得式(2):

因為所有(D+1)類的概率之和必須為1,所以第(D+1)類的概率為式(3)[4]:

1.2 復雜抽樣下多值名義資料多重logistic回歸模型的構建

對于復雜抽樣下多值名義資料多重logistic回歸模型來說,建模時通過使用偽對數似然函數來估計模型參數。當結果變量為多值名義資料時,構建廣義logit模型將使用logit連接函數擬合每個響應類別的預期比例與參考類別的預期比例的比值[2]。此時,廣義logit模型即為式(4):

其中,d=1,2,…,D。模型參數向量為βd=(βd1,βd2,…,βdk)'。πhij為結果變量的期望向量。xhij為第h層第i個群集第j個單位解釋變量的k維行向量。

利用偽對數似然函數對模型參數進行估計,求解最大似然估計值。見式(5):

在式(5)中,Dhij為連接函數關于θ的偏導數矩陣,θ為回歸系數的列向量,θ=(β'1,β'2,…,β'D)',ωhij為抽樣權重,yhij為變量Y的前D個類別的指示變量組成的一個D維的列向量[5]。

2 基于SAS的實例分析

2.1 問題與數據

本研究所使用數據為美國衛生與公眾服務部開展的醫療支出面板調查(Medical Expenditure Panel Survey,MEPS)的數據,對醫療保健的各個方面進行評估[2]。該研究采用分層整群抽樣,抽樣權重根據無響應情況和當前人口調查的人口控制總量進行調整。在本例中,利用1999年全年數據來研究醫保覆蓋情況與人口學變量之間的關系。數據存儲于SAS數據集MEPS,樣本量為24 618,變量為8個,具體變量名及賦值見表1。

表1 數據集中變量名及賦值或單位

2.2 分析策略

2.2.1 按單純隨機抽樣進行分析

既不考慮抽樣設計,也不考慮抽樣權重:將復雜調查設計資料視為“單純隨機抽樣設計資料”。

2.2.1.1 SAS程序

基于表1及其具體數據創建臨時SAS數據集MEPS所對應的SAS數據步程序從略。調用LOGISTIC過程來實現單純隨機抽樣設計資料的廣義logit模型。

【說明】class語句指定分類變量sex、race、income;model語句中響應變量為Y=insurance,以insurance=3為參考類別,解釋變量(即自變量)為sex、race、income和expenditure。在MODEL語句中指定了LINK=GLOGIT選項,即指定擬合廣義logit回歸模型,即擴展的多重logistic回歸模型。

2.2.1.2 主要輸出結果及解釋

這里僅列出部分廣義logit回歸模型分析結果。其中模型參數的假設檢驗分別使用似然比檢驗、評分檢驗和Wald檢驗三種方法,結果顯示回歸模型有統計學意義。最大似然估計結果顯示,性別、家庭收入水平和全年衛生保健總支出對健康保險覆蓋情況的影響均有統計學意義;優勢比估計結果顯示,相對于全年沒有保險者而言,女性、家庭收入水平非貧窮者、全年衛生保健總支出高者傾向于全年有私人保險;男性、家庭收入水平非貧窮者、全年衛生保健總支出高者傾向于全年只有公共保險。

2.2.2 考慮抽樣設計,但不考慮抽樣權重

2.2.2.1 SAS程序

調用SURVEYLOGISTIC過程來實現復雜抽樣調查設計多值名義資料的廣義logit回歸模型。

【說明】STRATA語句用于指定在分層抽樣設計中的分層變量,CLUSTER語句指定整群抽樣設計中的群變量。其他解釋同上。

2.2.2.2 主要輸出結果及解釋

SAS輸出結果很多,由于篇幅限制,此部分結果從略。由輸出結果得知:性別、人種、家庭收入水平和全年衛生保健總支出對健康保險覆蓋情況的影響均有統計學意義。

2.2.3 不考慮抽樣設計,但考慮抽樣權重

2.2.3.1 SAS程序

調用SURVEYLOGISTIC過程來實現復雜抽樣調查設計多值名義資料的廣義logit回歸模型。

【說明】WEIGHT語句指定權重變量,其他解釋同上。

2.2.3.2主要輸出結果及解釋

由于篇幅限制,SAS輸出結果從略。由輸出結果得知:性別、人種、家庭收入水平和全年衛生保健總支出對健康保險覆蓋情況的影響均有統計學意義。

2.2.4 同時考慮抽樣設計和抽樣權重

2.2.4.1 SAS程序

調用SURVEYLOGISTIC過程來實現復雜抽樣調查設計多值名義資料的廣義logit模型。

【說明】分別用STRATA語句、CLUSTER語句、WEIGHT語句指定復雜抽樣中的分層變量、群變量、權重變量,CLASS語句指定分類變量;MODEL語句中結果變量為insurance,以insurance=3為參考類別,解釋變量為sex、race、income和expenditure。在MODEL語句中指定LINK=GLOGIT選項,即指定擬合廣義logit回歸模型。

2.2.4.2 主要輸出結果及解釋

由于篇幅限制,SAS輸出結果從略。由輸出結果得知:性別、人種、家庭收入水平和全年衛生保健總支出對健康保險覆蓋情況的影響均有統計學意義。相對于全年沒有保險者而言,女性、愛斯基摩人(相對于白人)、家庭收入水平非貧窮者、全年衛生保健總支出高者傾向于全年有私人保險,而男性、人種為美國印第安人或亞洲或太平洋島民或黑人(相對于白人)者、全年衛生保健總支出低者傾向于無保險;女性、人種非白人、家庭收入水平貧窮者、全年衛生保健總支出高者傾向于全年只有公共保險。

2.3 不同分析策略的結果比較

不考慮復雜抽樣的普通廣義logit回歸模型與僅考慮抽樣設計的廣義logit回歸模型所得回歸系數及OR值的參數估計值相同,僅回歸系數的標準誤及OR值的95%CI不同,而其變化有的增大有的減小。說明是否考慮抽樣方法對廣義logit回歸模型參數估計存在影響。

考慮抽樣權重與同時考慮抽樣設計和抽樣權重之后構建的廣義logit回歸模型所得回歸系數及OR值的參數估計值相同,卻與前兩種分析策略結果不同。而且這兩種分析策略得到的回歸系數標準誤及OR值的95%CI也有增大或減小的區別。race變量在不考慮抽樣權重時,對健康保險覆蓋情況無影響;但在考慮抽樣權重后,race變量的不同情況對健康保險覆蓋情況的影響有統計學意義。說明在對復雜抽樣調查設計多值名義資料構建廣義logit回歸模型時,首先應考慮研究采用的抽樣方法,由此計算相應的抽樣權重,否則可能產生較大偏差[5]。

3 討論與小結

抽樣調查是調查研究中相對簡單易行且代表性較好的方法之一,但單一的抽樣方法在實際應用中存在一些缺點,所以復雜抽樣的思想和方法應運而生,由復雜抽樣方法獲得的樣本稱為復雜樣本[6]。由于復雜隨機抽樣每個階段的抽樣方法可能不同,所以其抽樣誤差的計算相當復雜。因此,在對復雜樣本進行統計分析時,既要充分考慮多種抽樣方法聯合使用對抽樣誤差的影響,又要注意不同抽樣率下抽樣權重的不同,否則會使參數及其置信區間等的估計產生偏差。

為了探討在復雜抽樣或單純隨機抽樣基礎上進行統計分析的差異,本研究分別采用SAS軟件中的LOGISTIC過程和SURVEYLOGISTIC過程,按照是否考慮抽樣設計與是否考慮抽樣權重共4種分析策略對數據進行統計分析。由于LOGISTIC過程可采用逐步回歸法對自變量進行篩選,而SURVEYLOGISTIC過程不支持,所以本研究并未使用該選項。結果顯示,如果在統計分析中忽視“復雜抽樣”或“抽樣權重”,不僅會對參數估計值、回歸系數標準誤、OR值及其置信區間的估計產生影響[6],而且對納入廣義logit回歸模型的解釋變量也有影響。由于復雜抽樣中的抽樣權重包含進行參數點估計時所需的信息,但不包含標準誤估計的信息,因此,在SURVEYLOGISTIC過程中需對方差進行估計。正確的方差估計包括每一個抽樣階段的方差估計和聯合抽樣概率[7]。SAS中可采用Taylor級數線性近似法(線性化)、重抽樣等方法,如不進行設置,則默認前者方法,這也是該過程與LOGISTIC過程的主要區別。因此,在實際研究中,利用樣本數據對總體進行統計推斷時,必須對樣本的設計類型加以考慮,不然即使樣本量足夠大,也會導致錯誤的推斷結論[7]。

本文通過實例研究,按照不同的分析策略分別對結果變量為多值名義變量的分層整群抽樣數據構建廣義logit回歸模型,通過對結果的解釋和比較,發現在對復雜抽樣調查設計多值名義資料進行多重logistic回歸分析時,既要考慮抽樣設計,又要兼顧抽樣權重,以得到更準確的分析結果。

猜你喜歡
模型設計
一半模型
重要模型『一線三等角』
何為設計的守護之道?
現代裝飾(2020年7期)2020-07-27 01:27:42
重尾非線性自回歸模型自加權M-估計的漸近分布
《豐收的喜悅展示設計》
流行色(2020年1期)2020-04-28 11:16:38
瞞天過海——仿生設計萌到家
藝術啟蒙(2018年7期)2018-08-23 09:14:18
設計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 色屁屁一区二区三区视频国产| 99热国产这里只有精品9九| 午夜福利视频一区| 午夜无码一区二区三区| 日本不卡在线播放| 91精品久久久无码中文字幕vr| 亚洲中文精品久久久久久不卡| 欧美精品色视频| 99久久这里只精品麻豆 | 激情午夜婷婷| 国产h视频在线观看视频| 亚洲中文无码av永久伊人| 超碰aⅴ人人做人人爽欧美| 女高中生自慰污污网站| 国产www网站| 欧美精品三级在线| 亚洲色图另类| 久久综合结合久久狠狠狠97色| 亚洲第一在线播放| 亚洲精品国产首次亮相| 免费jizz在线播放| 国产在线精品人成导航| av在线无码浏览| 欧洲极品无码一区二区三区| 免费人成网站在线观看欧美| 91成人精品视频| 亚洲欧美精品一中文字幕| 欧美在线精品怡红院| 青草91视频免费观看| 57pao国产成视频免费播放| 亚洲一级毛片免费观看| 2019年国产精品自拍不卡| 欧洲精品视频在线观看| 亚洲精品麻豆| 亚洲成人一区二区三区| 国产精品尹人在线观看| 人人91人人澡人人妻人人爽 | 日韩欧美视频第一区在线观看| 久久精品无码一区二区国产区 | 日本在线视频免费| 亚洲色图另类| 超碰免费91| 国产福利免费视频| 波多野结衣亚洲一区| 国产最新无码专区在线| 欧美午夜视频在线| 99热国产这里只有精品无卡顿" | 日韩毛片基地| 欧美午夜视频在线| 久久精品国产在热久久2019| 无码在线激情片| 免费网站成人亚洲| 国产美女免费| 欧美成人h精品网站| 欧美亚洲另类在线观看| 欧美乱妇高清无乱码免费| 中文字幕免费在线视频| 亚洲国产成人久久77| 国产成人福利在线视老湿机| 免费 国产 无码久久久| 97免费在线观看视频| 国产精品香蕉| 亚洲中文精品人人永久免费| 色综合久久88色综合天天提莫| 2021亚洲精品不卡a| 欧美不卡视频在线观看| 五月婷婷亚洲综合| 黄色网址免费在线| 动漫精品啪啪一区二区三区| 日韩无码视频专区| 夜夜高潮夜夜爽国产伦精品| 久久99热这里只有精品免费看| 国产成人精品2021欧美日韩| 久久精品无码一区二区日韩免费 | 日本91视频| 亚洲欧美日韩天堂| 国产精品2| 国产成人精品日本亚洲| 手机成人午夜在线视频| 国产三级a| 久久精品人人做人人爽97| 中文字幕在线观|