蘇州大學公共衛生學院(215123) 楊少春 高 歌范玉波 陳科錦 杜俏俏 陳向宇 傅 穎 施佳琛
多分類敏感問題RRT模型下分層三階段抽樣的統計方法及應用*
蘇州大學公共衛生學院(215123) 楊少春 高 歌△范玉波 陳科錦 杜俏俏 陳向宇 傅 穎 施佳琛
目的為實際需要的多分類敏感性問題的復雜抽樣提供信度高效度高的調查方法及其統計公式;為制訂艾滋病預防控制措施提供科學依據。方法根據抽樣理論、RRT模型、全概率公式等理論方法推導統計公式;對北京市MSM人群進行實例調查;用SAS編程分別對6個調查指標各類別,各模擬多分類敏感問題RRT模型下分層三階段抽樣調查100個樣本,按本文給出的統計公式計算100個總體比例的可信區間。結果推導出多分類敏感問題RRT模型下分層三階段抽樣各類別總體比例估計量及其方差的計算公式;調查得到北京市MSM人群6項敏感問題指標各類別樣本比例及其標準誤。各指標各類別各模擬得到的100個總體比例95%可信區間幾乎均包含其模擬總體比例。結論本文研究的敏感問題調查方法及其公式具有良好的信度和效度,值得推廣應用;MSM人群具有艾滋病的高危性行為,應加強對其的預防控制。
敏感問題 隨機應答技術(RRT) (分層)三階段抽樣 MSM效度與信度
抽樣調查一直作為醫學科研及衛生工作中的一種重要方法及獲取統計資料的重要手段[1-3]。在抽樣調查研究中,經常會遇到各種各樣的敏感性問題。所謂敏感性問題是指高度私人機密性或大多數人認為不便在公開場合表態及陳述的問題[4],例如:吸毒、賣淫、嫖娼、男男性行為、性病、艾滋病等。敏感性問題按總體的特征可分為分類特征敏感問題和數量特征敏感問題,分類特征敏感問題又分為兩分類敏感性問題和多分類敏感性問題[5]。隨機應答技術(random ized response technique,RRT)巧妙地運用一個隨機裝置,在保護個人隱私的情況下,通過概率計算估計敏感問題特征的比例或均值,消除減小調查對象回答敏感問題時的拒答或說謊偏倚。國外已將各種RRT廣泛使用于流產率、女性飲酒量以及偷稅漏稅等各類敏感問題的調查,并得到了較好的調查結果[6-10]。
在本團隊研究前,國內外關于敏感問題調查的研究,主要局限于簡單隨機抽樣調查和隨機化裝置的改進等理論研究[11-13]。本團隊對非敏感問題各種復雜抽樣和敏感問題多種復雜抽樣的統計方法進行過系列研究[14-15]。本文對敏感問題實際抽樣調查中常常采用的多分類敏感問題RRT模型下分層三階段抽樣:從數學上推導出其統計公式;在北京市男男性行為人群的調查中取得了成功的實際應用效果;采用SAS編程進行大樣本個數大樣本量的計算機模擬抽樣調查與分析,得到了高信度和高效度的評價結果。
1.分層三階段抽樣方法
假定總體劃分成L層。第h層由N1h個一級單位組成;h層第i個一級單位由Ni2h個二級單位組成,h層平均每個一級單位包含2h個二級單位;h層第i個一級單位內第j個二級單位包含Nij3h個三級單位,h層平均每個二級單位包含3h個三級單位,h層共有Nh個三級單位,總體中共有N個三級單位;這里,h=1,2,…,L;i=1,2,…,N1h;j=1,2,…,Ni2h。第一階段從h層隨機抽取n1h個一級單位;第二階段從h層第i個被抽中的一級單位內隨機抽取ni2h個二級單位,平均從h層每個被抽中的一級單位內隨機了抽取2h個二級單位;第三階段從h層第i個抽中的一級單位內第j個抽中的二級單位中隨機抽取nij3h個三級單位,平均從h層每個抽中的二級單位中隨機抽取了3h個三級單位;這里h=1,2,…,L,i=1,2,…,n1h,j=1,2,…,ni2h。對每個被抽中的三級單位(人),采用多分類敏感問題隨機應答模型進行調查。
2.多分類敏感問題隨機應答模型
設某敏感問題分為K種互斥的類別1,2,…,K。設計一隨機化裝置,如:將分別寫有0,1,2,…,K的K+1種按數量比例P0:P1:P2.…Pk(P0+P1+P2+…+Pk=1)的若干卡片混合放入袋中。無旁人在場時每個抽中的人(三級單位)有放回地從袋中隨機抽出一張卡片,若卡片上寫有0則真實回答自己屬于敏感問題的那一類的序號;若卡片上寫有0以外的某個數則回答該數。
3.統計公式
(1)總體比例的估計量及其方差計算公式
假定pk為第k類敏感特征總體比例的估計量,ph-k為h層第k類總體比例ph-k的估計量,pih-k為h層第i個抽中一級單位第k類總體比例pijh-k的估計量,pih-k為h層第i個抽中一級單位內第j個抽中二級單位第k類總體比例pijh-k的估計量,h=1,2,…,L,i=1,2,…,n1h,j=1,2,…,ni2h,k=1,2,…,nij3h。
根據抽樣理論,雖然原始分類多于兩類,但當調查的目的是要估計總體中任何一類的個數占總數的比例時,實質上這些比例是按兩類得到的,所以兩分類的理論均適合于此種情況[2]。根據高歌、金丕煥給出的公式可得[1]:

(2)pijh-k的計算公式
設pijh-k為h層第i個一級單位第j個二級單位k類敏感問題的總體比例,mijh-k、λijh-k分別表示h層樣本中第i個一級單位第j個二級單位回答數字k的頻數、概率,根據全概率公式:


1.調查設計
(1)調查對象與調查指標
調查對象為2010年9-10月出入北京市男同性戀活動場所的15~49歲男男性行為(men who have sex with men,MSM)人群,總體數量約67750人。調查指標1為男男性行為各方式的比例;調查指標2為安全套全程使用情況各類別的比例;調查指標3為HIV病毒檢測結果各類別的比例;調查指標4為性病檢測結果各類別的比例;調查指標5為最近一年男男商業性性行為次均費用不同等級的比例;調查指標6為安全套破損情況各類別的比例。
(2)抽樣方法
采用分層三階段抽樣,將北京市MSM人群按年齡分為15~29歲和30~49歲兩層,各自所占比例分別為W1=58.24%,W2=41.76%;在各層內分別以北京的16個區縣為一級單位(N11=N12=16),以男同性戀活動場所(如男同浴室、會所、酒吧、公園等)為二級單位(調查點),以男男性行為者作為三級單位。兩個年齡層內平均每個區縣男同性戀人數分別約為2466人=1768人。第一階段從各年齡層的16個區縣中分別隨機抽取3個區縣(n11=n12=3);第二階段在所抽取的區縣各隨機抽取5個調查點(n=21=n22=5);第三階段從被抽中的5個調查點中共隨機抽取2062人,在各層內平均從每個抽中調查點分別抽取了
(3)RRT模型
采用多分類敏感問題隨機應答模型進行調查,以商業性男男性行為平均費用等級比例調查為例,設計一套隨機化裝置:將10個大小、重量、觸感完全相同的小球貼上數字標簽,5個寫上數字0、剩余5個分別寫上數字1、2、3、4、5,即P0:P1:P2:P3:P4:P5為0.5:0.1:0.1:0.1:0.1:0.1(P0+P1+P2+P3+P4+P5=1),10個小球混合放入袋中;每個被抽中的三級單位有放回地從袋中隨機抽出一個小球,若抽中的小球上寫有0,真實回答自己“最近一年商業性男男性行為的平均費用的等級序號k;若抽中的小球上寫有0以外的數字則直接回答該數字。
3.調查結果
按式(1)至(9)計算得:最近一年男男商業性性行為的次均費用<200元、200~399元、400~599元、600元以上、無男男商業性性行為的比例分別為5.65%、4.86%、2.67%、6.48%、80.34%,其標準誤分別為0.70%、0.49%、0.57%、0.76%、2.20%;最近一個月男男肛交中從不全程使用安全套、有時全程使用安全套、每次全程使用安全套、沒有肛交的比例分別為6.46%、31.78%、51.81%、9.96%,其標準誤分別為0.77%、0.71%、0.95%、0.44%;最近一年HIV病毒檢測結果為陽性、陰性、結果不確定、沒有檢查過的比例分別為6.31%、78.67%、2.89%、6.45%,其標準誤分別為0.42%、1.96%、0.28%、0.45%;最近一年到正規醫療機構性病檢測結果有性病、無性病、結果不確定、沒有檢查過的比例分別為16.79%、67.02%、6.25%、5.23%,其標準誤分別為0.66%、1.98%、0.46%、0.33%;男男性行為的方式為肛交、口交、其他的比例分別為65.83%、18.70%、15.47%,其標準誤分別為0.930%、0.658%、0.316%;安全套使用有破損、無破損、沒有使用安全套的比例分別為5.49%、70.26%、24.25%,其標準誤分別為0.57%、2.89%、1.89%。
1.建立模擬總體
按照北京市的區縣數、北京市MSM活動場所數、出入北京市男同性戀活動場所的15~49歲MSM人數(67750人)及年齡構成(15~29歲、30~49歲所占比例分別為W1=58.24%、W2=41.76%),以本文調查的6項多分類敏感問題各類別樣本比例、二項分布方差的數值作為模擬總體參數,基于蒙特卡洛方法,用SAS編程建立模擬總體。模擬總體的一級單元為16個區縣,模擬總體的二級單元為男同性戀活動場所(調查點),模擬總體的三級單元為男男性行為者。
2.模擬抽樣調查
模擬多分類敏感問題隨機應答模型下分層三階段抽樣調查。第一階段模擬從16個區縣隨機抽取3個一級單元(區縣);第二階段抽樣從每個抽中的一級單元中隨機抽取5個二級單元(調查點)。第三階段從被抽中的5個調查點中共隨機抽取2062人。
對敏感問題分層三階段抽樣的調查方法及其統計公式,各進行100個樣本(每個樣本平均包含2533名模擬調查對象)的模擬抽樣調查,對模擬總體的抽樣由另外輸入的隨機數控制,根據這個隨機數計算機在模擬總體中進行了分層三階段抽樣,并對抽中的三級單位進行模擬調查。RRT調查過程的模擬再次用到了計算機產生確定范圍的隨機數的功能。例如,將北京市MSM人群按年齡分為15~29歲和30~49歲兩層,各自所占比例分別為W1=58.24%,W2=41.76%,根據模擬總體的比例,對虛擬調查對象進行賦值,對于一個已經被賦值為1的虛擬被調查者,計算機按一定比例單獨為它賦予一個0~3范圍的隨機整數(隨機化裝置),這相當于此虛擬被調查者有放回地從袋中隨機摸出一個0~3范圍的任意標號的小球。若計算機單獨為它賦予的隨機數是0,則真實回答自己屬于敏感問題的那一類的序號,即是1;若被賦予的值是0以外的某個數則回答這個數。所得結果即為該虛擬被調查者的應答值。每一個抽中的單位都產生了應答值后,按照有關公式進行統計計算,得到模擬調查結果計算樣本統計量及其估計方差、總體參數95%的置信區間。
3.信度和效度評價
對于本領域內相關的一些研究結果進行了相關的比較,商業性男男性行為比例為19.66%,略高于陳向宇[17]的19.11%;男男性行為的方式為肛交、口交的比例分別為65.83%、18.70%,高于杜俏俏[18]得出的肛交占60.95%、口交占16.85%;男男性行為時沒有使用安全套的比例為24.25%,高于于波[19]的沒有使用安全套的比例19.77%,并且最近一年HIV病毒檢測結果為陽性為6.31%,低于于波的最近一年HIV檢測的結果為陽性的比例8.03%;同時,本文對于每個指標都進行了信度和效度評價,分別對各調查指標各類別100個模擬樣本,得到的100個總體比例95%可信區間,幾乎全部包含其模擬總體比例(真值),更加說明了測量結果的準確性和可靠性。例如,對指標1分類一(肛交),100個模擬樣本中有96個(樣本1、65、95、100除外)得到的該分類總體比例95%可信區間包含其模擬總體比例(真值),見圖1對指標1分類二(口交),100個模擬樣本中有99個樣本(樣本95除外)得到的該分類總體比例95%可信區間包含其模擬總體比例(真值);對指標1分類三(其他方式),100個模擬樣本中有97個(樣本1、4、95除外)得到的該分類總體比例95%可信區間包含其模擬總體比例(真值)。說明本文給出的多分類敏感問題隨機應答技術模型下分層三階段抽樣的調查方法及其統計公式具有較高的效度,同時具有較高的信度(因幾乎所有的樣本均數均接近它們的均值)。
對調查指標1的分類一,以樣本序號為橫坐標,以總體比例95%可信區間為縱坐標繪圖,并以模擬總體比例做水平輔助線,見圖1。
1.本團隊對多分類敏感問題RRT模型整群抽樣、二階段抽樣、分層兩階段整群抽樣等復雜抽樣的統計方法進行過研究。在此研究基礎上,本文對多分類敏感問題RRT模型分層三階段抽樣,從數學上首次推導出各類別總體比例的估計量及其方差、估計方差的統計公式,具有統計理論方法學意義。

圖1 多分類敏感問題RRT分層三階段抽樣模擬
2.本團隊研究之前,國內外對敏感問題抽樣調查的信度與效度評價極少涉及。本文首次對多分類敏感問題RRT模型分層三階段抽樣的調查方法及其統計公式,采用SAS編程建立仿真模擬總體,進行計算機大樣本個數(100個)大樣本量(每個樣本含有2000多例)模擬抽樣,獲得高信度高效度的評價結論。說明本文研究的調查方法及其統計公式準確可靠。
3.本文研究得北京市MSM人群:男男商業性性行為的比例高達19.66%,每次全程使用安全套的比例僅為51.81%,HIV陽性比例高達6.31%,有性病比例高達16.79%,肛交比例高達65.83%,未使用安全套的比例高達24.35%,安全套使用中有破損的比例高達7.25%。本文為有關部門制定性病、艾滋病預防控制規劃、措施提供了科學依據。說明本文研究的調查方法及其統計公式具有較大的實際意義。
4.評價結果表明,通過多分類敏感問題RRT模型分層三階段抽樣敏感問題調查方法能獲得大量真實數據,將為有關部門制訂HIV/AIDS防治等社會、公共衛生問題的政策、規劃提供科學的依據。
附 錄
模擬分層三階段抽樣并運用多項選擇敏感問題隨機應答模型進行調查的宏程序代碼如下:





填入相應的宏參數,并執行編寫的宏程序,即可獲得100次運用多項選擇敏感問題隨機應答模型對模擬抽樣的樣本進行RRT調查所得的(每類別)100個樣本比例及其估計方差、(每類別)100個總體比例的95%可信區間,100個卡方檢驗的P值。宏參數如下:

[1]高歌,金丕煥,王旭輝.分層三階段抽樣樣本大小的研究及應用.中國衛生統計,2000,17(6):325-327.
[2]科克倫W.G.著,張堯庭,吳輝譯.抽樣技術.中國統計出版社,1985:87.
[3]溫長松.試述抽樣調查方法在歷史研究中的應用.沈陽大學學報,2006,18(1):40-41.
[4]王建華.實用醫學科研方法.人民衛生出版社,2003:440-450.
[5]高歌,范玉波.敏感問題Simmons模型的(分層)整群抽樣研究.中國衛生統計,2008,25(6):562-565.
[6]Warner SL.Randomized response:a survey technique for eliminating evasive answer bias.JAm Stat Assoc,1965:60(309):63-66.
[7]Tourangeau R,Smith TW.Asking sensitive questions:The impact of date collection mode,question format,and question context.Public Opinion Quarterly,1996;(60):275-304.
[8]Stephen EE,Samuel H,Karen LD.Validity of Forced Responses in a Random ized Response Model.Sociological Methods&Research,1982,11(1):89-100.
[9]Liu PT,Chow LP.The efficiency of themultiple trial random ized response technique.Biometrics,1976,32(3):607-618.
[10]Chow LP,Gruhn W,Chang WP.Feasibility of the random ized response technique in rural Ethiopia.Am J Public Health,1979,69(3):273-276.
[11]孫山澤,孫明舉,段鋼.二項選擇敏感性問題調查的基本方法.數理統計與管理,2000,19(1):58-64.
[12]洪志敏,閆在在.一種定量敏感性問題的隨機化調查方法.內蒙古工業大學學報,2006,25(3):178-182.
[13]張權,閆在在.二項抽樣下隨機化調查的比估計模型.內蒙古工業大學學報,2009,28(2):81-85.
[14]Wang M,Gao G.Quantitative sensitive question survey in cluster sampling and its application.Recent Advance in Statistics Application and Related Areas,Sydeny:Aussino Academ ic Publishing House 2008:648-652.
[15]Liu W,Gao G,Wang L.Stratified random sampling on simmons model for sensitive question survey.Data Processing and Quantitative Economy Modeling,Sydeny:Aussino Academ ic Publishing House,2010:22-26.
[16]陳向宇,高歌,于明潤,等.北京市商業性男男性行為Simmons模型調查.中國公共衛生,2013,2:259-260.
[17]杜俏俏,高歌,靳宗達,等.蒙特卡洛模擬在多分類敏感問題兩階段整群抽樣信度與效度評價中的應用.中國衛生統計,2013,30(2):227-229.
[18]于波,高歌,賀志龍,等.北京市MSM人群RRT模型的兩階段抽樣調查.中國衛生統計,2012;06:351-352.
(責任編輯:劉 壯)
*:國家自然科學基金項目(項目編號:81273188)
△通信作者:高歌,E-mail:gaoge@suda.edu.cn