王 俊 楊 瑛 趙 婉 蘇華林 張志杰 張鐵軍Δ
?
網絡規模迭加法中社交網絡規模值的校正*
王俊1楊瑛2趙婉2蘇華林2張志杰1張鐵軍1Δ
【提要】目的探討采用網絡規模迭加法進行敏感人群規模估計時,社交網絡規模值(C值)的校正方法。方法通過對上海市某區的調查實例分析,嘗試采用不同方法對網絡規模迭加法中C值進行校正。結果采用反向預測法、回歸模型法以及兩者結合等三種不同校正方法估計出的C值分別為231、249、297,三者差異存在統計學意義(P<0.001)。結論不同校正方法的結果存在差異,結合R2值可初步提示利用反向預測和回歸模型結合的方法對結果估計具有一定的可信性。
網絡規模迭加法校正方法敏感人群
網絡規模迭加法是一種較新的敏感人群規模估計方法,已在國外被廣泛應用[1-2]。該方法通過系列資料估計調查對象的社交網絡規模,并基于此網絡規模估算目標人群規模;其應用的關鍵點在于對社交網絡規模值(C值)的估計。國內外研究者已采用不同的方法對其進行校正[3-4],然而目前還沒有研究對不同的校正方法進行過深入分析。本文旨在對常用的C值校正方法進行介紹,并以上海市某區的調查結果為例,以期初步探討各校正方法的優劣及可信性?,F將結果匯報如下:
1.網絡迭加法的基本原理
該方法的理論基礎[4]在于:假定其它方面相同的條件下,調查對象所認識的目標人群人數占其所認識的全部人數的比例應近似等于目標人群占總人群數量的比例。結合公式[5]:
(1)
和問卷收集到的數據初步得到調查對象的C值。其中ci為調查對象的社交網絡規模數,mij為調查對象i認識亞人群j的人數(亞人群共有L個),ej為亞人群的規模,t為一般人群的總數。根據公式[5]
(2)
(此公式已被證明為無偏公式[5])和調整校正后的C值可得出未知的人群規模。根據以上公式可知C值是唯一的未知參數,也是影響該方法好壞的重要參數。
2.校正方法
采用網絡規模迭加法對敏感人群的規模進行估計,結合“已知人群法”對C值進行估計。并嘗試采用反向預測法,回歸模型法,反向預測法和回歸模型法相結合三種不同的方法對其C值進行校正。
(1)反向預測法[3]假設調查對象所認識的已知人群數為n,首先從已知人群中暫剔除1個人群,假定其數值未知,根據網絡規模迭加法的公式利用剩余的已知人群計算得到C值,然后反向估計被剔除的人群規模(mi),再計算反向估計出的數值(mi)和原始數值(m0)的比值(mi/m0),保留比值在0.5~2.0的人群,為了保證C值的準確性,剔除不滿足在這一區間的已知人群,最后用所保留的人群進行C值的最終估計。
(2)回歸模型法[6]假設Mj為調查對象所認識每個已知人群人數的均值,Pj為每個已知人群規模占總人群規模的比例,在線性回歸模型中,以Mj為自變量,Pj為應變量,首先初步建立兩者間的線性回歸關系,得出R2值,再利用回歸模型中的殘差值來剔除不符合要求的已知人群,殘差值以大于-2小于2為標準,最后進一步得出兩者之間的線性回歸關系和R2值,利用所保留的人群進行C值的最終估計。
(3)反向預測法結合回歸模型法 基于以上兩種方法所排除的已知人群,可知有部分重疊,排除以上兩種方法均未納入的已知人群,利用剩余已知人群進行C值的最終估計。
3.統計分析方法
調查數據采用EpiData 3.1建立數據庫,利用SPSS 18.0進行數據的整理分析。統計描述主要采用均數±標準差;C值不同校正方法的比較采用Kruskal-Wallis分析,同時利用回歸分析中R2值對C值估計的可信性進行比較。
1.實例與結果
本次調查采用多階段隨機抽樣的方法,在上海市某區按照街道、居委會、小區、單元進行隨機抽樣,對最終選取的單元進行整群抽樣,每戶家庭中抽取一人作為調查對象。本次調查內容主要包括:一般人口學特征、調查對象對一些亞人群規模的了解情況和對一些敏感人群如暗娼,男男性接觸者的認可態度等,所有調查內容均不涉及調查對象的任何隱私。
共獲得2970份問卷,剔除年齡小于18歲及大于60歲者82人份,有效問卷2888份。調查對象的平均年齡為(40.92±11.60)歲,其中男性1471人,女性1417人。已婚者約占79.8%(2305/2888),文化程度為高中和大專及以上所占比例分別為32.4%(935/2888)和39.4%(1138/2888)。
2.C值的估計以及校正
根據公式(1)可初步得出調查對象的社交網絡規模,即C值為196,依次采用三種校正方法對其進行校正。
(1)反向預測法 由表1可知,20個已知人群中,有9個已知人群的反向估計值和原始數值的比值介于0.5~2.0之間,并根據這9個已知人群得出C值為231,R2=0.669。

表1 反向估計值與原始數值相比較
(2)回歸模型法 根據回歸模型計算結果,可知最初的20個已知人群僅能對總變異占42.4%(R2=0.424),利用殘差圖去除了6個相關性較差的已知人群后,可得出R2=0.895(見圖1),基于所剩余14個已知人群估計出C值為249。
(3)反向預測法結合回歸模型法 結合以上兩種方法,共排除13個已知人群,依據剩下的7個人群計算出C值為297,R2=0.986。

圖1 20個已知人群以及14個已知人群的回歸模型
3.不同校正方法對C值估計的比較 不同方法的校正估計結果顯示C值呈現偏態分布。根據表2可知,不同的方法對C值的校正結果存在差異,且有統計學意義(P<0.001),并且根據以上的R2值可初步得知,兩者相結合的方法所校正調查的人群社交網絡規模較大,且與已知報道接近,預期可獲得的信息來源更廣泛。

表2 不同校正方法對C值估計結果
網絡規模迭加法作為一種新穎的敏感人群規模估計的方法,節省人力物力,且不涉及個人隱私[1]。目前國內已有不少學者利用該方法在敏感人群中進行研究[7-8]。然而,由于屏障效應或傳播效應[9]等原因可影響C值的準確性[5],進而使得對敏感人群規模估計產生偏差,因此需要通過合適的方法對C值進行校正,以提高估計的真實性、可靠性。
網絡規模迭加法中唯一的未知參數C值的估計是重點,有學者也曾對此參數的估計進行了探索,如Snidero S[6]等利用殘差圖來剔除部分已知人群;Ezoe S[4]等采用反向預測法來估計已知人群的準確性;根據模型可知,對C值進行估計的過程中已知人群的選擇是基礎,選擇不同的已知人群會影響到社交網絡規模和未知人群規模的估計。由于目前對于網絡規模迭加法C值的理論值,國際上尚無統一的金標準[10],在進行人群規模估計時,會因地區及人群差異而造成C值不同。網絡規模迭加法中,C值顯示社交網絡規模大小,C值較大,表明所調查的對象社交網絡較大,獲得的信息越充分,則基于C值得出的人群規模估計可能會較可靠。根據國內外一些學者[5,11-13]的研究,C值偏向于290比較合理,因而文中擬采用C值297為調查對象的社交網絡。
本文以C值的校正為目的,嘗試以反向預測法、回歸模型法及兩者相結合等三種方法對已知人群進行篩選,以及對所獲得的C值進行校正,并比較其異同,結果顯示不同校正方法的結果之間存在顯著差異。通常在回歸分析中,決定系數(R2)常常被用以評價模型的優劣,而其所受影響的因素也比較多,其中就包含變量的選擇[14];因而本次研究中擬采用R2作為一個指標對擬合的優劣進行判定。本研究中采用的回歸模型和反向預測法以及兩者結合法,以調查對象認識已知人群的均值為自變量和已知人群所占比例為應變量,計算兩者的變化規律,并采用R2來初步判定方法的優劣。根據本研究中所得出的R2值的結果,在一定程度上表明采用反向預測法、回歸模型法均可對C值的估計有所改善,而兩種方法的結合對C值的校正具有較好可信度,可以使得后期人群規模的結果更具有說服力。
本實例是在上海地區應用網絡規模迭加法開展的一次敏感人群規模估計,在實施的過程中,我們嘗試了用不同方法針對重要指標C值進行校正,今后可考慮其它多種校正方法配合,提升方案的科學性,共同對此類敏感人群的規模進行有效的估計,為敏感人群如高危人群艾滋病防治提供參考依據。
[1]Bemard HR,Hallett T,Iovita A,et al.Counting hard-to-count populations:the network scale-up method for public health.Sex Transm Infect,2010,86(supply 2):11-15.
[2]Bemard HR,Killworth PD,Johnsen EC,et al.M ccarty C.Estimating the Ripple Effect of a Disaster.Connections,2001,24(2):18-22.
[3]Kadushin C,Killworth PD,Bernard HR,et al.Scale-Up Methods as Applied to Estimates of Heroin use.Journal of Drug Issues,2006,36(2):417-440.
[4]Ezoe S,Morooka T,Noda T,et al.Population size estimation of men who have sex with men through the network scale-up method in Japan.Plos one,2012,7(1):1-7.
[5]Killworth PD,McCarty C,Bernard HR,et al.Estimation of seroprevalence,rape and homelessness in the US using a social network approach.Evaluation Review,1998,22:289-308.
[6]Snidero S,Morra B,Corradetti R,et al.Use of the scale-up methods in injury prevention research:An empirical assessment to the case of choking in children.Social Networks,2007,29(4):527-538.
[7]惠珊,王璐,郭巍.網絡規模迭加法及其在男男性接觸者人群規模估計中的應用.國際流行病學傳染病學雜志,2010,37(6):405-408.
[8]郭靜,黃曉娟,王秀彬,等.利用網絡規模迭加法估計北京市大學生男男性行為人群規模.中華流行病學雜志,2013,34(11):1080-1082.
[9]Maltiel R.Estimating Population Size Using the Network Scale up Method.In Seattle:University of Washington,2013.
[10]Killworth PD.Investigating the Variation of Personal Network Size Under Unknown Error Conditions.Sociological Methods & Research,2006,35(1):84-112.
[11]Killworth PD,Bernard HR.The Reverse Small-World Experiment.Social Networks 1978.1:159-92.
[12]Killworth PD,McCarty C,Bernard HR.et al.A Social Network Approach to Estimating Seroprevalence in the United States.Social Networks,1998.20(1):23-50.
[13]惠珊,李一,王開利,等.網絡規模疊加法在哈爾濱市暗娼人群規模估計中的應用.中國艾滋病性病,2014(1):41-43.
[14]趙松山.對擬合優度R2的影響因素分析與評價.東北財經大學學報,2003(3):56-58.
(責任編輯:劉壯)
教育部博士點基金(20120071120050),中央高?;究蒲袠I務費專項資金(20520133104)
張鐵軍,E-mail:tjzhang@shmu.edu.cn
1.復旦大學公共衛生學院流行病學教研室-公共衛生安全教育部重點實驗室(200032)
2.上海市閔行區疾病預防控制中心