摘要數據的準確性與可靠性是抽樣調查的生命力所在。在實際的抽樣工作過程中,人們不僅要控制抽樣誤差,而且還要控制非抽樣誤差。本文對登記測量測量誤差的影響做出概述,并介紹了兩種估計與控制登記測量測量誤差的方法。
關鍵詞登記測量測量誤差 隨機子抽樣方法 交叉子抽樣方法
中圖分類號:O213 文獻標識碼:A
Estimation Model of Registration Measurement Measurement
Error in Nonsampling Error
JIANG Qingsong
(Statistics Department, He'nan Financial and Economic University, Zhengzhou, He'nan 450002)
AbstractThe accuracy and reliability is the vitality of sample survey. In the actual sampling process, people not only need to control thesampling error, but also the nonsampling error. This paper summarizes the inflection of registration measurement measurement error,and introduces two methods of estimating and controling method of registration measurement measurement error.
Key wordsregistration measurement measurement error; random methods of subsampling; interpenetrating subsampling
1 登記測量誤差的概述
在調查工作過程中,由于受測量器具的不準確,調查員的某些工作失誤(如測量錯誤、計算錯誤、記錄錯誤等),以及由于被調查者沒有提供真實情況等因素影響,常使調查結果的準確性受到損害,產生一定的誤差,這類誤差就是登記測量誤差。樣本所有單元的登記測量誤差可能是某一常數,也可能互不相同(這種情況是最常見的);樣本中各單元的登記測量誤差可能是互不相關的,也可能是相關的。在不同情況下,其影響也是各不相同的。如果樣本中各不同單元的計量誤差是相關的,則通常計算標準誤的公式是有偏的;由于在實際中這些相關大部分是正相關,致使標準誤偏小,這種干擾就可以被忽略。如果一個樣本之內一個單元的計量誤差與另一個單元的計量誤差彼此獨立,并且整個總體的計量誤差平均為零時,通常計算估計量的標準誤的公式是把這種計量誤差考慮在內的;這種誤差降低了估計量的精確度,降低是否嚴重是值得而且某些情形下是可以查明的。如果所有單元都有相同的常數偏差,這是最難于察覺的,對樣本數據不論進行什么處理也不能使這種偏差顯露出來。在對登記測量誤差的研究中可能出現的問題是各種不同的調查所產生的登記測量誤差是不一樣的,它還涉及到費用、時間等問題,而且很少有哪些測量器具不產生任何誤差。在無法保證能取得正確數據的情況下,可改用更正確可靠的測量器具或方法重新測量,或者利用橫向或縱向的比較(即比較兩個總體的同一指標,或者比較同一總體不同時期的同一指標等等),從而對測量偏差至少有個粗略的估計。除了這些比較簡單直觀的考察登記測量誤差的方法外,還可以構造統計模型來估計和控制登記測量誤差,下面介紹兩種方法。
2 隨機子抽樣方法
假如有K個調查員對某總體進行一次抽樣調查,規定每人完成m個單元的測量。為了評估這次調查的質量,通常所采用的方法是從這K個調查員中隨機抽取k個,再組織k個具有同樣訓練素質的調查員對他們各自完成的調查單元重新調查。現在考慮某一對調查員所調查的數據,設由他們調查第i個單元后所得的數據分別記為yi1,yi2 (i = 1,2,…,m)按數學模型:
yit = i + dit(t = 1,2)
dit是第i個單元對調查作的若干次回答所產生的誤差,稱之為回答離差;i 是對第i個單元若干次重復測量結果的平均。
由于yi1,yi2 之間的差的平方提供了該單元登記測量誤差方差的信息,將這對調查員所調查的單元得到的數據差的平方加以平均,則有
現在提出如下假設:(1)關于同一單元的回答誤差di1與di2不相關;(2)第1次調查人員的簡單回答方差12與第二次調查人員的簡單回答方差22相等。
上述假設(1)、(2)在通常情況下具有一定的合理性。因為我們總是假定前后兩次調查人員的調查是獨立進行的,這一點保證了(1)的成立。而兩位調查人員具有同樣的訓練素質則保證了假設(2)的成立。
在假設(1)、(2)成立情況下,上式提供2( = 12 = 22)了的一個良好估計,由于是僅對一對調查員而言,只要將k對調查員相應的k個上述結果相加再平均就成為2的估計量。
當然也存在著假設不成立的情況,例如被調查者在第二次調查中僅僅依靠回憶第一次回答的內容,而不是“重新獨立”地考慮回答的內容,此時顯然獲取了正的協方差cov(di1,di2),這樣利用k個的平均去估計2就會發生“低估”現象。
為了利用隨機子抽樣方法對調查質量作出恰當的評估,盡量使假設(1)、(2)成立是值得的,就組織者而言,不讓第二個調查員了解第一次調查的結果也許是有益的。
3 交叉子抽樣方法
除了簡單回答方差之外,我們還需要對總回答方差中的相關分量有所了解。由數理統計學中方差分析的知識,為了分解出方差的各種成分,最好是將方差估計公式中的平方和進行類似于組內離差與組間離差等部分的分解。在抽樣調查中,相應的較好方法就是將樣本隨機分為若干組,然后由不同的調查員獨立地對每組進行調查,這就是所謂的“交叉隨機子抽樣方法”。具體實施如下:
n個待查的樣本單元隨機地分為k個子樣本,每個含m = (假如n可以k被整除的話)個單元,假定這k個子樣本的單元之間不存在登記測量誤差的相關性(這一點在許多場合是容易做到的。不然的話,在劃k分組時應將這個因素考慮進去)。指派k個調查員分別對這個子樣本進行調查,調查是獨立執行的。這時,不同調查員之間不存在登記測量誤差相關這一假設是合乎情理的。現在建立數學模型如下:
yija = ij + dij
其中i表示第i個子樣本(或第i個調查員),j表示該子樣本中第j個單元,在第i組內
這里的w是指同一調查員所得dij之間的相關系數。
由各不同子樣本中登記測量誤差的獨立性,易得
對的估計常采用乘上某一常數因子的形式,在交叉隨機子樣本模型中,變成,則有
其中,S2w的自由度為k (m - 1),S2b的自由度為k - 1。
因此,在本模型中可以利用交叉隨機子樣本平方和作為的無偏估計,且
這說明總回答方差的相關分量可以利用交叉隨機子抽樣估計量進行估計,當然也可以估計出相關分量在總回答方差中所占的份量。
4 結論
數據的準確性與可靠性是抽樣調查的生命力所在,如何有效地控制非抽樣誤差,取得準確可靠的數據資料,以及如何對已經取得的數據進行質量評估,一直是抽樣調查理論和實踐中所經常關注和著力研究解決的重要問題。本文給出了兩種估計和控制登記測量誤差的統計模型,在實踐中均有著一定的應用價值。
參考文獻
[1]W.G.科克倫.抽樣技術.中國統計出版社,1985(4).
[2]L.Kish.抽樣調查.中國統計出版社,1997(12).
[3]趙民德,謝邦昌.探索真相.中國統計出版社,2001(4).
[4]王兢,賀文星.抽樣調查.鄭州大學出版社,2008(8).