摘 要:調查數據缺失值是日常統計工作中一種不可避免的現象。它的出現不僅給統計工作造成了諸多不便,而且使統計調查的準確性受到影響。因此分析各種調查數據缺失現象產生的原因,并根據具體情況找到適宜的解決辦法,是歷來統計調查的一項重點工作。針對這一問題從不同方面總結歸納,并提出了解決方法。
關鍵詞:統計數據 缺失值 插補
一、統計數據缺失的主要原因
社會經濟的高速發展,離不開統計調查和分析工作,做好統計工作重點是提高調查數據的精度和分析的準確性。出現統計數據缺失值是日常統計工作中的一種常見現象,造成統計數據缺失現象的原因也多種多樣,歸納起來主要有一下幾個方面:
1.統計信息被遺漏。這種情況發生在統計過程的很多階段,如:統計調查階段,被調查者認為所調查的問題不夠重要,有關的問題沒有填寫完整,造成統計數據被遺漏,或者是被調查者由于知識水平的原因不能理解問題不能給出相應問題的答案而造成統計數據被遺漏,或者是對于敏感性的問題(如收入、年齡等等),被調查者不愿意被其他人知道而采取避而不答,造成我們得到的統計數據就不完整;在數據錄入過程中,由于操作人員的失誤也會使得一些統計數據被遺漏,如:調查問卷上這方面的數據是有的,但在錄入計算機的過程被遺漏了,還有可能是統計數據在錄入計算機的過程中,計算機突然發生故障或是人為操作原因導致統計數據存儲失敗。
2.很多統計信息無法得到。如:不公開的統計數據或者沒有準確的獲取數據的途徑。我們正處于一個大數據時代,很多人就想分析一下其他行業或商家的交易信息怎么樣,或者是做微商的人們想了解同行業交易信息情況,但是這些商家或競爭對手并沒有公開這些數據,致使我們沒有辦法得到這方面的信息;還有一些行政記錄的統計數據,我們缺乏數據的獲取手段或是出于數據保密性的原因,行政部門不公開這些數據,或沒有義務公開相關的數據,造成我們也是沒辦法得到的該方面數據;還有很多統計數據我們目前沒有準確的測定方法,如:我們國家一個非常重要的宏觀經濟政策就是改善民生,這幾年我國居民對民生改善的滿意度怎么評價,我們就無法找到一個合適的統計指標來測定,這些方面也沒有一個成熟的、有說服力的或者是統一的口徑。
3.很多統計信息的獲取代價很大。如:需要調查某個公司的統計數據,一般的公司統計數據是公司內部保密數據,他們不對外公布,我們如果希望獲得公司這些內部數據就需要采取一些方法。像一般統計數據,是公司的敏感數據,他們也許拒絕提供或者提供的數據不是最原始的,還有許多方面的數據,如上市公司,它的很多數據就沒有公布,即我們不能從公開的統計數據中獲取我們所需要的信息,所以就需要對其進行單獨調查,如果需要花費的成本很高的話我們就可能把這方面的數據放棄了,也就造成了統計數據的缺失。
4.并不是所有調查對象的屬性都是可用的。我們在設計統計調查問卷時,對某些問題考慮的不周全,造成我們要調查的統計數據缺失,如:需要調查居民的收入,但是選取的調查對象不合適,如兒童或是學生,他們還沒有參加工作,所以也就造成調查問卷數據的缺失。
二、統計數據缺失值的處理方法
1.刪除個案法。所謂的刪除個案法就是要把含有缺失數據的整條記錄刪除掉。即如果調查問卷的數據存在缺失現象,就把它直接刪除,這種方法簡單,但也存在很多的問題。一般情況下我們所調查的數據是按照一定的方法進行的,有一定的代表性。如果因為存在缺失值直接把這些數據都刪除的話,那么這些數據所代表的那一類信息也就不存在了。我們根據樣本數據推斷總體也就存在偏差。所以當缺失的統計數據只在整個記錄中占很小的比例時,我們可以直接把含缺失數據的記錄直接刪除,剩下的數據按完全數據處理。但如果缺失數據占有很大比例時,直接刪除就會造成偏差或是導致錯誤的結論,同時造成大量的統計數據丟失。這樣即浪費了時間和精力,又得不到需要的統計數據。一般情況下,我們最常用的方法不是刪除法,而是插補法。
2.插補缺失值的方法。插補法是目前最常用的處理缺失值的方法,針對不同類型的統計數據缺失值采取不同的技術進行處理,使這些含有缺失值的統計數據找到一個合適的填補值,再對這些“完整數據”按照相應的統計分析方法進行分析。
2.1均值插補。這是最常用的方式,也是最簡單的方式,如果一個數據缺失了,就用這個數據的前面一行和后面一行的數據相加,對這兩個數據求平均數,用這個平均數對缺失值進行插補。如果前一行和后一行的數據相差很多時,采取均值插補就會造成插補值與實際值嚴重偏差。
2.2對同類數據求均值進行插補。我們把數據先分類再插補,即把數據分成不同的類別,如果某類別含有缺失值,就用該類別其他數據計算的平均數進行插補,這樣可以減少統計數據的偏差。
2.3熱平臺插補或就近補齊法。對于一個含有缺失值的變量,這種方法是在完整統計數據中找一個與缺失變量最接近的變量,然后用該變量的值對缺失值進行插補。與均值插補相比,可以保持數據的類型,填補后與原變量也很相近,但是這種方法主觀性太強。
2.4冷平臺插補。這種方法與熱平臺接近,不同的是冷平臺插補需要用前期的統計數據或是歷史數據進行插補。
2.5推理插補。這種插補的方法是根據已知的信息推斷缺失值,再根據以前調查積累的數據或是目前進行調查的項目推斷。例如從一個調查家庭中得到了三個孩子的姓名,根據已知信息就可以推斷出該家庭有三名子女。
2.6使用任何值進行插補。這種方法是用缺失值任何可能的數據進行插補。這種方法的缺點是:當數據量很大或是數據很多時,它的計算量也是很大的,相應的需要測定的工作量也很大。
3.采取不處理方法。既然每種方式都有其缺點,于是就直接采取不處理的方法,對包含缺失值的統計數據進行分析,這樣既可以節省時間又可以減輕負擔。但是用這種方法也是有一定前提的,需要使用者對含有缺失值的數據先進行假設,在沒有任何參考知識的前提下,容易造成所得錯誤結論。
綜合以上的方法,我們可以清楚地看到,每種方法有每種方法的適用條件,每種方法也都存在不足的地方。因此對出現的不同問題不能一概而論,而應該首先分析問題的實質,然后采用適當的方法進行處理,使不完整的統計數據得到最佳的利用。
參考文獻:
[1]陳朋強.淺談統計調查缺失數據產生的原因與對策[J].《引文版:社會科學》,2015,(2):31-31.
[2]李薇.統計調查中的數據缺失及處理[J].《商業研究》,2003,(6):162-163.
[3]龐慶生.缺失數據處理方法的比較[J].《統計與決策》,2010,(24):152-155.