999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統計數據缺失值產生的主要原因及解決方法研究

2017-04-29 00:00:00柳丹
經營管理者·下旬刊 2017年4期

摘 要:調查數據缺失值是日常統計工作中一種不可避免的現象。它的出現不僅給統計工作造成了諸多不便,而且使統計調查的準確性受到影響。因此分析各種調查數據缺失現象產生的原因,并根據具體情況找到適宜的解決辦法,是歷來統計調查的一項重點工作。針對這一問題從不同方面總結歸納,并提出了解決方法。

關鍵詞:統計數據 缺失值 插補

一、統計數據缺失的主要原因

社會經濟的高速發展,離不開統計調查和分析工作,做好統計工作重點是提高調查數據的精度和分析的準確性。出現統計數據缺失值是日常統計工作中的一種常見現象,造成統計數據缺失現象的原因也多種多樣,歸納起來主要有一下幾個方面:

1.統計信息被遺漏。這種情況發生在統計過程的很多階段,如:統計調查階段,被調查者認為所調查的問題不夠重要,有關的問題沒有填寫完整,造成統計數據被遺漏,或者是被調查者由于知識水平的原因不能理解問題不能給出相應問題的答案而造成統計數據被遺漏,或者是對于敏感性的問題(如收入、年齡等等),被調查者不愿意被其他人知道而采取避而不答,造成我們得到的統計數據就不完整;在數據錄入過程中,由于操作人員的失誤也會使得一些統計數據被遺漏,如:調查問卷上這方面的數據是有的,但在錄入計算機的過程被遺漏了,還有可能是統計數據在錄入計算機的過程中,計算機突然發生故障或是人為操作原因導致統計數據存儲失敗。

2.很多統計信息無法得到。如:不公開的統計數據或者沒有準確的獲取數據的途徑。我們正處于一個大數據時代,很多人就想分析一下其他行業或商家的交易信息怎么樣,或者是做微商的人們想了解同行業交易信息情況,但是這些商家或競爭對手并沒有公開這些數據,致使我們沒有辦法得到這方面的信息;還有一些行政記錄的統計數據,我們缺乏數據的獲取手段或是出于數據保密性的原因,行政部門不公開這些數據,或沒有義務公開相關的數據,造成我們也是沒辦法得到的該方面數據;還有很多統計數據我們目前沒有準確的測定方法,如:我們國家一個非常重要的宏觀經濟政策就是改善民生,這幾年我國居民對民生改善的滿意度怎么評價,我們就無法找到一個合適的統計指標來測定,這些方面也沒有一個成熟的、有說服力的或者是統一的口徑。

3.很多統計信息的獲取代價很大。如:需要調查某個公司的統計數據,一般的公司統計數據是公司內部保密數據,他們不對外公布,我們如果希望獲得公司這些內部數據就需要采取一些方法。像一般統計數據,是公司的敏感數據,他們也許拒絕提供或者提供的數據不是最原始的,還有許多方面的數據,如上市公司,它的很多數據就沒有公布,即我們不能從公開的統計數據中獲取我們所需要的信息,所以就需要對其進行單獨調查,如果需要花費的成本很高的話我們就可能把這方面的數據放棄了,也就造成了統計數據的缺失。

4.并不是所有調查對象的屬性都是可用的。我們在設計統計調查問卷時,對某些問題考慮的不周全,造成我們要調查的統計數據缺失,如:需要調查居民的收入,但是選取的調查對象不合適,如兒童或是學生,他們還沒有參加工作,所以也就造成調查問卷數據的缺失。

二、統計數據缺失值的處理方法

1.刪除個案法。所謂的刪除個案法就是要把含有缺失數據的整條記錄刪除掉。即如果調查問卷的數據存在缺失現象,就把它直接刪除,這種方法簡單,但也存在很多的問題。一般情況下我們所調查的數據是按照一定的方法進行的,有一定的代表性。如果因為存在缺失值直接把這些數據都刪除的話,那么這些數據所代表的那一類信息也就不存在了。我們根據樣本數據推斷總體也就存在偏差。所以當缺失的統計數據只在整個記錄中占很小的比例時,我們可以直接把含缺失數據的記錄直接刪除,剩下的數據按完全數據處理。但如果缺失數據占有很大比例時,直接刪除就會造成偏差或是導致錯誤的結論,同時造成大量的統計數據丟失。這樣即浪費了時間和精力,又得不到需要的統計數據。一般情況下,我們最常用的方法不是刪除法,而是插補法。

2.插補缺失值的方法。插補法是目前最常用的處理缺失值的方法,針對不同類型的統計數據缺失值采取不同的技術進行處理,使這些含有缺失值的統計數據找到一個合適的填補值,再對這些“完整數據”按照相應的統計分析方法進行分析。

2.1均值插補。這是最常用的方式,也是最簡單的方式,如果一個數據缺失了,就用這個數據的前面一行和后面一行的數據相加,對這兩個數據求平均數,用這個平均數對缺失值進行插補。如果前一行和后一行的數據相差很多時,采取均值插補就會造成插補值與實際值嚴重偏差。

2.2對同類數據求均值進行插補。我們把數據先分類再插補,即把數據分成不同的類別,如果某類別含有缺失值,就用該類別其他數據計算的平均數進行插補,這樣可以減少統計數據的偏差。

2.3熱平臺插補或就近補齊法。對于一個含有缺失值的變量,這種方法是在完整統計數據中找一個與缺失變量最接近的變量,然后用該變量的值對缺失值進行插補。與均值插補相比,可以保持數據的類型,填補后與原變量也很相近,但是這種方法主觀性太強。

2.4冷平臺插補。這種方法與熱平臺接近,不同的是冷平臺插補需要用前期的統計數據或是歷史數據進行插補。

2.5推理插補。這種插補的方法是根據已知的信息推斷缺失值,再根據以前調查積累的數據或是目前進行調查的項目推斷。例如從一個調查家庭中得到了三個孩子的姓名,根據已知信息就可以推斷出該家庭有三名子女。

2.6使用任何值進行插補。這種方法是用缺失值任何可能的數據進行插補。這種方法的缺點是:當數據量很大或是數據很多時,它的計算量也是很大的,相應的需要測定的工作量也很大。

3.采取不處理方法。既然每種方式都有其缺點,于是就直接采取不處理的方法,對包含缺失值的統計數據進行分析,這樣既可以節省時間又可以減輕負擔。但是用這種方法也是有一定前提的,需要使用者對含有缺失值的數據先進行假設,在沒有任何參考知識的前提下,容易造成所得錯誤結論。

綜合以上的方法,我們可以清楚地看到,每種方法有每種方法的適用條件,每種方法也都存在不足的地方。因此對出現的不同問題不能一概而論,而應該首先分析問題的實質,然后采用適當的方法進行處理,使不完整的統計數據得到最佳的利用。

參考文獻:

[1]陳朋強.淺談統計調查缺失數據產生的原因與對策[J].《引文版:社會科學》,2015,(2):31-31.

[2]李薇.統計調查中的數據缺失及處理[J].《商業研究》,2003,(6):162-163.

[3]龐慶生.缺失數據處理方法的比較[J].《統計與決策》,2010,(24):152-155.

主站蜘蛛池模板: 人人看人人鲁狠狠高清| 57pao国产成视频免费播放| 最新痴汉在线无码AV| 国产成人精品一区二区三区| 国产区精品高清在线观看| 亚洲无线视频| 午夜欧美理论2019理论| 精品人妻系列无码专区久久| 国产在线八区| 国产精品污污在线观看网站| 97狠狠操| 国产精品区网红主播在线观看| 无码内射在线| 国产高颜值露脸在线观看| 国产香蕉一区二区在线网站| 国产精品亚洲综合久久小说| 国产在线观看一区二区三区| 欧美国产日韩一区二区三区精品影视 | 免费观看亚洲人成网站| 国产综合另类小说色区色噜噜| 亚洲欧美日韩久久精品| 乱码国产乱码精品精在线播放| 超清无码熟妇人妻AV在线绿巨人| 四虎成人免费毛片| 91国内外精品自在线播放| 亚洲第一黄色网| 一级毛片不卡片免费观看| 亚洲AⅤ无码国产精品| 日韩在线网址| 在线亚洲精品福利网址导航| 国产XXXX做受性欧美88| 欧美19综合中文字幕| 四虎成人精品在永久免费| 一级全黄毛片| 国产精品手机视频| 日韩 欧美 小说 综合网 另类| 成人免费黄色小视频| 丝袜久久剧情精品国产| 日本一本正道综合久久dvd| 乱系列中文字幕在线视频| 精品無碼一區在線觀看 | 精品国产一区二区三区在线观看| 欧美高清日韩| A级毛片高清免费视频就| 久久精品无码一区二区日韩免费| 精品91视频| 国产96在线 | 99热这里只有精品免费| 日韩在线2020专区| 大陆精大陆国产国语精品1024| 久久熟女AV| 国产性爱网站| 亚洲欧美自拍一区| 免费在线不卡视频| 91在线视频福利| 啦啦啦网站在线观看a毛片| 国内精品久久久久鸭| 一级一级一片免费| 国产精品久久久精品三级| 99久久精品免费观看国产| 成人在线观看不卡| 免费va国产在线观看| 亚洲视频a| 视频一区亚洲| www.精品视频| 国产福利一区二区在线观看| 精品丝袜美腿国产一区| 四虎亚洲国产成人久久精品| 国产女主播一区| 性做久久久久久久免费看| 综合成人国产| 国产精品久久自在自2021| 亚洲欧美另类日本| 免费jjzz在在线播放国产| 国产精品成人啪精品视频| 毛片大全免费观看| 日本日韩欧美| 免费看av在线网站网址| 亚洲欧美一区二区三区蜜芽| 日韩在线欧美在线| h网站在线播放| 波多野结衣一二三|