——基于浙江2015年1%人口抽樣調查"/>
999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?趙靜(浙江省統計局,浙江 杭州 310000)
?
工作實務
大數據時代做好人口抽樣調查的思考
——基于浙江2015年1%人口抽樣調查
趙靜
(浙江省統計局,浙江 杭州 310000)
摘要:互聯網發展至今,以自動記錄、儲存和連續擴充的方式使一切可記錄的信息數據化。隨著網絡與各個傳統行業的融合不斷深入,大數據正逐漸為經濟社會創造更多的價值。抽樣調查作為一種有嚴密理論依據的科學調查方法,至今已發展得相當成熟。在大數據時代,如何更好地開展調查工作,特別是運用大數據做好人口抽樣調查,值得研究和探索。
關鍵詞:大數據;抽樣調查;人口
隨著“互聯網+”與傳統產業的飛速融合,我們迎來了大規模生產、分享和應用數據的時代。當前,運用大數據推動經濟轉型升級、完善社會治理、提升政府服務和管理能力已成為趨勢。在人口統計專業領域,如何運用大數據更好地開展人口調查工作,值得研究和探索。
筆者認為大數據是互聯網發展到現今階段的一種表象或特征,它基于“云計算”為代表的現代信息技術,以自動記錄、儲存和連續擴充的方式,使一切可記錄的信息數據化。然后通過對這些原本很難收集和使用的數據進行整合分析,得到與研究問題相關的有用信息。隨著互聯網與各個傳統行業的融合不斷深入,大數據將逐步為經濟社會創造更多的價值。它主要具備以下三個特點:
1.大數據信息量巨大,為多維度的數據分析提供了選擇空間
傳統抽樣調查獲得的樣本數據,是以特定研究為目的,依據嚴格設計的抽樣方案而獲得的結構化數據。由于受到方案的限制,樣本數據的分析空間十分有限。以1%人口抽樣調查為例,由于樣本量的控制,方案設計時考慮更多的是樣本對各市常住人口的代表性,抽中樣本的分布在各縣(市、區)間差異較大,自然無法滿足測算區縣一級常住人口的要求。
大數據則是各類型數據的匯總,除了結構型數據,更多的是非結構型數據、半結構型數據或異構數據,很多數據難以用傳統的統計指標或統計圖表加以體現。大數據的大體量與多樣性,彌補了抽樣調查中由于樣本有限,對某些規律、弱小信息捕捉不力的缺陷,為多維度、多層次的數據分析提供了可能性。
2.大數據結構復雜多樣,無法按傳統方法分類統計
隨著大數據的迅速發展,大部分數據信息都已經脫離出數據結構的范疇,屬于非結構化數據,包括紙質信息與數字化的視頻、音頻、郵件、圖片等等。各種數據格式之間互不兼容,給數據的提取、存儲、管理和應用帶來了很大困難。
大數據是雜亂、不規整、良莠不齊的,傳統的量化方式已無法直接處理非結構化數據。我們需要將統計研究的對象范圍從結構性數據擴展到一切數據,重新思考數據的定義和分類方法,并以此為基礎發展和創新統計分析方法,做好大數據與傳統結構化數據的對接。
3.大數據重視相關性而不是因果關系
大數據已然逐步占據當前信息社會的中心舞臺,也使得傳統知識觀中的因果規律遭到極大的挑戰。大數據的核心在于預測,它通過各種復雜的數學算法處理海量數據來預測事情發生的可能性。這是一種從相關性著手,通過對過去的理解,釋放出對未來預測的新型思維方式,它從本質上改變了傳統數據的開采模式。另外,盡管大數據能夠非常好地檢測相關性,但其自身無法告訴我們哪一種相關性是有意義的。譬如,在互聯網上大數據的收集是根據關鍵詞搜索來統計的,然而很多關鍵詞看似與研究的問題相關,實際上相差甚遠。如果在收集數據的過程中缺乏嚴謹的審核條件,大數據的量級規模會擴大這件虛假的相關性,導致我們做出錯誤的判斷。
在社會經濟發展過程中,人口始終是一個重要因素,其年齡、性別、受教育程度結構和生育、就業等因素對一個國家或地區的經濟發展潛力、社會進步狀態有全面而深遠的影響。人口變動情況是人口統計的重要內容,國務院2010年頒布的《全國人口普查條例》明確規定,人口普查每10年進行一次,尾數逢0的年份為普查年度。我國經濟發展速度快,社會流動規模大,經過10年的發展,人口結構必然會發生很大的變化,所以又建立了在兩次全國人口普查之間的1%人口抽樣調查制度,又稱為“小普查”。開展全國1%人口抽樣調查,能準確、及時地掌握各地區的人口變動情況,對研究未來人口發展趨勢,保障、改善民生,以及制定各項方針政策都具有極其重要的意義。
1.調查目的和內容
2015年全國1%人口抽樣調查的目的是了解2010年以來我國人口在數量、素質、結構、分布以及居住等方面的變化情況,為制定國民經濟和社會發展規劃提供科學準確的統計信息支持。調查標準時點為2015年11月1日零時,調查內容主要包括姓名、性別、年齡、民族、受教育程度、行業、職業、遷移流動、社會保障、婚姻、生育、死亡、住房情況等。
2.抽樣方案的設計
由于受技術、時效性以及經濟成本等原因的限制,抽樣調查作為一種科學的采樣方式,得到了廣泛的應用。在調查經費一定的情況下,樣本量和抽樣方法的確定主要考慮以下兩個方面:首先要保證各市調查的樣本量對本市有較好的代表性,主要指標的相對誤差控制在10%以內;再者要保證落實到各縣(市、區)調查樣本量差距不大,調查的最終樣本規模與其人口規模大體一致,便于組織實施。
2015年1%人口抽樣調查,以全國為總體,以各地級市為子總體(其中各地級市的樣本量來自于各地級市常住人口的平方根占所屬省的比例乘以1%人口抽樣分配到該省的樣本量)。浙江省采取分層、二階段、概率比例、整群的抽樣方法,共抽取了2602個村級調查單位,調查設計樣本量為65萬常住人口,約占全部常住人口的1.18%。在1%人口抽樣調查中,采用二階段抽樣:第一階段抽取村級單位,第二階段抽取調查小區。平均每個調查小區常住人口數為250人,80戶左右。在第一階段抽樣時,抽取方法為分層、概率比例抽樣。
分層抽樣的原則是盡可能使層內各單位之間人口變動指標的差異減少,各層人口指標差異增大,以降低抽樣誤差。分層后,按抽樣比和各層人數等比例分配每一層的樣本量。由于每層調查的人數是按人口比例分配的,層與層之間調查的人數差異很大。根據分層原則:一是充分利用人口普查的資料,依據城鄉屬性、外出人口比例、外來人口比例、非農人口比例等多個經濟發展指標,將所有村級單位細分為24層(包括開發區、大學城等特殊層)。二是在層內按比例抽取村級樣本單位。各層按與村級單位數成比例的PPS系統抽樣方法抽取村級單位,其中各層樣本村級單位數按該層村級單位總數占全部的比例分配。在每個抽中的村級單位中,采用簡單隨機抽樣抽取一個調查小區樣本。
分層、概率比例抽樣使得每一層抽中的概率與其人口估計規模成正比,即人口少的層被抽中的概率小;在抽中的村(社區)里,無論規模大小,都選擇一個常住人口250人左右的調查小區,使抽中概率小的地區,每一個人被抽中的概率增大;這一大一小的概率乘積,使得全市每個人被調查的概率保持不變。這種抽樣方式既保證了每個地級市每一層中的村(社區)有同等被抽中的概率,又兼顧不同層間被抽中樣本的規模與全市的分布大體一致,因而對11個市具備了更好的代表性,也能夠如實反映全省的情況。
3.調查數據的質量
通過2015年1%人口抽樣調查的原始數據與2010年第六次人口普查數據進行結構比對,我們發現,這次1%抽樣調查的數據質量是相當高的。從圖1來看,兩次調查的分年齡人口占比的曲線驚人的一致,波峰與波谷正好向后順延了5年,只是70歲以上的曲線略有不同,這主要是老年人口樣本量較小導致的抽樣誤差。圖2的分年齡性別比的曲線也說明了這個問題,2015年1%抽樣調查70歲以上的性別比都略高于2010年人普的同年齡段人口,95歲以上的性別比甚至出現了奇異值,再次證實抽樣調查樣本量越小,數據越容易發生偏差。

圖1 2015年1%人口抽樣調查與2010年第六次人口普查數據分年齡占比

圖2 2015年1%人口抽樣調查與2010年第六次人口普查數據分年齡性別比
1.抽樣調查的誤差不可避免
抽樣誤差是抽樣調查中的一個特有概念,在抽樣調查中,用任何一套樣本的調查數據推斷總體,都不可能得到確切的總體真值。抽樣誤差是不可避免的,是絕對存在的。1%人口抽樣調查采取的是分階段抽樣,每個階段都會產生誤差。就第一階段抽取村級單位來說,全省近32000個村級單位,平均每村(社區)戶籍人口為1522人,而抽中的2603個村級單位,平均戶籍人口有2200人,很顯然,抽中的村相對規模較大,情況更復雜,代表性也愈強。但從推算總體的角度來說,肯定會產生偏差。
同時,調查中的人為誤差也一直存在,尤其在目前統計與政體沒有分開的情況下,將調查數據與政績掛鉤,必然會在統計數據上出現虛報和瞞報的行為,基層統計調查都不同程度受到過行政干預。同時基層調查員經過層層培訓,對指標的理解把控,以及對工作的責任心都參差不齊,也會造成數據偏差。
在這種背景下,就需要通過技術加權、部門數據佐證,大數據補充等多種方法多角度評估抽樣調查的數據質量。
2.抽樣調查無法滿足多層次統計信息需求
抽樣調查一般只能滿足單層次的統計信息需求。2015年的1%人口抽樣調查在進行樣本設計時,以全國為總體,以各地級市為子總體,所以對全省和11個地級市都有代表性;但細化到縣(市、區)一級,由于樣本量少且分布不均,分縣的常住人口推算是完全沒有代表性的。
隨著戶籍制度的取消和人口流動的頻繁,常住人口將替代戶籍人口越來越多地被應用于各級政府行政決策的方方面面,因而會有更多的數據需求。如何在抽樣調查的背景下做好分縣常住人口的測算,是各級統計機構面臨迫在眉睫的問題。
抽樣調查是一種有嚴密理論依據的科學調查方法,其理論與方法體系主要依托于概率論,至今已發展得相當成熟。作為一種非全面調查方法,抽樣調查在小數據時代以最少的人力成本,最小的采樣數據在社會統計中得到了廣泛的應用。當然,每一種調查方法都存在著一定的缺陷,在大數據時代,抽樣調查也面臨著諸多機遇與挑戰。經過多部門收集匯總的大數據庫就像一座待開發的寶庫,不論對產業環節的實踐者還是對公共服務部門都有極具誘惑力的價值。但由于研究問題的復雜性,大數據有時并不能如實地反映總體情況,大數據具有不確定性,較強的復雜性。從抽樣調查的角度來講,大數據更多的功能是一種輔助信息,并不是真實的總體信息,離開抽樣調查的大數據將失去可靠的基礎保障。在大數據時代,抽樣調查與大數據應該實現相互佐證,互為補充的功能。
在大數據時代,做好人口抽樣調查,筆者認為有以下三個值得推進的舉措:
1.運用信息化手段采集調查數據。積極推進移動智能終端綜合管理平臺的應用,充分利用PDA、智能手機、聯網直報等現代信息技術和設備采集統計調查數據,從程序角度,更大提高人口抽樣調查數據質量。
2.共享政府各部門的電子化行政記錄和綜合統計數據系統。人口問題涉及社會的方方面面,公安部門的流動人口登記情況、衛計部門的出生人口數據,社保部門的保險繳納情況等等,都可以依托政府統一的政務數據交換平臺,實現實時傳輸與共享。這對分析人口的結構數據,把握人口發展趨勢都很有借鑒意義。
3.開發對大數據的挖掘與分析功能,整合各類非結構化數據資源。隨著“互聯網+”的高速發展,人作為一個社會屬性,很多信息在大數據中都有體現,譬如淘寶網上某地級市用戶群的年齡結構,鐵道部門“春運季”車票的銷售情況等等。統計部門應不斷提高大數據分析技術,對各類非結構化數據資源進行多目標、多角度、多層次的加工、整合,推進大數據在人口抽樣調查評估分析中的應用。
(責任編輯:施越霞)