祝君儀

[摘要]闡述了大數據時代的統計數據特征和質量準確性需求,分析了包括邏輯規則檢驗、核算數據重估、計量模型分析、統計分布驗證、調查偏差評估、多維評估延伸六種評估方法的概念特征以及適用性。為了適應大數據時代的發展需求,需要加強對統計數據質量評估方法的研究力度,進一步完善評估體系,實現中國統計研究的新變革。
[關鍵詞]大數據;統計數據;準確性;評估方法;適用性
[DOI]1013939/jcnkizgsc201529041
1大數據的出現與應對
1.1大數據的概念特征
大數據的概念從字面上可以理解為龐大的數據集合,當然,如今的數據早已不局限于單一的數值變化,而是在數字網絡概念中彼此交疊冪次增長的非結構化信息統籌。根據IDC報告,我們可知全球數據量的驚人變化,2009年80萬PB,2010年增幅達50%,達到了120萬PB,至2011年躍至190萬PB,激增的數據量印證著大數據時代的到來,見下圖。
2009—2011年的數據量變化柱狀圖
雖然對于大數據還沒有約定熟成的理論定義,但是在本文中我們不妨直觀地將其理解為涵蓋數值數據和非結構化數據,并對其進行分析整合的海量數據集。
大數據的幾項具有辨識度的特征,首先是數據集在體量上應超越TB數量級,其次是數據信息應多樣化,有數值數據,也有像是圖片、視頻、音頻等非結構化數據,再次是數據的產生、采集和處理應快速及時,最后是數據集整合的數據信息應具有全面性和有效性。
1.2大數據對統計研究的挑戰
大數據的龐大數據體量,快速增長處理需求,多樣化全面性數據整合等現實情況都讓統計研究面臨著巨大挑戰。傳統的單一維度的樣本抽查的研究分析模式已經不足以保證統計數據的準確性。因此,我們不僅要擴大研究分析的樣本量保證統計結果的客觀性和真實性,還要通過增加反饋信息的呈現路徑,激發目標群體的新型互動模式,將文字、圖片、視頻、音頻等都納入數據庫,從而增加數據維度,獲取高品質海量數據,實現統計研究新變革。
2大數據時代背景下統計數據質量的界定
2.1統計數據質量的含義
統計數據質量的核心在于其準確性,在大數據時代背景下,統計數據質量還需考量統計目的,即滿足統計目的的具有準確性的統計數據呈現。
2.2統計數據質量的特征
根據上述統計數據質量的含義,我們可以提煉出有關大數據時代背景下統計數據質量的兩點特征。第一,是針對數據內容,應在客戶接受范圍內控制誤差,保證數據采集處理的快速及時,并符合統計目的。第二,是針對數據呈現,要有規范性的闡述,保證統計數據的口徑計算等采用相對一致的方式,表達完整,直觀易懂,盡量避免歧義冗長。
3各類統計數據質量的評估方法及適用性分析
3.1邏輯規則檢驗
邏輯規則檢驗法,是宏觀的針對總量數據的一種評估方法,即根據統計數據中各個指標之間相互作用,彼此粘連的內在邏輯關系,來衡量測試數據的真實性和可信度。
由于這種邏輯規則檢驗法是基于傳統的統計理論,且可操作性強,易被客戶理解接受,所以在實際統計數據評估中應用廣泛,常被用于政府統計部門的統計工作。但是,這種方法存在明顯漏洞,因為其檢驗規則過于單一,只要不出現重大邏輯沖突則推論出數據可信,加上即使出現了邏輯矛盾,僅通過比較無法獲知問題所在,無法確定問題數據的準確范圍無法規避結果的多重性,使得結果相對粗略草率。
根據以上分析判斷邏輯規則檢驗法的適用性,我們可以將其作為初步評估統計數據的方法,在宏觀經濟統計數據中以它為基礎,結合其他方法,進行復式檢驗,能夠更好地得出統計結論,獲得民眾理解和認可。
3.2核算數據重估
核算數據重估法,是一種對于邏輯規則檢驗法延伸拓展的評估方法,即基于待評估數據的核算體系重新設定的統計指標,從而重新估算統計數據,然后對比現實數據,實現對統計數據質量的評估。這種評估方法的基本思路是一種在重新計量中的重復調查,擴充針對性的資料,將理想數據與實際數據對比分析,找出問題所在。
這種重估統計指標的評估方法與邏輯規則檢驗一樣是在假設基礎核算構成準確性的前提下進行的,而重設的統計指標與現實統計的指標方式仍具有差異性,因此其對比評估的結果只能作為一種參考性依據,能找到問題數據的大致方向但無法呈現具體錯誤情況。它尤其適用于判斷GDP的增速準確性。
3.3計量模型分析
計量模型分析法,也是一種針對總量數據的評估方法,即在難以確定統計數據確切邏輯關系的情況下,建立模型評估,檢查是否出現差異情況。這種方法的關鍵是建立模型,尋找異常點,在操作過程中需要先根據統計理論和統計目的建立相應的計量模型,再將樣本數據進行相應估算檢查,反復調整,多次代入評估,最終得出結論。
3.4統計分布驗證
統計分布驗證法,是針對分類數據的一種評估方法,即在掌握了個體數據和分類匯總數據之后,基于已知的分布特性,驗證理論性分布情況與實際統計數據分布情況是否相悖,進而得出評估結果。
這種評估方法的檢驗過程首先是通過理論分析和調查研究確定統計分布的特性,找到個體數據與匯總數據的分布形態,然后對比理論數據與待評估數據的分布是否一致,若是發現異常點則需要進一步驗證分析其具體誤差值情況,從而判斷統計數據質量。這種評估方法的缺陷在于確定統計數據的分布特性,這是評估的前提,但也是在實際操作中最難攻克的關鍵。
3.5調查偏差評估
調查偏差評估法,是一種事后調查分析的方法,即通過對統計數據中調查偏差的評估,約束調查條件進行重復調查,以期獲得最真實的統計數據。這種方法的開展是在預設存在可得的真實統計數據前提下,那么這個關鍵點就成為了該評估方法最大的痛點和爭議點,因為是否存在理想調查條件下可得的真實統計數據是未知的,換言之就是假想的,沒有科學依據的。加之在實際操作中,要進行有效的調查條件控制涉及誤差參數的確定,計量模型的構建,同時在區域范圍內實現多次重復調查的難度也很大,因此,調查偏差評估的實際應用有限,當下僅適用于像人口普查這類的地區性普查統計數據的分析。
3.6多維評估延伸
由于大數據時代統計數據內容的多樣性,多維化,評估方法的多維延伸也成為必然。所謂多維評估法目前涉及四種的評估路徑,即多級量度、指標檢測、用戶需求,以及統籌綜合。雖然由于長期以來對數值統計分析的側重,多維評估還在發展階段,尚不成熟,但是隨著統計數據的非結構化特性日益彰顯和人們對于統計數據質量要求的日益提升,多維化評估將逐漸受到重視,得到完善應用。
4結論
本文分析了包括邏輯規則檢驗、核算數據重估、計量模型分析、統計分布驗證、調查偏差評估、多維評估延伸在內的六種評估方法的概念特征,以及適用性。其中前三種都是針對統計總量的評估方式,而后幾種則是針對分類數據的評估方法,涉及充分的信息采集,分布特性的確定,初始調查條件的確定,以及多維度的延伸。這些假定的前提與實際數據始終存在偏差,因此在獲得真實數據上還是屬于理想化推測,始終存在爭議點,而且在實際操作中具有執行困難。
通過分析,我們不難發現目前各個對于統計數據質量的評估方法仍存在較大的缺陷,這直接影響到我國統計事業的發展和與之密切相關的經濟社會的總體發展。因此,我們需要加強對統計數據質量評估方法的研究力度,進一步完善評估體系,適應大數據時代的發展需求,用多維度復合型的研究成果保證統計結果的客觀性和真實性,還要通過增加反饋信息的呈現路徑,激發目標群體的新型互動模式,實現中國統計研究的新變革。
參考文獻:
[1]王華,金勇進統計數據準確性評估:方法分類及適用性分析[J].統計研究,2009(1)
[2]許滌龍,葉少波統計數據質量評估方法研究述評[J].統計與信息論壇,2011(7)
[3]程開明,莊燕杰大數據背景下的統計[J].統計研究,2014(11)
[4]崔路云基于大數據時代背景對統計學教育的幾點思考[D].北京:首都經濟貿易大學,2013.
[5]劉春燕論大數據時代的統計制度與方法改革[J].蕪湖職業技術學院學報,2013(11)
[6]鄧麗華淺析統計數據質量評估方法[J].中國市場,2013(10)
[7]于云飛我國統計數據質量問題研究[J].中國市場,2012(10)