李彤輝
(大同大學(xué)數(shù)學(xué)與計算機學(xué)院15 級經(jīng)濟統(tǒng)計學(xué)一班,山西大同,037009)
統(tǒng)計學(xué)的優(yōu)勢在于“以小見大”,但容易產(chǎn)生誤差等問題,對于大數(shù)據(jù)來說,可以利用更多甚至是總體的數(shù)據(jù),數(shù)據(jù)的限制因素已經(jīng)成為歷史。統(tǒng)計學(xué)可以與大數(shù)據(jù)進行合作,不僅可以做到以小見大,還可以做到由繁入簡,在大數(shù)據(jù)的基礎(chǔ)上大大提高統(tǒng)計效率、模型擬合度和推斷準確性。本文將從以下3個方面闡述大數(shù)據(jù)給統(tǒng)計學(xué)帶來的發(fā)展。
針對統(tǒng)計質(zhì)量而言,國際數(shù)據(jù)標準SDDS確定了兩條規(guī)則作為評估統(tǒng)計數(shù)據(jù)質(zhì)量的標準,我們可以據(jù)此歸納出四個原則,即:適用性、準確性、時效性、平衡性,來把握統(tǒng)計質(zhì)量的內(nèi)涵。
適用性,是指收集的統(tǒng)計信息符合用戶的需求。保證統(tǒng)計信息適用性的根本是使統(tǒng)計信息最大化地滿足用戶。大數(shù)據(jù)的廣泛覆蓋性能夠在很大程度上滿足適用性的原則。以CPI為例,傳統(tǒng)的價格統(tǒng)計涉及的商品和銷售點種類繁多,且隨著社會的進步、經(jīng)濟的發(fā)展和人們消費觀念的改變,對于動態(tài)的數(shù)據(jù)需要及時進行調(diào)整,這必定會產(chǎn)生很大的誤差,使得統(tǒng)計工作者不能保證統(tǒng)計數(shù)據(jù)是否適用于用戶的需求。而基于大數(shù)據(jù)的“在線價格指數(shù)”不再必須通過樣本進行分析,統(tǒng)計數(shù)據(jù)可以包含所有的商品和線上銷售網(wǎng)點,可以實現(xiàn)通過總體進行分析,使統(tǒng)計誤差大幅度下降。
時效性,是從統(tǒng)計調(diào)查的各個方面縮短時間。另外,為了使用戶及時掌握、使用統(tǒng)計信息,對于統(tǒng)計數(shù)據(jù)應(yīng)預(yù)先公布發(fā)布日期,按時發(fā)布,并建立規(guī)范的發(fā)布制度。傳統(tǒng)統(tǒng)計數(shù)據(jù)具有滯后性和低頻率等缺點,而大數(shù)據(jù)由于其來源為信息網(wǎng)絡(luò),具有及時性和時效性的優(yōu)點。仍然用CPI的統(tǒng)計數(shù)據(jù)舉例,CPI的發(fā)布頻率為每月,如我國的CPI通常在每個月9日發(fā)布上個月的CPI,由此可見,CPI的發(fā)布存在滯后;而“在線價格指數(shù)”能夠根據(jù)市場的變化對價格進行即時的更新與匯總,提高了統(tǒng)計信息的時效性,并且“在線價格指數(shù)”的頻率可以從每月提高到每天甚至更短時間,據(jù)此分析出來的通貨膨脹規(guī)律相比傳統(tǒng)統(tǒng)計的準確率大大提高。
準確性,主要是估算值與“真值”之間的差異度。實際上所謂“真值”是不可知的,一般目標為保證統(tǒng)計誤差在可接受的范圍內(nèi)變動,據(jù)此保證統(tǒng)計的準確性,通過分析抽樣誤差、人為誤差、計數(shù)誤差、模型設(shè)計誤差等多個對準確性產(chǎn)生影響的因素,測算統(tǒng)計估值的變動系數(shù)、標準差、協(xié)方差等。由于大數(shù)據(jù)的全面性,因此可以通過減小統(tǒng)計過程中的人為誤差保證統(tǒng)計結(jié)果的準確性。例如,傳統(tǒng)樣本搜集方法中,受調(diào)查者意識到自己在接受調(diào)查會有意對真實情況進行掩飾,這會導(dǎo)致調(diào)查所得數(shù)據(jù)無法真實反映現(xiàn)實。大數(shù)據(jù)可以在受調(diào)查者無意識的情況下收集他們的信息、獲得數(shù)據(jù),如手機現(xiàn)在已經(jīng)成為居民必不可少的工具之一,當移動通訊用戶帶著手機進行出行、吃飯等一系列日常活動時,移動通信商就已經(jīng)在用戶無意識的情況下通過跟蹤定位手機采集到了用戶的位置信息。這種方法獲得的數(shù)據(jù)顯然比傳統(tǒng)調(diào)查方法所獲得的數(shù)據(jù)更為真實準確,從而在此基礎(chǔ)上的統(tǒng)計分析結(jié)果更為可信。
平衡性,即協(xié)調(diào)性,在統(tǒng)計學(xué)中指數(shù)據(jù)的協(xié)調(diào)能力,造成數(shù)據(jù)平衡性缺失的原因有很多,比如數(shù)據(jù)使用者對數(shù)據(jù)的理解與數(shù)據(jù)發(fā)布者有差異。大數(shù)據(jù)時代通過網(wǎng)絡(luò)數(shù)據(jù)資源,有助于數(shù)據(jù)平衡性的提高。根據(jù)SDDS的第二條規(guī)則,在公布統(tǒng)計數(shù)據(jù)的同時,在統(tǒng)計框架內(nèi)公布有關(guān)總量數(shù)據(jù)的分項,并公布有關(guān)數(shù)據(jù)的比較和核對方法與結(jié)果,有利于支持和鼓勵使用者對數(shù)據(jù)進行核對和檢驗,借此提高數(shù)據(jù)平衡性。
統(tǒng)計成本是進行一項統(tǒng)計調(diào)查或開展統(tǒng)計工作所實際付出的代價,是統(tǒng)計工作過程中耗費的人力、財力和物力的總和。下面從調(diào)查方法與數(shù)據(jù)利用率兩個角度來闡述大數(shù)據(jù)時代統(tǒng)計成本的降低。
首先,從收集數(shù)據(jù)的方法來看,傳統(tǒng)的統(tǒng)計數(shù)據(jù)收集方法主要依靠調(diào)查,如調(diào)查問卷、電話采訪,或者通過查詢統(tǒng)計報表。開展普查,可能就要動用全國的力量。這些方法都存在缺點,準確性得不到保證,并且統(tǒng)計成本相當可觀。在大數(shù)據(jù)時代,數(shù)據(jù)的獲得途徑為信息網(wǎng)絡(luò)、移動通信等,因此從統(tǒng)計成本的各個要素來看,大數(shù)據(jù)時代的統(tǒng)計成本會大幅下降,而且可以得到更大規(guī)模、更高準確性的數(shù)據(jù)。
其次,從所得數(shù)據(jù)的利用率來看,傳統(tǒng)統(tǒng)計中,統(tǒng)計資料的失效過期是一個長期無法得到改善的事實,即使是依靠巨大的財政以及社會投入取得的普查資料,由于其開發(fā)方式單一、傳遞被動以及向公眾發(fā)布的手段方式的局限,也得不到及時廣泛的利用。而在大數(shù)據(jù)時代,對數(shù)據(jù)的初始收集沒有很強的目標性,首先,數(shù)據(jù)可以服務(wù)于多個研究目的,無需再根據(jù)目的來重新收集數(shù)據(jù);其次,數(shù)據(jù)被多次利用意味著數(shù)據(jù)價值的增加;再次,相比于傳統(tǒng)統(tǒng)計,每個統(tǒng)計目的收集數(shù)據(jù)的成本會大幅下降。
最后,統(tǒng)計成本還體現(xiàn)在公眾獲取方面。對此,SDDS制定了兩項規(guī)劃:一是成員國要預(yù)先公布日歷表,據(jù)此進行統(tǒng)計數(shù)據(jù)的公布。預(yù)先公布統(tǒng)計數(shù)據(jù)發(fā)布日程表不僅可以使使用者根據(jù)自己的實際情況合理安排利用數(shù)據(jù),還表明統(tǒng)計工作管理制度的完善和數(shù)據(jù)編制的透明。二是必須保證有關(guān)各方同時收到所發(fā)布的統(tǒng)計數(shù)據(jù)。統(tǒng)計數(shù)據(jù)作為一項公共產(chǎn)品的基本特征之一就是官方統(tǒng)計數(shù)據(jù)的公布,公眾的基本要求就是及時和機會均等地獲得統(tǒng)計數(shù)據(jù)。因此 SDDS 通過此項規(guī)定體現(xiàn)公平的原則并滿足公眾需求。數(shù)據(jù)發(fā)布時可依次提供概括性數(shù)據(jù)、詳細的數(shù)據(jù),當局應(yīng)至少提供一個地方使得公眾可以進入并有權(quán)使用數(shù)據(jù),保證公眾可以在第一時間獲得發(fā)布的數(shù)據(jù)。SDDS的目的是指導(dǎo)成員國并對其提供一套在數(shù)據(jù)收集和公布方面的標準,使各國在向公眾提供具有全面性、時效性、可行性和準確性的數(shù)據(jù)時遵守共同的依據(jù)。在大數(shù)據(jù)時代,無論是數(shù)據(jù)的獲取、分析還是發(fā)布,皆通過網(wǎng)絡(luò)進行,SDDS的規(guī)劃變得更為可行。
大數(shù)據(jù)時代,對于統(tǒng)計學(xué)的發(fā)展應(yīng)該用發(fā)展、辯證的眼光去看待,統(tǒng)計學(xué)應(yīng)當在大數(shù)據(jù)的思想框架下構(gòu)建新的學(xué)科體系。將大數(shù)據(jù)總體統(tǒng)計的思想和方法納入統(tǒng)計學(xué)學(xué)科體系是非常必要的,例如,在統(tǒng)計學(xué)的教學(xué)內(nèi)容中,將樣本統(tǒng)計和總體統(tǒng)計相結(jié)合。樣本統(tǒng)計對樣本的要求是能夠正確地代表總體,這就要求總體的觀察單位必須是同質(zhì)的,在現(xiàn)實生活中這種理想情況不容易達到,而基于大數(shù)據(jù)的總體統(tǒng)計恰好能夠彌補樣本統(tǒng)計的這一不足之處。數(shù)據(jù)挖掘又稱數(shù)據(jù)采礦,是數(shù)據(jù)庫知識發(fā)現(xiàn)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程。涉及機器學(xué)習(xí)、人工智能、模式識別、數(shù)據(jù)可視化等模塊,也屬于數(shù)據(jù)處理的范疇。因此,統(tǒng)計學(xué)應(yīng)該對其進行充分的利用,將統(tǒng)計學(xué)原理應(yīng)用到數(shù)據(jù)挖掘的技術(shù)中。當今大數(shù)據(jù)時代,統(tǒng)計學(xué)也應(yīng)與計算機緊密結(jié)合,以數(shù)據(jù)挖掘為契機,進一步延伸和完善統(tǒng)計學(xué)科體系,培養(yǎng)具有現(xiàn)代統(tǒng)計技術(shù)、數(shù)據(jù)挖掘技術(shù)與計算機技術(shù)的復(fù)合人才。同時,統(tǒng)計學(xué)不僅要注重與其他學(xué)科的結(jié)合,更需要注重自身學(xué)科的提高,在原理、技術(shù)、方法等方面認真鉆研,與時俱進,謀求創(chuàng)新與突破。結(jié)束語:
在當今社會,統(tǒng)計起著“神經(jīng)系統(tǒng)”的作用。統(tǒng)計是連接社會再生產(chǎn)各個環(huán)節(jié)、各個要素的中介,是商品生產(chǎn)和商品交換的先導(dǎo),對經(jīng)濟活動進行起著靈敏有效的調(diào)節(jié)作用。例如,市場經(jīng)濟的統(tǒng)計信息是商品的生產(chǎn)和經(jīng)營活動的依據(jù)。市場經(jīng)濟信息主要有兩個方面:一是客戶對商品的需求,包括商品數(shù)量、品種、質(zhì)量和規(guī)格的要求等;二是各類商品生產(chǎn)、供應(yīng)以及價格的變化。商品生產(chǎn)者生產(chǎn)商品的種類、數(shù)量、質(zhì)量改進等問題都要根據(jù)市場需求信息和價格信息等來研究決定;商品經(jīng)營者所決定的商品購買、庫存、定價等問題也需要根據(jù)生產(chǎn)、需求信息及其變化趨勢來研究決定。在大數(shù)據(jù)時代,以上這些統(tǒng)計信息的獲得不再局限于電話調(diào)查、問卷調(diào)查等高成本、低收益的方式,而是可以借助網(wǎng)絡(luò)、移動通信等方式。同時,數(shù)據(jù)的質(zhì)量也不再受到主觀因素的限制。
由于大數(shù)據(jù)的產(chǎn)生,使得統(tǒng)計學(xué)的定義、思維方式、作用都不同于傳統(tǒng)統(tǒng)計。毫無疑問,隨著大數(shù)據(jù)時代的來臨,統(tǒng)計學(xué)的發(fā)展進入了一個新的階段。
[1]Lynch C.Big data: How do your data grow? [J]Nature, 2008, 455(7209)
[2]Rifkin J.The third industrial revolution: How lateral power is transforming energy, the Economy, and the World [M].New York: Palgrave Macmillan,2012
[3]Bughin J.Chui M, Manyika J.Clouds, big data and smart assets: Ten tech-enabled business trends to watch [J].McKinsey Quarterly, 2010(8)
[4]Lavalle S, Lesser E, Shockley R, et al.Big data, analytics and the path from insights to value [J].MIT Sloan Management Review, 2011, 52(2)
[5]MacKinsey Global Institute.2011.Big data: The next frontier for innovation,competition and productivity.June 2011.Lexington, KY: McKinsey &Company
[6]Dabenport T H, Barth P, Bean R.How big data is different [J].MIT Sloan Management Review, 2012, 53(5).
[7]朱建平、章貴軍、劉曉葳,大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J]統(tǒng)計研究,2014(2)
[8]袁衛(wèi),機遇與挑戰(zhàn)——寫在統(tǒng)計學(xué)科成為一級學(xué)科之際[J]統(tǒng)計研究,2011(11)
[9]李金昌,大數(shù)據(jù)與統(tǒng)計新思維[J]統(tǒng)計研究,2014(1)
[10]朱建平著,世紀之交中國統(tǒng)計學(xué)科的回顧與思考[M].中國經(jīng)濟出版社,1999, 12.
[11]曾鴻、豐敏軒,大數(shù)據(jù)與統(tǒng)計變革[J]中國統(tǒng)計,2013(9)
[12]肖紅葉,中國經(jīng)濟統(tǒng)計學(xué)科建設(shè)30年回顧與評論——基于三大框架事件的研究[J].統(tǒng)計研究.2010(2)
[13]朱懷慶,大數(shù)據(jù)時代對本科經(jīng)管類統(tǒng)計學(xué)教學(xué)的影響及策略[J]高等教育研究,2014(3)
[14]程開明、莊燕杰,大數(shù)據(jù)背景下的統(tǒng)計[J]統(tǒng)計研究,2014(1)