■楊 靜
統計到底是怎樣一門學問呢?先看看我們的周圍,其實有無限多的數據,所謂數據就是一系列數字的集合或者符號的集合體。我們看一些數據的個數、平均、傾向、分類等數字特征才能了解數據的性質。那么看數字特征,基本上會有一定的不確定性,比如某企業大多數都是一線員工,年收入在2萬元左右,另有一些管理層次的人,年收入幾十萬元,此時年收入的平均數就失去了參考價值。統計學就是一個被體系化的方法論,它用來查看零散的有不確定性數據的性質,從大的數據(總體)抽取出一部分(樣本),查看它的性質,推測原來的大的(總體)數據的性質(用樣本的數字特征估計總體的數字特征)等。
在國外,統計工作開始于公元前3050年。埃及建造金字塔,為征收建筑費用,對全國人口進行普查和統計,到了亞里士多德時代,統計工作開始往理性演變。這時,統計在衛生、保險、國內外貿易、軍事和行政管理方面的應用,都有詳細的記載。
數理統計起源于人口統計、社會調查等各種描述性統計活動。公元前2070年前大禹治水時,根據山川土質,人力和物力的多寡,分全國為九州;殷周時代實行井田制,按人口分地,進行了土地與戶口的統計;春秋時代常以兵車多寡論諸侯實力,可見已進行了軍事調查和比較;漢代全國戶口與年齡的統計數字有據可查;明初編制了黃冊與魚鱗冊,黃冊乃全國戶口名冊,魚鱗冊系全國土地圖籍,繪有地形,完全具有現代統計圖表的性質。可見,我國歷代對統計工作非常重視,只是缺少系統研究,未形成專門的著作。
數理統計在自然科學、工程技術、管理科學及人文社會科學中得到越來越廣泛和深刻的應用,其研究的內容也隨著科學技術和政治、經濟與社會的不斷發展而逐步擴大,但概括地說可以分為兩大類:(1)試驗的設計和研究,即研究如何更合理更有效地獲得觀察資料的方法;(2)統計推斷,即研究如何利用一定的資料對所關心的問題作出盡可能精確可靠的結論。當然這兩部分內容有著密切的聯系,在實際應用中更應前后兼顧。
由于大數據的出現,統計更加引人注目。理由很簡單,就是利用統計學方法分析大數據,在計劃經營戰略,市場戰略,開發新產品,新業務的時候取得了有效成果。經營不只是靠感覺,靠經驗,靠勇氣的東西了,而是根據以數據為基礎的科學分析方法來進行決策。
最早應用大數據并對大數據進行收集和分析的設想來自于世界著名的管理咨詢公司麥肯錫公司(M c K i n s e y)。麥肯錫公司看到了各種網絡平臺記錄的個人海量信息具備潛在的商業價值,于是投入大量人力物力進行調研,在2011年6月發布了關于大數據的報告,該報告對大數據的影響、關鍵技術和應用領域等都進行了詳盡的分析。麥肯錫的報告得到了金融界的高度重視,而后逐漸受到了各行各業關注。
維克托·邁爾-舍恩伯格和肯尼斯·克耶在其編寫的《大數據時代》中提出大數據的4 V特點,即 V o l u m e(數據量大),V e l o c i t y(輸入和處理速度快),V a r i e t y(數據多樣性),V a l u e(價值密度低)。
當我們進入大數據時代之后,統計有了什么樣的變化呢?如果我們能夠分析總體的話就沒有必要分析一部分的樣本了。在大數據時代,最重要的是從這些龐雜的數據中,要得到那些有價值的信息。我們相信,隨著科技的發展,統計和大數據將會更加深遠地影響著我們的生活。