張曉麗
【摘要】首先,本文給出了筆者認為的統計學研究的典型問題究竟是什么;然后,闡述了什么是大數據;最后,就筆者的理解淺談了大數據時代統計學究竟還有沒有用武之地.
【關鍵詞】統計學;大數據;統計分析
一、統計學研究的典型問題
眾所周知,統計學是處理數據的一門科學.人們給統計學下的定義很多,比如,《不列顛百科全書》中“統計學是收集、分析、表述和解釋數據的科學”;《韋伯斯特國際詞典(第3版)》中“統計是一門收集、分析、解釋和提供數據的科學”;Mario F.Triola的《初級統計學》中“統計指的是一組方法,用來設計實驗、獲得數據,然后在這些數據的基礎上組織、概括、演示、分析、解釋和得出結論”.筆者認為,統計學研究的典型問題是“運用已知數據獲得所研究的客觀事物的數量特征和發展規律,利用規律對所研究的客觀事物的行為進行預測”.
首先,統計學研究的典型問題的關鍵之一就是必須有所研究問題的數據,這是研究的前提.那么如何獲得已知數據呢?我們說可以通過調查,也可以通過實驗.先來說通過調查獲得已知數據,情況有兩種,一種是抽樣調查,另一種是普查.給大家舉一個例子,比如,某研究部門想知道其所在城市所有職工家庭的年平均收入.那么,“該城市所有職工家庭的年平均收入”就構成了所研究問題的總體.“該城市中的每一個職工家庭的年平均收入”就是總體中的個體.如果要通過抽樣調查來獲得數據,也就是抽取部分個體組成樣本,比如,該部門抽取了2 000個職工家庭的年平均收入作為樣本,那么就獲得了2 000個樣本數據(某年的年收入數據),這就是通過抽樣調查獲得的已知數據.再用這同一個例子來說一說普查.比如,2016年,該研究機構對其所在城市中的每一個職工家庭都進行了調查,獲得了每個個體(職工家庭)的2015年的年收入數據,這就是通過普查獲得的已知數據.
當然也可以通過實驗來獲得已知數據,做實驗的過程就復雜了.要想通過實驗獲得靠譜的數據,首先,得滿足樣本量足夠大,然后,就是要做到隨機.現實中這兩點也不是很容易做到的.例如,假設我們現在想研發一種做運動鞋的新材料,看看是不是比舊的材料更耐磨.又假設我們現在的研發成本非常高,只能提供4雙樣品鞋.于是,我們找來了8個孩子來試穿,4雙新材料4雙舊材料.看到這兒,第一反應是樣本量小了,但是沒有辦法啊,實際情況只允許我們做到這種程度.那么在樣本量無法擴大的前提下,怎么做才能使實驗靠譜呢?我們給每一個孩子隨機選一只腳穿新材料,另一只腳穿舊材料.這樣,每一組新舊材料的對比都是基于同一個孩子的,這就不存在比如,孩子是否喜歡運動等的混淆因素了.
統計學研究的典型問題的第二個關鍵點就是需要有合理的統計分析.針對已經獲得的已知數據也就是樣本數據,我們采用合理的統計分析,定會對所研究的客觀事物的數量特征和規律進行準確的描述、分析和判斷.
統計學研究的典型問題的第三個關鍵點就是對未來的預測具有不確定性.分兩個方面來給大家闡述.首先,未來必須是未知的,如果所研究的某事物的未來行為或特征是已經知道的,那這就不屬于統計學要研究的問題.其次,預測必須是不確定的.如果預測的結果只有一種,也就是預測的結果是確定的,那這也不屬于統計學要研究的問題.比如,我們想知道人體的骨骼有多少塊骨頭?于是,抽選部分人作為樣本,通過對樣本研究獲得已知數據,進而來預測其余未被抽中的人,這種預測具有確定性,人體骨骼是由206塊骨頭組成.這就不屬于統計學要研究的問題.再比如,一種新藥出廠后用于臨床試驗獲得已知數據,然后對更廣泛的同類型病人的療效做預測性推斷,具有不確定性.
二、什么是大數據
當今,“大數據”如日中天,似乎已經成為人們的流行語,那什么是大數據呢?麥肯錫對大數據的定義是從數據集的“大體量”入手的:大數據是指那些規模大到傳統的數據庫軟件工具已經無法采集、存儲、管理和分析的數據集.維基百科采納了麥肯錫的定義,認為大數據是一組龐大而復雜的數據集的集合,大且復雜到難以用現有的數據庫管理工具或傳統的數據處理應用來處理,大數據就是一切可記錄信號的集合.狹義地講,大數據是一個大樣本和高維變量的數據集合.廣義地講,大數據涵蓋多學科領域、多源、混合的數據,自然科學、人文社會、經濟學、通訊、網絡、商業和娛樂等各種領域的數據集相互重疊連成了一片數據的海洋.大數據涉及各種數據類型,包括文本與語言、錄像與圖像、時空、網絡與圖形.我認為,當今流行的“大數據”是通過互聯網獲得的足夠大量的、包含一切數據類型的數據的集合.
三、大數據時代,統計學是不可或缺的
我們姑且先不去談大數據和統計學中的數據誰更全面,誰更方便獲得,誰更相對有代表性;不去談什么樣本和總體,我們就只是來說一說,大數據時代,只是有全部的數據就足夠了嗎?筆者認為當然不是.無論是大數據還是統計學中的樣本數據最初都是雜亂的、無序的,所以說,大數據時代,數據的處理、理論分析等的問題就顯得尤為重要了.這些重要問題的解決都離不開統計學,它需要統計理論和統計分析方法.
就是舍恩伯格和庫克耶也不同意安德森的極端觀點.他們指出“大數據絕不會叫囂‘理論已死”,因為“大數據是在理論的基礎上形成的”,無論是如何搜集數據、分析數據、還是解讀研究結果,都得依賴理論.“大數據時代絕對不是一個理論消亡的時代,相反地,理論貫穿于大數據分析的方方面面.”
綜上,即便是在大數據時代,統計學也是不可或缺的.