賈亞軍
(山西省統計科學研究所,太原 030002)
統計學是以數據為基礎進行的估計判斷。數據是嚴謹的、枯燥的,但也是客觀的、豐富的。數據是數字,但不只是數字。統計學還是一門關于數據的藝術。如何高效、準確地分析所得數據,并把它轉化成比數據本身更有用的知識才是統計學的目的。世間的一切,貌似雜亂卻又暗自遵循著某種規律,就像Pythagoras 學派形容的那樣,萬物皆是數,“在理性的基礎上,所有的判斷都是統計學”。
樣本是相對于總體而言的,在進行調查或觀測中,只是抽取了一部分作為樣本。隨機樣本,在統計學中更是一個舉足輕重的概念。樣本之于統計學,如同利刃之于寶劍,羽翼之于蒼鷹。統計學的目的就是通過對少量數據的觀測、收集來印證盡可能多的發現。在人們獲取和儲存數據的能力都十分有限的年代,隨機采樣是一種捷徑,人們無須耗時耗力去觀測總體中所有的個體就可以通過樣本對總體有一個大概的估計。
大數據,一個多維、復雜、多源而又高速變化的數據海洋。這是《大數據時代》的作者舍恩伯格先生給出的定義。他強調,不能單純地把大數據理解為數據規模很大。大數據具有著名的4V 特點,即海量規模(Volume)、多樣形式(Variety)、高速產生(Velocity)和巨大的潛在價值(Value)。事實上,不是只有“數字”才被稱為數據的。淘寶,大家一定都不陌生。確認收貨之后,就可以對寶貝進行評價了,包括描述相符、服務態度、發貨速度和物流服務4 個方面,在統計學中,就是4 個變量。Stanley Smith Stevens 在1946 年將變量分為4 類:無序分類變量、有序分類變量、定距變量和定比變量,即數據的4 種類型。淘寶評價中的星級就屬于有序分類變量。這四種維度的數據,可以用于表達現實生活中的各類信息。
大數據給人們的生活、工作、思維方式帶來深刻的變革。有的人對這個時代抱著宗教般的崇拜和莫名的熱情;有的人則帶著某種不安,誠惶誠恐地去擁抱這個新時代。大數據時代,是技術、數據和思維三足鼎立的時代。技術是物質基礎,數據是資源,思維是關鍵。這里的思維,其實就是指數據思維。我們通常講的大數據思維,主要指以下幾種思維。
2.2.1 總體思維
傳統統計學原理是利用少量樣本窺探總體,這個總體總是事先明確的。但在大數據時代,人們開始放棄對總體的狂熱追求,側重于分析個體特征,通過對個體的觀測預測未來。在獲取數據和儲存數據的能力都不是很發達的年代,人們無法觀測總體,只能通過抽樣技術來抽取樣本,從而實現對總體情況的一個估計,是一種間接的樣本分析法。而隨著大數據時代的來臨,獲取和儲存數據已經不是問題,人們有能力獲取幾乎涵蓋總體的海量數據,其中包括原來樣本中被遺漏的細節,信息量足夠,誤差也大大降低。另外移動互聯網以及云計算的飛速發展也為數據的大量獲取和快速處理提供了便利,大數據也正是在時代發展中應運而生的。
2.2.2 容錯思維
與抽樣時代對數據“精確性”的狂熱追求不同,大數據思維強調的是數據的復雜性。這也有其客觀合理性。其一,在資源有限的情況下,人們無暇既追求量又苛求質,以前采用抽樣的分析方法,追求的是“以少博多”,所以要盡可能地確保獲得的信息是精確的,如果不這樣,就不可能起到“四兩撥千斤”的估計效果,分析出來的結論也會毫無價值,甚至會起到相反效果,把決策者引向一條不歸路;其二,雖然在微觀上可能存在這樣或者那樣的誤差甚至錯誤的信息,但把大數據作為一個宏觀的、有機的整體來審視,卻又能提供有價值的信息。我們要的是一個大的框架,一個既模糊而又精確的趨勢的判斷。或許大數據就應該是海納百川的,只有包容適當的錯誤才能取得更大的回報。
2.2.3 相關思維
小數據時代,人們執著于關注事物的因果關系,通過樣本分析揭示其內在機制。由于小數據本身存在缺陷,無法反映事物之間相關性,大數據的出現,才讓人們更關注相關關系而非因果關系。事物之間總是有內在聯系的,比如,A 總是伴隨著B的發生而發生,至于為什么會這樣,我們不用去在意。即大數據的核心要義是:通過觀測線性的或者非線性的相關關系,揭示事物之間隱蔽的、復雜的關系,利用這些洞見去捕捉現在和預測未來。大數據篤信:研究相關性遠比研究因果關系更具價值,它會為人類認識世界開辟全新視角。
在技術尚不發達的特殊時期,需要通過對少量數據的觀測,去估測總體情況。而在大數據時代,獲取和儲存數據已經不是問題,人們有能力獲取幾乎涵蓋總體的海量數據,能夠直接觀測總體。那么,是否真的如大數據的推崇者所言:樣本已經過時,大數據才更接近事實?基于樣本統計、預測分析的傳統統計學是否還將處于主導地位?大數據是有益的補充,還是更替?我們該如何看待這些問題呢?
我們可以從科學研究的兩種方法來討論這個問題。研究的方法一般分為兩類,一類是問題導向性,另一類是方法導向性。我們通常將以問題為切入點進行研究,在實踐中思考,在思考中研究,并最終取得成果的方法稱為問題導向性研究。這跟大數據處理問題的做法不謀而合:發現問題,之后向數據要答案。反之,就是方法定了,我們以倒推方式,拿著方法去套問題,在成型方法論的基礎上,探尋其潛能的研究稱為方法導向性研究。這就好比傳統統計學中的抽樣,統計學理論篤信隨機抽樣能夠反映總體。因此,抽樣分析在方法導向性研究中仍有用武之地。
無論信息技術發展到什么地步,大數據都無法覆蓋社會的全部,受法律、倫理,尤其是技術等因素的諸多影響,無論大數據如何龐大,也只是總體中的一個樣本。傳統的統計抽樣方法能夠用盡量少的數據和相對復雜的模型獲取有價值的信息。即便在大數據時代,這種方法成熟且優勢明顯的統計方法仍然有其用武之地。事實證明,大數據分析和抽樣并不矛盾,尤其是在數據探索階段,比如,在ETL(Extract-Transform-Load)過程中,信息是未知的,需要將數據抽取出來,并將不同數據源的數據進行轉換和整合,得出一致性的數據,然后加載到數據倉庫中,是數據從源系統流入數據倉庫的通道。研究表明,在這個過程中使用抽樣進行數據分析是一個有效的途徑。另一方面,大數據往往需要過度抽樣,導致數據無法高效處理,因此,從成本與效率的角度去衡量,只要不是失真的抽樣,樣本質量能得到保證,那么繼續采取合理或適當的抽樣也是必要的。
在大數據時代,傳統的思維模式受到挑戰。這并不意味著這些基于傳統思維的數據分析方法會被迅速淘汰。相反,在這個嘗試新事物需要付出巨大成本和面臨巨大風險的變革時代,在未來很長一段時間,傳統的方法都還將繼續發揮很重要的作用。比如,統計學中的抽樣技術。雖然大數據思維強調完整的數據下的樣本即是總體,但大數據的總體和真正意義的總體并不一定能夠完全重合,事實上,在大多數情況下還存在相當大程度的偏差。并且,有能力和財力獲取如此大規模數據的公司或者機構畢竟是少數,抽樣依舊是一個更符合經濟學原理且普遍適用于各行各業的方法。
在大數據發展風起云涌的時代,推銷大數據思想,并且反復強調數據分析的重要性,絕對是社會發展的正能量。但與此同時,我們也必須冷靜地看待大數據的一些潛在的缺陷和問題。這并不是懷疑大數據對新時代的貢獻,而是說任何新生事物的發展都需要有一個過程,我們需要用辯證的方法去看待。大數據帶來了思維變革、商業變革和管理變革,對于統計工作者而言,這種變革不僅意味著豐富了統計研究的內容、拓寬了統計研究的范圍、增強了統計學的生命力,還意味著統計學在這個時代中更需要變革、進步,因為離開統計學思維的支持,難免會出現“大數據,大偏差”的窘境,使人們陷入無窮無盡的數據海洋而看不到彼岸。
大數據帶來了靈感,帶來了創新。大數據是一種洞察力和決策力,引領著人們從一個混沌的時代走向一個澄明的時代,引領人們更清楚地認識世界與自己,以及二者之間千絲萬縷的聯系。在統計學中也有一系列方法可以對數據進行形象的闡述。使人們在面對大量數據茫然的時候,能夠迅速提煉出有用信息,以一種直接、感性的方式勾勒出隱藏在冷冰冰數據背后的內涵。從辯證的角度來講,大數據與抽樣是同一問題的不同說法,不僅是樣本,還是總體。抽樣注重的是過程,大數據體現的是結果,二者相輔相成,并不矛盾。大數據的出現,彌補了部分樣本難以體現規律的不足,顯著提升人們對社會及事物的認知。