吳軍
在無法確定因果關系時,數據為我們提供了解決問題的新方法,數據中所包含的信息可以幫助我們消除不確定性,而數據之間的相關性在某種程度上可以取代原來的因果關系,幫助我們得到我們想知道的答案,這便是大數據思維的核心。
在過去被認為非常難以解決的問題,會因為大數據和機器智能的使用而迎刃而解。同時,大數據和機器智能還會徹底改變未來時代的商業模式,很多傳統的行業都將采用智能技術實現升級換代,同時改變原有的商業模式。另一方面,智能化也會對整個社會帶來巨大的沖擊,尤其是在智能革命的初期。
有了信息論這樣一個工具和方法論,我們便很容易認清大數據的本質了。首先我們必須承認世界的不確定性,這樣我們就不會采用確定性的思維方式去面對一個不確定性的世界。當我們了解到信息或者說數據能夠消除不確定性之后,便能理解為什么大數據的出現能夠解決那些智能的問題,因為很多智能問題從根本上來講無非是消除不確定性的問題。對于前面提到的大數據的三個特征,即數據量大、多維度和完備性,我們可以從信息論出發,對它們的重要性和必要性一一做出解釋。在這個基礎之上,我們就能夠講清楚大數據的本質。
數據量的問題
在過去,由于數據量不夠,即使使用了數據,依然不足以消除不確定性,因此數據的作用其實很有限,很多人忽視它的重要性是必然的。在那種情況下,哪個領域先積攢下足夠多的數據,它的研究進展就顯得快一些。具體到機器智能方面,語音識別是最早獲得比較多數據的領域,因此數據驅動的方法從這個領域產生也就不足為奇了。
大數據多維度的重要性
可以從兩個角度來看待它。第一個視角是前面提及的“互信息”,為了獲得相關性通常需要多個維度的信息。比如我們要統計“央行調整利息”和“股市波動”的相關性,只有歷史上央行調整利息一個維度的信息顯然是不夠的,需要上述兩個維度的信息同時出現。第二個視角是所謂的“交叉驗證”,我們不妨看這樣一個例子:夏天的時候,如果我們感覺很悶熱,就知道可能要下雨了。也就是說,“空氣濕度較高”和“24小時內要下雨”之間的互信息較大。但是,這件事并非很確定,因為有些時候濕度大卻沒有下雨。不過,如果結合氣壓信息、云圖信息等其他維度的信息,也能驗證“24小時內要下雨”這件事,那么預測的準確性就要大很多。因此,大數據多維度的重要性,也是有信息論做理論基礎的。
最后,我們從信息論的角度來看看數據完備性的重要性。在說明這件事情之前,我們還需要介紹信息論里一個重要的概念——交叉熵,這個概念并非由香農提出的,而是由庫爾貝克等人提出的,因此在英文里更多地被稱為庫爾貝克–萊伯勒距離(Kullback-Leibler Divergence),它可以反映兩個信息源之間的一致性,或者兩種概率模型之間的一致性。當兩個數據源完全一致時,它們的交叉熵等于零,當它們相差很大時,交叉熵也很大。所有采用數據驅動的方法,建立模型所使用的數據和使用模型的數據之間需要有一致性,也就是蓋洛普所講的代表性,否則這種方法就會失效,而交叉熵就是對這種代表性或者一致性的一種精確的量化度量。
回過頭來講大數據的完備性。在過去,使用任何基于概率統計的模型都會有很多小概率事件覆蓋不到,這在過去被認為是數據驅動方法的死穴。很多學科把這種現象稱為“黑天鵝效應”。在大數據出來之前,這件事是無法避免的,就連提出數據驅動方法的鼻祖賈里尼克也認為,不論統計數據量多大,都會有漏網的情況。這些漏網的情況反映到交叉熵時,它的值會達到無窮大,也就是說數據驅動方法在這個時候就失效了。
怎樣防止出現漏網?
這就要求大數據的完備性了。在大數據時代,在某個領域里獲得數據的完備性還是可能的。比如在過去把全國所有人的面孔收集全是一件不可想象的事情,但是今天這件事情完全能做到。當數據的完備性具備了之后,就相當于訓練模型的數據集合和使用這個模型的測試集合是同一個集合,或者是高度重復的,這樣,它們的交叉熵近乎零。在這種情況下,就不會出現覆蓋不了很多小概率事件的災難。這樣數據驅動才具有普遍性,而不再是時靈時不靈的方法論。
由此可見,大數據的科學基礎是信息論,它的本質就是利用信息消除不確定性。雖然人類使用信息由來已久,但是到了大數據時代,量變帶來質變,以至于人們忽然發現,采用信息論的思維方式可以讓過去很多難題迎刃而解。