大數據本身在概念和應用上已經與我們越來越密切了。今天在開始大數據這個話題前,先從兩個國際事件說起。一個是糾結了很長時間的英國首相要辭職了,另一個是美國不斷“退群”。實際上這兩個事件都是和英國脫歐和美國大選有關。這三四年來,大家已經看到這些事件在他們國家帶來的社會撕裂、對世界格局的沖擊,以及國際秩序、多邊關系的挑戰。非常巧的是這兩個事件的背后都有一家公司的影子,就是英國劍橋分析公司,簡稱CA。這家公司用數據做選民分析,做助選服務。這家公司的服務主要做的是心理畫像,它根據收集到的大量數據,包括千萬級的Facebook數據,采用國際心理學界比較有名的Ocean心理模型來刻畫選民的人格特征,它能刻畫一個人喜歡什么、擔憂什么、對什么感興趣、宗教的取向以及價值的態度。用這家公司CEO的話來講,“我們可以預測每個美國成年人的人格特征”。其實這家公司并不是那么出名,還有更加出名的公司也在選舉中提供各種服務,但是其他公司的服務基本都基于人口統計學的信息,也就是性別、膚色、宗教、收入、年齡、教育等信息,但是這家公司從另外的視角,即從心理的視角刻畫一個人的心理歷程或者叫做數字腳印。另一方面,他們可以獲得更加細粒度的數據,使得心理層面、人格層面的刻畫成為可能。這就是我們所說的大數據的影響。
大數據時代的兩個階段
我們現在處在一個數據的海洋當中。2019年的春運是世界上最大的人口遷徙,有30億人次的流動。2018年“雙十一”有2135億的銷售額度。現在,每天會產生450億的微信條目。手機的網民已經達到8.17億。總體來說,我們國家的GDP數字經濟占比已經達到了34.8% ,超過了1/3,這方面實際能夠體現出我們這個社會已經開始越來越數字化了。
說起大數據、大數據時代,主要的時代背景是什么?現實世界有多大程度上可以被數據表示?用一個形象的話來講,我們的社會像素正在急劇提升。這個“像素”來自到處可見的感測設備——探頭、智能手機、可穿戴設備、車載設備,林林總總。這些使我們這個社會的數字化程度越來越高,數據的粒度因此也越來越細。也就是說,數字化生活的兩個要素之一:像素,數據的粒度已經具備。像素夠高的時候我們要干什么?形象地說是“成像”,就像手機、相機,像素越高成像的質量可能越好,因此,成像是我們數字化生活中另外一個重要的要素,像素和成像對應起來,就把數據和算法聯系起來了,這就是我們所說的大數據時代。
大數據時代可以分成兩個階段,我們用商務的形態來說明這個問題。第一階段是數據商務階段。不斷地把現實生活中的要素,人財物,都進一步數據化,同時根據這些數據化的人財物進行算法的應用。第二階段是算法商務階段。當像素足夠高,重點就變成了成像,變成算法應用了。數據商務階段和算法商務階段都圍繞著數據和算法進行,但是重點有所不同。數據商務階段就像做菜一樣,數據化的過程就是不斷準備材料的過程,不停地增加和豐富材料,然后根據已有的材料提供不同的菜品。但是算法商務階段是材料已經足夠豐富了,這個時候要比的就是手藝了,你是不是能夠做得更好、更多。這就是我們所說的算法進階及應用創新,如“智能+”,我們可以用更加高尖的智能技術,包括人工智能的很多技術在現有的大規模數據下進行應用。
大數據的數據特征
那么什么是大數據?可以從4 個維度來理解,即 4V:volume(規模)、variety(多樣)、value(價值)、velocity(速度)。大家對這四個維度沒有什么大的爭議,但是對它們的含義的理解還是有相當不同的認識的。
第一規模,我們稱之為超規模。大數據規模會很大,但是沒有絕對的量綱,沒有說一定要達到多少G、多少P、多少Z才是大數據,這個不一定,因為大數據的大規模和問題、領域有關。只要這個大的規模超出了這個領域和問題的傳統邊界,那就是大規模里的超規模。第二多樣,即富媒體的意思。現在80%-90%的數據都是文本、語音、圖像、視頻,不再是特別傳統的二維的整齊的結構化的數據了。第三價值。我們處在數據的海洋中,但是跟我個人有關,跟我企業有關的那種有價值的信息相對少了,因為數據量的分母太大了,即密度在降低,這個后面直接的隱喻就是要深度挖掘才能發現我們希望的價值。第四速度。數據就像開著的水龍頭一樣,源源不斷地出來,而不是我們上傳下載圖片要等很久。因此,大數據里的數據是一個流數據的概念。
大數據的問題特征
什么樣的問題才是大數據問題?這要看它的問題特征。第一個特征,是粒度縮放。粒度縮放是指我們碰到的問題的要素一定是數據化的,即這個要素不管是宏觀的還是微觀的,一定可以通過數據表示。同時,可以像地圖一樣,可以在特別大的范圍和特別小的范圍之間縮放,能夠在宏觀、微觀之間進行映射。
第二個特征,是大數據外部性導致的特征,稱之為跨界關聯。考慮問題的時候要看視角,問題邊界在哪兒,如果考慮問題的時候這個邊界到了傳統邊界之外,就是跨界了,而且你把這個外部的要素和內部要素聯系起來了。比如管理學中,傳統企業管理最常見的就是怎么把業務流程做好,優化流程,提高質量,同時改進人力資源環節、財務環節,制定企業戰略,基本是站在企業內部看不同的部門,站在里面稍微往左看一看是供應商,稍微往右看一看是客戶。企業花了很多努力,突然有一天一個人在網上拍了一板磚,說這個企業產品有問題、服務不好,還沒有容得辯解,成百上千萬跟貼,瞬間就把企業的產品、形象、品牌定格成了某一個形象、某一個狀態,然后企業可能還很委屈,因為覺得這些人既不是我的客戶,也不是我的員工,他們好像就是原本跟企業沒有聯系的社會大眾,但是他們的口碑卻對產品、質量、品牌、形象產生影響。因此,當管理決策的視角不僅是考慮內部,而且要考慮外部和企業相關的因素時,這個問題就開始變成大數據問題了。你要跨出你的傳統邊界。第三個特征,全局視圖。大數據實際是希望了解全貌的,它最后是要看畫像,因為前面我的每一個點、每一個環節的數據叫做粒度縮放,同時和我相關的要素我又關聯了,但是我最后要干什么?要了解全貌,要有個人畫像、企業畫像、政府畫像、社會畫像等,所以這個畫像本身又是全景式的,從范圍來講是全景式的,從內涵來講,既關聯又因果。
舉兩個簡單的例子。一個例子是旅游。比如某個景點,經常在一些時間和假期人滿為患,因此可能出現游客不滿意投訴的現象。如果我們僅從景點這個邊界出發來提供優化的方案,解決質量的問題就很困難。實際上如果要解決景點的問題,一定要走到景點之外,當我們考慮了景點內外要素時,就有了跨界關聯的屬性,作為整個的旅游我們來看景點內外時,我們有這樣一個全局的視圖,我們面對的就是一個大數據問題了。
另外一個例子是共享單車。現在每輛共享單車都有自己的感應器和定位裝置,也就是說感測的數據粒度到了車和部件。這時候就不單是一個單車了,可能我走到什么地方,共享單車的App就告訴我附近有什么商圈、酒店、餐館,當視角從單車走到了其他行業、要素時,就開始跨界關聯了。共享單車的平臺應該清楚什么地方需要車,什么地方不需要車,怎么樣調動,這就是全局視圖。當共享單車具備粒度縮放、跨界關聯和全局視圖時,共享單車的運營、優化,就是一個大數據問題。
這些年社會上比較流行一個論斷,說“大數據只講關聯不講因果”。這個論斷雖然有一定道理,但是總體來講是誤導的。特別是在重要決策的時候,如果涉及到的后果可能會有嚴重的人、財、物的損失,誰敢做決策?所以在大數據環境下做管理決策,既要看關聯也要看因果。
(根據清華大學經濟管理學院EMC講席教授陳國青演講整理而成,未經確認)