流行大數據已經有一段時間了。隨手翻翻,就能看到,諸如“大數據教你史上最快升職方法”、“大數據教你怎么選購房子”,甚至還有“大數據教你怎么選女朋友”……以前筆者一直抱著看過笑笑的態(tài)度,直到有天,在筆者從事的行業(yè)里,用“大數據做的新聞”也上了電視、登了版面,并且據說,一些國外的經濟學院、金融學院還有新聞學院,也都開出了大數據課程。讓人真真感到,大數據改變我們的生活,不再是一句口號。
讓這種感慨更強烈的,是在今年“全國兩會”上,李克強總理在政府工作報告中指出,制定“互聯網+”行動計劃,推動移動互聯網、云計算、大數據、物聯網等與現代制造業(yè)結合,促進電子商務、工業(yè)互聯網和互聯網金融健康發(fā)展,引導互聯網企業(yè)拓展國際市場。
確實,大數據之于經濟,之于決策,之于傳媒,都是個偉大的工具。有人評價說,解決由大規(guī)模數據引發(fā)的問題,探索以大數據為基礎的解決方案,是中國產業(yè)升級、效率提高的重要手段。數據挖掘不僅能夠成為公司競爭力的來源,也將成為國家競爭力的一部分。甚至,有人對于我們當前面臨的教育、交通、醫(yī)療保健等各方面挑戰(zhàn),也將希望寄托于“大數據”來解決。
筆者之前不甚喜歡“大數據”,或許出于一種自我保護的本能。在一次會議上,某電信公司高管談起大數據,他說,目前的技術手段可以測算出停留在某塊戶外廣告牌的人流量,以及停留的時間——通過我們每個人的手機。他更講到這些信息經過脫敏,若作為商業(yè)用途,是不錯的廣告位流量計算方式。言下之意,這些原始信息是可以看到個人隱私的。聽到這些,我小心翼翼關了手機里智能軟件的所有定位功能——盡管知道這其實沒什么用。誠然,對于個體來講,要便利還是要隱私,可以是個人選擇,但當前的數據生產者的我們卻無法選擇、無處遁形。有一個形象又略帶幽默的說法,隨著大數據的廣泛應用,這個世界越來越透明,我們就像生活在玻璃魚缸里。
不管大數據、云平臺給個體帶來的是積極幫助還是無奈甚至是消極影響,它已經來了。甚至還有人鼓吹“得數據者得天下”。不過,撇開情感上的好惡,筆者想要說的是,大數據固然好,但也有教不會你的事。數據不會說謊,但數據很可能“失靈”,對于一些與人打交道的行業(yè),尤其值得注意。
《黑天鵝:如何應對不可知的未來》的作者,納西姆·塔勒布認為,數據會制造出更大的“干草垛”。隨著我們掌握的數據越來越多,可以發(fā)現的統計上顯著的相關關系也就越來越多。這些相關關系中,有很多都沒有實際意義,在真正解決問題時很可能將人引入歧途。這種欺騙性會隨著數據的增多而指數級地增長。在這個龐大的“干草垛”里,我們要找的那根針被越埋越深。
是的,就像數據記錄下筆者每天會經過某座商廈,有時會停留在那里用餐,數據可能會分析出筆者去過的哪家餐廳次數最多,甚至能據此分析出筆者最愛哪家餐廳的哪個套餐,但事實上,這并不準確,計算機數據分析擅長的是測量“量”而非“質”,它永遠分析不出,筆者是罵罵咧咧吃完這一餐的,還是在贊美中吃完的。而很有可能,筆者喜愛的一家餐廳,因為路途遠,去的次數反而少。
即便大數據分析得都十分正確,但結果可能走向哪里呢?說一個熟悉的例子,某個新聞產品的微信公眾號,早期還以民生服務為主打,慢慢地,當大量數據告訴內容生產者,兇殺、情感糾紛、家庭倫理、地域紛爭是讀者最偏愛的內容,于是,這個公眾號接受了數據分析的建議,修正自己的產品供應來迎合讀者。在筆者看來,原本更有益的、也更有用的內容卻被拋開了。很多人說的大數據“偏愛潮流,忽視杰作”。當大量個體對某種產品迅速產生興趣時,數據分析可以敏銳地偵測到這種趨勢。但一些重要的產品在一開始就被數據擯棄了。
牛津大學教授維克托·邁爾·舍恩伯格熱切支持大數據,但他也說,應該專注于對人們有益的領域,有的時候數據可能不會告訴我們哪些是對于我們人特別重要的地方,但這就是人和電腦之間的差異。人可以更好理解世界,我們有理解能力,所以也要變得更加謙遜。數據只是對于一個事實的體現,數據經常是不完整的,也經常是不完美的,所以做大數據分析,不僅僅是以謙遜的態(tài)度去做,而且要以人性化的態(tài)度去做。