倪明選:大數據如何改變世界
大數據時代的來臨,帶給我們眾多的沖擊,而斯諾登事件的曝光,讓全世界人都認識到了數據的重要性。那么,大數據時代將給我們帶來哪些變革,IEEE Fellow、香港科技大學教授倪明選在西安交通大學召開的“2014高等教育信息化創新論壇”上發表的主題演講,就為我們闡述了他所帶領的科研團隊在數據挖掘方面所做的研究與探索。
倪明選以谷歌為例,向大家解釋了谷歌為什么能夠全面了解用戶行為。他說,谷歌提供的服務十分全面。谷歌每一次功能的更新,界面的優化,精準的搜索,資料備份,免費的超大郵箱,都讓大家感覺谷歌的服務太好了??墒鞘郎媳緹o免費的午餐,這一切源自谷歌搜集了用戶所有的數據,進行行為分析,以獲得巨額的廣告商機,而這也切實說明了數據的價值所在。
倪明選強調,他們希望不僅從大數據中發現更多的知識,更重要的是通過數據的搜集與挖掘,從而達到預控的目的。他說,谷歌的服務非常不錯,在功能更新和界面友好度上也下了很大功夫,谷歌通過搜集數據,了解客戶的行為,從而進行針對性的廣告。
此外,谷歌的科學家曾發表過一篇文章,講述他們曾做過的疾病預防和流感分析。谷歌通過搜索定位,哪些人在什么地區搜索過“流感”這樣的關鍵字,分析出可能發生流感的范圍。而美國疾病控制與預防中心從搜集資料到發布流感情況,需要一兩周才能得出流感分析結果,谷歌科學家只用了一天,結果跟美國疾病控制與預防中心做得一樣好。

歷史還告訴我們,跟不上科技步伐的人可能要被淘汰,大數據也是一樣,眾多實例說明了大數據的潛力與價值,美國許多大公司都在不同的領域從事大數據的研究,我們看到的僅僅只是冰山一角。
在報告中,倪明選還列舉了一些大數據帶來的影響。例如,2013年諾貝爾物理學獎獲得者希格斯證明了上帝粒子的存在,歐洲科學家們建立了一個超大實驗室,每年搜集幾個P的數據,大量的數據無法處理,只能再送到十幾個一級的實驗室。第一級實驗室搜集后再送到第二級實驗室,把所有的數據再做分析,最終證明了95%的概率上帝粒子是存在的。如果數據量再大一些,基本可以證明上帝粒子100%存在。
倪明選認為,大數據分析有三個最主要的元素:第一,要知道想解決什么問題;第二,數據非常重要,收集各種各樣的數據;第三,什么樣的技術能從數據中解決問題。如同給你一個礦藏,其中蘊藏著巨大的資源,挖出礦藏是你的本領。
倪明選在計算機科研領域工作超過35年,一直從事網絡體系結構研究,2006年起負責國家973計劃有關無線傳感網絡的項目,從而開始進入大數據領域。當時他們做了各種科研實驗,搜集了很多數據,還拿到了當時上海交通的數據,上海市所有的士要求安裝GPS,所有的士在每30秒到1分鐘要經過二級GPRS報告的士什么時間、在什么地點,有沒有載人,速度多少。他們就思考這些數據有什么用,能夠帶來什么好處,能否用的士數據幫助大家選擇從A到B的最佳線路。倪明選帶領的團隊通過擁有的6000多部上海的士數據,最終解決了上海的“熱區”(是指擁擠的地方,交通容易堵塞)問題。比如從某地去機場,導航只能給出距離最近的路線或是收費最少的路線,但是導航并不能說清目前的交通狀況,了解最優路況的自然是的士司機,所以他們通過的士司機最常走的路線,找到最優路徑,最后得出上海在什么時間、什么地方形成熱區。
如今,不少城市都以“智慧城市”為目標,建立自己的數據中心。倪明選認為,很多部門并不了解數據中心的作用,到處都建立數據中心,但是數據還是存不下。
在他看來,數據中心耗電量大,有些企業如谷歌在當地設立的數據中心,政府并不能看到數據,這屬于戰略資源。隨著信息化的不斷發展,現代政府應該建設數據中心,因為一般商家有數據但是沒有地方存儲,政府給中小企業提供存放數據的地方,政府的數據應該放在數據中心,那么企業就可以分享,企業在政府數據上面將創造更多的價值。例如,做PM2.5評估就需要掌握20年來的香港空氣數據,這應該是政府提供的。又如在房地產領域,其“身價”也應該放在數據中心里面,相關部門可以開發更大的應用,告訴人們哪些地方可以租,哪些地方不能租,這是政府應該做的。不管是商業、學業,還是產學研結合,其目的都是創造更多價值。
倪明選及其團隊為廣州的“小蠻腰”(廣州塔)開發了一個室內導航APP,通過APP可以查詢小蠻腰內每一層具體有哪些店鋪。而當站在小蠻腰最高層俯瞰廣州城區時,還可以通過APP來知道了解廣州每一棟建筑是什么。另外,他們還為廣州最大的消費中心——正佳廣場,開發了室內導航APP,具有查詢停車位和商鋪的具體位置等功能,還可以記錄用戶的消費習慣,推送店鋪廣告、打折信息等。



數據的搜集也很重要。國內IT企業如百度、騰訊、阿里巴巴就做得很好,阿里巴巴不管什么數據都會保留,也許之前不知道有什么用,但是他們看到了未來的價值在這個地方。
倪明選認為,數據的搜集也很重要。國內IT企業如百度、騰訊、阿里巴巴就做得很好,阿里巴巴不管什么數據都會保留,也許之前不知道有什么用,但是現在他們看到了未來的價值。
他說,過去人們在進行計算機教學的時候,算法非常重要。其實算法不是唯一重要的東西,海量數據的分析方法比算法更重要。其中需要調出的參數不是幾百個,幾千個或者幾萬個,而是百萬千萬甚至是上億個。有專家表示,數據可以幫助人們抓出特性,通過分層來減少神經網路。
不久前,阿里巴巴開展了關于客戶行為分析的一個競賽。阿里巴巴希望像谷歌一樣做針對性廣告,通過客戶行為分析推送廣告。這個競賽就是把1000個客戶在4-8月的所有購買物品資料全部調出,也就是客戶登錄天貓后,哪些東西是放在購物車后真的買了,花了多少錢,這些數據都給予保留。通過這些數據的分析,參賽者給出9月該客戶會買什么東西,誰猜得誰就是冠軍。實際上這個競賽可以用協同過濾的方法。需要了解客戶的性別、年齡、花費多少、先買什么后買什么。通過掌握客戶的行為,比如A買了一個物品,B跟A是否很類似,那么這個物品推薦給B,B八成也會購買,那么推薦就算是成功的。如何去定義客戶的相似度,需要豐富的實踐和直覺。當然,在大數據時代,面對海量的數據,在進行參數調取時,有些機器是無法進行的,目前采用的都是“天河二號”。
針對這些實例倪明選說,數據的價值正在于此。因此,需要盡量搜集更多的數據,通過創新思維,讓數據創造更多的價值。他認為,一方面,大數據的確帶來了新的技術變革,但新的技術確實會帶來最大的隱私權問題。如同谷歌了解用戶所有的信息,即使用戶并不希望它知道這些隱私卻又無可奈何;另一方面,每次登錄各種APP都需要知道用戶的地址信息。那么隱私權怎么得到保護?法律永遠跟不上科技的步伐。但是我們只能向前看,不能走后退路。所以法律要跟上科技發展,這是必須要走的方向。
“歷史還告訴我們,跟不上科技步伐的人可能要被淘汰,大數據也是一樣,眾多實例說明了大數據的潛力與價值,美國許多大公司都在不同的領域從事大數據的研究,我們看到的僅僅只是冰山一角?!彼f。