■ 采訪/王彥文 受訪/陳運文
大數據領域的技術已經非常成熟了,但應用還處在初級探索階段。
隨著社交網絡、電子商務和移動互聯網的發展,人類每時每刻都有大量的數據產生:我們瀏覽過的網頁、訪問過的店鋪、發過的朋友圈等,可以說,“你輕輕走過,到處都留下了你的痕跡”。在公共領域,交通系統每天產生大量的視頻數據,醫院有大量的醫療信息……所有這些就構成了“大數據”。大數據之大,不僅指數據量,更在于其價值。
2017年中國大數據發展調查報告顯示,2016年,中國大數據的市場規模為168億元,增速達到45%,預計2017—2020年,大數據市場的增速會保持在30%以上。大數據產業的飛速發展,帶動了一批提供大數據技術服務的高科技創業公司的出現。位于上海張江高科技園區浦東軟件園的達觀數據就是這樣一家為企業提供大數據服務的公司。
全球知名咨詢公司麥肯錫稱:今天的數據,已經滲透到當今每個行業和業務功能區域,成為一個重要的生產要素。人們對大量數據的挖掘和利用,預示著新的生產力增長和消費者剩余影響的到來。
達觀數據致力于數據的挖掘和處理,公司運用人工智能中的自然語言處理技術和應用系統為企業提供個性化推薦和搜索系統。與其說達觀數據是一家大數據公司,毋寧說是一家人工智能公司,大數據是公司的處理對象,而處理方法則是人工智能。達觀數據的CEO陳運文先生認為,針對大量數據的處理工作,例如大量的文字性工作,計算機不僅可以做,而且可以比人做得更好,這是大數據在人工智能行業落地的可能。
陳運文發現,盡管大數據的概念已經非常普及,大家也意識到了大數據的重要性,但是,如何經營數據,如何利用數據為自己服務,很多人卻并不見得了解。他認為,大數據行業有著巨大的需求。中國有很多大中型企業,企業里面大量的數據、資料和內容性信息散落于計算機的各個硬盤或者在柜子里堆積如山,很多有意義的數據就這樣淹沒其中得不到利用。利用計算機對這些文檔材料進行自動分類、歸檔,提取出有用信息,就能幫助企業實現基于大數據的精準營銷,降低企業成本、提高經濟效益。陳運文說:“幫助傳統企業適應科技化、適應時代的需要,是一件非常有意義的事。例如,像華為這樣的大公司,做好數據管理是非常重要的,華為采用了達觀數據提供的知識管理和個性化推薦服務,將文本挖掘技術應用到企業內部,可以實現數據的自動管理和分析。”
對于新媒體行業來說,尤其是一些粉絲數量較大的媒體,媒體的粉絲都是什么樣的群體,有什么樣的偏好,對內容的反饋是什么,這些都很難單靠人工來分析。利用計算機對大數據進行分析就可以對粉絲進行“畫像”,從而分析每一個用戶的興趣愛好,做到個性化推薦。
陳運文調侃自己的大數據處理工作就像“來料加工”,“其實這個世界不缺數據,缺的是對數據精加工的能力,原始的數據如果不做處理,價值很小。”他說,“我們做的事情是對原始數據進行處理,使之成為有意義的數據。”如何讓計算機更好地管理這些文本,是一件非常重要的事情。
“大數據的概念很火,但真正落地的很少。”提到大數據在現階段的發展情況,陳運文這樣說。大數據的概念曾經非常火熱,《紐約時報》曾經發表過一篇題為《大數據時代》的文章,預言大數據時代的到來,文章說大數據將會改變人類的生活。然而,這么多年過去,大數據產業并沒有像預想中的那樣普及。對此,陳運文評價說:“人工智能=數據+算法,算法的進步很快,而數據卻沒有同步跟上。大數據領域的技術已經非常成熟了,但應用還處在初級探索階段。”大數據的應用分為幾個階段:數據采集、數據挖掘和數據應用。數據的采集在國內才剛剛開始,還有大量的有用數據沒有得到關注。比如交通數據,在上海這樣的大城市交通數據得到了越來越多的重視,然而,很多小城市沒有采集的意識。大數據技術在互聯網行業的應用較多,比如百度、阿里巴巴擁有大量的數據,這些公司也在將這些數據轉化為生產力。但是,國內大量的傳統企業,對數據的商業應用敏感度低,沒有意識到看似煩冗的數據經過處理后會產生巨大的價值。經過媒體幾年來的啟蒙教育,國內傳統企業也逐漸開始重視數據的采集與整理,意識到大數據、人工智能的重要性。但是,很多企業對于如何使自己的企業和人工智能相融合,讓大數據和人工智能為企業服務并沒有清晰的概念。陳運文表示,這些企業需要像達觀數據這樣的公司使大數據和人工智能在這些企業落地。因此,數據的采集、處理領域未來發展前景廣闊,市場巨大。
“在很多行業中,我們缺乏有質量的數據,很多行業的數據信息還停留在紙面上,沒有數字化或者說文檔沒有做到很好的標注,無法讓計算機進行高效處理。近幾年,很多企業開始重視數據的采集和整理,這是一個很好的趨勢,也將在很大程度上促進大數據的發展。”陳運文說。
對于大數據領域的發展來說,只有數據足夠多,行業才能發揮應有的作用。比如,AlphaGo學習了30萬盤棋譜,在這個基礎上,才打敗了人類。陳運文說:“中國有句古話:熟讀唐詩三百首,不會作詩也會吟。要寫出優美的詩篇,我們需要讀很多的唐詩,如果讓計算機閱讀成千上萬篇文章,它也可以從中總結規律。計算機擁有強大的運算和存儲能力,可以比人做得更好。”陳運文介紹說,達觀數據有個專利,當計算機讀完一篇文章后,可以判斷出文章中哪些字是人名。對于人類來說,這是一件非常簡單的事,而計算機完成這個判斷則需要非常復雜的算法。通過大量的文本閱讀和訓練后,計算機就能像人腦一樣運算。今天,數據挖掘在很多行業中的應用還處在一個非常早期的狀態。未來,房地產、汽車、零售、法律等行業都可以引入人工智能。
例如,司法領域是一個文本使用特別集中的行業,律師需要處理大量的文本資料。中國平均每18天誕生一部法律,這也就要求律師不斷學習、記憶,隨時掌握新的法律知識。人類并不善于大量的記憶,但這是計算機的強項。Ross Intelligence就是一款用于法律行業的人工智能APP,2016年法律事務所BakerHostetler宣布雇傭Ross Intelligence來處理破產訴訟實務。也許10年以后,人工智能輔助人類來處理案件會變得非常普遍。
醫療領域也是一個文本密集的行業。IBM公司的Watson醫療可以在短時間內記憶大量的信息,它通讀了200多份醫學期刊,200余種教材以及大量的病例,可以為疾病確診以及藥物選擇提供建議。
美國政府認為大數據是“未來的新石油”,將給未來的科技與經濟發展帶來深遠影響。大數據技術的飛速發展離不開一系列硬件和軟件設施的支持。云計算、云存儲等技術使大規模數據的存儲與運算成為可能,這也進一步促進了大數據領域的創業。陳運文介紹說,之前,互聯網企業的軟硬件維護成本非常高,創業企業需要投入大量的資金到軟件和硬件維護上,而云技術、云存儲技術可以減輕大數據領域創業者的資金壓力,大大降低創業的門檻。現在,1T字節的數據一年的存儲成本只需要幾百元。之前,由于數據的存儲成本較高,一些電商網站只記載交易數據,交易之前的瀏覽數據是不保存的。現在,隨著存儲成本的降低,很多這樣的數據被保留了下來,這些數據對商品的精準營銷非常重要。
達觀數據的發展很快,上線3個月后,公司已經與15家企業展開合作;成立1年之際,就獲得了國內多家知名投資機構的千萬級天使投資。2017年4月,達觀數據宣布完成了5 000萬元A輪融資。提到達觀數據為什么會有這么快的發展,陳運文表示,大數據領域的創業,人才和技術是最重要的。一定要找到合適的人才,如果找不到,陳運文就選擇有潛力的員工用心培養。達觀數據的新員工一入職,陳運文都會要求他們參加算法競賽,在比賽中打磨算法能力,增強自信同時養成思考的習慣。
陳運文說:“中國現在有良好的創業氛圍,機會也很多,只要找到創新的大數據商業模式,創業公司發展前景非常廣闊。在一個領域要有所成就,其實只需要做好兩件事,一件是技術,一件是服務。我國的很多企業缺少的不是技術,而是針對每個用戶定制的、滿足需求的服務。”