?
英國帝國理工學院、上海大學計算機學院 郭毅可大數據為科學創造價值

世界的數據化帶來了大數據時代的興起。數據科學(Data Science)作為一門研究數據的新興學科,旨在系統地學習數據的特性、結構以及相互作用并從中獲取相關的信息和知識。它結合了多個領域的理論和技術,包括應用數學、統計學、信息學中的模式識別、機器學習、信號處理、數據存儲與管理、可視化以及高性能計算等。
如今,數據科學已經滲入到包括生物科學、醫學信息、醫療衛生、社會科學、人文科學以及工程學之中,并深深影響著經濟、商業和金融業的發展。數據科學涉及到數據從采集、探索到分析、交流的整個生命周期,已經成為現代跨學科科學研究的核心。
通過大數據中分析,一是可以幫助人們做社會調查,二是能夠訓練新一代的數據科學家,三是發展大數據管理與分析技術,四是將技術轉化成工業產品,與工業界進行良好合作。
1.數據管理
數據管理主要包括兩個方面,一是融合,就是把不同的數據整合起來。二是分析,在大數據環境下,更重要的是把數據提取出來后進行分解,而不是簡單進行查詢。以往人們都是用90%的時間進行數據整理,10%的時間來進行分析。數據分析做好了,往往就成功了一半。數據整理工作非常復雜,但卻是非常重要的一項內容。
2.數據獲取
在數據獲取中,主要有兩個問題,一是使用各式各樣的傳感器,另一個就是數據交匯。數據進來之后,在數據加工過程中,要動態地獲取信息,目前所有的科學研究,都是信息驅動的。
帝國理工學院包括醫學院、理工院、商學院和工學院,這些學院也都是有數據的。
大數據不是單一的,是多學科交叉,其中與醫學的合作能切實有效地服務于大眾。人們都在談精準醫學,就是對它進行分子級的衡量,這所產生的數據量大,數據的采集和分析工作是非常復雜的。現在有許多手機軟件可以記錄用戶的每天生理數據,通過采集這些數據,用戶可以根據每天的數據進行對比,判斷自己每天的健康狀態。
大數據的生成需要各種儀器,所以物聯網、醫療基因測序等得以生成各種數據的儀器設備便風生水起。再如,對大數據這種“資源”進行處理,需要大規模使用計算機,“云計算”、智能終端的重要性得以凸顯,它們不僅處理數據,也同時輸送數據,繼而產生新數據。
如何用好這些數據?通過軟件,人們每天都可以了解自己的心跳等數據。但是僅僅知道心跳多少,并沒有什么意義。關鍵在于如何把這些數據變得有用起來,這就需要構造一個個人的生理模型。如果這一模型構造完成,就能代表人們的正常狀態,每天可以用數據來比對模型,如果不一致,就能了解到身體處于不正常狀態。
步入大數據時代,整個計算機科學的研究重點和使用方法都發生轉變——計算機更向“智”的方向發展。這也是為什么類腦計算機、人工智能會從過去的計算機科學的支流變成今天的主流。
大學擔負著培養人才的重任,近兩年來,隨著大數據不斷升溫,國內很多大學和研究機構也都忙著掛牌成立大數據研究機構。
英國帝國理工學院數據科學研究所成立于2014年4月。以數據科學基礎為科研方向, 數據科學研究所旨在發展數據科學和大數據背景下最前沿的理論、技術及系統。數據科學研究所為帝國理工的科學家和合作伙伴提供了以數據為驅動的跨學科研究支持, 并同時培養下一代數據科學家。目前,帝國理工數據科學研究院正在快速發展成為英國數據科學的一個重要研究中心,并與全球多所頂尖科研機構以及企業建立了緊密的合作關系。
帝國理工沒有設立信息科學的碩士課程,相反,學院將數據科學,融合到每一細分學科,并劃分為四個模塊,信息科學與數據信息基礎、分析與機器學習、大數據編程、規模數據管理。在這個四個模塊中,學生可以選擇其中三個模塊進行學習,等學習完之后,再與另外一個領域科學進行合作的時候,就能成為這一領域的數據科學家。
數據科學如果沒有領域科學作為支撐,那么就不會有數據產生,人們也就無從分析。因此,單純的數據科學是不適合的。只有大數據與領域科學合作,才能真正地為科學創造價值。不然,數據再大,也沒有任何意義!
(本文整理自英國帝國理工學院終身教授、上海大學計算機學院院長郭毅可在第四屆中國科研信息化發展研討會上的演講“ Big Data for Better Science ”)