大數據與科研信息化的關系

閻保平中國科學院計算機網絡信息中心研究員,總工程師
大數據與科研信息化的關系,在四個方面問題上值得探討。第一,在信息化社會里,科研信息化本質就是數據驅動的科學研究。第二,信息化的整個科研活動,呈現的是以科學數據為生命周期的過程,包含了從數據的采集、數據的傳輸、數據的存儲,以及數據的分析計算,到最終的數據的可視化展示等等過程。這個過程是周而復始不斷深化的過程,涉及到大量的信息技術問題。第三,以前的科學家們在科研現場做研究,現在則通過大量的數據獲取來分析數據,最后分析數據呈現的形態。
在國家發改委“下一代互聯網項目”的支持下,中科院計算機網絡信息中心的e-Science團隊與中科院蘭州寒區旱區研究所科學家們合作,建立了中國第二大內陸河——黑河流域的上游、中游、下游的生態監測系統,僅2013年8 月份一個月就收集了3.4 萬億條數據,這在以前是不可想象的。如何處理和分析這些數據?如何通過這些數據看科學問題?因此,數據的可視化和數據的分析、展示成為一個重要的方面。
第四,隨著大數據技術的發展,信息科學和其它學科的交叉與融合,導致新的學科——“數據科學”的提出。數據科學是一種新的數據計算理論體系,既涉及到傳統的統計學理論和方法,又包含了計算機信息處理技術與方法,如數據的處理、數據的存儲、數據的挖掘、數據的分析、數據的展示等等。數據科學作為近年來倍受關注的熱點學科,不僅可成為解決當代科學研究中面臨的大數據困惑的基礎理論、方法和手段,而且在科研信息化的深入實踐中逐步建立起更加完善的數據科學學科體系。
我們正在面臨來自科研人員和應用需求的重大挑戰和考驗,如何用數據幫助科學家從事科學研究。早在青海湖科研信息化應用項目中,IT同事曾戲言:我們跑野外,科學家們可在屋里敲鍵盤。近兩三年,我們的科研信息化工作已擴展到若干國家級自然保護區。如,鄱陽湖生態保護,臥龍生態保護區,呼倫貝爾的達賚湖生態保護,以及三江源自然生態保護區,昆明動物所的無量山黑冠長臂猿監測等。青海湖的模式和方式已經成熟,因此,其他保護區接受起來非常容易。對科研信息化的需求,不僅僅是科技界的需求,也是很多保護區在一線工作的需求,能夠幫助推動生態的保護,生態的科研和生物多樣性的工作。
在此過程中,推進科研信息化在野外臺站、保護區工作,很重要的一個轉變就是自身的轉變,用需求來推動我們的工作,用數據來幫助科學家們,助力保護區做好生態的保護和科研工作。
(本文整理自閻保平研究員在“第三屆中國科研信息化發展研討會”上的演講)
世界各國在高速網絡的研發方面成績卓著,數據傳輸能力和傳輸速度大幅提升。同時,各國還在不斷增加投入,以便將網絡的傳輸能力提升到新的高度。
2012 年5 月,歐洲Infinera 公司和Imtech 公司贏得了歐洲科研網絡運營商DANTE 為期四年的訂單,將在泛歐科研教育網(GéANT)中部署先進傳輸設備和轉換平臺,全面升級長達5 萬公里的GéANT骨干網,支持GéANT核心網絡實現最高達2 Tbps 的傳輸能力,使歐洲4000 萬科研人員和數百萬學生從中受益。在不久的將來,太比特(Tbps)網絡有望得到全面部署。
美國政府則投資了6200 萬美元啟動“先進網絡計劃(AdvancedNetworking Intiative,ANI)”,擬建設100 Gbps 網絡來支持大數據傳輸。ANI 計劃的核心是由美國能源部“能源科學網”(ESnet)和Internet2 協會合作研制的,目前連接著美國“國家能源研究計算中心”、“阿貢領先計算中心”和“橡樹嶺領先計算中心”的100 Gbps測試網絡。
美國鹽湖城舉行的2012 年全球超級計算大會上,由美國、加拿大的物理學家、計算機科學家和網絡工程師領導的國際研究團隊創造了339 Gbps 的網絡數據傳輸記錄。
此外,科學家們還在加拿大維多利亞市與美國鹽湖城之間的一條單鏈路上實現了187 Gbps 的雙向數據傳輸速率,同樣打破了世界紀錄。這些成果為數據密集型科學的發展鋪平了道路。
(來自中國科研信息化藍皮書2013)

未來五年韓國將投入85億美元研究開發ICT十大技術
韓國未來創造科學部近期表示,政府已制定“ICT研發中長期戰略”(ICT WAVE),未來五年間將投入85億美元重點研發ICT十大技術,創造18萬個工作崗位和77億美元的附加值,實現129億美元的生產效果。
研發投入重點領域涉及數字內容、平臺、網絡、設備終端和信息保護五個領域。下設十大重點推進項目,分別是全息照片(hologram)、數字內容2.0、大數據云服務、智能軟件、物聯網、第五代移動通信、智能網絡、感知手機終端、智能型ICT融合模塊和網絡攻擊應對技術等。
(來自korea.net)