劉麗香,張麗云,趙 芬,趙苗苗,趙海鳳,邵 蕊,徐 明
中國科學院地理科學與資源研究所,生態系統網絡觀測與模擬重點實驗室,北京 100101
生態環境大數據面臨的機遇與挑戰
劉麗香,張麗云,趙 芬,趙苗苗,趙海鳳,邵 蕊,徐 明*
中國科學院地理科學與資源研究所,生態系統網絡觀測與模擬重點實驗室,北京 100101
隨著大數據時代的到來和大數據技術的迅猛發展,生態環境大數據的建設和應用已初露端倪。為了全面推進生態環境大數據的建設和應用,綜述了生態環境大數據在解決生態環境問題中的機遇和優勢,并分析了生態環境大數據在應用中所面臨的挑戰。總結和概括了大數據的概念與特征,又結合生態環境領域的特點,分析了生態環境大數據的特殊性和復雜性。重點闡述了生態環境大數據在減緩環境污染、生態退化和氣候變化中的機遇,主要從數據存儲、處理、分析、解釋和展示等方面闡述生態環境大數據相較于傳統數據的優勢,通過這些優勢說明生態環境大數據將有助于全面提高生態環境治理的綜合決策水平。雖然生態環境大數據的應用前景廣闊,但也面臨著重重挑戰,在數據共享和開放、應用創新、數據管理、技術創新和落地、專業人才培養和資金投入等方面還存在著許多問題和困難。在以上分析的基礎上,提出了生態環境大數據未來的發展方向,包括各類生態環境數據的標準化、建設生態環境大數據存儲與處理分析平臺和推動國內外生態環境大數據平臺的對接。
大數據;生態環境大數據;生態環境問題;環境污染;生態退化;氣候變化
網絡信息技術與網絡通信技術的融合,極大地促進了互聯網、物聯網、云計算和智能傳感器的快速興起和發展,使得人類社會獲得的數據信息呈爆炸式增長,大數據時代正在悄然走來[1- 3]。大數據的價值主要體現在大數據的應用上,因為人們關心大數據,最終還是關心大數據的應用,關心如何從不同行業的業務需求和應用出發讓大數據真正實現其所蘊含的價值,從而為人們的生產生活帶來有益的改變[4- 6]。整體而言,全球的大數據應用處于發展初期,中國大數據應用才剛剛起步。目前,大數據應用在各行各業的發展呈現“階梯式”格局:互聯網行業是大數據應用的領跑者,金融、零售、電信、公共管理、醫療衛生等領域正積極嘗試大數據,而生態環境大數據應用則剛剛起步[4- 8]。
目前,大數據在生態環境領域的應用還僅限于生態環境領域的某個方面,如環保系統,缺少跨行業跨部門的應用,不能真正體現生態環境大數據作為一個整體的優勢[2, 5]。早在20世紀中葉,“大數據”的思想已在宏觀生態學方面得到體現,例如,被稱為大科學研究的國際地球物理年(1957—1958)和國際生物學計劃(IBP)(1964—1974),這些研究最后演變成現在的以長期定位觀測為基礎的國內外生態系統研究網絡,這些生態系統研究網絡系統地收集和存儲有關生態環境的海量觀測數據[9- 10]。另外,大數據在生物多樣性保護和農業方面也得到了一些應用,例如,很多國家和地區已經或正在建設生物多樣性信息管理系統[11];美國硅谷一家公司利用氣象數據與歷年農作物產量進行關聯分析,預測各地農場來年產量和適宜種植品種,并以個性化保險服務向農戶出售[4]。在環境領域,大數據在美國環境污染防治管理中得到了初步的應用[12]。2016年3月,我國環保部發布了《生態環境大數據建設總體方案》[13],為環保系統開展生態環境大數據建設提供了強有力的政策支持和技術框架,這也意味著大數據在我國環境領域的應用才剛剛起步。鑒于以上大數據在生態環境領域的應用現狀,本文闡述了生態環境大數據的獨有特點,梳理了大數據在解決生態環境問題中的優勢和機遇,總結了生態環境大數據建設所面臨的挑戰,并提出了生態環境大數據未來的發展方向,為生態環境大數據的發展和大規模應用提供依據。
雖然各國都在積極準備迎接大數據時代的到來,但國內外關于大數據的定義、內涵和標準還沒有達成統一認識。根據大家對大數據定義有著不同的側重點,可以將其分為三類:第一類定義主要突出“大”[4- 6],例如麥肯錫、IDC、亞馬遜、維基百科等給出的定義,“大”只是大數據的重要標志之一,但并不是全部[6]。第二類定義主要是突出其“作用”,認為大數據是在多樣或者大量數據中,迅速獲取信息的能力,與第一類只從數據本身出發不同,該類定義強調大數據的功能和作用[6]。第三類定義主要突出其“價值觀和方法論”,認為大數據是用嶄新的思維和技術對海量數據進行整合分析,從中發現新的知識和價值,帶來“大知識”、“大科技”、“大利潤”和“大發展”[7]。但隨著全球數據的飛速增長,除了包含傳統的結構化數據,還產生大量非結構化數據和半結構化數據,這就需要大量處理技術來處理這些不同結構的數據,并將它們應用在實踐中[4- 7]。因此,大數據不僅僅包含海量數據,還應包括各種大數據技術的集合和大數據在各領域的應用[6]。綜合以上信息,我們認為大數據是為決策問題提供服務的大數據集、大數據技術和大數據應用的總稱。
目前對大數據普遍認可的是其具有以下“5V”特點[4, 14]。第一,數據量巨大。通過各種設備產生的海量數據,規模龐大,數據量從TB級別跳躍到PB級別[4- 7]。第二,數據種類繁多。數據來源種類多樣化,不僅包括傳統結構化數據,還包括各種非結構化數據和半結構化數據,而且非結構化數據所占比例越來越高[4- 8]。第三,大數據的“快”,包括數據產生快和具備快速實時的數據處理能力兩個層面。第一層面是數據產生的快。目前有的數據是爆發式產生[4,14- 15],例如,歐洲核子研究中心的大型強子對撞機在工作狀態下每秒產生PB級的數據;有的數據是涓涓細流式產生,但是由于用戶眾多,短時間內產生的數據量依然非常龐大,例如,點擊流、日志、射頻識別數據、GPS(全球定位系統)位置信息[15]。第二層面是對數據快速、實時處理的能力高。大數據技術通過發展不同于傳統的快速處理的算法,對海量動態數據進行處理分析,使它們變為可使用的有價值數據。因此,大數據對實時處理有著較高的要求,數據的處理效率就決定著獲得信息的能力[4,14]。第四,數據價值密度低、應用價值高。大量不同數據集組成大數據集,這些數據集的價值密度的高低與數據集總量的大小成反比。在大數據應用中,數據量大的數據并不一定有很大的價值,不能被及時有效處理分析的數據也沒有很大的應用價值[4- 8]。第五,真實性低。隨著社交數據、企業內容、交易與應用數據等新數據源的興起,我們能獲得的數據源逐漸多樣化,這使得獲得的數據中有些具有模糊性[16]。真實性將促使人們利用數據融合和先進的數學方法進一步提升數據的質量,從而創造更高價值。例如,社交網絡中的視頻、語音、日志等獲得的原始數據真實性差,需要我們對其過濾和處理才能挑出有用的數據。
大數據在解決生態環境問題時形成了生態環境大數據獨一無二的特征。第一,生態環境大數據具有“空天地一體”的巨大數據量。從數據規模來看,生態環境數據體量大,數據量也已從TB級別躍升到PB級別。隨著各類傳感器、RFID 技術、衛星遙感、雷達和視頻感知等技術的發展,數據不僅來源于傳統人工監測數據,還包括航空、航天和地面數據,他們一起產生了海量生態環境數據。例如,2011年世界氣象中心就已經積累了229TB的數據[6];我國林業、交通、氣象和環保等數據量級也都達到了PB級別,而且還在以每年數百個TB的速度在增加[17- 19]。第二,生態環境大數據的類型、來源和格式具有復雜多樣性[20]。從數據種類來看,生態環境數據類型多,數據來源渠道廣,結構復雜。首先,生態環境數據來自于氣象、水利、國土、農業、林業、交通、社會經濟等不同部門的各種數據;其次,大數據技術的發展使得生態環境領域的研究不再局限于傳統結構化數據類型,使得各種半結構化和非結構化數據(文本、項目報告、照片、影像、聲音、視頻等)的應用與分析成為可能,例如,一段歷史電影視頻中關于氣候的描述;公眾移動手機拍攝的關于植物類別的圖片等;再次,來源于不同部門的同一種數據其格式多樣,目前無統一的標準規范,使得難以整合和合并不同部門之間的同類數據。第三,生態環境大數據需要動態新數據和歷史數據相結合處理[13]。從數據處理速度來看,由于生態系統結構與功能的動態變化而引起的生態環境數據具有強烈的時空異質性,生態環境數據多表現為流式數據特征,實時連續觀測尤為重要。只有實時處理分析這些動態新數據,并與已有歷史數據結合起來分析,才能挖掘出有用信息,為解決有關生態環境問題提供科學決策。第四,生態環境大數據具有很高的應用價值。從數據價值來看,生態環境大數據無疑具有巨大的潛在應用價值,利用大數據技術從海量數據中挖掘出最有用的信息,把低價值數據轉換為高價值數據,最終,高價值大數據為解決各種生態環境問題提供科學依據,從而改善人類生存環境和提高人們生活質量;第五,生態環境大數據具有很高的不確定性。從數據真實性來看,雖然應用于生態環境領域的各種傳感器監測精度都很高,正是因為這一點儀器往往會順帶記錄大量的周邊環境數據,而我們感興趣的數據可能會埋沒在大量數據中,因此,為了確保數據的精準度,需要利用大數據技術從海量數據中去偽存真,獲取真實數據[9]。
20世紀后半葉以來,隨著經濟的發展,全球生態環境問題日趨嚴重。目前全球生態環境問題突出表現在環境污染、氣候變化、土地退化、森林銳減、生物多樣性喪失以及水資源枯竭等方面[21]。這些問題往往涉及尺度大、過程復雜、驅動因素眾多,解決起來難度大。隨著大數據時代的到來,大數據為各種生態環境問題的解決提供了新的機遇。
3.1 大數據在解決環境污染中的優勢
隨著工業化、城市化、化學農業和機動化的高速發展,全球環境污染日益加劇,以大氣污染、水污染和土壤污染為主的三大污染引起的食品安全和人類健康問題嚴峻,直接威脅到人類的生命[22]。如何有效的治理這些污染,是各國政府及學者迫切需要解決的難題。然而,這些污染的產生受到多方面的影響,治理起來相當困難。首先,環境污染涉及的過程復雜,包括污染物排放的生物過程、污染物在承載體(大氣、水和土壤)中的物理和化學過程;其次,污染成因很多,主要包括工業三廢(廢水、廢氣和廢渣)、農業污染(肥料、農藥和農膜)、機動車尾氣排放、生活垃圾以及木材和煤等燃料燃燒;最后,影響污染因素多,因素之間存在相互重疊和交叉作用。因此,僅靠傳統單因素單獨治理污染不能解決根本問題,這就需要通過利用云計算、多元數據同化、多尺度數據耦合、時空分配和化學物種分配等大數據技術對各種環境污染及其相關的數據進行多因素融合分析,及時準確地發現各種污染的根源,分析不同污染過程中污染物的演變規律,了解各種主要污染物的“前世今生”,全面地獲得污染物的變化規律和傳輸過程,通過這些信息來區分環境污染的輕重緩急,統籌規劃治理方案,分步推進污染治理,既要綜合治理也要重點突破[5,12]。
另一方面,環境污染對人類影響具有滯后性,污染發生時很難感知和預料,但這些影響一旦產生就表示已經發展到相當嚴重的地步。因此,除了增強污染事后治理, 還需加強污染事前預防。當前環境污染很大程度上還只限于治理,很少采取預防措施,更缺少對重大環境污染事件的預報預測。目前,我國環境污染的預測預報主要是通過各種數據建立統計模型,但這些模型的參數缺少優化,預報預測準確性低[12]。例如,我國已經開發了一些污染物擴散預測模型,可由于缺乏這些污染物長期實時數據,不能對模型參數優化,使得預報預測的準確性低。大數據時代的到來,為提高我國環境污染預報預測帶來了機遇。隨著云計算、機器學習和人工智能等技術的不斷發展,使得建立基于認知計算的高精度環境污染預報系統成為可能。環保部門積累的環境污染應急管控經驗可以加入認知計算系統,使得應急管控變為常態管理,例如,可以將專家經驗加入認知計算系統中。認知計算整合優化各類模型,包括物理化學過程、氣象、交通和社交等,它們再通過海量數據進行交叉驗證,該算法使模型、數據和專家經驗以自動訓練、自我思考和自我學習的方式不斷積累,為可靠追溯污染源、高精準預報預測、精細預防和治理等決策提供科學支撐[12]。
3.2 大數據在改善生態退化中的優勢
隨著全球人口數量的增長和社會經濟的發展,生態系統退化越來越嚴重,已經成為全球嚴重的生態環境問題之一。當前全球生態退化主要表現在森林面積減少、土地退化、生物多樣性降低、水資源短缺等方面,這些退化引起了全球森林資源、水資源和土地資源的減少。生態退化除了造成巨大經濟損失,還嚴重威脅到人類健康和生命安全[21]。
首先,引起生態退化因素較多,主要包括亂砍濫伐、過度農墾、陡坡開墾、生境喪失、生物資源過度開發、水環境遭破壞、外來物種入侵、海洋的過度捕撈以及環境污染等[32- 34]。以上因素相互交織,協同作用,致使一種生態退化類型可能是另一種退化的原因,例如,森林面積減少可引起土地退化、生物多樣化減少、水資源短缺加重。另外,生態退化是一個復雜和綜合的動態過程,它涉及跨領域、跨學科、跨部門的各種生態環境數據,又與社會、經濟、文化和政策等領域密切相關;同時涉及土壤、農學、生態、環境和生物等學科的知識。過去幾十年,雖然各國政府也采取了一些措施治理生態退化,但由于生態退化所涉數據來源多樣、分布廣泛,內容龐雜、涉及部門眾多,而傳統技術不能系統地整理和分析這些數據集,也不能完全提純出數據背后的有價值信息,或者由于技術落后提煉出的信息為錯誤的,以這些錯誤的科學數據信息作為理論指導,使得政府的經濟政策和防治決策對生態退化沒用,甚至失誤[35]。目前,隨著大數據的蓬勃發展,人們可以利用傳感器技術和無線通信技術在數據獲取方面的優勢,系統地收集、整理和存儲各種與生態退化相關的數據,包括地面監測數據、遙感影像數據、社會經濟數據、科學研究數據、互聯網以網站、論壇、微博等方式發布的有關資源環境的相關信息,實現了生態環境數據的整合和充分利用,為生態系統的資源管理、生態環境的動態監測和生態環境評價提供多樣化、專業化和智能化的數據服務;利用分布式數據庫、云計算、人工智能、認知計算等技術在大數據處理方面的優勢,并結合大數據各種算法庫、模型庫和知識庫分析這些不同結構的數據,實現數據與模型的融合,挖掘隱藏在海量數據背后的各種信息[29- 30],通過這些信息既可以分析各種生態系統退化的過程和規律,也可以為決策者提供360度的數據信息,為治理和預防生態退化提供正確的科學決策。例如,使用Hadoop的分布式文件系統(HDFS)和分布式數據庫(MapReduce)對生態環境大數據進行批量處理;利用決策樹、貝葉斯、K-Means、嶺回歸模型、邏輯斯蒂模型、線性回歸模型、認知算法、關聯規則的Apriori算法等各種模型和算法對海量數據進行深度挖掘和關聯分析,通過各種數據的碰撞產生出有價值的信息。
3.3 大數據在減緩氣候變化中的優勢
近百年來,由于氣候自然波動和人類活動引起的溫室效應,地球氣候正經歷一次以全球變暖為主要特征的顯著變化。全球變暖導致了極端氣候出現頻率增加、厄爾尼諾現象加劇且影響范圍變大、冰川萎縮、內陸凍土加劇融化、沙漠化加劇、海平面上升和海水倒灌、水資源短缺加重、濕地面積減少和生物多樣性下降。例如,在2001—2010年,全球冰川平均質量年下降速度為0.54 m(相當于水當量)[36]。全球變暖除了引起全球氣候變化,還對農業、生態環境和人體健康產生了巨大的影響。大氣中溫室氣體濃度增加引起了大氣溫室效應增強,并最終導致了全球氣候變暖,溫室氣體主要包括CO2、CH4和N2O。為了減緩和預測全球變暖的速度,政府間氣候變化專門委員會(IPCC)編制了各種溫室氣體的排放源和吸收匯的全球清單,并預測了未來全球溫度的變化;各個國家也都根據本國實際擁有數據情況編制國家溫室氣體清單。但目前這些溫室氣體清單還都不是實時清單,都是溫室氣體排放和吸收的總量。這主要是因為缺少溫室氣體的實時監測數據和缺少處理海量數據的技術。在大數據時代,網絡信息技術和無線通信技術的融合,極大地促進了各種智能傳感器的快速興起和發展,使我們可以獲得溫室氣體、氣候等大量實時監測數據和與之相關的非結構化數據;基于云計算環境下,分布式數據存儲技術與傳統的關系型數據庫相結合可以解決海量數據的存儲和管理,例如,Hbase、Redis和Key-Value等大數據存儲技術[37- 40];同理,這些海量溫室氣體、氣候和其他相關數據的處理分析也需要各種模型和算法,但對于編制實時溫室氣體清單來說,最關鍵技術是怎樣在線和離線相結合對海量數據進行分析?離線靜態數據的大數據處理形式是批量處理,Hadoop是典型的批量數據處理系統[29- 30];在線數據的大數據處理形式包括實時流式處理和實時交互計算兩種,流式數據處理系統如Storm、Scribe和Flume等,交互式數據處理系統如Spark和Dremel。另外,利用大數據技術融合溫室氣體數據和氣候模型,預測未來溫度的變化速度,例如,人工智能和認知算法等大數據技術。通過編制實時溫室氣體清單和預測未來溫度變化幅度,可以為制定減排措施提供科學依據,同時也為人們的生活帶來方便。可以發現,生態環境問題彼此相互聯系,相互影響,相互制約。因此,治理和預防需要對區域甚至全球的生態環境情況進行全面分析,找到關鍵問題與關鍵區域,制定不同的解決方案與對策,通過對比分析找到最優解決途徑。利用大數據在數據采集、數據存儲、數據分析,以及數據解釋和展示等方面的優勢,有利于揭示生態環境問題的本質,并分析其背后的驅動因素及相互作用機制。在數據采集方面,通過建立高密度、全區域和多方位的監測網絡體系[8,12],配合文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等與生態環境相關的非結構化數據和半結構化數據的采集,共同形成生態環境大數據集。在數據存儲方面,NoSQL(Not only SQL)數據存儲包括分布式文件系統和分布式數據庫系統二種類型[26]。通過與大數據的NoSQL數據存儲管理技術相結合,克服傳統關系型數據庫經常由于采用分片技術而出現的存儲空間不夠、數據加載緩慢和排隊加載等問題[23- 25]。在數據分析方面,我國生態環境相關的數據大多是數據集成,供客戶端自行下載分析;而大數據分析卻能將統計分析、深度挖掘、機器學習和智能算法與云計算技術結合起來[27- 29],對空氣、土壤、水文、生物多樣性、氣候、人口和社會經濟等數據進行關聯性分析,這些分析結果可為管理者的決策提供科學支持。除此之外,在數據解釋和展示上,傳統數據顯示方式是用文本形式下載輸出,而大數據卻可以給用戶提供可視化結果分析[29- 30]。由此可見,只有大數據時代我們才能夠真正實現復雜生態環境問題的定量評估和精準決策,為加快我國生態文明建設和促進生態環保事業的發展提供科學依據和有效對策。
雖然大數據為解決各種生態環境問題提供了新的機遇,然而生態環境大數據的大規模應用才剛剛起步。生態環境大數據的真正實施在數據開放和共享、大數據處理技術、資金投入、專業人才、應用創新和數據管理等方面還面臨著諸多挑戰。
4.1 缺乏數據共享
生態環境大數據需要整合和集成政府多部門和社會多來源的數據(例如個人和企業等),只有不同類型的生態環境大數據相互連接、碰撞和共享,才能釋放生態環境大數據的價值。因此,要想挖掘隱藏在生態環境大數據背后的潛在價值,實現數據共享是關鍵,也是解決生態環境問題的前提和基礎。然而,實現數據共享還面臨巨大挑戰。首先,我國生態環境大數據包括氣象、水利、生態、國土、農業、林業、交通、社會經濟等其他部門的大數據,涉及多領域、多部門和多源數據,雖然目前這些部門已經建立了自己的數據平臺,但這些平臺之間互不連通,只是一個個的“數據孤島”[8, 12]。大部分數據只是公開,而非開放,即數據只是發布和公開,而無法下載和利用數據[12],僅限于“看”,而無法真正去“用”,很多生態環境數據還在檔案柜里“睡大覺”。其次,數據沒有規范化,數據存儲格式不一樣,即使在同一個行業,數據也是“一人一個模樣”,形成了“擁有者不一定覺得有用,看得懂、用得著的不一定能擁有”的局面。我國至今還有大量與生態環境相關的歷史資料還不是電子形式,由于缺乏有效的數字化技術和手段,早期積累的很多紙質檔案資料面臨破損與消失的風險,這些寶貴檔案資料的數字化也是一個較大的挑戰。另外,數據開放嚴重不足,主要表現在數據開放總量偏低,可機讀性差,大多為靜態數據,且集中在經濟發達、政府信息化基礎和IT產業發展好的城市。最后,生態環境數據的整合和脫敏也是一項重大挑戰,因為開放數據即任何人都能自由下載和利用機器可讀的數據格式,所以哪些數據可以公開,哪些數據敏感,需要脫敏等等,這些都是需要耗費巨大人力物力的工作。
4.2 缺乏技術創新和落地
在數據來源方面,生態環境大數據來源多種多樣,既包括各種“空天地”的監測和調查數據,也包含各種影像、聲音和視頻等非結構化數據,這些龐大的數據雜亂無章、參差不齊,如何將這些多源異構數據轉換成合適的格式和類型,并在存儲和處理之前對采集的數據進行去粗取精,并保留原有數據的語義以便后面分析,是生態環境大數據面對的一個技術挑戰。目前常用的是通過數據清洗和整理技術對其填補數據殘缺, 糾正數據錯誤, 去除數據冗余, 將所需的數據抽取出來進行有效集成, 并將數據轉換成要求的格式, 從而達到數據類型統一、數據格式一致、數據信息精練和數據存儲集中等要求[29- 30, 41]。例如,LSI公司開發了一款多核處理器可對數據進行實時分類,降低網絡流量。在數據存儲方面,當前生態環境大數據由于各種移動終端和網絡的視頻、文本、圖片、照片等非結構性數據流正在爆發性增長,未來存儲技術的效率對于提高大數據的價值至關重要,包括存儲的成本和性能。相比于傳統的物理機器存儲(包括單機文件和網絡文件系統),適用于生態環境大數據的分布式存儲系統提高數據的冗余性、可擴展性、容錯能力、低成本和并發讀寫能力。例如,LSI的閃存技術可以大大提升數據的應用速度。因此,需要不斷研發進行存儲技術創新,將操作便捷性的關系型數據庫和靈活性的非關系型數據庫融合,是未來技術創新的發展目標。在數據分析方面,目前Google的MapReduce系統、Yahoo的S4系統、Twitter的Storm系統、Pregel系統等分別從離線批量計算、實時計算、圖數據處理[37- 39],都是針對不同的計算場景建立了不同的計算平臺,管理運營成本很高,所以研發適合多種計算模型的通用架構是生態環境大數據建設和發展的急切需求。另外,數據分析已經從傳統的通過先驗知識人工建立數學模型到建立人工智能系統,通過人工智能和機器學習技術分析生態環境大數據是未來解決生態環境問題的關鍵手段。但對于他們的深度學習還需要大量工程和理論問題[42- 44],例如,基于深度神經網絡的機器學習,其模型的遷移適應能力以及大規模神經網絡的工程實現。眾所周知,工具、開源以及框架設施是大數據技術發展的方向,因此,當前大數據的技術創新形成了“互聯網公司原創——開源擴散——擴散制造商產品化——其他企業使用”的產業鏈格局。不過,要想實現生態環境大數據的技術和應用一體化發展,企業和政府部門必須拋棄“拿來主義”態度,只有加強對技術開源社區的貢獻,才能加強對技術的深入理解,也才能更好的發揮大數據在生態環境領域的應用[41]。同時,還要加強管理制度配套和工作人員能力提升等方面,實現技術落地[8]。
4.3 資金投入不足
目前,國內外對生態環境大數據的資金投入不足。缺乏大數據重大示范項目,大部分國家缺乏生態環境監測設備、計算機資源和數據資源等基礎設施的投入,包括網絡服務器、數據處理和存儲系統、數據倉庫系統、云計算平臺等。同時也缺乏對生態環境大數據拓展融資渠道, 缺少地方政府、工商企業和有實力、有需求的生產經營主體參與大數據融資。還沒有成熟的大數據產業推廣模式。
4.4 缺乏大數據專業人才
大數據時代的到來,對各國現有教育體系提出了全新的挑戰。大數據時代需要大量的復合型人才,尤其是生態環境大數據涉及的學科眾多,既需要計算機、通訊等工程技術,也需要數學、統計、人工智能等模型技術,更需要生態、環境、氣象、水文、土壤等專業知識。當前許多地區的教育體系不符合未來生態環境大數據發展的戰略需要,尤其是現有的高等教育體系學科分類明確,獨立性比較強,缺乏學科之間的交叉融合。很多地方還沒有開設大數據相關的專業和課程,也缺少大數據環境監測、生態信息學和環境信息學等方面人才培養。
4.5 應用活力不足
我國生態環境大數據的創新應用還很有限,大數據的威力遠遠未能發揮出來,政府綜合運用生態環境大數據的能力較低,沒有形成成熟的生態環境大數據產業鏈和有影響力的數據企業。生態環境大數據在氣象、水利、國土、農業、林業、交通、社會經濟等各部門的應用才剛剛起步,跨領域的應用寥寥無幾。如何促進大數據在生態環境領域中的應用創新,使大數據真正成為提高生態環境監管能力現代化的有力手段,是目前世界各國正在探索的課題。
4.6 缺乏數據管理
2015年9月5日,國務院公開發布《國務院關于印發促進大數據發展行動綱要的通知》(以下簡稱《綱要》)。《綱要》系統部署了大數據各項工作,并指出大數據已成為提升政府治理能力的新途徑。2016年3月,環保部剛剛發布了《生態環境大數據建設總體方案》,為環保系統開展生態環境大數據建設提供了強有力的政策支持和技術框架。在大數據時代,我國政府嚴重缺乏對數據的管理,同時在利用大數據治理生態環境問題的方式上也面臨嚴峻挑戰。
首先,政府生態環境領域職能部門缺乏“大數據”思維和意識。我國已經數字化的生態環境數據資源數量和質量都表現出“雙低”狀態,例如,很多紙質檔案資料面臨破損與消失的風險,如氣象資料。有些政府部門不知道自己有什么數據,自己甚至沒有“數據清單”。另外,生態環境大數據目前還沒有形成統一標準的數據格式,地方和各個系統都在制定自己的數據標準,目前急需對數據格式進行統一的標準規范,這是實現數據共享和開放的關鍵[8,12,20]。
其次,政府的現代管理理念和運作方式不適應“大數據”管理決策的要求。生態環境大數據開發的根本目的是以數據分析為基礎,幫助政府在解決生態環境問題的過程中作出明智的決策。因此,要改善我們政府的管理模式,需要管理方式和整體結構與大數據技術工具相適配[8,12]。例如,在應急管理的事前準備、事中響應和事后救援與恢復的每一階段都可以引入大數據的應用,每個階段對大數據的應用程度也會因其需要應對內容的不同而有所差別。如果各個部門不能改變管理模式和協同配合,常造成人為的損害。例如,最近我國南方遭遇的臺風和強降雨事件,如果人們利用大數據的思維去管理,可以通過收集地面氣象站和衛星的溫度、風速和降雨量的小時數據,對臺風和降雨進行預測時空分布,可以事前疏散大眾,挽救國家和人民財產及生命。
最后,生態環境大數據面臨嚴重安全隱患。大數據的安全主要包括大數據自身安全和大數據技術安全[45],大數據自身安全指在數據采集、存儲、挖掘、分析和應用過程中的安全,在這些計算和存儲過程中由于黑客外部網絡攻擊和人為操作不當造成數據信息泄露,外部攻擊包括對靜態數據和動態數據的數據傳輸攻擊、數據內容攻擊、數據管理和網絡物理攻擊[46- 49]。例如,很多野外生態環境監測的海量數據需要網絡傳輸,這就加大了網絡攻擊的風險,如果涉及到軍用的一些生態環境數據,本來人們可以國內共享,但如果被黑客獲得這些數據,就可能推測到我國軍方的一些信息,后果不堪設想。大數據技術安全是利用大數據技術解決信息系統安全的問題[45- 48],即黑客利用大數據技術對生態大數據進行攻擊,輕松獲得很多涉及國家機密和比較敏感的生態環境領域的數據。隨著云計算技術的發展,數據在云端的存儲存在嚴重的安全隱患。例如,美國“棱鏡門”事件,美國政府就是通過云計算和大數據技術收集大量數據也包括各國生態環境敏感數據。因此,我國未來應加強生態環境大數據安全技術研發、生態環境大數據信息安全體系的建設和管理等方面。
本文對生態環境大數據在解決生態環境問題中所面臨的優勢和挑戰進行了系統的梳理和概括總結。與傳統生態環境數據庫相比,生態環境大數據不僅僅是各類生態環境數據的集成,它是對各種生態環境數據進行了深入分析并與其他相關數據進行關聯分析后的數據產品,同時生態環境大數據還能對未來生態環境存在的重大風險進行預測預報,并給管理者提供科學的決策。在數據獲得方面,除了政府部門的數據外,生態環境大數據也包含各類市場主體、社會組織、科研教育機構等各類團體與個人所擁有的大量與生態環境相關的數據。在數據存儲和處理方面,利用各種大數據技術與傳統技術相結合處理生態環境的靜態、實時和圖的海量數據。在數據分析和挖掘方面,借助算法庫、模型庫、云計算、人工智能、知識庫對生態環境大數據進行深度挖掘、認知計算、關聯分析、趨勢分析、空間分析等各類信息挖掘,實現數據與模型的融合,開發新的數據產品提升大數據的應用價值。在數據解釋上,生態環境大數據可以提供給用戶可視化大數據挖掘展示。今后要不斷加強大數據技術研發、加強資金投入、加強復合型人才培養、加強數據開放共享和加強生態環境大數據管理等方面,最終實現生態環境決策管理定量化、精細化,生態環境信息服務多樣化、專業化和智能化,為我國社會經濟可持續發展和生態文明建設奠定基礎。
此外,鑒于大數據在解決生態環境問題中面臨的機遇和挑戰,借助云計算、人工智能及模型模擬等大數據分析技術,生態環境大數據未來迫切需要開展以下研究。(1)對各種生態環境數據進行數據標準化處理。由多個部門組成專門機構調研決定數據的技術規范與標準,搜集、整理、加工已有各個部門歷史生態環境數據,實現各部門生態環境數據資料的集成。(2)依托現代數據存儲與處理分析技術,構建生態環境大數據存儲與處理分析平臺,實現生態環境大數據的查詢、更新和維護、備份等功能,在此基礎上,對生態環境數據進行集成分析和信息提取。(3)推動生態環境大數據與國內外同類數據平臺的對接。推動生態環境大數據與農業農村大數據、工業和新興產業大數據、以及醫療健康和交通旅游服務大數據等大數據平臺的對接,探索各相關部門數據融合和協同創新應用,實現現代農業可持續發展、減少工業污染及碳排放、流行性疾病的預防以及重點景區生態環境保護、風險預警等;加強國際交流,使我國生態環境大數據分析技術與國際接軌;為解決跨國界跨區域的全球性生態環境問題提供科學依據。
[1] Nature. Big Data. [2014-08- 23]. http://www.nature.com/news/specials/bigdata/index.html.
[2] Jonathan T O, Gerald A M. Special online collection: dealing with data. Science, 2011, 331(6018): 639-806.
[3] 方巍, 鄭玉, 徐江. 大數據: 概念、技術及應用研究綜述. 南京信息工程大學學報, 2014, 6(5): 405- 419.
[4] 常杪, 馮雁, 郭培坤, 解惠婷, 王世汶. 環境大數據概念、特征及在環境管理中的應用. 中國環境管理, 2015, 7(6): 26- 30.
[5] 趙國棟, 易歡歡, 糜萬軍, 鄂維南. 大數據時代的歷史機遇——產業變革與數據科學. 北京: 清華大學出版社, 2013.
[6] NIMET, Nigeria climate review bulletin (2011). http://www.nimetng.org/uploads/publication/NIMET%20climate%20review%20PDF%202011%20(1).pdf
[7] 徐子沛. 大數據. 桂林: 廣西師范大學出版社, 2012.
[8] 程春明, 李蔚, 宋旭. 生態環境大數據建設的思考. 中國環境管理, 2015, 7(6): 9- 13.
[9] 傅伯杰, 劉宇. 國際生態系統觀測研究計劃及啟示. 地理科學進展, 2014, 33(7): 893- 902.
[10] 傅伯杰, 牛棟, 于貴瑞. 生態系統觀測研究網絡在地球系統科學中的作用. 地理科學進展, 2007, 26(1): 1- 16.
[11] 戴小廷. 近二十年來生物多樣性信息系統的研究進展. 信息技術, 2012, (6): 55- 59.
[12] 詹志明, 尹文君. 環保大數據及其在環境污染防治管理創新中的應用. 環境保護, 2016, 44(6): 44- 48.
[13] 環境保護部辦公廳. 關于印發《生態環境大數據建設總體方案》的通知. (2016-03-08)[2016-03- 14]. http://www.mep.gov.cn/gkml/hbb/bgt/201603/t20160311_332712.htm.
[14] 陶雪嬌, 胡曉峰, 劉洋. 大數據研究綜述. 系統仿真學報, 2013, 25(S1): 142- 146.
[15] Wugansha. 大數據漫談之四: Velocity--天下武功, 唯快不破. (2013-05- 28)[2013-05- 29]. http://www.huxiu.com/article/15106/1.html.
[16] 孫忠富, 杜克明, 鄭飛翔, 尹首一. 大數據在智慧農業中研究與應用展望. 中國農業科技導報, 2013, 15(6): 63- 71.
[17] 國家林業局. 中國林業大數據中心已躍升至PB級. (2016-02- 19)[2016-02- 22]. http://www.forestry.gov.cn/main/195/content- 844759.html.
[18] 中國存儲網. 交通大數據時代需解決的問題分析. (2014-05- 14)[2014-05- 23]. http://www.chinastor.com/a/dashuju/05143a22014.html.
[19] 中國氣象報. 氣象大數據時代真的到了嗎?(2014-05-06)[2014-05-07]. http://www.cma.gov.cn/2011xwzx/2011xqxxw/2011xqxyw/201405/t20140506_245247.html.
[20] 吳班, 程春明. 生態環境大數據應用探析. 環境保護, 2016, 44(3): 87- 89.
[21] 楊晨曦. 全球環境治理的結構與過程研究[D]. 長春: 吉林大學, 2013.
[22] 茅銘晨, 黃金印. 環境污染與公共服務對健康支出的影響——基于中國省際面板數據的門檻分析. 財經論叢: 浙江財經學院學報, 2016, (1): 97- 104.
[23] Cattell R. Scalable SQL and NoSQL data stores. SIGMOD Reccrd, 2011, 39(10): 12- 27.
[24] Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters. Communications of the ACM, 2008, 51: 107- 113.
[25] Meijer E. The world according to LINQ. Communications of the ACM, 2011, 54(10): 45- 51.
[26] Ghemawat S, Gobio H, Leung S T. The Google file system//Proceedings of the 19th ACM Symposium on Operating Systems Principles. New York, NY, USA: Bolton Landing, 2003, 29- 43.
[27] Hey T, Tansley S, Tolle K. The Fourth Paradigm: Data-Intensive Scientic Discovery.Bangalore:Microsoft Research,2009.
[28] Neumeyer L, Robbins B, Kesari A, Nair A. S4: distributed stream computing platform//Proceedings of 2010 IEEE International Conference on Data Mining Workshops. Sydney: IEEE, 2010: 170- 177.
[29] 李學龍, 龔海剛. 大數據系統綜述. 中國科學: 信息科學, 2015, 45(1): 1- 44.
[30] 程學旗, 靳小龍, 王元卓, 郭嘉豐,張鐵贏,李國杰. 大數據系統和分析技術綜述. 軟件學報, 2014, 25(9): 1889- 1908.
[31] 洪國偉. 論生物多樣性減少的原因及其保護策略. 安徽農學通報, 2010, 16(2): 47- 49.
[32] 石虹. 淺談全球水資源態勢和中國水資源環境問題. 水土保持研究, 2002, 9(1): 145- 150.
[33] 駱永明. 中國土壤環境污染態勢及預防、控制和修復策略. 環境污染與防治, 2009, 31(12): 27- 31.
[34] 包曉斌. 防治生態系統退化的對策研究.環境保護, 2012, (20): 48- 50.
[35] Zemp M, Frey H, G?rtner-Roer I, Nussbaumer S U, Hoelzle M, Paul F, Haeberli W, Denzinger F, Ahlstr?m A P, Anderson B, Bajracharya S, Baroni C, Braun L N, Cáceres B E, Casassa G, Cobos G, Dávila L R, Delgado G H, Demuth M N, Espizua L, Fischer A, Fujita K, Gadek B, Ghazanfar A, Hagen J O, Holmlund P, Karimi N, Li ZQ, Pelto M, Pitte P, Popovnin V V, Portocarrero C A, Prinz R, Sangewar C V, Severskiy I, Sigursson O, Soruco A, Usubaliev R, Vincent C. Historically unprecedented global glacier decline in the early 21st century. Journal of Glaciology, 2015, 61(228): 745- 762.
[36] Hinton G, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527- 1554.
[37] Bengio Y, Lamblin P, Popovici D, Larochelle H, Montreal U. Greedy layer-wise training of deep networks//Plat JC, Koller D, Singer Y,Roweis S T, Eds. Advances in Neural Information Processing Systems19:Proceedings of the 2006 Conference. Cambridge: MIT Press,2007, 19: 153- 160.
[38] Dahl GE, Yu D, Deng L, Acero A. Context-Dependent pre-trained deep neural networks for large-vocabulary speech recognition. IEEE Trans actionson Audio, Speech, and Language Processing, 2012, 20(1): 30- 42.
[39] Krizhevsky A, Sutskever I, Hinton GE. Imagenet classification with deep convolutional neural networks//Pereira F, Burges C J C, Bottou L, Weinberger K Q, eds. Advances in Neural Information Processing Systems 25e. Cambridge: MIT Press, 2012:1097- 1105.
[40] 劉智慧, 張泉靈. 大數據技術研究綜述. 浙江大學學報: 工學版, 2014, 48(6): 957- 972.
[41] Hinton G E. Learning multiple layers of representation. Trends in Cognitive Sciences, 2007, 11(10): 428- 434.
[42] Baah G K, Gray A, Harrold M J. On-line anomaly detection of deployed software: a statistical machine learning approach//Proceedings of the 3rd International Workshop on Software Quality Assurance.Portland: ACM, 2006:70- 77.
[43] Moeng M, Melhem R. Applying statistical machine learning to multicore voltage & frequency scaling//Proceedings of the 7th ACM International Conference on Computing Frontiers.Bertinoro:ACM, 2010: 277- 286.
[44] 陳左寧, 王廣益, 胡蘇太, 韋海亮. 大數據安全與自主可控. 科學通報, 2015, 60(5/6): 427- 432.
[45] 趙岑, 李夢然, 金日峰. 大數據時代關于隱私的思考. 科學通報, 2015, 60(5/6): 450- 452.
[46] 楊曦, Gul J, 羅平. 云時代下的大數據安全技術. 中興通訊技術, 2016, 22(1): 14- 18.
[47] 王世偉. 論大數據時代信息安全的新特點與新要求. 圖書情報工作, 2016, 60(6): 5- 14.
[48] 馮偉. 大數據時代面臨的信息安全機遇和挑戰. 中國科技投資, 2012, (34): 49- 53.
The opportunities and challenges presented by ecological environment big data
LIU Lixiang, ZHANG Liyun, ZHAO Fen, ZHAO Miaomiao, ZHAO Haifeng, SHAO Rui, XU Ming*
KeyLaboratoryofEcosystemNetworkObservationandModeling,InstituteofGeographicSciencesandNaturalResourcesResearch,ChineseAcademyofSciences,Beijing100101,China
With the arrival of the era of big data and the rapid development of big data technology, the construction and application of ecological environment big data have been initiated. To comprehensively promote the construction and application of ecological environment big data, we summarize in the present paper the opportunities and advantages presented by ecological environment big data in terms of solving ecological environment problems, and analyze the challenges faced regarding the application of ecological environment big data. We review the concept and basic features of big data and present the particularity and complexity of the characteristics of ecological environment big data,taking into consideration the characteristics of the ecological environment. Subsequently, we primarily analyze the opportunities presented by ecological environment big data in mitigating environmental pollution, ecological degradation, and climate change from the aspects of data storage, data processing, data analysis, data interpretation, and presentation, and compare these with the use of traditional ecological environment data. The advantages of ecological environment big data indicate that this type of data can help us to improve the comprehensive decision-making level of ecological environment management. Although prospects for the applications of ecological environment big data in China are promising, there exist potential difficulties and challenges, such as data sharing, dataassessing, data application innovation, data management, technological innovation and launch, professional personnel training, and capital investment. Finally, we propose the following three priority areas concerning ecological environment big data based on our thorough review: (1) standardization of all types of ecological environment data; (2) building the storage, processing, and analysis platforms of ecological environment big data storage and processing analysis; (3) pushing forward the docking of ecological environment big data at home and abroad.
big data; ecological environment big data; ecological environment problems; environmental pollution; ecological degradation; climate change
國家重點基礎研究發展規劃(973)項目(2012CB417103);青海省2013年科技促進新農村建設計劃項目(2013-N- 556);四川省林業廳項目(2009-204)
2016- 04- 21; 網絡出版日期:2017- 03- 02
10.5846/stxb201604210748
*通訊作者Corresponding author.E-mail: mingxu@igsnrr.ac.cn
劉麗香,張麗云,趙芬,趙苗苗,趙海鳳,邵蕊,徐明.生態環境大數據面臨的機遇與挑戰.生態學報,2017,37(14):4896- 4904.
Liu L X, Zhang L Y, Zhao F, Zhao M M, Zhao H F, Shao R, Xu M.The opportunities and challenges presented by ecological environment big data.Acta Ecologica Sinica,2017,37(14):4896- 4904.