李 屹,廖方圓,張宇光
(1.生態環境部環境發展中心,北京 100029;2.中國電子科技集團有限公司,北京100846 ;3.中國電子科技集團公司第三十研究所,四川 成都 610041)
《“十三五”生態環境保護規劃》專項針對生態環境監管明確提出,要加強生態環保信息系統建設,提高智慧環境管理技術水平。近年來,我國在水污染防治領域注重提升水污染治理工藝自動化、智能化技術水平,建立了水污染數據共享機制與產品服務業務體系,防污治污工作取得了一定進展。但是水資源管理和水環境保護的形勢仍然很嚴峻,水污染粗放式治理成本高、效率低等問題依然突出。現實環境保護工作中越來越多的信息業務系統依賴于水污染監測數據和水環境數據,對于數據的采集種類、采集頻率、處理效率等要求越來越高,然而數據處理工作的規范化和標準化相對滯后,開放式數據采集與精細化業務管理需求不匹配,業務系統封閉重復建設、數據處理自動化程度低使運維成本過高等一系列問題導致我國在水污染防治過程中的數據采集利用、信息化建設等方面與發達國家存在一定差距。因此亟需以城市水污染治理為重點,結合智慧城市建設進程,整合城市信息基礎設施資源,以物聯網應用為基礎建設大數據分析與云計算平臺,對水污染防治手段進行體系升級。
劉凱[1]等人結合成都市水環境業務需求和信息化基礎,提出了面向成都市的水環境信息化頂層和重點業務系統設計方案。張達敏[2]通過建立大數據采集、大數據匯聚和大數據應用三大模塊,構建了漳州生態環境網格化監測、監管、智慧與應用。李晨子[3]等人對京津冀地區水資源分布及水污染防治現狀進行了研究,提出京津冀水污染防治大數據技術應用的若干建議。史丹[4]等人基于大數據技術分析公眾關注度與政府治理污染投入的關系,提出建立健全我國生態環境監督和預警體系的建議。溫玉波[5]通過引入智能數字遙感多層分析技術,對海洋水質進行多維度監測分析。薛思怡[6]提出通過創建全區域監測體系、共享品牌、數據處理平臺、聯合使用新媒體和互聯網技術、構建空氣預報系統、動態分析污染演變等手段,促進環境污染防治管理。許小燕[7]提出了一種將環境保護與環境檢測進行融合的環境保護方案。朱逸凡[8]等人提出了基于船舶自動識別系統數據的船舶交通排放估算模型,并建立了2017年長江江蘇段船舶排放清單。黃堅[9]等人提出了基于大數據的環境污染源防治管理模型,并對數據監測、數據匯集、數據傳輸、數據處理、標準執行和決策應用等關鍵技術進行了研究。曹曼[10]提出了引入大數據思維來分析環境工程的發展趨勢。石峰[11]等人采用基于互聯網開放信息的大數據技術,對污染水體進行數據搜索和統計分析,得到全國重污染水體和黑臭水體的總體分布情況。林龐錕[12]提出了基于環境保護大數據的檢測和診斷方法。胡平昌[13]等人基于自然資源督察與環境污染治理工作相關時空信息數據,建立了環境污染督察時空信息數據庫,并以此研發環境污染督察平臺。譚宇翔[14]等人提出了一種基于業務中臺的河道綜合信息監管系統框架。蔡國禎[15]提出了基于云計算和大數據的生態環境信息化體系架構。劉寶玲[16]根據水污染事故風險需求,提出了根據風險的動態精細化管理模式的風險評價體系。陳少波[17]分析了大數據技術在水污染治理中應用的必要性,并對水污染治理運營中大數據技術的實際應用進行了研究。上述論述表明,國內學者在水污染防治領域已經開始關注和利用大數據技術,在關鍵處理環節采用大數據技術對水污染防治進行信息挖掘和輔助決策,但當前的研究主要著眼于利用大數據技術進行水污染防治單一環節的處理,缺少水污染防治全鏈條的大數據技術應用研究。
本文首先介紹大數據技術的相關概念和主要特點,結合水污染治理的基本需求,提出基于大數據的水污染治理體系,從基礎設施、數據采集、數據管理、數據挖掘和數據應用五大維度,對應用于水污染防治的大數據技術要點進行梳理和分析,最后對基于大數據的水污染治理體系的主要特點進行總結。
大數據是指數量龐大、結構復雜、在一定條件下無法采用常規工具軟件進行捕捉、管理和處理的數據集合。而大數據技術是大數據的應用技術,涵蓋針對數據的采集、預處理、儲存、管理、分析、挖掘以及呈現等一系列相關技術和基礎支撐技術。
大數據技術具有如下四個主要特點:一是數據體量大。通常大數據的體量可以達到PB級,傳統技術手段和處理能力難以應付。二是數據產生速度快。主要體現在數據采集點多、產生密度大,對系統的數據采集與處理性能要求高。三是數據多樣化。大數據時代數據的來源、格式不再單一,具有多源異構的特點。四是數據價值高。通過分析挖掘大數據背后隱藏的信息,可以發現事物的潛在特征和發展規律,為商業決策、政府治理等應用提供支撐,產生直接或間接的經濟、社會價值。
本文根據水污染防治的實際特點與需求,利用大數據技術的優勢,提出基于大數據技術的水污染治理體系,如圖1所示。該體系主要圍繞數據的產生、存儲、處理、呈現等過程,分別從基礎設施、數據采集、數據管理、數據挖掘、數據應用這五大方向進行大數據技術體系布局,通過對水資源進行多維度數據監測采集,匯聚挖掘數據背后隱藏的污染種類、趨勢等有價值的信息,實現污染事件的快速識別、跟蹤、處置,構建從傳感器到數據應用的水資源全面數字感知網絡,打造從數據采集到精準治污的有效處理平臺,為水資源全面數字化管控提供技術支撐。

圖1 面向水污染防治的大數據技術框架
基礎設施是指為水污染數字化治理提供服務的物質工程設施,包括傳感器、智能芯片、云平臺、采集設備、通信光纜、邊緣計算平臺、5G通信等,是基于大數據技術的水污染防治技術體系的基礎。上述基礎設施主要是為數據采集、傳輸、存儲提供硬件設施支撐。水污染數字化治理作為城市信息化建設的一部分,其基礎設施是城市信息基礎設施的重要內容,與其他城市信息化應用項目的基礎設施共建共享,在數據傳輸、存儲等方面可以使用公共信息基礎設施,無須重復建設。
數據采集主要是聯合城市氣象、水文等單位,通過傳感器自動采集、人工定點定時采集、資料聯查、網絡通信等方式,面向地表水、生活污水、地下水、城市供水、工業污水、降雨等水體,采集水質、流量、污染成分等重要指標,形成水污染防治的大數據,采集的數據類型包括表格、文本、圖片和視頻等,如表1所示。

表1 采集數據項及類型
數據管理是通過建立分級數據庫,存儲、管理和共享采集到的各類水體數據。數據管理要處理的信息包括水體復雜的空間數據信息和非空間數據信息、確定信息和不確定信息等。重點內容包含數據清洗、數據存儲、數據抽取、數據索引、標準管理、共享交換等。其中數據清洗是針對在數據采集過程中由于錄入錯誤、傳感器失效等原因所導致的數據錯亂問題,采用數據校驗、沖突檢查等手段,剔除采集數據中的無效項、殘缺項、錯誤項、重復沖突項,確保數據的準確性、完整性、一致性和唯一性。數據存儲主要針對水體監測數據數據量龐大、異構復雜等問題,采取分級建庫、數據融合等技術手段,對異構數據進行多級、匯聚和融合存儲。數據抽取與數據索引主要解決數據訪問性能低的問題,針對業務系統實際請求需要,在空間數據信息和非空間數據信息等多種類型的數據上進行處理。從存量數據庫中抽取特定格式的數據表,預先建立數據索引,滿足大量業務數據請求的訪問需求。共享交換主要解決數據多域共享交換的問題,通過建立數據權限管理、數據交換標準、數據審計等功能,實現數據跨域按需交換共享。標準管理是面向數據處理過程建立數據清洗、存儲、抽取等一系列標準化操作流程,實現數據標準化存儲與訪問。
水污染治理領域的數據管理工作較為復雜,處理的數據信息多種多樣,需要一些關鍵技術的支持。例如,污染源、水域和監測點的空間信息關系的組織和處理即是一個底層基礎問題。污染源、水域和監測點數量眾多,針對其空間數據信息的復雜性,我們引入高效的空間索引結構R樹(如圖2所示)來對相關的空間數據信息進行組織和處理。R樹是一種多級平衡樹,它是B樹在多維空間上的擴展。在R樹中存放的數據并不是原始數據,而是這些數據的最小邊界矩形,空間對象的最小外包矩形被包含于R樹的葉節點中。在二維空間數據集中,R樹中的各層節點以遞歸的方式對數據集空間進行劃分。R樹中每一個非葉節點本身代表數據集空間中的一個矩形,該矩形為其子節點所代表矩形的最小外包矩形。

圖2 空間對象和R樹結構示例
近鄰關系的查詢分析方法[18-20]在數據信息處理領域較為重要。圖3展示了利用近鄰查詢方法查詢的有關污染源和水域的近鄰關系。圖3中,受污染源q1影響最大的兩個水域分別為p1水域和p2水域,而受污染源q2影響最大的水域則為p3水域。
數據挖掘是從海量、結構復雜的實際水體采集數據中,利用機器學習、數據統計等大數據分析技術,提取水體數據中隱含的水體污染類型、污染趨勢、水體流量變化等信息,為基于大數據的水污染監測識別提供決策支撐。此外,除了對復雜的水體數據信息本身進行細致分析外,我們利用數據挖掘技術還可智能處理和分析不同污染源對水體的影響情況和影響趨勢,從整體角度分析污染源和水體的空間位置信息及演變規律,從而做出智能決策。具體的數據挖掘對象包含污染源和各水域的空間關系分析、污染影響范圍分析、趨勢預測、污染識別、污染溯源、水質建模、動力分析、污染數據可視化等。其中趨勢預測是根據當前水體污染各項監測數據生成污染綜合態勢,建立水體污染變化模型,預測將來一段時間內水污染的變化情況。污染識別是根據歷史水質監測的各項關鍵指標、水體監測視頻等數據,建立水體污染專家系統,開展深度學習模型訓練,對當前水質監測關鍵指標與監測視頻數據進行污染研判,確定水體污染類型與危害程度。污染溯源是根據當前水體污染信息、當地水文信息、企業工業排污數據,生活污水處理數據等相關數據,對當前跟蹤的污染事件進行追蹤溯源,判定污染來源及污染源地理位置。水質建模是通過各類水體監測的物理、化學、生物菌落等指標,利用統計分析技術,建立水體質量綜合分析模型,對水體污染范圍與程度進行綜合研判。動力分析主要是從水體動力學角度,綜合考慮城市排污、降雨、表面蒸發、截面監測數據等信息,建立水體截面動力模型,對水體污染流速、有害物質擴散等進行科學評估。

圖3 污染源對水域影響情況查詢示例
如聚類分析[21-23]等數據挖掘技術在水污染各類數據信息的智能分析和決策中具有較為重要的作用。針對眾多的數據處理和分析問題,我們在技術層面運用了聚類分析、關聯規則分析和分類分析等關鍵技術。其中,經典的K-means算法是我們經常運用的一個重要方法。
圖4展示了運用聚類方法分析污染源對水源的影響情況的示例,示例中水域分別被不同數量和不同位置分布的污染源所影響。圖4(a)中展現被8個污染源所影響的水域的聚類分析結果,圖4(b)中展現被6個污染源所影響的水域的聚類分析結果,圖4(c)中展現被3個污染源所影響的水域的聚類分析結果。先進的聚類分析方法還可用于對水體本身海量指標屬性數據信息的分析之中。
數據應用主要是面向城市水污染監測與治理的實際業務需求,基于統一的水污染數據采集、管理與挖掘,訂制水污染防治信息化處理系統。從應用功能上可以分為污水處理、河湖治理、飲水安全、精準供水等。通過與大數據技術的深度融合,可以優化業務系統的處理流程,提升當前業務系統的精確度和使用價值,改善水污染治理業務系統的使用體驗和效果。

圖4 污染源對水域影響情況聚類分析示例
本文提出的基于大數據技術的水污染防治體系主要有兩大特點。一是建立從傳感器到業務應用的全面數字感知。基于大數據技術的水污染防治體系,圍繞數據的產生、存儲、處理和利用過程,針對水體污染分層分級挖掘數據背后隱藏信息,對數據處理過程進行全面信息感知,最大限度地體現了大數據處理技術的信息提煉效果與價值發現能力。二是從水體監測到業務應用實現精準有效處理。本文提出的基于大數據技術的水污染防治體系,從水污染防治實際應用角度梳理凝練數據采集、存儲和處理需求,按照需求設計數據處理的各項環節,實現功能與需求的精準匹配,從而達到水體監測數據高效利用與水污染精準治理。
本文通過對大數據技術的應用特點進行分析,結合水污染防治的數據處理需求,提出一種基于大數據技術的水污染防治體系。該體系分別從基礎設施、數據采集、數據管理、數據挖掘和數據應用五大方向進行大數據技術布局,通過對水資源進行多維度數據監測采集,匯聚挖掘數據背后隱藏的污染種類、趨勢等有價值的信息,實現污染事件快速識別、跟蹤與處置,構建了從傳感器到數據應用的水資源全面數字感知網絡,打造從數據采集到精準治污的有效處理平臺,為水資源全面數字化管控提供技術支撐。
該技術體系有望應用于城市水體數據監測與處理應用系統開發中,能進一步提高水污染防治的數據采集與利用效率,提升水污染防治的效能,為保護綠水青山、建設美麗中國做出貢獻。如何將該技術與現有業務深入融合,實現技術落地應用將是下一步的研究方向。