伯鑫,唐千紅,王駿,王成鑫,4,朱榮杰,5,王彤,李涵
(1.生態環境部環境工程評估中心,北京100012;2.中國氣象局公共氣象服務中心,北京10081;3.天氣科技(北京)有限公司,北京100081;4.四川大學建筑與環境學院,四川成都610065;5.天津大學環境科學與工程學院,天津300354;6.陜西省環境調查評估中心,陜西西安710000;7.重慶市生態環境工程評估中心,重慶401121)
2019年,生態環境部發布《建設項目環境影響報告書(表)編制監督管理辦法》[1],要求對全國環評文件開展技術復核工作,并規定“鼓勵利用大數據手段開展復核工作”。2020年,生態環境部發布《關于嚴懲弄虛作假提高環評質量的意見》[2],提出“生態環境部推進大數據在線自動查重,對各地審批的環評文件及時開展智能校核”。2020年,我國公布了《中華人民共和國刑法修正案(十一)(草案二次審議稿)》[3],明確提出環境影響評價機構及相關人員的造假行為“入刑”,進一步強化了環評造假行為懲罰力度。
針對環評報告大氣環境影響預測章節,本研究團隊結合《環境影響評價技術導則大氣環境》等要求,已開展了大量技術復核工作[4~6],發現一些環評單位在空氣質量模型參數設置、數據處理方面存在一些錯誤問題,例如篡改氣象數據、錯誤使用氣象數據等。
大氣環境影響技術復核工作主要審查氣象、地形、污染源、坐標投影、地表參數、模型輸入及輸出文件等[7~8],輸入模型的氣象文件格式主要是SFC格式文件(AERMOD模型)、MET格式 文 件(ADMS模 型)、DAT格 式 文 件(CALPUFF模型)等,氣象要素包括風速、風向、云量、溫度、降水、云底高度、相對濕度等,時間分辨率為1h。但由于氣象數據存儲量大,氣象要素的技術復核以人工審查為主,較為繁瑣,難以實現復核的自動化、智能化應用。目前,國內氣象數據主要應用于公眾服務、交通、旅游、農業、水利等領域[9],尚未應用于環評技術復核業務。
針對上述問題,本研究以中國氣象局實時監測、質控、發布的權威氣象數據為基礎,建立了一套基于氣象大數據的環評技術復核原型系統,依托機器學習和大數據分析技術,通過云端服務方式對環評業務使用的氣象數據進行智能化、自動化復核,旨在為環評業務的監督管理提供技術支持。
本研究團隊總結了環評氣象復核的工作難點:(1)氣象數據存儲量大,通過人工方式逐條復核耗時長、易出錯。(2)針對氣象數據的弄虛作假行為較為隱蔽,如通過篡改少數時段的氣象數據來實現模擬濃度達標。(3)復核人員需要掌握一定氣象專業知識,否則難以滿足地方復核業務化需求。
本研究建立了基于氣象大數據的環評技術復核原型系統(以下簡稱原型系統),依托機器學習和大數據分析技術開展環評氣象復核工作,快速識別環評氣象數據中存在的弄虛作假行為,降低復核審查成本,有效提升監督管理效率。該系統主要分為以下幾個模塊(圖1)。

圖1 基于氣象大數據的環評技術復核原型系統技術路線圖
1.1.1 氣象大數據平臺
氣象大數據平臺存儲了自1949年以來經過中國氣象局實時監測、質控和發布的各類權威數據集。這些數據包含全國2400多個國家級地面氣象觀測站、6萬多個區域自動氣象站、近200部天氣雷達、2000多個土壤水分觀測站、1000多個交通氣象觀測站、300多個雷電觀測站、120個探空氣象觀測站、7顆在軌風云衛星的氣象監測數據等。每年新增數據存儲量600TB左右,涵蓋降水、溫度、風力風向等30余種氣象要素,并均已實現觀測自動化,觀測頻率達到分鐘級,平均氣象觀測站間距20公里,鄉鎮覆蓋率達到98%。
氣象大數據平臺作為環評技術復核原型系統的基礎支撐,可支持對任何種類、任意氣象要素、任意空間范圍、任意時間范圍、任意精度的環評氣象數據比對分析,能夠有效滿足不同環評業務的氣象數據審查場景,實現“一站式”復核。
1.1.2 環評氣象數據預處理模塊
環評氣象數據預處理模塊用于對上傳的環評氣象文件進行大數據分析前的預處理。由于環評業務中不同環境空氣質量模型對輸入的氣象數據文件在數據結構、特征值、數據處理方式等方面有不同的要求,因此,通過脫密脫敏、坐標轉換、格式轉換、特征值轉換、異常值檢測、數據質量控制和可用性檢測等多個預處理流程,可以將不同種類的環評氣象文件處理為標準的、統一的、結構化的氣象數據文件,進而輸入大數據分析模型進行分析評分。
1.1.3 基于機器學習的大數據分析模塊
大數據分析模塊承擔著對輸入的環評氣象數據文件進行比對分析和評分的工作。大數據分析模塊在接收到環評氣象數據后,將從氣象大數據平臺中獲取對應種類、氣象要素、空間范圍、時間范圍、時空精度的權威數據,并對兩類數據進行初步的比對和殘差運算。
然后對兩類數據的殘差進行特征提取,進而采用多種方法開展多維度的統計分析工作,如時序分析、統計分析、聚合分析、空間分析等,最終由評價模型輸出環評氣象數據文件的復核評分。為便于理解,本文將對數據分析環節中涉及到的部分關鍵統計指標進行展示和介紹,具體詳見本文1.2統計指標。
采用基于機器學習的評價模型對環評氣象數據復核的優勢在于:隨著復核數據文件的增多,系統會對存在造假行為的環評氣象數據文件進行持續性標注,從而推動模型對其造假行為特征不斷迭代,進一步提升環評氣象數據復核的準確性。
1.1.4 交互頁面
為了提升環評氣象數據復核工作的效率,原型系統提供了便利易用的前端交互界面,用戶根據頁面指引可快速對須審查的環評氣象文件進行復核。具體業務流程(圖2)如下:在用戶登錄系統中,上傳審查的環評氣象文件到原型系統,原型系統自動將審查各氣象要素,并與中國氣象局權威氣象數據集中的相應數據對比分析,進行智能復核并自動生成復核報告。

圖2 基于氣象大數據的環評技術復核原型系統業務流程圖
本研究選取平均偏差,平均絕對誤差,均方根誤差,相關系數等作為統計指標,其計算方法見公式(1)-(4)。
平均偏差(Bias),指氣象要素觀測平均值和模型分析平均值的差值。

平均絕對誤差(AE),指對氣象要素觀測值與模型分析值的差值絕對值進行平均。

均方根誤差(RMSE),指對氣象要素觀測值與模型分析值差值平方和的均值開方。

相關系數(Corr):衡量氣象要素觀測值與模型分析值的線性相關程度。

式中,N為統計時次的個數為中國氣象局數據中氣象臺站j在第i個時段的觀測值;xo
ij為模式輸出數據提取的氣象臺站j在第i個時段的分析值為分析時段內中國氣象局數據中氣象臺站j觀測值的平均值為分析時段內模式輸出數據提取的氣象臺站j分析值的平均值。
為驗證原型系統可靠性,本研究選取典型環評氣象數據案例,定量評估了氣象數據有效性,識別疑似造假行為。
該環評案例預測文件中氣象數據整體錯位1h,并且每日21-24時風速、氣溫數據存在異常。其中風速存在1785個時次的偏差,占總數據的20.4%,風速偏差的時間分布存在明顯規律性,77.6%的風速偏差出現在21-24時;溫度存在1739個時次的偏差,占總數據的19.9%,溫度偏差的時間分布也存在明顯規律性,64.1%的溫度偏差出現在21-24時。復核結論為該環評預測文件中每天21-24時的風速、溫度數據存在人為調整的痕跡。統計指標結果見表1。

表1 模型氣象數據和地面氣象觀測站實測數據對比表

圖3 模型氣象數據和地面氣象觀測站實測數據偏差的時間分布圖

圖4 系統生成風向偏差小時分布散點圖
該環評案例預測文件經系統分析,8291個時次數據中共有3675個時次的風向數據出現偏差,占總數據量的44.3%。并且兩者在部分月份的風玫瑰圖存在明顯的差異。復核結論為該環評預測文件中部分月份的風向數據存在人為調整的痕跡。

圖5 模型氣象數據和地面氣象觀測站實測數據的風玫瑰對比圖(左為模型氣象數據的月風玫瑰圖,右為氣象觀測站實測數據的月風玫瑰圖)
該環評案例預測文件中云量數據經原型系統分析,1808個時次數據中共有1784個時次的低云量數據出現偏差,占總數據量的98.673%。其中,中國氣象局地面氣象站實測云量數據大于模型云量數據的時次有1657個,占比為92.9%;中國氣象局地面氣象站實測云量數據小于模型云量數據的時次有127個,占比為7.1%。系統生成的低云量偏差小時分布散點圖(見圖6)。此外,該預測文件中的云高數據人為設定為定值808米,與實際情況不符,存在較大問題,導致結果失真。

圖6 云量數據復核結果
本研究建立了基于氣象大數據的環評技術復核原型系統,實際復核案例應用表明,該系統依托機器學習和大數據分析技術,突破了人工復核方法的瓶頸,提高了大氣技術復核工作的效率,為環評智能復核工作提供了新的技術方法。下一步建議管理部門要求環評單位將大氣預測模式輸入文本文件、氣象數據、地形數據、地表參數等作為四級聯網上傳附件內容,以備抽查、復核。