劉孝富,張志苗,王瑩,劉柏音,邱文婷,羅鐳
中國環境科學研究院環境信息研究所
第二次全國污染源普查(簡稱二污普)是我國在“十三五”期間開展的一項重大國情調查,普查成果為我國打贏污染防治攻堅戰乃至“十四五”規劃提供強有力的支撐。數據的真實、準確、可靠、符合邏輯是普查質量的靈魂,為此數據審核發揮著至關重要的作用。二污普分為清查、全面入戶調查、產排污核算3個階段,每個階段數據審核側重點有所不同,但異常值的識別始終是數據審核的重要內容[1-2]。二污普數據審核中的異常值識別方法包括直接對比法、專家經驗法、排序法、占比法、平均值法、直方圖法等,每種方法都有各自的優劣勢。如直接對比法是將某些指標與排污許可、環境統計或工業統計等資料中相同指標進行對比;專家經驗法是依據專家的知識直接判斷數據是否異常,既可以判斷單個指標,也可以判斷兩兩指標相互關系的異常情況;排序法是將同行業的普查對象進行升序或降序排列,識別出極大或極小值;占比法是排序法中的一種,將生產活動水平或者產排污量占同一區域或流域較大的普查對象識別出來;平均值法是通過設置一個閾值,將遠離行業平均水平的普查對象識別出來;直方圖法是依據統計學規律設置置信度,將不在置信區間的普查對象識別出來。以上方法存在不同程度的局限性,或是在設定閾值、距離值、置信度等方面存在主觀性,或是需要較多的統計樣本。……