楊瑞鳳 季心紅
(宿州市環境保護監測站安徽宿州23400)
環境自動監測網絡的數據異常值標識方法及系統
楊瑞鳳 季心紅
(宿州市環境保護監測站安徽宿州23400)
本文介紹一種環境自動監測網絡的數據異常值標識方法及系統,方法包括:根據基站系統自動識別、基站人工審核和實時數據平臺的專家識別、平臺人工審核這四個數據來源對環境監測網絡的數據標識體系進行統一定義,得到來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構;根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對基站層和平臺層的異常值進行識別,并采用改進的數據標識同步算法實現基站層異常值和平臺層異常值的同步。本方法增設了模式跟蹤數據和標識演繹標識,并提出了實時數據平臺的異常值識別算法,溯源效率高、精確度高、全面、可靠、科學和準確,可廣泛應用于環境監測領域。
環境自動檢測網絡;數據異常值;識別
環境自動監測網絡是環境質量科學表征的重要數據來源,其目的是獲得高質量的環境監測數據,并由此推斷整個環境現有的質量特征。環境自動監測網絡除了擁有一般環境監測的要素外,自身還具備基站長期實時不間斷監測、基站與實時數據平臺數據同步對接、實時數據平臺對海量數據自動分析統計等特點。針對環境自動監測網絡獨有的技術特點,研發異常值標識技術,將提升環境自動監測網絡數據審核工作的科學性和邏輯性,極大提高了環境自動監測網絡的數據質量,保證數據審核質量和效率。
1.1 數據標識的不完善
目前對網絡數據的異常值采取在其后嵌入數據標識的技術方法。這種方法可有效地避免異常值納入數據統計,但因其對質控工作溯源時沒有對異常值的原因(如儀器質控和外界環境因素等)進行垂直的追蹤,平臺數據管理人員無法追蹤判斷數據質量的真實情況。為解決此問題,數據管理人員需查詢基站的工作日志和詢問基站維護人員,質控工作的溯源工作效率低下且導致容易因詢問導致出錯[1]。
1.2 識別來源的缺失或不統一
環境自動監測網絡的數據異常值的來源包括基站系統自動識別、基站人工審核和實時數據平臺的專家識別和平臺人工審核等,這四種來源在網絡的數據審核體系里是互相聯系、互相制約和不可割裂的,應作為一個系統整體的有機結合[2]。
但目前仍沒有相關的技術把四類數據標識歸納統一,導致不同階層的數據審核者往往只能考慮一個來源的數據標識,不夠全面和可靠。
1.3 環境自動監測實時數據平臺統計算法的缺失
實時數據平臺識別異常值的技術源自統計學、軟件工程和計算機科學。統計學對統計數據異常值的識別雖有很多研究成果,但大多是從數學的角度并針對一些特殊分布例如多維正態分布、r分布等來實現的。然而,環境自動監測數據大多不符合這些分布,難以直接采用這些研究成果來進行檢驗和識別。因此環境自動監測實時數據平臺缺乏能檢查和審核統計數據可靠性和準確性的統計算法[3]。
此外,目前的異常值識別技術將監測數據的異常值直接刪除,很難容納統計學理論識別異常值的方法。因為統計學理論能推算監測數據里的異常值,但不代表該異常值在真實環境是絕對錯誤的,如果直接刪除被推算為異常的數據則不尊重客觀現實,不夠科學和準確。
2.1 總體思路
環境自動監測網絡的數據異常值標識方法設計思路如圖1所示。

圖1 環境自動檢測網絡的數據異常標識方法設計思路圖
2.2 概念描述
2.2.1 根據基站系統自動識別、基站人工審核和實時數據平臺的專家識別、平臺人工審核這四個數據來源對環境監測網絡的數據標識體系進行統一定義,從而得到來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構。其中,來源類型標識根據數據的來源進行定義,包括網絡命令標識、基站系統標識、基站儀器自動執行命令標識、基站人工審核標識、實時數據平臺標識;所述模式標識用于對基站自動監測網絡各種形式的信息進行表征、描述和分類,由信息名稱的英文或漢語拼音的第一個字母的縮寫組成,包括監測數據狀態標識、質控質保任務標識和基站監測系統及儀器故障標識;所述刪除標識,用于表示不能參與統計的監測數據,具體數據格式為:刪除標識/來源類型標識。
2.2.2 根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對基站層和平臺層的異常值進行識別,并采用改進的數據標識同步算法實現基站層異常值和平臺層異常值的同步。其中,模式跟蹤數據標識包括結果導向標識和過程導向標識;結果導向標識的數據結構為:模式標識(特征標識1,特征標識2,……,特征標識n)/來源類型標識;結果導向標識的生成過程為:選擇結果導向標識的數據結構,然后把代表結果的模式標識、以及與該模式標識相關聯的特征標識1到特征標識n導入到選擇的數據結構中;特征標識是指基站監測系統開發者定義的關于系統、儀器的狀況標識或基站采集系統的環境狀況標識,特征標識1,特征標識2,……,特征標識n是指與代表結果的模式標識相關聯的特征標識;過程導向標識的數據結構為:模式標識(數值基準標識1,數值過程標識1,……,數值基準標識1,數值過程標識m)/來源類型標識;所述過程導向標識的生成過程為:選擇過程導向標識的數據結構;然后把代表過程的模式標識、以及與該模式標識產生過程相關聯的基準標識1,數值過程標識1……數值基準標識1,數值過程標識m導入到選擇的數據結構中;基準標識是指執行質控任務時所采用標準樣品的濃度值,數值過程標識是執行質控任務時監測儀器測標準樣品所得的結果濃度值,數值過程標識1,數值過程標識2,……,數值過程標識m是指與代表過程的模式標識相關聯的數值過程標識,且數值過程標識m按數據標識產生過程的時間先后順序排列;演繹標識是指容納統計學理論識別異常值的標識,具體數據格式為:演繹標識/來源類型標識;所述演繹標識并不參與數據統計,只用于反映和記錄計算機智能診斷出來的異常值,若人工診斷確認該異常值為真實的異常值,演繹標識會自動轉為刪除標識。
2.3 識別過程及步驟
根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對基站層異常值進行識別的步驟如圖2所示。

圖2 基站層面異常值識別流程圖
步驟B中根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對平臺層異常值進行識別這一步驟,其包括:

圖3 平臺層異常值識別流程圖
步驟B中采用改進的數據標識同步算法實現基站層和平臺層異常值的同步這一步驟,其包括:
S1、基站與平臺建立socket連接;S2、判斷是否需要同步數據標識數據庫,若是,則執行步驟S3,反之,則執行步驟S4;S3、基站向平臺發送修改數據標識數據庫的請求,并在平臺同意修改和同步標識匹配檢查完成后向平臺發送數據標識記錄數據包,從而使平臺進行應答修改;S4、平臺向基站發送修改數據標識知識庫的請求,并在基站同意修改后向基站發送數據標識知識庫修改數據包,從而使基站進行應答修改。
上述步驟S3,包括:S31、基站向平臺發送修改數據標識數據庫的請求;S32、平臺發出同意修改請求的響應;S33、基站接收到同意響應后向平臺發送同步標識為last的數據標識數據包M;S34、平臺檢查數據包M是否與平臺同步數據庫中的同步標識為last的數據匹配,若是則執行步驟S35,反之,則順序執行步驟S36~S38;S35、基站向平臺傳輸同步標識為next的數據包及其后的數據,然后結束同步過程;S36、服務器向基站發送平臺同步標識為last的數據包L;S37、基站在基站同步數據庫中搜索與數據包L匹配的數據記錄,并把搜索到的匹配數據的同步標識修改為last,同時基站把下一時刻數據記錄的同步標識修改為next;S38、基站向平臺傳輸同步標識為next的數據標識記錄數據包R及其后的數據,然后結束同步過程。
其中步驟S4,包括:S41、平臺向基站發送修改數據標識知識庫的請求;S42、基站發出同意修改的響應;S43、平臺在接收到同意的響應后向基站發送數據標識知識庫修改數據包;S44、平臺通知基站數據包發送完畢,基站應答;S45、基站根據修改數據包修改基站的數據標識知識庫。
3.1 一種全新結構的數據標識類型—模式跟蹤數據標識,能有效地記錄監測網絡質控的歷史過程,為質控工作的溯源提供技術依據,提高了溯源的工作效率,降低了出錯率;根據基站系統自動識別、基站人工審核和實時數據平臺的專家識別、平臺人工審核這四個數據來源對環境監測網絡的數據標識體系進行統一定義,使不同級別的數據審核者在進行審核時能整體考慮四個來源的數據標識,更加全面和可靠;增設了演繹標識,不直接刪除監測數據的異常值,而是為監測數據的異常值賦予演繹標識,以輔助數據實時平臺數據管理人員準確識別監測數據的異常值是否為真實的異常值,能容納統計學理論識別異常值的方法,更加科學和準確;
3.2 采用改進的數據標識同步算法實現基站層異常值和平臺層異常值的同步,能保證平臺層和基站層的數據標識能同步更新以及對基站層的數據標識知識庫進行修改。進一步,采用經改進帶有同步標識的同步算法實現基站層異常值和平臺層異常值的同步,能防止平臺服務器因停電等因素而導致的數據丟失故障,而且可以對基站人工修改的數據標識進行更新,更加安全和方便。進一步,提出了環境自動監測實時數據異常值數據識別的完整算法,能很好地對負值、超出儀器量程范圍的值、連續不變的值、基于箱線圖統計方法判別為離群值的數據進行識別,同時能很好地容納統計學理論在平臺異常值自動識別中的運用,更加可靠和科學。
[1]李艷萍,張浩,周國棟.完善環境監測技術監督體系的思考[J].環境監測管理與技術,2014,26(6):5-8.
[2]李蔚,胡昊,徐富春,等.大數據解析技術在大氣環境監測中的應用研究[J].中國環境監測,2015,31(3):118-122.
[3]魏晶茹,馬瑜,白冰,等.基于PSO-SVM算法的環境監測設局異常檢測和缺失補缺[J].環境監測管理與技術,2016,28(4):53-56+68.
楊瑞鳳(1983—),女,漢族,安徽宿州人,本科,工程師,從事監測分析工作。