李濤 張燦 張帥弛 陸正邦
摘 要: 為了提高海洋漂流浮標觀測數據的質量,提出一種新的基于興趣度模型的關聯規則挖掘算法。通過該關聯規則算法挖掘浮標觀測數據,提取出所有關聯項對形成范例庫,以此構建海洋漂流浮標數據質量控制模型,并與傳統數據質量控制方法對比,發現基于新的關聯規則算法的質量控制模型在檢出率和靈敏度以及性能方面有極大提高,非常具有可行性。通過真實數據驗證表明,新算法不僅能夠挖掘出所有相關性很強的規則,與同類非Apriori類算法相比,在時間性能上更加優越。
關鍵詞: 海洋漂流浮標; 興趣度; 關聯規則; 挖掘算法; 氣象數據; 質量控制
中圖分類號: TN011?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2018)22?0138?05
Abstract: A new association rule mining algorithm based on the interestingness model is proposed to improve the observation data quality of the ocean drifting buoy. The association rule algorithm is adopted to mine the buoy observation data, so as to extract all the correlation pairs to form a sample database, based on which the data quality control model of the ocean drifting buoy is constructed. By comparing with the traditional data quality control methods, it is found that the quality control model based on the new association rule algorithm has improved a lot in detection rate, sensitivity and performance, which is of great feasibility. The results of the real data verification show that the new algorithm can mine all rules with strong correlation, and has more superior time performance than other non?Apriori algorithms of the same class.
Keywords: ocean drifting buoy; interestingness; association rule; mining algorithm; meteorological data; quality control
海洋漂流浮標憑借自身體積小、重量輕、便于投放等一系列特點成為海洋水文觀測的重要工具之一。為了確保觀測數據的準確性和實用性,對獲取的海量觀測數據進行科學有效的質量控制必不可少。一般而言,漂流浮標數據的質控內容有時間一致性質控、位置質控、梯度質控、極值控制等。其核心內容是對觀測數據中異常值的質控。海洋數據中異常值的檢測常抽象為離群數據的搜索和聚類[1]。關于時間序列異常值的判定,比較常用且具有共性特征的是基于經典統計理論的離群點檢測方法[2]。該檢測方法對單個異常點判斷比較準確。而異常值常以連續多個的復雜方式出現,甚至在小段時間內可能超過正常數據的量。因此,基于統計理論的海洋數據異常值檢測法很難對這些數據進行有效的判斷。海洋觀測數據種類多,而對不同類型的異常值判斷沒有一種普適性的異常檢測方法。雖然在海洋數據質量控制方法存在大量的研究成果,但是內容主要圍繞質控共性理論方法進行研究[3?4]。應用于浮標數據且具有可行性的質控方法流程比較少見。
本文從關聯規則在孤立點分析和異常檢測中[5?6]的應用出發,結合氣象觀測數據的特點以及誤差等背景,提出基于關聯規則的海洋浮標氣象觀測數據的質量控制模型。接著從相關性角度出發提出一種新的基于興趣度的關聯規則挖掘算法,通過項或項對的超集的興趣度上界來裁剪搜索空間[7],不僅避免了傳統關聯規則挖掘算法的不足,而且在時間性能上提高更顯著。
2.1 算法主要思想
2.3 實驗分析
分別在這兩組數據集上將本文算法與未使用上界剪枝算法的運行時間做對比。如圖1、圖2所示,兩種算法的運行時間都隨著最小興趣度閾值t的逐漸增大而減少;相比于以往算法,新算法的運行效率和時間性能顯著提升。將該算法作為海洋氣象觀測數據質控方法的基礎,提高了挖掘效率。
3.1 數據準備及變換
本文使用的數據是某海域歷史海洋浮標記錄,實驗選擇了海風、海浪、海流、溫度、鹽度等氣象要素作為考察對象。由于數據量多,首先需要對原始的數據集進行數據預處理。由于關聯規則挖掘目前無法處理量化的連續數據,需要對每個要素數據進行離散化,按照每個要素的屬性值劃分為不同的區間。區間劃分的標準為8段或9段。按照區間段為8段劃分,數據預處理結果見表2。溫度要素離散化可劃分為{q1,q2,…,q8}。
3.2 模型總流程
使用前述基于興趣度的關聯規則算法對經過預處理后的海洋浮標觀測數據進行挖掘得到關聯項對,將所有關聯項對作為規則集范例庫。然后將植入誤差后的待測數據集于規則庫中進行匹配,檢測出異常數據,從而達到質量控制的目的。
基于關聯規則的氣象觀測數據質制算法主要包含了三大步驟,即數據預處理、產生關聯規則、規則匹配。
1) 數據預處理階段:數據離散化;
2) 關聯規則階段:通過挖掘算法挖掘出關聯規則;
3) 規則匹配階段:將待測數據與規則集中每條規則進行匹配。
先在當前記錄中搜索當前規則的前項,如果找不到,判定此條規則不適用于該條記錄,放棄匹配,轉向規則集的下一條規則;如果在此記錄中找到該規則的前項,則認為此條規則適用于這條記錄,繼續在記錄中尋找當前規則中的后項,如果可以找到,那么認為此條規則匹配當前記錄,判斷為匹配正常;如果找不到,則認為當前記錄不適用于這條規則,判斷為匹配異常。
學習階段建立的關聯規則集數目較大,為了提高檢測性能和效率,在匹配過程中做如下處理:
情況1:當前規則不適用于當前記錄,從規則集中提取下一條規則進行匹配,直到出現情況2;若遍歷所有規則集都沒找到適用的規則,定位該記錄為異常。
情況2:當前記錄不匹配當前規則,則認為當前記錄可能為異常,繼續在規則集中尋找不匹配的規則,直到出現u條不匹配的規則,則定位該記錄為異常。
整個規則匹配的流程圖如圖3所示。
實驗有兩個參數控制,首先根據相關系數t的設置,挖掘出相關性很高的項對;參數u設置越大異常記錄越多,u設置越小,挖掘出的異常記錄越少。所以這兩個參數需要經過實驗分析。
3.3 實驗分析
首先從訓練數據集中選取兩條各500行的測試數據A和B。其中數據A的前18行數據和B中的前12行數據手動植入誤差,使A中的第1~18行、B中的第1~12行數據是異常數據。
對于異常記錄的檢測效果,用檢測率、誤檢率[10]兩個參數來衡量。
1) 檢測率:檢測出的異常記錄的概率。
2) 誤檢率:檢測到的記錄中不是異常記錄的個數占總的數據異常記錄的百分比。
理想狀態下,檢測數達到百分之百,而誤檢數為零。
例如測試A組數據,若結果檢測到18條記錄,且這18條記錄就是第1~18行數據,那么此時檢測率達到100%,誤檢率為0。
因此針對A和B兩組測試數據,調整相關系數t與u不同的參數值,檢測結果如表3,表4所示。
通過兩組數據實驗發現,當相關系數t不變時,參數u越大,則挖掘出的記錄越少,同時挖掘出的異常記錄也會越少,檢測率也會越小。而隨著相關系數t的不斷增大,為了最大可能地挖掘出所有異常記錄,保證高檢測率和低誤檢率,參數u取值會不斷的減小,因為隨著t的增加,范例庫中挖掘到關聯規則數目減少,而記錄不匹配規則的數目也會減少,所以參數u取值會降低。
且通過兩組實驗發現,每組實驗都有一個最優參數值使得檢測效果最好。例如A組實驗中當相關系數t等于0.5時,參數u取值為14時,檢測率為100%,誤檢率為0,它檢測出了測試數據中所有的異常記錄。而在B組數據實驗中,巧合地發現同樣在t=0.5,u=14時,檢測率為100%,誤檢率為0,檢測效果最好。為了防止出現偶然性存在,除在本文中的兩組試驗外,在其他測試數據上做了大量的實驗對比,同樣發現當t = 0.5,u在14周圍取值時,檢測效果最佳。通過參數優化使得浮標數據異常記錄的檢測率接近100%,而誤檢率為0。
以上是基于新的關聯規則挖掘算法實現的海洋氣象浮標觀測數據質控模型。下面以海洋數據其他質控方法即極值控制法、一致性檢驗控制方法與本文提出的質控模型算法進行錯誤數據檢測分析。表5和表6分別是針對測試數據A和B進行傳統質控的結果分析。
本文針對傳統質量控制算法的不足,提出基于關聯規則算法的數據質量控制方法。通過與傳統的質控方法對比發現,新的質控方法在精度和靈敏度方面都得到了很大提高,并驗證了所提方法的可行性。依據這套質控算法,應用到海洋氣象浮標觀測數據質量檢測中,準確而又快速地找到異常觀測數據,具有很高的實際應用價值。
參考文獻
[1] 胡瑩.Argo剖面浮標數據異常檢測方法研究[D].桂林:桂林電子科技大學,2016.
HU Ying. Research on buoy data anomaly detection method of Argo profile [D]. Guilin: Guilin University of Electronic Technology, 2016.
[2] 陳斌.異常檢測方法及其關鍵技術研究[D].南京:南京航空航天大學,2013.
CHEN Bin. Research on outlier detection method and its key techniques [D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2013.
[3] 于婷,劉玉龍,楊錦坤,等.實時和延時海洋觀測數據質量控制評估方法研究[J].海洋通報,2013,32(6):610?614.
YU Ting, LIU Yulong, YANG Jinkun, et al. Study on the quality control and quality assurance for the oceanographic data of real?time and delayed mode [J]. Marine science bulletin, 2013, 32(6): 610?614.
[4] 鄭琳,劉艷,崔文林,等.海洋觀測數據質量控制評估研究[J].海洋通報,2014,33(2):228?234.
ZHENG Lin, LIU Yan, CUI Wenlin, et al. Research on the quality assessment of marine environmental monitoring data [J]. Marine science bulletin, 2014, 33(2): 228?234.
[5] 鄭忠平.基于關聯規則和聚類分析的異常天氣挖掘[D].成都:電子科技大學,2011.
ZHENG Zhongping. Anomaly weather mining based on association rules and cluster analysis [D]. Chengdu: University of Electronic Science and Technology of China, 2011.
[6] 溫玉波.海洋環境觀測數據的質量控制研究[J].農業網絡信息,2014(2):35?38.
WEN Yubo. Study on the quality control of marine environment observation data [J]. Agriculture network information, 2014(2): 35?38.
[7] 李濤,林陳,王麗娜.一種改進的相關項對挖掘算法研究[J].計算機仿真,2016,33(8):223?228.
LI Tao, LIN Chen, WANG Lina. An improved algorithm research on mining correlation pairs [J]. Computer simulation, 2016, 33(8): 223?228.
[8] 呂杰林,陳是維.基于相關性度量的關聯規則挖掘[J].浙江大學學報(理學版),2012,39(3):284?288.
L? Jielin, CHEN Shiwei. Mining association rules based on correlation measure [J]. Journal of Zhejiang University (Science edition), 2012, 39(3): 284?288.
[9] 彭昱忠,王謙,元昌安,等.數據挖掘技術在氣象預報研究中的應用[J].干旱氣象,2015,33(1):19?27.
PENG Yuzhong, WANG Qian, YUAN Changan, et al. Review of research on data mining in application of meteorological forecasting [J]. Journal of arid meteorology, 2015, 33(1): 19?27.
[10] 袁遇晴,況湘玲,凌利軍.基于數據挖掘的網絡入侵檢測模式研究[J].計算機安全,2014,7(17):14?17.
YUAN Yuqing, KUANG Xiangling, LING Lijun, et al. Research on intrusion detection based on data mining [J]. Computer security, 2014, 7(17): 14?17.