999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

時空異常值檢測的研究

2016-02-13 05:58:22何奇峰
軟件 2016年12期
關鍵詞:檢測

何奇峰

(北京郵電大學經濟管理學院,北京 海淀 100876)

時空異常值檢測的研究

何奇峰

(北京郵電大學經濟管理學院,北京 海淀 100876)

異常值檢測是數據挖掘研究領域的一個相當重要的分支,異常值檢測的目的是尋找與其他大多數對象不同的個體,又常被稱為離群檢測或者是例外挖掘。許多文獻已經對空間異常值檢測和時間序列異常值的檢測進行了研究,然而同時對時間維度和空間維度進行異常值偵測的還不多;本文將分別從時間和空間這兩個維度出發對異常值的檢測進行研究,然后再將這兩個維度結合起來,提出一種全新的時空異常值的檢測方法,為未來時空異常值的檢測奠定基礎。

異常值檢測;數據挖掘;voronoi圖;k-means聚類

本文著錄格式:何奇峰. 時空異常值檢測的研究[J]. 軟件,2016,37(12):162-165

0 引言

異常值檢測是數據挖掘研究領域的一個相當重要的分支,異常值檢測的目的是尋找與其他大多數對象不同的個體,又常被稱為離群檢測或者是例外挖掘。異常值檢測在諸如金融欺詐、入侵檢測、公眾健康與生態環境監測預報等多個領域都取得了相當不錯的應用。隨著大數據時代的到來,越來越容易取得像溫度,用戶流量使用等時空數據,檢測這類數據異常值的重要性也日益凸顯。

空間異常值是指那些非時空值與周圍相鄰的個體顯著不同的值。這表明具有空間異常值的個體是與它相鄰的個體顯著不同的,然而他并非與總體有顯著的不同。從空間異常值可以延伸出時空異常值的概念,即時空個體具有與周圍時間相鄰和空間相鄰個體顯著不同的非時空值。

時空異常值的檢測主要有三種方法:第一種是直接判定該個體是否與他時空相鄰的個體的非時空值有明顯的差異,第二種是時空異常值體的檢測,這種時空異常值體是跨越時間的,并不像時空異常值僅僅是某一時刻的值,第三種是對時空異常值軌跡的探索。

Birant和Kut[1]提出了一個基于密度的時空異常值檢測機制。他們使用了DBSCAN(具有噪聲的基于密度的聚類方法)聚類算法用于對空間維度進行聚類從而識別空間異常值。DBSCAN能劃分任意形狀的類并且對高效的處理大數據集,然而DBSCAN并沒有考慮時間維度,當不同類別密度不同時,它也不能判別出某些異常值。因此他們使用了改進的DBSCAN,具體有兩點改進:一直為了支持時間維度,通過遍歷一棵樹找出任一個個體在一定半徑范圍內的時間鄰居和空間鄰居,二是當類別具有不同的密度時,會給每一個類分配一個密度因子,然后將新生成類的值與平均值進行比較從而發現異常值。Cheng和Li提出了一個四步法,用以處理語義和動態屬性的地理現象的時空異常值檢測。這四步分別是發現語義個體,聚合,對比,驗證。Adam(2004)[3]研究了基于距離的時空異常值檢測,根據微類的空間和語義相似性融合成巨類。運用雅各比系數和輪廓系數來計算微類的空間相似性。在巨類中任一與其他點不同數據將被標記為時空異常值。

許多文獻已經對空間異常值檢測和時間序列異常值的檢測進行了研究,然而同時對時間維度和空間維度進行異常值偵測的還不多,有一些研究也是單純的把時空分割開,即分別檢測出時間異常值和空間異常值,最后結合這兩部分來判定時空異常值。然而時間維度和空間維度是相互關聯的,所以同時結合時空兩個維度進行異常值的檢測是很有必要的。

1 時空異常值簡介

1.1 時間維度異常值檢測

時空數據多以面板數據的形式存在,面板數據是在時間序列上取多個截面,在這些截面上同選取樣本觀測值所構成的樣本數據,也就是把截面和時間序列數據融合在一起的數據集。面板數據集顯示個體之間存在差異,而單獨的時間序列或橫截面不能有效反映這種差異,如果只是簡單使用時間序列或橫截面分析就可能獲得有偏結果。同時面板數據能夠提供更多信息、更多變化性、更少共線性、更多自由度和更高效率。

圖1 滑動窗口圖

時空數據通常具有數據流的特點,數據流是指連續產生的、沒有邊界的大量數據元素所組成的序列。為了能更好的處理數據流,本文將使用滑動窗口模型,隨著新數據的到來。滑動窗口以基本窗口為單位不斷更新。每進入一個新的基本窗口,最舊的一個基本窗口被刪除,滑動窗口隨之更新一次。因此,滑動窗口中包含的數據不斷變化和更新。

1.2 空間維度異常值檢測

空間離群點是與其空間鄰域中其它空間對象的非空間屬性值存在明顯差異的空間對象。空間離群點挖掘是空間數據挖掘的一個重要分支,在交通控制、遙感圖像分析、氣象預報和人口統計數據分析等應用中可揭示重要現象。隨著傳感器設備技術的發展,數據采集設備的數量越來越多,精度越來越高,采集的項目也越來越多,因此數據量越來越大,維數越來越高。然而現有的空間離群點挖掘算法主要是針對單維或中低維的中小規模數據量的挖掘,難以適應高維大數據量的挖掘,并且現有算法沒有充分考慮空間數據的特點,挖掘的不是真正意義上的空間離群點,而是全局離群點。算法存在用戶依賴性大,檢測精度低,挖掘效率低等局限。

考慮空間這一維度,需要對整個空間的點進行區域劃分,對此本文將研究Voronoi圖等能保持區域拓撲結構的模型。Voronoi圖是計算幾何中一種幾何結構,也是一種空間分割的方法[6]。Voronoi圖可以作為表示各種元素之間關系的一個結構,通過這個結構可以提取出重要信息。這樣的實例多見于用Voronoi圖研究自然界物質結構的性質。把Voronoi圖作為一個輔助數據結構,通過這個數據結構可以完成許多物體形態或鄰近關系的計算任務。把Voronoi圖作為提高某些幾何算法運算速度的重要手段.一般來說,二維的Voronoi圖可以在O(nlogn)時間內獲得,三維的Voronoi圖可以在O(n2)時間內獲得.Voronoi圖的性質決定了它與許多其它幾何結構具有內在關系,通過Voronoi圖,許多幾何算法可以得到快速運算。

2 時空異常值檢測的結合

在空間維度上運用Voronoi 圖對空間位置進行劃分,重新定義了各個位置之間的距離以及相鄰關系,利用重新的定義的距離對非時空值從空間維度進行限制;在時間維度上,由于時空數據多以面板數據的形式存在,面板數據是在時間序列上取多個截面,在這些截面上同選取樣本觀測值所構成的樣本數據,也就是把截面和時間序列數據融合在一起的數據集。面板數據集顯示個體之間存在差異,而單獨的時間序列或橫截面不能有效反映這種差異,如果只是簡單使用時間序列或橫截面分析就可能獲得有偏結果。同時面板數據能夠提供更多信息、更多變化性、更少共線性、更多自由度和更高效率。時空數據通常具有數據流的特點,數據流是指連續產生的、沒有邊界的大量數據元素所組成的序列。為了能更好的處理數據流,本文將使用滑動窗口模型,隨著新數據的到來。滑動窗口以基本窗口為單位不斷更新。每進入一個新的基本窗口,最舊的一個基本窗口被刪除,滑動窗口隨之更新一次。因此,滑動窗口中包含的數據不斷變化和更新。

對當前的滑動窗口的非時空值使用k-means聚類[8],得到時間維度的各個分類;通過Voronoi 圖重新定義的相鄰關系對這個聚類結果再加以細分從而得到了時空相結合的聚類結果,根據聚類的結果將數據樣本很少的類別判定為異常值,由此得到了一個滑動窗口下的異常值判定;接下來使用三次指數平滑算法進行迭代。

三次指數平滑算法可以對同時含有趨勢和季節性的時間序列進行預測,該算法是基于一次指數平滑和二次指數平滑算法的。[9]

一次指數平滑算法基于以下的遞推關系:

其中α是平滑參數,si是之前i個數據的平滑值,取值為[0,1],α越接近1,平滑后的值越接近當前時間的數據值,數據越不平滑,α越接近0,平滑后的值越接近前i個數據的平滑值,數據越平滑,α的值通常可以多嘗試幾次以達到最佳效果。

一次指數平滑算法進行預測的公式為:xi+h=si,其中i為當前最后的一個數據記錄的坐標,亦即預測的時間序列為一條直線,不能反映時間序列的趨勢和季節性。

二次指數平滑保留了趨勢的信息,使得預測的時間序列可以包含之前數據的趨勢。二次指數平滑通過添加一個新的變量t來表示平滑后的趨勢:

二次指數平滑的預測公式為xi+h=si+hti二次指數平滑的預測結果是一條斜的直線。三次指數平滑在二次指數平滑的基礎上保留了季節性的信息,使得其可以預測帶有季節性的時間序列。三次指數平滑添加了一個新的參數p來表示平滑后的趨勢。

三次指數平滑有累加和累乘兩種方法,下面是累加的三次指數平滑

下式為累乘的三次指數平滑:

累乘三次指數平滑的預測公式為:

α,?,γ的值都位于[0,1]之間,可以多試驗幾次以達到最佳效果。

S,t,p初始值的選取對于算法整體的影響不是特別大,通常的取值為s0=x0,t0=x1-x0,累加時p=0,累乘時p=1。

3 結論

本文提出了一種將時間維度和空間維度有效結合起來的異常值檢測方法,在時間維度上,運用滑動窗口模型,能很好的處理數據流形式的數據,同時能很好的壓縮數據的信息;在空間維度上,運動

Voronoi圖對空間進行區域劃分,保持空間整體的拓撲性質,同時在Voronoi圖的背景下定義距離和連通性的概念,為后續聯系時間維度和空間維度的研究奠定了基礎。

[1] Birant, D. and Kut, A. (2006). Spatio-Temporal Outlier Detection in Large Databases. Journar of Computing and Information Technology

[2] A Multiscale Approach for Spatio-Temporal Outlier Detection. Transactions in Geographic Information Systems, 10(2): 253–263.

[3] Sun, Y., Xie, K., Ma, X., Jin, X., Pu, W., and Gao, X. (2005). Detecting Spatio-Temporal Outliers in Climate Dataset: A Method Study. In Proc. Of the 2005IEEE Intl. Geoscience and Remote Sensing Symposium, pages 760–763.

[4] Drosdowsky, W. (1993). An Analysis of Australian SeasonalRainfall Anomalies: 1950–1987. Intl. Journal of Climatology, 13(1): 1–30.

[5] Ester, M., Kriegel, H. -P., Sander, J. , and Xu, X. (1996). A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. In Proc. Of the 2nd ACM Intl. Conf on Knowledge Discovery and Data Mining(KDD), pages 226–231.

[6] Adam, N. R., Janeja, V. P., and Atluri, V. (2004). Neighborhood Based Detection of Anomalies in High Dimensional Spatio-temporal Sensor Datasets. In Proc. of the 2004 ACM Symposium on Applied Computing, pages 576–583.

[7] Wu, E., Liu, W., and Chawla, S. (2010). Spatio-Temporal Outlier Detection in Precipitation Data. In Proc. Of the 2nd Intl. Conf. on Knowledge Discovery from Sensor Data, pages 115–133.

[8] Lu, C. -T. and Liang, L. R. (2004). Wavelet Fuzzy Classification for Detecting and Tracking Region Outliers in Meteorological Data. In Proc. Of the 12th Annual ACM Intl. Workshop on Geographic Information Systems, pages 258–265.

[9] Neill, D. B. and Cooper, G. F. (2010). A Multivariate Bayesian Scan Statistic for Early Event Detection and Characterization. Machine Learning, 79(3): 261–282.

[10] Ge, Y., Xiong, H., Zhou, Z. -h., Ozdemir, H., Yu, J., and Lee, K. C. (2010). Top-Eye: Top-K Evolving Trajectory Outlier Detection. In Proc. Of the 19th ACM Intl. Conf. on Information and Knowledge Management, pages 1733–1736.

Research on The Spatio-temporal Outlier Detection

HE Qi-feng

(School of Economics and Management, Beijing University of Post and Telecommunication, Beijing)

Outlier detection is a very important branch of data mining, the purpose of outliers detection is to find out the individuals that are different from most other objects, it is often called outlier detection or exception mining. Many literatures have studied the detection of spatial outliers and detection of temporal outliers, but there are not too many methods to connect temporal outliers and spatial outliers. This paper will research temporal outliers and spatial outliers individually, and then combine these two dimensions to propose a new detection method of spatiotemporal anomalies, which will lay a foundation for the future detection of Spatio-temporal anomalies.

Outlier detection; Data mining; Voronoi graph; K-means clustering

TP311

A

10.3969/j.issn.1003-6970.2016.12.034

何奇峰(1991-),男,碩士研究生,主要研究方向:數據挖掘

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數的乘除法”檢測題
“有理數”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 香蕉久人久人青草青草| 国产在线欧美| 国产日韩AV高潮在线| 伊人久久婷婷五月综合97色| 亚洲国产91人成在线| 青青青伊人色综合久久| 亚洲全网成人资源在线观看| 亚洲Aⅴ无码专区在线观看q| 国产jizz| 亚洲无码91视频| 国产视频一二三区| 亚洲a免费| 欧美性久久久久| 91精品人妻一区二区| 国产一区二区三区夜色| 欧美中文字幕一区| 秘书高跟黑色丝袜国产91在线| 国产精品第一区| 四虎成人精品| 免费久久一级欧美特大黄| 四虎成人在线视频| 5388国产亚洲欧美在线观看| 激情国产精品一区| 国产成人毛片| 毛片久久久| 久99久热只有精品国产15| 亚洲成年人网| 精品欧美视频| 中美日韩在线网免费毛片视频 | 午夜丁香婷婷| 亚洲成人动漫在线| a色毛片免费视频| 日本在线欧美在线| 国产精品欧美日本韩免费一区二区三区不卡 | 福利一区三区| 波多野结衣一级毛片| 国产成人亚洲精品色欲AV | 99这里只有精品免费视频| 欧美中文字幕一区二区三区| 欧美三级视频网站| 婷婷五月在线视频| 无码 在线 在线| 国精品91人妻无码一区二区三区| 国产另类乱子伦精品免费女| 91成人免费观看在线观看| 欧美成人aⅴ| 久久一本精品久久久ー99| 无码精品福利一区二区三区| 日韩国产综合精选| 国产成人亚洲无吗淙合青草| 亚洲制服丝袜第一页| 欧美激情视频一区二区三区免费| 在线不卡免费视频| 国产精品欧美在线观看| 在线观看精品国产入口| 久久久久夜色精品波多野结衣| 亚洲欧美人成电影在线观看| 美女无遮挡免费网站| 制服丝袜 91视频| 久久成人免费| 四虎永久在线视频| 亚洲欧美日韩久久精品| 国产精品jizz在线观看软件| 欧美亚洲第一页| 中国一级特黄视频| 日本亚洲国产一区二区三区| 五月激情综合网| 久久青草免费91线频观看不卡| 男人天堂伊人网| 亚洲品质国产精品无码| 影音先锋亚洲无码| 亚洲综合第一页| 亚洲人精品亚洲人成在线| 思思99热精品在线| 妇女自拍偷自拍亚洲精品| 国产在线精彩视频二区| 亚洲欧美综合在线观看| 欧美成人国产| 亚洲免费黄色网| 亚洲一区二区视频在线观看| 国产永久在线视频| 国产丝袜无码精品|