999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘中離群點檢測的非參數(shù)方法研究

2013-09-18 10:30:56李志云
微型電腦應用 2013年8期
關鍵詞:檢測方法模型

李志云

0 引言

離群點檢測(又稱為異常檢測)是找出其行為很不同于預期對象的過程。這種對象稱為離群點或異常。除欺詐檢測外,離群點檢測在許多應用中都是重要的,如醫(yī)療處理、公共安全、工業(yè)損毀檢測、圖像處理、傳感器/視頻網(wǎng)絡監(jiān)視和入侵檢測。

離群點檢測和聚類分析是兩項高度相關的任務。聚類發(fā)現(xiàn)數(shù)據(jù)集中的多數(shù)模式并據(jù)此組織數(shù)據(jù),而離群點檢測則試圖捕獲那些顯著偏離多數(shù)模式的異常情況。離群點檢測和聚類服務于不同的目的。

1 離群點

假定使用一個給定的統(tǒng)計過程來產(chǎn)生數(shù)據(jù)對象集。離群點(outlier)是一個數(shù)據(jù)對象,它顯著不同于其他數(shù)據(jù)對象,好像它是被不同的機制產(chǎn)生的一樣,如圖1所示:

圖1 區(qū)域R中的對象是離群點

大部分對象都粗略地服從高斯分布。然而,區(qū)域 R中的對象顯著不同。它不太可能與數(shù)據(jù)集中的其他對象服從相同的分布。因此,在該數(shù)據(jù)集中,R中的對象是離群點。

離群點不同于噪聲數(shù)據(jù)。噪聲是被觀測變量的隨機誤差或方差。一般而言,噪聲在數(shù)據(jù)分析(包括離群點分析)中不是令人感興趣的。離群點是有趣的,因為懷疑產(chǎn)生它們的機制不同于產(chǎn)生其他數(shù)據(jù)的機制。因此,在離群點檢測時,重要的是搞清楚為什么檢測到的離群點被某種機制產(chǎn)生。通常這樣做,在其余數(shù)據(jù)上做各種假設,并且證明檢測到的離群點顯著違反了這些假設。離群點通常可以分成3類:全局離群點、情境(或條件)離群點和集體離群點。離群點檢測方法可以分為兩類:一類是根據(jù)用于分析的數(shù)據(jù)樣本是否具有領域?qū)<姨峁┑摹⒖梢杂脕順?gòu)建離群點檢測模型的標號,對離群點檢測方法進行分類;一類是根據(jù)各方法關于正常對象和離群點的假定,對各方法分組。如果可以得到專家標記的正常和離群點對象實例,則可以使用它們建立離群點檢測模型,所使用的方法可以劃分成監(jiān)督方法、半監(jiān)督和無監(jiān)督方法。如果對離群點檢測方法對離群點與其余數(shù)據(jù)做出假定,根據(jù)所做的假定,可以把離群點檢測方法分為3類:統(tǒng)計學方法、基于鄰近性的方法和基于聚類的方法。本文就統(tǒng)計學方法提出一種非參數(shù)方法檢測離群點。

2 離群點檢測的非參數(shù)方法

非參數(shù)方法并不假定先驗統(tǒng)計模型,而是試圖從輸入數(shù)據(jù)確定模型。非參數(shù)方法通常假定參數(shù)的個數(shù)和性質(zhì)都是靈活的,不預先確定。

可以使用直方圖作為非參數(shù)統(tǒng)計模型來捕獲離群點。使用直方圖表示了每個顧客事務的購買金額,圖中60%事務的購買金額為0~1000美元。按直方圖所示,一個購買金額為7500美元的事務可能被視為離群點,因為只有 1-(60%+20%+10%+6.7%+3.1%)=0.2%事務的購買量超過5000美元。另一方面,購買量為385美元的事務可以看做正常的,因為它落入包含60%事務的箱中,如圖2所示:

圖2 每個事務購買量的直方圖

使用直方圖檢測離群點的步驟如下:

第一步:構(gòu)造直方圖。使用輸入數(shù)據(jù)構(gòu)造一個直方圖,該直方圖可以是一元的,也可以是多元的。

第二步:檢測離群點。為了確定一個對象o是否是離群點,可以對照直方圖檢查它。在最簡單的方法中,如果該對象落入直方圖的一個箱中,則該對象被看做正常的,否則被認為是離群點。

使用直方圖作為離群點檢測的非參數(shù)模型的一個缺點是,很難選擇一個合適的箱尺寸。一方面,如果箱尺寸太小,則許多正常對象都會落入空的或稀疏箱,因而被誤識別為離群點。這將導致很高的假正例率和低精度。另一方面,如果箱尺寸太大,則離群點對象可能滲入某些頻繁的箱中,因而“假扮”成正常的。這將導致很高的假負例率和低召回率。

為了解決這些問題,可以采用核密度估計數(shù)據(jù)的概率密度分布。把每個觀測對象看做一個周圍區(qū)域中的高概率密度指示子。一個點上的概率密度依賴于該點到觀測對象的距離。使用核函數(shù)對樣本點對其鄰域內(nèi)的影響建模。核函數(shù)K()是一個非負實數(shù)值可積函數(shù),滿足如下兩個條件,如公式(1)、公式(2)

一個頻繁使用的核函數(shù)是均值為0,方差為1的標準高斯函數(shù):

設x1,…,xn是隨機變量f的獨立的、同分布的樣本。該概率密度函數(shù)的核函數(shù)近似為:

其中,K()是核函數(shù);h是帶寬,充當光滑參數(shù)。

一旦通過核密度估計近似數(shù)據(jù)集的概率密度函數(shù),就可以使用估計的密度函數(shù) f來檢測離群點。對于對象 o,f(o)給出該對象被隨機過程產(chǎn)生的估計概率。如果f(o)大,則該對象可能是正常的;否則,o可能是離群點。這一步通常與參數(shù)方法的對應步驟類似。

4 總結(jié)

離群點檢測的統(tǒng)計學方法由數(shù)據(jù)學習模型,以區(qū)別正常的數(shù)據(jù)對象和離群點。使用統(tǒng)計學方法的一個優(yōu)點是,離群點檢測可以是統(tǒng)計上無可非議的。當然,僅當對數(shù)據(jù)所做的統(tǒng)計假定滿足實際約束時才為真。通常,非參數(shù)方法對數(shù)據(jù)做較少的假定,因而在更多情況下都可以使用。

[1]Jiawei Han,Micheline Kamber等. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機械工業(yè)出版社,2012

[2]潘章明,陳尹立. 基于共享反K近鄰的局部離群點檢測算法[J]. 計算機仿真.2013(2)269-271

[3]劉耀宗,張宏等. 基于小波密度估計的數(shù)據(jù)流離群點檢測[J]. 計算機工程.2013(2)178-179

[4]古平,劉海波等. 一種基于多重聚類的離群點檢測算法[J]. 計算機應用研究.2013(3)751-753

[5]趙潔. 統(tǒng)計模型中幾種異常點檢測方法簡介[J].吉林教育. 2013(14)10-12

[6]李龍姣,程國達. 基于直方圖和 FP增長的高維空間離群點挖掘[J].計算機與現(xiàn)代化.2013(1)47-49

[7]王玉琳,薛安榮. 基于橢球模型的無線傳感器網(wǎng)絡的局部離群點檢測[J].計算機應用研究.2013(2)547-549

猜你喜歡
檢測方法模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 久久精品人妻中文视频| 波多野结衣一区二区三区88| 一级毛片免费的| 中文字幕亚洲综久久2021| 大学生久久香蕉国产线观看| 92精品国产自产在线观看| 欧美不卡视频在线| 亚洲天堂久久久| 3D动漫精品啪啪一区二区下载| 香蕉综合在线视频91| 国产精品一区二区久久精品无码| 91免费国产在线观看尤物| 一级毛片基地| 无码专区国产精品一区| 中文字幕有乳无码| aa级毛片毛片免费观看久| 国产18在线播放| 成人福利免费在线观看| 国产探花在线视频| 日本在线亚洲| 精品人妻一区二区三区蜜桃AⅤ| www.狠狠| 四虎AV麻豆| 亚洲第一黄色网址| 真人高潮娇喘嗯啊在线观看| 真实国产精品vr专区| 91美女视频在线| 国产幂在线无码精品| 亚洲丝袜第一页| 专干老肥熟女视频网站| 婷婷午夜天| 欧美亚洲第一页| 中字无码精油按摩中出视频| 精品国产电影久久九九| 国产日韩欧美精品区性色| 一本综合久久| 夜夜拍夜夜爽| 制服丝袜国产精品| 日韩在线视频网站| 国产激爽大片在线播放| 国产精品成人不卡在线观看 | 国产美女免费网站| 综合成人国产| 日本午夜影院| 免费 国产 无码久久久| 亚洲最大情网站在线观看 | 亚洲免费黄色网| 在线色国产| 国产精品无码一区二区桃花视频| 无码电影在线观看| 玖玖精品视频在线观看| 亚洲日本一本dvd高清| 91福利在线观看视频| 国产v精品成人免费视频71pao| 亚洲第一福利视频导航| 亚洲AV无码一二区三区在线播放| 亚洲人妖在线| 午夜老司机永久免费看片| 亚洲成在线观看| 欧美日本不卡| 999国内精品久久免费视频| 亚洲人成日本在线观看| 亚洲精品成人福利在线电影| 国产精品自在拍首页视频8| 国产一二三区在线| 国产精品福利导航| 国产无人区一区二区三区| 亚洲无卡视频| 日韩a级片视频| 亚洲日韩AV无码一区二区三区人| 亚洲中文在线视频| 欧美日韩国产在线观看一区二区三区| 五月丁香伊人啪啪手机免费观看| 亚洲香蕉久久| 青青草原偷拍视频| 久久人与动人物A级毛片| 国产性生大片免费观看性欧美| 国产噜噜在线视频观看| 亚洲天天更新| 日韩精品一区二区深田咏美| 就去色综合| 国产精品吹潮在线观看中文|