999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于量子C均值聚類分析的數據異常檢測方法

2018-03-31 12:22:42李萍
電腦知識與技術 2018年6期

李萍

摘要:數據庫海量數據集需要數據異常檢測方法具有高效的數據挖掘能力,基于聚類的異常數據檢測中聚類算法對初始聚類中心較為敏感,算法穩定性差.針對以上問題,提出了基于量子c均值聚類分析的異常數據檢測方法。算法引入量子機制的高效并行計算能力,將其與C-means聚類算法相結合應用于數據點異常檢測中,不僅克服了聚類算法對初始聚類中心敏感的問題,還具有量子模式的高效運算能力;仿真實驗表明,算法在檢測異常數據的準確性和效率上均優于傳統基于聚類的異常檢測算法。

關鍵詞:量子;C均值;聚類分析;數據異常檢測

中圖分類號:TP18;TP301.6 文獻標識碼:A 文章編號:1009-3044(2018)06-0198-02

大數據和云計算技術尤其是云存儲發展,使得數據庫中的信息量成指數的增長,數據庫的重要性和價值也日益體現。數據庫海量數據中只有部分數據有意義和價值,甚至會存在極少數的異常數據,這些異常數據可能對所屬數據集的價值造成不可預估的危害,因此,異常數據的挖掘成了數據庫及數據挖掘領域的具有重要意義的研究方向,受到了大量的學者和研究人員的廣泛關注。

異常數據挖掘發展至今,出現了許多經典方法。Breunig在文獻提出一種基于密度對異常點進行檢測的LOF(LocalOut-her Factor)算法。算法賦予每一個數據點一個離群因子,用來衡量數據的偏離水平進而表征一個數據對象偏離度的數值,缺點是對序列數據和低密度數據對象不能很好的度量。在鄧玉潔等人提出一種基于聚類分析的異常點檢測方法中,存在對初值敏感并易陷入局部最優的缺點。針對以上問題,本文結合數據庫數據規模大、要求異常數據挖掘高效的特點,在基于聚類的數據異常檢測的基礎上,結合量子機制改進聚類算法的聚類性能,提出了基于量子K均值聚類分析的數據異常發現方法。仿真實驗表明,算法在異常數據挖掘的準確性和效率上均優于傳統的聚類異常數據檢測算法。

1聚類數據庫異常檢測原理

基于聚類分析的異常數據檢測中,要求相同特征的數據對象聚集在一起形成數據簇,簇與簇之間盡量不相似。聚類的目的是尋找具有相同特征、緊密相關的數據,而異常數據檢測則要找到與大多數據對象偏離的數據,因此將基于聚類的異常數據檢測方法定義為:通過聚類將數據對象按特征值分成很多簇,然后將那些偏離任何一個簇的數據對象定義為異常點。

基于聚類的異常數據檢測的主要思想在于偏離其他簇的小規模簇的異常點的定義。因此,必須要明確定義異常點簇與其他簇的遠離程度以及小規模簇的具體規模。在這個過程中,首先確定一個最小距離,然后嚴格按照這個距離對數據對象進行聚類,如果當前聚類中存在大于該距離的數據,那偏離數據簇,即是異常點。其次,再根據聚類結果構造出最小掃描樹,作為森林的一員。當聚類規模較少時,生成樹的節點也比較少,這部分樹就稱為異常點。

2量子C均值聚類數據異常檢測方法

算法基本思想:對大型數據集進行聚類,C均值算法能夠進行高效分類,性能明顯優于層次聚類算法,但是C均值算法具有聚類算法的通病,即對初始聚類中心敏感,而且易陷入局部最優,算法不穩健。而量子計算用于高效并行計算能力,量子計算模式在計算速度上大大超越了圖靈機模型,適合于海量數據的處理。因此,結合量子計算的高性能和c均值聚類的優點,提出量子C均值聚類算法,并將其應用與異常數據的檢測。

C-means聚類算法對初始聚類中心非常敏感,結合David提出的量子聚類算法中量子機制對初始數據不敏感的特性,將其引入到C-means聚類算法中,形成量子C-means聚類算法(CQC),并將該算法運用到海量數據下的異常數據挖掘中,基于量子機制的C均值聚類算法描述如下。在傳統聚算法中,與聚類中心屬于一簇的數據樣本是采用歐式距離來度量的,為了統一樣本各維的單位,消除量綱的影響,采用馬氏距離(馬氏距離消除了量綱的影響)來度分類。馬氏距離定義如下其中S為數據樣本的協方差矩陣。CQC算法描述如下:

上述量子C均值聚類算法中需要調節的參數有兩個σ和ε,其中σ是一個需要多次實驗選取的經驗值,滿足ε∈[0,2],ε是一個精度調節參數。

在得到數據的聚類結果后,根據基于聚類的異常數據檢測的主要思想,與實現定義的異常點簇與其他簇的遠離程度以及小規模簇的具體規模進行比較分析,挖掘、檢測出數據異常點。

3實驗分析

采用傳統聚類挖掘算法和CQC算法對相同的數據集進行異常數據點挖掘實驗,實驗結果如表2所述。表中實驗a數據來源于Ecoli數據集,包含8個異常數據。實驗b數據來源wine數據集包含6個異常數據。

從表2檢測結果可以看出,與傳統聚類算法檢測異常數據相比,CQC算法對異常數據的檢測準確率較高,且挖掘速度較快。

為了研究CQC算法針對不同規模數據集時的異常數據的檢測性能,將傳統聚類算法與CQC檢測算法對實驗1中包含10000到90000條規模數據集進行實驗,各算法的執行時間對比如下:

從執行結果可以發現,數據量較低(少于30000)時,兩種算法的執行時間均不超過2MS,但是隨著數據規模的增長(數據量達到90000條時),CQC算法執行效率明顯優于傳統聚類算法。

上述實驗數據均表明:基于C均值聚類分析的數據異常檢測算法挖掘準確度高,效率性高。

4結論

本文采用量子機制與C-means聚類算法融合形成量子C均值聚類算法,并其代替C均值算法用于異常數據點的檢測。該算法利用量子計算的高效并行計算能力以及對數據初始聚類中心不敏感的特征,解決了C-means聚類算法聚類時對初始數據中心敏感、穩定性差等問題。仿真結果表明,該算法較基于傳統聚類算法的異常數據檢測方法在異常數據點挖掘準確率和效率上均有一定的優勢。

主站蜘蛛池模板: 国产嫩草在线观看| 99精品视频播放| 色妺妺在线视频喷水| 亚洲欧美日韩天堂| 色综合激情网| 久久久国产精品无码专区| 无码一区中文字幕| 一区二区三区高清视频国产女人| 国产精品视频导航| 国产成人夜色91| 久久久久久尹人网香蕉| 国产亚洲欧美在线人成aaaa| 久久动漫精品| 国产精品漂亮美女在线观看| 四虎永久免费网站| 三级毛片在线播放| 色综合天天娱乐综合网| 亚洲成人精品| 美女黄网十八禁免费看| 国产91熟女高潮一区二区| 在线无码九区| 热99re99首页精品亚洲五月天| 国产极品嫩模在线观看91| 91九色国产porny| 国产综合色在线视频播放线视| 欧美激情综合一区二区| 国产性生大片免费观看性欧美| 中文字幕佐山爱一区二区免费| 波多野结衣久久精品| 国产精品伦视频观看免费| 日韩高清一区 | 亚洲精品欧美日本中文字幕| 超清人妻系列无码专区| 亚洲国产精品无码AV| 无码啪啪精品天堂浪潮av| 欧美精品成人一区二区在线观看| 国产日本欧美亚洲精品视| 国产人妖视频一区在线观看| 亚洲成肉网| 日韩欧美国产精品| 九九精品在线观看| 亚洲天堂视频在线观看免费| 国产又爽又黄无遮挡免费观看 | 看国产毛片| 亚洲欧美国产高清va在线播放| 色哟哟国产精品一区二区| 亚洲综合日韩精品| 亚洲AV无码不卡无码| 囯产av无码片毛片一级| 国产无码精品在线| 在线播放精品一区二区啪视频| 97se亚洲综合在线| 久久久亚洲色| 久久99这里精品8国产| 欧美成人午夜在线全部免费| 免费人成网站在线观看欧美| 丁香五月激情图片| 国产成人综合久久精品尤物| 久久午夜夜伦鲁鲁片无码免费| 九九九精品成人免费视频7| 亚洲日韩高清在线亚洲专区| 国产va免费精品观看| 在线日韩一区二区| 在线观看91精品国产剧情免费| h网站在线播放| 亚洲欧美日韩精品专区| 思思热精品在线8| 亚洲综合色婷婷| 精品久久久久久成人AV| 99草精品视频| 亚洲欧美成人网| 日韩欧美国产中文| 四虎精品黑人视频| 国产精品尤物在线| 毛片网站在线播放| 亚洲精品你懂的| 国产亚洲精品自在线| 午夜限制老子影院888| 欧美日韩国产在线人成app| 国产欧美日韩在线一区| 国产精品久久久免费视频| 久操线在视频在线观看|