999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

相似重復記錄檢測的特征優選策略探究

2014-07-24 04:19:36楊家娥
無線互聯科技 2014年5期
關鍵詞:策略

楊家娥

摘 要:信息時代的來臨,對大數據的檢測和識別提出更高的要求,如檢測精度更高和檢測代價低廉。而傳統的重復記錄檢測方法其特征屬性繁多,數據源組成更為繁瑣,導致檢測精度不足和檢測代價高昂問題的出現。為此,本文探索分析了相似重復記錄檢測的特征優選方案,從分組模糊聚類的原理出發,對相似重復幾率的組內計算方法進行剖析,探究其在大數據集中檢測精度和識別認識方面的優勢。

關鍵詞:特征優選;相似重復記錄;模糊聚類;相似度;策略

依據相關的研究文獻,可以發現傳統重復記錄檢測方法基于排序和組合的思想,對大數據進行識別和檢測,如優先隊列技術、兩字符串距離指標計算技術、數據清洗識別技術、滑動窗口技術等。所有這些重復記錄檢測技術的原理基本一致,在實際應用中存在檢測精度不足且實施檢測的成本高昂。如優先隊列技術在應用過程中篩選具有代表性的記錄能力不足;滑動窗口技術是基于相似重復記錄的傳遞性基礎上導致檢測精確度不足等等。面對傳統相似重復記錄檢測方法的不足和漏洞,一種的新的基于分組模糊聚類的記錄特征屬性優選方法表現出其具有非常強的優勢和彌補性。此種方法基于模糊聚類壓縮記錄的基礎上,對組內具有代表性的記錄進行篩選,利用組內相似度比較的算法對重復記錄進行有效的檢測和識別。這一理論具有完善的基礎理論體系,利用先進的理論分析方法和精確的設計思路,在實踐應用中表現出高檢測精確度和低檢測成本的優勢。

1 特征優選的分組聚類的實現過程

1.1 記錄分組與組內記錄屬性處理過程

就目前的相關研究而言,關鍵字屬性排序分組方法已經成為幾率分組和聚集的應用最為多的方法,這也是相似重復記錄檢測的初始步驟。關鍵字屬性排序分組方法對記錄的屬性值進行分割,形成大小適中的原字串,然后對每一個原子串進行數字化編碼,以正序和逆序編碼排序為原則,利用關鍵屬性對記錄進行排序,然后將具有相同的正序和逆序排列合并為一組。以此減少記錄分組過程中的誤差或者錯誤的出現,如在關鍵屬性輸入錯誤的情況下,正序和逆序排列可能存在不一致性,導致記錄分組不在同一組別內。

1.2 大數據集組內屬性的處理

1.2.1 組內無關屬性的處理方法

大數據集組內屬性受特征屬性的影響,特征屬性越典型,分組越精確,越不典型,分組誤差越大。因此,對組內每個記錄進行處理時,應確保每一個維度上的特征屬性值都呈現高斯分布,將記錄的特征屬性值聚集在均值附近,以此減少偏差。特征屬性值越是聚集于均值附近,說明其越典型;反之則代表誤差過大,對分組越不利,即屬于分組無關的屬性。其衡量標準可以用下式驗證:

某一維屬性值同其均值偏差的表示方式,即其屬性方差:

其中 —— 代表第j維屬性的均值,P代表記錄的屬性維數。

1.2.2 組間特征屬性處理

所謂的典型特征的選擇,也即是對存在于組內的且對分組無關的屬性進行刪除。這一選擇過程也即是組間特征屬性的處理過程。在記錄檢測過程中,對記錄集中最優的特征屬性進行選取,避免因存在大量的相關屬性而影響記錄分組的精確度,降低重復記錄檢測的可分性。為此,組間特征屬性的處理可以利用算法進行處理。首先對特征屬性的數目進行自動確定,利用組間特征屬性之間的距離和相似矢量對其相似性進行處理。其次,借助聚類分析的方法,利用FCM對自動確定的特征屬性進行壓縮,其中FCM的算法如下:

其中FCM表示模糊C均值聚類算法,c=q。

對具有相似性的特征屬性的維度進行壓縮,有利于篩選出組內最具有代表性的記錄,提高了相似重復記錄的識別精度。

2 組內相似重復記錄的檢測

在組內具有代表性記錄獲取之后,檢測重復記錄成為最關鍵性的工作。基于分組模糊聚類的相似度計算方法,可以對實際的記錄組內的每個屬性值進行分割,每一個屬性值的集合其元素則是由分割而得到的原子串。在進行原子串分割、集合、編碼過程中,可充分利用中、西方文字進行混合使用,從而最大程度的降低因記錄輸入而出現的拼寫或者所寫錯誤,避免其對重復記錄檢測的影響。利用算法對不同記錄的相似度進行檢測,刪除超過閾值的幾率,最后檢測出記錄較為集中的記錄。其應用到的算法如下:

其中 中 表示是原子串a與 原子串匹配的分值, 介于0到1之間。 的屬性長度為 ,其數量為m。

通過分析,我們了解到基于分組模糊聚類的相似重復記錄檢測的特征優選方案,相比于傳統的排列和合并檢測方法具擁有檢測精度高、實施檢測成本低的特征。新的特征優選方案對組間和組內的特征屬性進行分組壓縮,降低其屬性的維數,一方面利用FCM方法自動確定特征屬性的數量,最后將具有代表性的記錄與其他記錄進行比較,從而大大提高檢測的精度。

[參考文獻]

[1]宏圓,孫未未,施伯樂.一種使用雙閾值的數據倉庫環境下重復記錄消除算法[J].計算機工程與應用,2005.41(1):168—171.

[2]李星毅,包從劍,施化吉.數據倉庫中的相似重復記錄檢測方法[J].電子科技大學學報,2007,36(6):1273-1277.

猜你喜歡
策略
基于“選—練—評”一體化的二輪復習策略
幾何創新題的處理策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
“我說你做”講策略
數據分析中的避錯策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
“唱反調”的策略
幸福(2017年18期)2018-01-03 06:34:53
價格調整 講策略求互動
中國衛生(2016年8期)2016-11-12 13:26:50
主站蜘蛛池模板: 国产精品美女免费视频大全| 亚洲浓毛av| 成人日韩视频| 国产精品视频久| 久久 午夜福利 张柏芝| 欧美精品不卡| 91在线播放免费不卡无毒| 狠狠色狠狠综合久久| 无码高潮喷水在线观看| 美女国产在线| 中文国产成人精品久久| 狠狠干欧美| 成年人国产网站| 一级香蕉视频在线观看| 伊人网址在线| 国产精品片在线观看手机版| 福利国产微拍广场一区视频在线| 伊人蕉久影院| 91成人免费观看| 亚洲第一区欧美国产综合 | 国产美女免费| 中文字幕在线看| 日韩不卡免费视频| 免费a级毛片视频| 91年精品国产福利线观看久久| 欧美一级高清视频在线播放| 日韩精品一区二区三区中文无码| 成人av专区精品无码国产| 国产在线一区二区视频| 777午夜精品电影免费看| 一级毛片免费播放视频| 久久精品中文字幕免费| 免费av一区二区三区在线| 国产在线自乱拍播放| 无码区日韩专区免费系列| 99精品视频九九精品| 一本视频精品中文字幕| 免费国产在线精品一区| 四虎精品黑人视频| 欧美日韩精品在线播放| 亚洲永久视频| 91福利一区二区三区| www.精品国产| 日本不卡视频在线| 日韩精品成人在线| 欧美精品1区| 国产精品观看视频免费完整版| 亚洲综合日韩精品| 激情综合网址| 1024国产在线| 欧美亚洲第一页| 69av免费视频| 动漫精品中文字幕无码| 欧美人在线一区二区三区| 亚洲第七页| 国产精品成人一区二区不卡 | 亚洲bt欧美bt精品| 免费一极毛片| 国产毛片网站| 精品国产www| 狠狠色婷婷丁香综合久久韩国| 亚洲AV无码久久精品色欲 | 午夜成人在线视频| 久久香蕉国产线看精品| 国产精品视频999| 日本免费a视频| 欧美在线伊人| 精品人妻一区二区三区蜜桃AⅤ| 免费观看精品视频999| 3344在线观看无码| 免费人欧美成又黄又爽的视频| 伊人久久久久久久| 2022国产无码在线| 91久久国产热精品免费| 成人午夜免费视频| 人妖无码第一页| 国产精品久久久久鬼色| 国产美女一级毛片| 亚洲综合二区| 久久网欧美| 麻豆a级片| 欧美性精品不卡在线观看|