郭文龍,董建懷
福建江夏學院電子信息科學學院,福建 福州 350108
基于模糊綜合評判和長度過濾的SNM改進算法
郭文龍,董建懷
福建江夏學院電子信息科學學院,福建 福州 350108
為了提高數據庫的數據質量,需要對相似重復記錄進行清洗,基本鄰近排序算法是目前常用的清洗算法之一.針對判重過程中屬性權值計算主觀性過強的問題,提出通過多用戶綜合評判確定屬性權值的方法,該方法能更客觀地評判屬性的重要性程度.在此基礎上,結合屬性權值計算兩條記錄的長度比例,排除不可能構成相似重復的記錄,減少了比較次數,提高了檢測效率.實驗結果表明改進算法在查全率、查準率及時間效率等方面均有所提高.
相似重復記錄;模糊綜合評判;屬性;長度過濾;SNM;算法
當前,全球各行各業均組建了可以管理和推廣自身業務的管理信息系統,如何有效管理和利用各類數據資源,是科學研究和決策支持的前提.隨著信息化水平的不斷提高,全球的各類數據庫中存儲的數據都呈現井噴式的增長.諸如銀行、證券公司、通信公司等數據庫的存儲量均在百萬以上,且可以預見隨業務擴張的趨勢將繼續推動數據增長;而政府的人口基礎數據庫的數據量更是以億計.在這些數據量龐大的數據庫中存在著諸多重復數據,如何清理相似重復數據便成了亟需解決的問題.
目前常用的相似重復記錄清洗算法是基本鄰近排序算法(basic sorted-neighborhood method,SNM)[1-3].該算法……