999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粗糙集的WEB文本特征約簡

2009-04-29 00:00:00李紅霞,易麗萍
電腦知識與技術 2009年32期

摘要:為了得到用戶滿意的文本特征約簡,在粗集理論屬性約簡技術的基礎上,提出文本特征選擇的新方法RSUA。RSUA方法采用用于關聯規則挖掘的Apriori算法的思想進行決策表的約簡。實驗驗證了RSUA方法的有效性。

關鍵詞:RSUA;粗糙集;Web

中圖分類號:TP301文獻標識碼:A文章編號:1009-3044(2009)32-9052-02

Selece Eigenvectors Form Documents Based on Rough Set Reduction Algorithm

LI Hong-xia, YI Li-ping

(School of Computer, Jiangxi Aviation Vocational Technical College, Nanchang 330024, China)

Abstract: The paper discuss a new method(RSUA) for selece eigenvectors form documents based on rough Set Reduction. It put forward a mining model of association rules with decision attributes based on Apriori.

Key words: RSUA; Rough Set; Web

網絡的快速發展給人們帶來大量信息,網頁中最主要的信息資源是文本,WEB挖掘就是針對網上大量文本信息進行知識發現、知識表示的研究領域。由于構成文本的原始詞匯量往往非常巨大,一般為幾萬甚至幾十萬,所以文本的原始特征項空間也非常巨大,這樣大的特征空間對許多分類算法來說是很難處理的,在實際應用中系統運行速度也對特征空間的壓縮提出了要求。對文本原始特征空間的壓縮一般使用特征選擇或特征提取方法。

文本挖掘的一個重要問題就是高維的特征空間,這些特征空間是由文本中的詞或詞組構成的,許多傳統算法難處理。

1 算法的設計思想

關聯規則是關聯分析中的一種常見的技術,是尋找在同一個事件中出現的不同項的相關性。挖掘關聯規則問題就是產生支持度和可信度分別大于用戶給定的最小支持度和最小可信度的關聯規則。在利用粗糙集的決策表進行數據分析,決策屬性的選取很重要,對一個問題當有多個影響因素時,通過關聯規則得到一些符合最小支持度和最小可信度的一些規則,從中可以發現一些規則,這樣可以根據決策規則的條件,作為粗糙集決策表的決策屬性,利用粗糙集進行運算,得到這一決策屬性的相關因素。

而利用粗糙集進行分析時,可以約簡冗余屬性,縮小考慮范圍,同時驗證或從另一角度對同一問題進行分析。另外,粗糙集可以處理含有不一致、噪聲、不完備的數據,比關聯規則具有更廣的使用范圍。粗糙集的約簡中,將關聯規則挖掘和粗糙集理論結合起來,引入關聯規則中的支持度概念,并重新定義了這個概念。

在決策表DT中,t為條件屬性,s為決策屬性,規則t=>s的基數card(t=>s)稱作規則t=>s的支持度,記為sup(t=>s);屬性t的基數card(t)稱作屬性t的支持度,記為sup(t)。

假如一條規則t=>s的sup(t=>s)=sup(t),則稱該規則是確定性規則;假如一條確定規則的支持度大于用戶指定的最小支持度,稱這條規則為強確定性規則。

這里主要討論決策表中的強確定性規則,提出算法RSUR,該算法采用用于關聯規則挖掘的Apriori算法的思想進行決策表的約簡,即“頻繁項集的所有非空子集都必須也是頻繁的”,也就是:假如規則t=>s不是強的,則它的擴展tΛp=>s也不是強的。算法根據用戶指定的最小支持度,利用Apriori性質刪除低于最小支持度的規則,得到強確定的規則表。

2 算法的描述

算法RSUA的算法描述如下:

輸入:決策表DT,最小支持度minup;

輸出:所產生的規則集。

步驟一:對決策表進行屬性約簡;

步驟二:K賦值為1;

步驟三:計算候選集CK中每個屬性的屬性支持度和規則支持度;

步驟四:若規則支持度小于最小支持度,則將其從CK中刪除;若該規則的屬性支持度等于規則支持度,則將該規則移入規則集Pk;

步驟五:將CK擴展為CK+1,首先掃描CK,將CK中的每兩項合成具有K+1個屬性的候選項,插入CK+1中。接著檢查CK+1中的每一項C,若C的K子集中有不在CK中的項,則將C刪除;若C是不相容的,將C刪除。最后得到CK+1,將K賦值為K+1;

步驟六:循環調用三至五步,直到CK為空;

步驟七:結束。

3 實驗結果

為了驗證RSUA算法的有效性,使用實驗數據集測試RSUA算法。首先與傳統決策表算法-最小值約簡算法進行實驗對比。表1的最左列是數據集的名稱,第2,3欄分別是該數據集的實例個數和屬性個數。

為進一步驗證RSUA算法的有效性,與傳統的基于區分距陣的約簡算法進行實驗對比。采用UCI機器學習數據庫中的數據集舉行測試。對該數據集中的11個決策表舉行屬性約簡,結果如表2所示。

4 結束語

從表1和表2的約簡結果中可以看出:

1) 算法RSUA數據集的規則約簡率和數據約簡率大于傳統算法的學習結果。

2) 算法RSUA的運行時間一般大于傳統算法的學習結果,在實例數據和屬性較多的情況下,要花費更多的時間。這是由于算法RSUA采用了多次迭代的方法,并且所設計的數據結構較為復雜的緣故。

3) 采用不同的數據集進行同樣的算法對比實驗是,結果相差較大。說明文檔的規范程度、文本分詞算法的選擇、文本結構化描述都會影響算法的執行結果。

4) 本算法在約簡過程中保留了所有對用戶有用的規則,它并不特別注重約簡率的大小,而主要是面向實用系統的,因此約簡率并非是最好的衡量算法的標準。

參考文獻:

[1] 常犁云.一種基于Rough Set理論的屬性約簡及規則提取方法[J].軟件學報,1999,10(11):1206-1211.

[2] Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large databases[C].Proceedings of the ACM SIGMOD Conference on Management of data,1993:207-216.

[3] Kryszkiewice M.Strong rules in large database[Z].

[4] Lin T Y. Rough set theory in very large database[C].In Procedding os CESA'96,Lille,1996,2,936-941.

[5] 朱雪龍.應用信息論基礎[M].北京:清華大學出版社,2001.

[6] 史忠植.知識發現[M].清華大學出版,2002.

[7] 郭萌,王鈺.數據挖掘與數據庫知識發現:綜述[J].模式識別與人工智能,1998,11(3).

[8] 陳棟.KDD研究現狀及發展[J].計算機科學,1996,23(6).

[9] 張文修,吳偉志,梁吉業,等.粗糙集理論與方法[M].北京:科技出版社,2001.

[10] Pawlak Z.Rough sets:Theoretical aspects of Reasoning about Data[M].Dordrecht:Kluwer Acasemic Publishers,1991.

[11] Pawlak Z.Vagueness and uncertainty-Rough Set Prospective[J],Computational Intelligence,1995,11(2):227-232.

[12] 曾黃麟.粗糙集理論及應用_關于數據推理的新方法[M].重慶:重慶大學出版社,1996:61-82.

[13] 李水平.數據采掘技術回顧[J].小型微型計算機系統,1998,19(4).

[14] 鐵治欣,陳奇,俞瑞釗.關聯規則采掘綜述[J].計算機應用研究,2000(1):1-5.

主站蜘蛛池模板: 全部免费特黄特色大片视频| 欧美高清日韩| 亚洲视频一区在线| 日韩色图区| 国产va视频| 国产精品黑色丝袜的老师| 欧美国产视频| 激情国产精品一区| 国产99精品视频| 久久精品无码一区二区国产区| 成人国产小视频| 亚洲一道AV无码午夜福利| 国产成人精品高清不卡在线| 国产欧美日韩专区发布| 国产丝袜无码一区二区视频| 精品成人一区二区三区电影| 欧美成人看片一区二区三区| 国产主播在线观看| 永久免费无码成人网站| 色播五月婷婷| 欧美午夜视频在线| 亚洲天堂网视频| 亚洲精品午夜无码电影网| 伊人激情久久综合中文字幕| 国产导航在线| 亚洲天堂视频网| 99热国产在线精品99| 国产在线欧美| 国产成人免费观看在线视频| 777午夜精品电影免费看| 蜜桃臀无码内射一区二区三区| 欧美国产综合视频| 青草视频在线观看国产| 亚洲第一页在线观看| 在线观看91精品国产剧情免费| 国产91色在线| 精品视频一区二区三区在线播| 免费看一级毛片波多结衣| 色天堂无毒不卡| 2022国产无码在线| jizz在线观看| 伊人中文网| 无码乱人伦一区二区亚洲一| 亚洲av无码牛牛影视在线二区| 国产精品亚洲精品爽爽| 欧美精品1区| 亚洲成a人片| 黑色丝袜高跟国产在线91| 成年人国产视频| 91人妻在线视频| 亚洲妓女综合网995久久| 亚洲第一区欧美国产综合| 国产亚洲成AⅤ人片在线观看| 亚洲视频色图| 亚洲综合精品香蕉久久网| 一区二区午夜| 亚洲精品男人天堂| 午夜高清国产拍精品| 国产精品爆乳99久久| 久久婷婷综合色一区二区| 天天色综合4| 色偷偷男人的天堂亚洲av| 91伊人国产| 香蕉精品在线| 欧美a在线| 亚洲一级毛片免费看| 依依成人精品无v国产| 91久久国产热精品免费| 亚洲人成影视在线观看| 欧美综合成人| 久久国产拍爱| 国产情精品嫩草影院88av| 久久一本精品久久久ー99| 色婷婷国产精品视频| 国产成人资源| аⅴ资源中文在线天堂| 99爱在线| 国产精品va| 国产精品亚洲va在线观看| 国产地址二永久伊甸园| 日韩人妻少妇一区二区| 91小视频版在线观看www|