999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本自動(dòng)分類中的動(dòng)態(tài)類別擴(kuò)展研究

2007-01-01 00:00:00張雪英JürgenKrause劉鳳玉

摘要:提出基于粗糙集理論的動(dòng)態(tài)類別擴(kuò)展算法,可以根據(jù)新文獻(xiàn)與已有訓(xùn)練規(guī)則的匹配程度,有效地進(jìn)行新類別的自動(dòng)擴(kuò)展和新分類規(guī)則的自動(dòng)生成,從而屏蔽訓(xùn)練集和分類規(guī)則的更新等問(wèn)題。

關(guān)鍵詞:文本自動(dòng)分類;粗糙集;動(dòng)態(tài)類別擴(kuò)展

中圖分類號(hào):TP391.1文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2007)05-0074-03

文本自動(dòng)分類是指在給定的分類體系下,根據(jù)文獻(xiàn)的內(nèi)容自動(dòng)判別文獻(xiàn)類別的過(guò)程[1~3]。文本自動(dòng)分類采用分類思想組織文獻(xiàn),不僅符合人們的思維習(xí)慣和應(yīng)用習(xí)慣,而且需求資源較少,操作簡(jiǎn)單,能夠適應(yīng)大規(guī)模文本處理的要求。20世紀(jì)90年代以來(lái),機(jī)器學(xué)習(xí)方法已經(jīng)廣泛應(yīng)用于文本自動(dòng)分類研究。基于機(jī)器學(xué)習(xí)的文本自動(dòng)分類已成為當(dāng)前機(jī)器學(xué)習(xí)、信息檢索和自然語(yǔ)言處理領(lǐng)域最活躍的研究主題之一。

基于機(jī)器學(xué)習(xí)的文本自動(dòng)分類包括兩個(gè)基本過(guò)程,即分類知識(shí)訓(xùn)練和新文獻(xiàn)分類預(yù)測(cè)。分類知識(shí)訓(xùn)練是指應(yīng)用分類算法從一個(gè)包含一定數(shù)量的已經(jīng)進(jìn)行分類標(biāo)記的文獻(xiàn)集合(即訓(xùn)練集)中獲得分類知識(shí);新文獻(xiàn)分類預(yù)測(cè)則是運(yùn)用訓(xùn)練得到的分類知識(shí)對(duì)訓(xùn)練集之外的文獻(xiàn)進(jìn)行分類預(yù)測(cè)。

在文本自動(dòng)分類中,訓(xùn)練集是相對(duì)固定的,一般不可能代表所有新文獻(xiàn)包含的主題。隨著系統(tǒng)中新文獻(xiàn)的不斷加入,原來(lái)訓(xùn)練得到的分類知識(shí)對(duì)新文獻(xiàn)的分類預(yù)測(cè)能力會(huì)變得越來(lái)越低。人們一般采取定期或不定期更新訓(xùn)練集,再重新訓(xùn)練分類器的方法來(lái)解決這一問(wèn)題。但是,這種方法不僅會(huì)增加訓(xùn)練時(shí)間,而且會(huì)造成分類知識(shí)的不一致性,從而導(dǎo)致整個(gè)分類系統(tǒng)中文獻(xiàn)分類結(jié)果不一致,影響系統(tǒng)的檢索性能。

粗糙集理論產(chǎn)生于1982年,是一種處理知識(shí)模糊性和不確定性的數(shù)學(xué)工具。到目前為止,粗糙集理論已經(jīng)廣泛應(yīng)用于股票分析、地震預(yù)報(bào)、知識(shí)發(fā)現(xiàn)、醫(yī)療診斷、過(guò)程控制和圖像處理等領(lǐng)域。其基本思想是在保持分類能力不變的前提下,通過(guò)知識(shí)約簡(jiǎn),導(dǎo)出分類規(guī)則。在分類任務(wù)中,粗糙集方法不需要先驗(yàn)知識(shí),能夠以較低的計(jì)算時(shí)間推導(dǎo)出易于理解和驗(yàn)證的分類規(guī)則。粗糙集理論從知識(shí)分類的角度來(lái)研究對(duì)象之間和概念之間的關(guān)系,與文本自動(dòng)分類原理非常吻合。因此,近來(lái)年,基于粗糙集理論的文本自動(dòng)分類研究受到越來(lái)越多的關(guān)注。研究表明,基于粗糙集理論的文本自動(dòng)分類方法具有較好的發(fā)展前景,還有待進(jìn)一步的深入研究與推廣應(yīng)用[4~8]。

1粗糙集基本理論

根據(jù)粗糙集理論及其屬性約簡(jiǎn)算法,可以有效地推導(dǎo)出用于文本自動(dòng)分類的分類規(guī)則。但是,在分類規(guī)則應(yīng)用于新文獻(xiàn)的分類預(yù)測(cè)過(guò)程中,隨著新文獻(xiàn)的不斷加入,分類規(guī)則與新文獻(xiàn)主題的不匹配矛盾會(huì)變得越來(lái)越突出。近似分類規(guī)則和匹配方法的改進(jìn)不能從根本上解決這個(gè)問(wèn)題。另外,它們會(huì)導(dǎo)致分類的準(zhǔn)確率降低,以及分類準(zhǔn)確性不可預(yù)測(cè)性提高。例如下面兩種情況:①如果新文獻(xiàn)在分類規(guī)則中能夠找到至少一條的匹配規(guī)則,但是匹配相關(guān)值較小,那么分類預(yù)測(cè)結(jié)果的正確率就會(huì)受到較大的影響;②如果新文獻(xiàn)在分類規(guī)則中根本找不到匹配規(guī)則,那么文獻(xiàn)類別就變得不可預(yù)測(cè)。最常用的辦法是將其歸為出現(xiàn)頻率較高的類別。很顯然,這種方法不能保證預(yù)測(cè)的準(zhǔn)確性。需要指出的是,本文不討論基于粗糙集理論的分類規(guī)則推導(dǎo)算法,具體研究是在假設(shè)分類規(guī)則已經(jīng)推導(dǎo)出的情況下。有關(guān)基于粗糙集理論的規(guī)則推導(dǎo)算法請(qǐng)參考文獻(xiàn)[10]。

2動(dòng)態(tài)類別擴(kuò)展算法

與平面分類法相比,層次體系結(jié)構(gòu)分類法的類別自動(dòng)擴(kuò)展相對(duì)比較復(fù)雜。事實(shí)上,平面分類法可以看做是層次體系結(jié)構(gòu)分類法的一種特例。因此,重點(diǎn)討論層次體系結(jié)構(gòu)分類法的類別自動(dòng)擴(kuò)展問(wèn)題。

層次體系分類法的類別分布呈樹狀結(jié)構(gòu)。其中每個(gè)類別都可以看做是樹上的一個(gè)節(jié)點(diǎn),每個(gè)類別的上位類是其代表節(jié)點(diǎn)的父節(jié)點(diǎn),下位類是其代表節(jié)點(diǎn)的子節(jié)點(diǎn),同位類是指代表節(jié)點(diǎn)的兄弟節(jié)點(diǎn)。

實(shí)驗(yàn)數(shù)據(jù)集(CWT)由北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室提供,包括15 605個(gè)網(wǎng)頁(yè)文本。該數(shù)據(jù)集主要用于測(cè)試網(wǎng)頁(yè)自動(dòng)分類方法的性能。表1描述了該數(shù)據(jù)集的訓(xùn)練集和測(cè)試集的劃分情況。圖1描述了CWT數(shù)據(jù)集的層次體系結(jié)構(gòu)。

對(duì)于層次體系分類法,類別自動(dòng)擴(kuò)展算法主要解決兩個(gè)問(wèn)題:①建立創(chuàng)建新類別的標(biāo)準(zhǔn),即判斷在分類系統(tǒng)應(yīng)用過(guò)程中,什么狀態(tài)下可以創(chuàng)建新類別;②如何確定新類別的位置。

本文定義,當(dāng)一篇新文獻(xiàn)在進(jìn)行分類預(yù)測(cè)時(shí),它與所有類別的匹配度均小于系統(tǒng)規(guī)定閾值時(shí),新類別就應(yīng)該自動(dòng)產(chǎn)生。類別擴(kuò)展可以分為橫向擴(kuò)展和縱向擴(kuò)展兩種類型。橫向擴(kuò)展是指增加某個(gè)類別的兄弟節(jié)點(diǎn),縱向擴(kuò)展是指增加某個(gè)類別的子節(jié)點(diǎn)。

理論上,新類別的增加,容易引起子父節(jié)點(diǎn)之間隸屬關(guān)系的不一致性。增加新類別時(shí)要盡可能地減少子父節(jié)點(diǎn)之間的差異,而且不能影響同級(jí)路徑上其他節(jié)點(diǎn)與子父節(jié)點(diǎn)之間的關(guān)系。在提出具體的類別擴(kuò)展算法之前,先定義上近似邊界、下近似邊界和同位近似邊界三個(gè)概念。

輸入:新文獻(xiàn)及其關(guān)鍵詞

輸出:新類別和分類規(guī)則

計(jì)算新文獻(xiàn)與各類區(qū)別的匹配度 

搜索與新文獻(xiàn)匹配度最大的類別,即定位節(jié)點(diǎn)M

If搜索不到,則在一級(jí)類別中增加新類別//橫向擴(kuò)展

Else搜索與之匹配度最大的類別,其相似值定義為MATCH(M)

If MATCH(M)大于該類別的規(guī)定閾值,則該文獻(xiàn)歸至該類

Else計(jì)算MATCH(PM),AVG(MATCH(CM)),AVG(MATCH(SM)),BND(D),BND(D)和BND(D)

If BND(D)>=BND(D)and BND(D)>=BND(D)

增加一個(gè)M節(jié)點(diǎn)的子節(jié)點(diǎn)//縱向擴(kuò)展

Else

增加一個(gè)M節(jié)點(diǎn)的兄弟節(jié)點(diǎn)//橫向擴(kuò)展

Endif

Endif

Endif

Return新節(jié)點(diǎn)及其相對(duì)應(yīng)新分類規(guī)則

從上述算法可以看出,當(dāng)一篇文獻(xiàn)輸入后,根據(jù)判定條件,決定是否產(chǎn)生新類別。如果需要?jiǎng)?chuàng)建新類別,則必須同時(shí)為該類別生成分類規(guī)則。當(dāng)一篇文獻(xiàn)加入時(shí),產(chǎn)生了新的類別,此時(shí)將該文獻(xiàn)的關(guān)鍵詞作為分類規(guī)則的條件屬性,而將該類別作為決策屬性,生成一條新的分類規(guī)則。之后,如果有新文獻(xiàn)加入該類別,需要根據(jù)每個(gè)新文獻(xiàn)的特征項(xiàng),生成相應(yīng)的分類規(guī)則。

舉例:假設(shè)某篇新文獻(xiàn)D與類別0408的匹配度最大值為0.32,小于規(guī)定閾值0.41。在這種情況下,需要新增類別。其用于動(dòng)態(tài)類別擴(kuò)展算法幾種參數(shù)的計(jì)算過(guò)程和結(jié)果如表2所示。根據(jù)動(dòng)態(tài)類別擴(kuò)展算法,可以生成新類別節(jié)點(diǎn),即一個(gè)0408的同位節(jié)點(diǎn)。

3實(shí)驗(yàn)性能評(píng)估

如何評(píng)估類別自動(dòng)擴(kuò)展算法的性能,目前可參考的相關(guān)文獻(xiàn)還較少。類別自動(dòng)擴(kuò)展算法的性能評(píng)估,主要包括兩個(gè)方面的工作:

(1)試驗(yàn)數(shù)據(jù)集的獲取。本文認(rèn)為,類別自動(dòng)擴(kuò)展方法的性能評(píng)估可以在用來(lái)文本自動(dòng)分類的數(shù)據(jù)集中進(jìn)行。具體實(shí)驗(yàn)方法如下:任意抽取其中一個(gè)類別作為測(cè)試對(duì)象。如果某個(gè)類別為非葉節(jié)點(diǎn),則將該類別及其所有子孫節(jié)點(diǎn)的訓(xùn)練文獻(xiàn)和測(cè)試文獻(xiàn)分別進(jìn)行合并,產(chǎn)生新的訓(xùn)練文獻(xiàn)集合和測(cè)試文獻(xiàn)集合(圖1)。

本文共抽取了CWT中十個(gè)類別進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示。

從表3中可以看出,動(dòng)態(tài)類別擴(kuò)展算法是相當(dāng)有效的。從總體上看,級(jí)別越低的類別,擴(kuò)展位置出錯(cuò)的可能性越高,比較容易擴(kuò)展至上位類。這種可能性在很大程度上取決于實(shí)驗(yàn)數(shù)據(jù)集中上下類別文獻(xiàn)的相關(guān)性。例如,類別122205所有的測(cè)試文獻(xiàn)與其上位類1222都有較高的匹配度,因此根據(jù)本文制定的規(guī)則沒(méi)有產(chǎn)生新的擴(kuò)展類別。

4結(jié)束語(yǔ)

動(dòng)態(tài)類別擴(kuò)展方法旨在解決基于機(jī)器學(xué)習(xí)的文本自動(dòng)分類系統(tǒng)中訓(xùn)練集相對(duì)固定,而新主題文獻(xiàn)無(wú)法進(jìn)行正確分類預(yù)測(cè)的問(wèn)題。隨著文本自動(dòng)分類技術(shù)的普及應(yīng)用,動(dòng)態(tài)類別擴(kuò)展將逐步發(fā)展成為解決這一難題的可行性技術(shù)。但是,到目前為止,該主題研究還沒(méi)有引起廣泛的關(guān)注。本文試圖作一些初步的探討,并提出一種基于粗糙集理論的動(dòng)態(tài)類別擴(kuò)展算法。實(shí)驗(yàn)表明,該算法不僅可以有效地自動(dòng)擴(kuò)展新類別,而且可以同時(shí)生成相應(yīng)的分類規(guī)則。但是,隨著大量新文獻(xiàn)加入新增的類別,分類規(guī)則也會(huì)急劇增加,分類規(guī)則會(huì)存在大量的冗余,從而導(dǎo)致分類速度和分類準(zhǔn)確性的降低。因此,下一步的研究工作將主要側(cè)重于分類規(guī)則的動(dòng)態(tài)優(yōu)化等問(wèn)題。

參考文獻(xiàn):

[1]

AAS K, EIKVIL L.Text categorization: a survey[R]. Norwegian: Norwegian Computer Center,1999.

[2]RUIZ M E R. Combining machine learning and hierarchical structures for text categorization[R]. Iowa:University of Iowa, 2001.

[3]SEBASTIANI F.A tutorial on automated text categorization:procee-dings of the 1st Argentinean Symposium on Artificial Intelligence[C].Varese:[s.n.],1999.

[4]DAS G P.Rough sets and information retrieval:proceedings of the 11th ACM SIGIR International Conference on Research and Development in Information Retrieval[C].[S.l.]:[s.n.],1988.

[5]SRINIVASAN P.Exploring the UMLs:A rough sets based theoretical framework:proceedings of the American Medical Informatics Association[C].[S.l.]:[s.n.],1999.

[6]SRINIVASAN P, RUIZ M E, KRAFT D H,et al.Vocabulary mining for information retrieval: rough sets and fuzzy sets[J].Information Processing Management,2001,37(1):15-38.

[7]CHOUCHOULAS A. A rough set approach to text classification[D].[S.l.]:University of Edinburgh,1999.

[8]CHOUCHOULAS A.Incremental feature selection based on rough set theory[D].[S.l.]:University of Edinburgh,2001.

[9]張文修,吳偉志,梁吉業(yè),等.粗糙集理論與方法[M].北京:科學(xué)出版社,2001.

[10]PAWLAK Z.Rough sets:theoretical aspects of reasoning about data[M]. Boston: Kluwer Academic Publishers,1999.

注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

主站蜘蛛池模板: 成人自拍视频在线观看| 久久国产精品电影| 国产高颜值露脸在线观看| 欧美性久久久久| 综合五月天网| 国产av一码二码三码无码| 亚洲国产精品无码AV| 伊人无码视屏| 香蕉综合在线视频91| 高清不卡一区二区三区香蕉| 性视频一区| 国产又粗又爽视频| 全午夜免费一级毛片| 亚洲综合极品香蕉久久网| 久久99蜜桃精品久久久久小说| 婷婷午夜天| 美女无遮挡免费网站| 亚洲欧美日韩久久精品| 欧美成人A视频| 国产麻豆aⅴ精品无码| 日韩av电影一区二区三区四区| 波多野结衣一区二区三区AV| 天天综合网在线| 国产浮力第一页永久地址| 亚洲最新网址| 在线免费无码视频| 国产不卡网| 亚洲不卡影院| 欧美性猛交一区二区三区| 亚洲视频四区| 欧美不卡二区| 又粗又大又爽又紧免费视频| 婷婷综合色| 亚洲欧美不卡中文字幕| 人妻无码AⅤ中文字| 美女扒开下面流白浆在线试听| 久久久久人妻一区精品色奶水| 欧美a在线视频| 22sihu国产精品视频影视资讯| 国产视频大全| 欧美激情第一欧美在线| 中文国产成人精品久久一| 制服丝袜 91视频| 波多野结衣在线一区二区| 一区二区三区成人| 国产最爽的乱婬视频国语对白| 国产精品主播| 日日拍夜夜操| 国产91小视频在线观看| 久久精品66| 国产日韩丝袜一二三区| 超薄丝袜足j国产在线视频| 久久精品国产一区二区小说| 午夜啪啪福利| 91黄视频在线观看| 国产在线日本| 2024av在线无码中文最新| 国产微拍精品| 国产办公室秘书无码精品| 国产黑丝视频在线观看| 久久香蕉国产线| 亚洲最猛黑人xxxx黑人猛交| 亚洲 欧美 偷自乱 图片| 91久久偷偷做嫩草影院电| 中文字幕天无码久久精品视频免费 | 久久99国产乱子伦精品免| 成人在线天堂| 亚洲欧美一区二区三区蜜芽| av无码久久精品| 亚洲乱码在线播放| 日韩国产黄色网站| 国产精品区网红主播在线观看| 亚洲国产精品VA在线看黑人| 欧美性天天| 岛国精品一区免费视频在线观看 | 国产黄色爱视频| 国产精品v欧美| 中文字幕在线永久在线视频2020| 欧美国产菊爆免费观看| 国产精品v欧美| 亚洲第一区在线| 国产剧情一区二区|