999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于特征詞句子環境的文本分類器

2007-01-01 00:00:00孫曉霞鄭玉明廖湖聲
計算機應用研究 2007年2期

摘 要:提出一種基于特征詞句子環境的文本分類方法,介紹了創建分類規則的文本句子信息模型,比較詳細地給出訓練算法和語句聚集算法。該算法依據訓練文本集的特征詞句子環境,獲取識別文本主題類別的特征詞集合。最后給出了分類器性能的測試結果。

關鍵詞:文本分類; 特征詞句子環境; 訓練算法; 語句聚集算法

中圖法分類號:TP311文獻標識碼:A

文章編號:1001—3695(2007)02—0116—04

1 引言

中文文本分類是指根據文本的內容,按照用戶預先指定的主題類別集合,使用計算機軟件自動為每一篇文本確定一個或幾個主題類別。實現有指導的文本分類算法主要分兩個步驟:①訓練階段。使用已知類別的訓練文本集,創建文本分類規則。②使用文本分類規則,對每一篇未知類別的文檔進行分類。

任何一篇具有確定主題的文檔都是由若干個句子構成的。一個能夠用于識別某類文本的特征詞集合,按照文檔作者的需要,被分散、有重復地安排在若干中文句子之中。一個句子是若干個能夠識別文本類別的特征詞與其他詞匯的混合體。文本分類的訓練階段可以看作從構成文檔的所有詞匯中抽取特征詞的過程。因此,在訓練階段的開始,不妨把構成文本句子的所有詞匯通稱為特征詞。構成一個句子的不同特征詞之間,需要服從各種語義及語法約束。換句話說,構成一個特定句子的特征詞對內營造一種和諧的句子環境,對外饋送一組特有信息。由此想到,識別某類文本的特征詞集合,應該相對集中地分布在文檔的若干個句子當中。文本分類的訓練階段可以利用特征詞的句子環境,通過聚集[5]這些句子環境去發現與識別某類文本的特征詞集合。

本文提出了一種基于特征詞句子環境的文本分類方法,介紹了用于創建分類規則的文本句子信息模型,比較詳細地給出使用訓練文本集,利用特征詞的句子環境,獲取識別文本主題類別的特征詞集合,創建并優化分類規則的訓練算法。最后給出分類器性能測試結果及結論。

2 文本句子的信息模型

通過識別句號、問號或感嘆號等標點符號,一篇中文文檔很容易被劃分為若干個句子。使用中文處理專用軟件可以把句子進一步劃分為若干個詞匯。把文檔或句子劃分為詞匯的過程,一般稱為分詞操作。分詞操作所產生的詞匯經過簡單的詞匯壓縮處理,生成了句子的特征詞集合。

2.1 句子的構成及其信息量

定義1中,特征詞集合{w1,w2,…,wn}仍然保持關于集合的最原始性質,即構成集合的元素是無序的。也就是說,在構造文本分類器時,只關注一個句子由哪些特征詞構成,而忽略該句子內部特征詞之間應該遵循的其他約束(如句子的特征詞至少需要按照一定先后次序關系排列等)。

2.2 任意兩個句子之間的互信息量相關度

3 分類規則的創建與優化

創建分類規則的主要過程以句子為處理對象。

3.1 從句子獲取識別文本類別的特征詞集

使用若干篇已知文本主題類別是ck的文本,執行訓練算法,可以獲取用于識別ck主題類別文本的特征詞集。

訓練算法描述如下:

(1)隨機選取已知類別為ck的訓練文本若干篇,構成訓練文本集。

(2)對每一篇文本,重復如下操作:

①記下該文本編號,并執行分詞操作。經過簡單的詞匯壓縮處理,生成數據表T。數據表T以句子為元素,每一個句子元素由若干個特征詞組成。

②在生成數據表T的過程中,同時統計每一個特征詞在ck類訓練文本集中出現的次數。

(3)精簡數據表T。從數據表T刪去在ck類訓練文本集中出現次數小于指定閾值的特征詞。

(4)再次掃描數據表T,統計任意兩個特征詞在ck類訓練文本集中出現的次數。

(5)使用語句聚集算法,對ck類訓練文本集以句子為單位,實施特征詞聚集操作。

(6)根據語句聚集算法執行結果,創建用于識別ck主題類別的分類規則。

除了步驟(5)之外,訓練算法的各個步驟所進行的操作目的都比較明確,操作比較容易實現。

3.2 訓練算法的核心:語句聚集算法

訓練算法步驟(5)所采用的語句聚集算法是訓練算法的核心。總體上講,語句聚集算法的思想是以句子為單位,把那些具有較大統計相關性的句子,聚集成一個有更多特征詞的新句子。

語句聚集算法具體描述如下:

值得注意的是,在語句聚集算法步驟(5.3.2.1)與步驟(5.3.2.2)中,凡是發生兩個句子進行并入操作的,都要對兩個句子的相同特征詞集合中的各個特征詞,分別累計并入操作的次數。

3.3 分類規則的創建與優化

當系統執行了訓練算法的步驟(5)之后,用于識別ck主題類別的所有訓練文本的句子,已經被聚集到一個主語句集合MAIN_set之中。執行訓練算法的步驟(6),逐一檢查MAIN_set中的每一個句子,刪去那些語句聚集過程中并入操作次數低于指定閾值的特征詞(乃至刪去MAIN_set中的一些句子!),就得到以句子形式組織的識別ck類文本的特征詞集。

對經過精簡后的MAIN_set中的特征詞集,以句子為單位,以組合的方式構造形如ck←w1,w2,…,wn的分類規則,就可以得到一個用于識別ck主題類文本的分類規則集合。

不難想到,對于不同的ck主題類別,重復訓練過程,就創建了一個可以識別多種主題類別的分類規則集合。

上述分類規則集合必須經過優化處理,才能用于實際分類操作。其主要原因為:①采用上述訓練算法產生的分類規則,難免混入一些通用詞匯,甚至出現一些單純由通用詞匯構成的規則。這些通用詞匯無論在哪一種主題類別的文本中,都有比較高的使用頻率。②經過訓練算法步驟(6)產生的分類規則中,由于文本主題所屬領域相近性的原因,使用不同類別訓練文本集,可能產生若干個“←”左部不同,而“←”右部內容非常接近的分類規則。例如,同屬于自然災害類的地震和海嘯主題類別訓練文本,可能同時出現“地震、傷亡、損失”這樣的詞匯。一旦由這樣的詞匯構造分類規則,系統就很難決定文檔應該屬于地震類,還是應該屬于海嘯類了。

為了優化分類規則,必須另選屬于不同主題類別的優化文本各若干篇,構成優化文本集。同時,引入了查全率和查準率定義用于優化過程,檢測每一條分類規則的性能優劣。

設:參與當前優化操作的文本類別共M類。每一類包含Ci(i=1,2,…,M)篇文本。若經過優化操作,被當前分類規則集合判別為屬于第i類的文本數量有Ti篇,而經過與優化文本自身的實際主題類別核對后,確認屬于該主題類別的文本數量有Ri篇。于是,對于第i類文本有

優化算法的思想是首先對每一篇優化文本執行分詞操作,經過簡單的詞匯壓縮處理后,交付各條分類規則進行文檔主題類別的判斷,并按照各條規則分類正確與否累計它們的分類結果數據;然后,淘汰那些查全率與查準率偏低的規則。

3.4 訓練算法的復雜度

創建分類器的時間開銷取決于訓練算法的時間復雜度。為了獲取某一主題類別特征詞集,訓練算法需要創建并兩次掃描數據表T。不過,訓練算法的主要開銷將由語句聚集算法決定。

設:用于獲取某一主題類別特征詞集的訓練文本一共有N篇。假定每一篇訓練文本可以劃分為M個句子。于是,執行語句聚集算法步驟(5.3),所涉及句子的上界將是O(N×M2)。更進一步地分析,如果每一個句子最多由k個特征詞構成,那么,找出句子SE與句子ME的所有相同特征詞集合SAME_set的時間開銷,將有上界O(k)。因此,訓練算法所處理的特征詞數量將以O(k×N×M2)為上界。

4 分類器性能測試和結論

4.1 分類器性能測試及其結果

分類器性能測試使用了一個已知文本主題類別的測試文本集。通過對每一篇文本的分類操作,對比文本自身固有的主題類別,計算并得到測試結果數據。

測試文本集由總數達到2200篇、分別屬于11種主題類別的文檔構成。11種主題類別可歸納為四大類:災害類(含地震類、低溫霜凍類、水災類、冰雹類、旱災類、火災類)、社會類(含治安案件類、爆炸類、交通事故類)、建設類(含交通建設類)和經濟類(含經濟統計報告類)。

分類器分類性能測試包括對不同主題類別文本的查全率和查準率,以及系統準確率測試。查全率和查準率仍然采用定義4和定義5。而系統準確率定義如下:

4.2 結論

(1)利用文本句子環境引導,能夠創建性能良好的分類器。測試結果表明,分類器系統精度達到95%以上。

(2)分類器α,β和γ參數的選擇,對分類器的分類性能會產生一定影響。測試過程曾經對α,β和γ采用多種參數取值搭配,其系統準確率變化在0.5%范圍之內。

(3)訓練文本集所包含文本的數量也會對分類器性能產生一定影響。在α,β和γ參數分別取值為1,7,2的情況下,每一種主題類別的訓練文本集各使用50,30和16篇文本。經過訓練后,對分類器進行分類測試,其系統分類準確率分別是96.8%,96.3%,96.1%。可見,訓練文本數量減少到原來的三分之一,其系統分類性能下降0.7%,但系統準確率仍然在95%以上。因此,在獲取文檔條件受限的情況下,使用數量較少的已知主題類別文檔,仍然能夠創建分類性能令人滿意的分類器。

本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 欧洲免费精品视频在线| 2021精品国产自在现线看| 四虎影视国产精品| 99久久国产综合精品2020| 亚洲一区色| 欧美日韩亚洲综合在线观看| 久草中文网| 欧美日韩国产系列在线观看| 亚洲免费黄色网| 精品午夜国产福利观看| 999精品视频在线| 亚洲男人天堂2018| 人妻中文久热无码丝袜| 亚洲av成人无码网站在线观看| 日本91视频| 无码福利日韩神码福利片| 国产福利在线免费观看| 特级欧美视频aaaaaa| av一区二区三区高清久久| 97久久免费视频| 国内a级毛片| 欧美日韩va| 99re热精品视频国产免费| 亚洲一区二区三区中文字幕5566| 国产在线精品99一区不卡| 永久免费av网站可以直接看的| 欧美日韩在线国产| 91啦中文字幕| 久久特级毛片| 福利小视频在线播放| 狠狠色香婷婷久久亚洲精品| 国产日本一区二区三区| 亚洲精品无码在线播放网站| 国内精品久久人妻无码大片高| 亚洲国产无码有码| 国产av剧情无码精品色午夜| 国产精品久久久久久久久kt| 午夜精品国产自在| 色综合久久88色综合天天提莫| 人妻少妇乱子伦精品无码专区毛片| 久久黄色视频影| 大香伊人久久| 亚洲第一香蕉视频| 亚洲天堂视频在线免费观看| 免费一级无码在线网站 | 亚洲大尺码专区影院| 成人精品在线观看| 一区二区三区在线不卡免费| 四虎综合网| 91精品啪在线观看国产| 99精品影院| 亚洲伊人天堂| 国产经典在线观看一区| 中文纯内无码H| 91免费国产高清观看| 欧美成人一级| 99re在线观看视频| 亚洲人网站| 国内精品视频在线| 久久精品国产精品一区二区| 欧美啪啪网| 国产精品自在自线免费观看| 亚洲av日韩综合一区尤物| 国产内射在线观看| 午夜国产大片免费观看| 99999久久久久久亚洲| 99久视频| 亚洲天堂视频网站| 第一区免费在线观看| 欧美亚洲另类在线观看| av在线无码浏览| 中文字幕亚洲精品2页| 久久99国产乱子伦精品免| 最新国产精品第1页| 精品久久777| 久久综合伊人 六十路| 亚洲人成网线在线播放va| 99热免费在线| 免费A∨中文乱码专区| 在线欧美a| 国产激情国语对白普通话| 亚洲中文无码h在线观看|