中文科技論文文本分類方法研究

2009-04-29 00:00:00陳頻

電腦知識(shí)與技術(shù) 2009年25期

摘要:隨著人們對(duì)科學(xué)技術(shù)和社會(huì)發(fā)展的日益重視，學(xué)術(shù)領(lǐng)域呈現(xiàn)多元化、信息化、現(xiàn)代化的趨勢(shì)。在這種情況下，研究者們比以往任何時(shí)候都迫切地需要高效、全面、方便的學(xué)術(shù)信息。因此中文科技論文文本分類研究已經(jīng)成為信息領(lǐng)域中的一個(gè)熱門話題。該文針對(duì)中文科技論文文本特殊的文體格式和語言風(fēng)格進(jìn)行了系統(tǒng)地研究，并提出了基于層次分類模型的文本分類算法。實(shí)驗(yàn)表明，隨著分類類別粒度的細(xì)化，采用新的分類算法的分類器在精確率和召回率方面優(yōu)勢(shì)逐漸突出。相對(duì)于KNN、NB和SVM分類器更適合于中文科技論文文本的分類要求。

關(guān)鍵詞:復(fù)雜特征結(jié)構(gòu);權(quán)重;層次分類模型;分類算法

中圖分類號(hào):TP18文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)25-7189-03

Text Classification Method Research of the Chinese Technology Text

CHEN Pin

(Management Science Department， Xiamen University of Technology， Xiamen 361024， China)

Abstract: With increasingly recognition of technology and society development， science domain is oriented to pluralistic and modern trend. In this case， the researcher need the high-effect， complete and convenient science information more urgently than ever. So，Chinese technology text classification research has bicome a hot theme in the information domain.This paper carries through research by the numbers in allusion to special style format and language color of the Chinese technology text. And put forwardclassification arithmetic based on bed-classification model.The experiment makes clear that this new classification arithnetic is gradually better than KNN、SB and SVM when the sorts gradually fine.

Key words: complicated feature configuration; weight; bed-classification model; classification arithmetic

目前，中文科技論文文本大多是以電子文本的形式存在。針對(duì)中文科技論文文本分類的研究，其目的便是給有這方面需要的人群，如研究人員、學(xué)生等提供更為方便、高效、全面的學(xué)術(shù)需求。因此，本文明確了中文科技論文文本特殊文體格式可以分為:標(biāo)題名、作者情況、中文摘要、中文關(guān)鍵詞、正文、參考文獻(xiàn)等結(jié)構(gòu)成分，并結(jié)合中文科技論文文本的這些文本特性，提出了一種新的層次文本分類模型。基于該分類模型，針對(duì)中文科技論文文本進(jìn)行分類算法研究。實(shí)驗(yàn)表明，隨著分類類別粒度的細(xì)化，應(yīng)用于中文科技論文文本分類的新分類方法在召回率和精確率上的優(yōu)勢(shì)逐漸凸顯。

1 中文科技論文文本的層次分類模型

傳統(tǒng)的文本分類模型雖然也已經(jīng)定義了整個(gè)文本層的分類。但大部分文本由于缺乏科技論文文本的特殊組織結(jié)構(gòu)，而忽略了這個(gè)文本的外延信息的利用。一篇科技論文文本通常是以完整的結(jié)構(gòu)呈現(xiàn)它的整個(gè)主題，包括標(biāo)題名、作者情況、中文摘要、關(guān)鍵詞、正文和參考文獻(xiàn)。因此，我們提出了一種新的層次分類模型。新模型的分類算法由如下三個(gè)步驟組成:

步驟一:中文科技論文文本結(jié)構(gòu)成分分裂，科技論文文本分裂為:標(biāo)題名、作者、中文文摘、關(guān)鍵詞、正文和參考文獻(xiàn);正文可分裂為:引言、文中和結(jié)論;文中可分裂為:層次標(biāo)題1、層次標(biāo)題2...層次標(biāo)題n。如圖1所示。

步驟二:科技論文文本結(jié)構(gòu)成分分裂為結(jié)束后，由于標(biāo)題名、作者和參考文獻(xiàn)具有很強(qiáng)的關(guān)聯(lián)性，因此把標(biāo)題名、作者和參考文獻(xiàn)一起進(jìn)行分類處理，記做歸并類別1;中文摘要、關(guān)鍵詞也放在一起進(jìn)行分類處理，記做歸并類別2;正文也同樣單獨(dú)分類處理，記做正文類別(也稱歸并類別3)。其中正文類別可以是由引言類別、文中類別和結(jié)論類別來考慮，這和文本分類的粒度有關(guān)系。如圖2所示。

步驟三:按照分類的要求分別采用不同的成分類別來處理分類。由此來看，我們把分裂后的文本各結(jié)構(gòu)成分分成了三個(gè)歸并類別來加以考慮。這樣做的好處是可以適應(yīng)具體情況:比如說當(dāng)歸并類別1的相似度很高(即達(dá)到某個(gè)相似度閾值時(shí))，我們就不再需要進(jìn)行其他類別的計(jì)算;如果歸并類別1相似度不夠高(即小于閾值時(shí))，我們就在進(jìn)行歸并類別2，并分配權(quán)重系數(shù)來綜合歸并類別1與歸并類別2的相似度;如果再不能達(dá)到閾值，就再進(jìn)行歸并類別3。如圖3所示。

2 中文科技論文文本的層次分類算法

在文本分類中，分類算法已經(jīng)有很多種了，例如，簡單貝葉斯方法，k-最近鄰方法，神經(jīng)網(wǎng)絡(luò)方法和支持向量機(jī)方法等等。本章中，對(duì)于中文科技論文文本，我們運(yùn)用的分類算法具體如下:

準(zhǔn)備:采用VSM作為文本表示的向量模型，并基于層次分類模型進(jìn)行文本分類。

輸入:訓(xùn)練文本類集C={C1，C2，…，Ci，…，CN}的原始特征向量;

待分類文本集D={D1，…，Dj，…，DM}的原始特征向量。

輸出:待分類文本歸屬類別(相似度)。

Step1利用Fj=(f1，f2，f3)表示特征向量的描述結(jié)構(gòu)，式中f1表示詞匯名;f2表示權(quán)重?cái)?shù)值;f3表示結(jié)構(gòu)成分標(biāo)記，f3∈{B，Z，W，G，ZW，CK};所以可以根據(jù)復(fù)雜特征集中的結(jié)構(gòu)成分標(biāo)記f3(組塊標(biāo)注)來分裂結(jié)構(gòu)成分。

Step2對(duì)構(gòu)成歸并類別1的結(jié)構(gòu)成分進(jìn)行分類處理:

① 第i類訓(xùn)練文本中標(biāo)題原始特征向量為Boi，且Boi=Bi，則由公式(1)表示:

(1)

同理:第i類訓(xùn)練文本中作者情況原始特征向量為Zoi，且Zoi=Zi， Zoi=[ZF1i，ZF2i，…，ZFik2]。同理:第i類訓(xùn)練文本中參考文獻(xiàn)原始特征向量為CKoi，且CKoi=CKi，CKoi=[CKF1i， CKF1i，…， CKFik6]。

②根據(jù)文獻(xiàn)[1]中基于自然語言處理的特征選擇，第類訓(xùn)練文本標(biāo)題原始特征向量自然語言處理:

(2)

同理:第i類訓(xùn)練文本作者情況、參考文獻(xiàn)原始特征向量自然語言處理:

③ 第j篇待分類文本的標(biāo)題名、作者情況以及參考文獻(xiàn)的原始特征向量分別表示為DBoj，DZoj和DCKoj。那么，根據(jù)文獻(xiàn)[1]中基于自然語言處理的特征選擇，待分類文本標(biāo)題名、作者情況以及參考文獻(xiàn)原始特征向量自然語言處理:

④ 訓(xùn)練文本類與待分類文本的標(biāo)題、作者情況和參考文獻(xiàn)特征向量相似度分別為:

Step3歸并類別1的相似度為:

將歸并類別1的相似度歸一化，并設(shè)定相似度閾值判斷。如果滿足這個(gè)閾值，即大于或者等于閾值，我們就輸出這個(gè)文檔的類別;如果不滿足這個(gè)閾值，即小于閾值，我們就繼續(xù)第四步。

Step4對(duì)構(gòu)成歸并類別2的組織結(jié)構(gòu)成分進(jìn)行分類處理:

① 同理:第類訓(xùn)練文本中中文摘要原始特征向量為Woi，且Woi=Wt，Woi=[WF1i，WF2i，…，WFik3]。同理:第i類訓(xùn)練文本中中文關(guān)鍵詞原始特征向量為Goi，且Goi=Gi，Goi =[GF1i，GF2i，…，GFik4]。

② 根據(jù)文獻(xiàn)[1]中基于自然語言處理的特征選擇，第i類訓(xùn)練文本中文摘要和關(guān)鍵詞原始特征向量進(jìn)行自然語言處理:

。

③ 第j篇待分類文本的中文摘要和關(guān)鍵詞原始特征向量分別表示為DWoj和DGoj。那么，根據(jù)文獻(xiàn)[1]中基于自然語言處理的特征選擇，待分類文本的中文摘要和關(guān)鍵詞原始特征向量自然語言處理:

訓(xùn)練文本類與待分類文本的中文摘要和關(guān)鍵詞特征向量相似度分別為:

Step5設(shè)定歸并類別2的相似度為:

將歸并類別2的相似度歸一化，并設(shè)定相似度閾值判斷。如果滿足這個(gè)閾值，即大于或者等于閾值，我們就輸出這個(gè)文檔的類別;如果不滿足這個(gè)閾值，即小于閾值，我們就繼續(xù)第六步。

Step6對(duì)構(gòu)成歸并類別3的組織結(jié)構(gòu)成分進(jìn)行分類類別處理:

① 同理:第i類訓(xùn)練文本正文原始特征向量為ZWoi，且ZWoi=ZWi，ZWoi=[ZWF1i， ZWF2i，…，ZWFik5]。

② 根據(jù)文獻(xiàn)[1]中基于自然語言處理的特征選擇，第i類訓(xùn)練文本正文原始特征向量進(jìn)行自然語言處理:

③ 第j篇待分類文本的正文原始特征向量表示為DZWoj，那么，根據(jù)文獻(xiàn)[1]中基于自然語言處理的特征選擇，待分類文本的正文原始特征向量自然語言處理:。

④ 訓(xùn)練文本類與待分類文本的正文特征向量相似度為

Step7設(shè)定歸并類別3的相似度為:

(8)

將歸并類別3的相似度歸一化，并設(shè)定相似度閾值判斷。其決策規(guī)則為:在不允許兼類的情況下，選取相似度最大Max(Simi3)的文本類Ci，將待分類文本Dj歸入Ci中。若允許兼類，由給定相似度的閾值ξ，將待分類文本Dj歸入所有和它相似度超過ξ的文本類中。

3 實(shí)驗(yàn)與分析

本文采用其中的5160篇中文科技論文文本的語料庫上測試我們的研究算法，并對(duì)其效率和結(jié)果比較分析。選擇訓(xùn)練集和測試集的方法如下:將這些分好類的語料平均分成十份，選擇其中一份作為開放測試集，剩余的九份作為訓(xùn)練集和封閉測試集。這樣每一份都依次輪流作為開放測試集，運(yùn)行分類算法，共執(zhí)行10次分類操作，計(jì)算其平均值。其中，測試KNN、NB和SVM分類器性能，本文借用了復(fù)旦大學(xué)李榮陸老師公布在中文自然語言處理開放平臺(tái)(http://www.nlp.org.cn)上的文本分類系統(tǒng)。本文將對(duì)中文科技論文文本分類的新方法——基于層次分類模型的文本分類方法，與KNN法、NB法和SVM法在精確率和召回率方面作一個(gè)比較。如圖4所示。

實(shí)驗(yàn)結(jié)果可以更直觀地用圖4來表示。從圖中，我們可以更清楚地看到:

1)當(dāng)類別相對(duì)比較粗，即各領(lǐng)域之間的界限比較清晰時(shí)，各分類器(KNN、NB、SVM及新方法)的精確率和召回率都比較高，都在80%以上。其中SVM分類器和新方法的性能都比較高，基本在90%左右。

2)當(dāng)類別逐漸變細(xì)，即在各學(xué)術(shù)領(lǐng)域下的一級(jí)子領(lǐng)域?yàn)轭悇e時(shí)，各分類器的精確率和召回率都有所下降，下降幅度平均在8%左右。此時(shí)新方法分類器逐漸比其他分類器呈現(xiàn)出性能方面的優(yōu)勢(shì)，基本維持在85%左右。

3)當(dāng)類別相對(duì)比較細(xì)，即各領(lǐng)域下的二級(jí)領(lǐng)域之間界限比較模糊時(shí)，各分類器的性能都有所下降。KNN和NB分類器的性能下降比較明顯，降幅在10%左右。而新方法分類器的性能優(yōu)勢(shì)更加突出，基本維持在75%~85%之間。

4 結(jié)論

在研究中文科技論文文本分類算法中，本文提出了一個(gè)層次文本分類模型，為中文科技論文文本的分類算法建立了一個(gè)優(yōu)良的模型依據(jù)。實(shí)驗(yàn)表明，這個(gè)模型的提出，有利于適應(yīng)不同的分類粒度，從很大程度上提高了分類準(zhǔn)確率和分類效率。

參考文獻(xiàn):

[1] 陳頻.基于自然語言處理的中文科技論文特征提取研究[J].電腦知識(shí)與技術(shù)，2007，3(4):1112.

[2] HAN Jia-wei.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社，2001.

[3] 賀海軍.WEB信息分類及檢索技術(shù)的研究[D].北京理工大博士學(xué)位論文，2002.

[4] Bloehdorn S， Hotho A. Text Classification by Boosting Weak Learners based on Terms and Concepts[C].Proceedings of the Fourth IEEE International Conference on Data Mining (ICDM，04).

[5] Wang Yi， Wang Xiao-Jing.A new approach to feature selection in text classification[C].In: Proceedings of the Fourth International Conference on Machine Learning and Cybernetics，Guangzhou，2005:18-21.

[6] Goncalves T， Quaresma P. Using IR Techniques to Improve Automated Text Classification[J].In: F.Meziane and E.Metais (Eds.):NLDB2004， LNCS 3136，2004:374-379.

電腦知識(shí)與技術(shù)2009年25期

電腦知識(shí)與技術(shù)的其它文章: 簡述歷史教育類小游戲“信差快跑”設(shè)計(jì)方案; 基于蟻群算法的危險(xiǎn)品物流線路優(yōu)化應(yīng)用研究; 工作流管理技術(shù)現(xiàn)狀及發(fā)展趨勢(shì)研究; 常用動(dòng)態(tài)路由協(xié)議的分析及比較; 淺談數(shù)字色彩與設(shè)計(jì); 電子商務(wù)信用保障措施研究