999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文科技論文文本分類方法研究

2009-04-29 00:00:00
電腦知識(shí)與技術(shù) 2009年25期

摘要:隨著人們對(duì)科學(xué)技術(shù)和社會(huì)發(fā)展的日益重視,學(xué)術(shù)領(lǐng)域呈現(xiàn)多元化、信息化、現(xiàn)代化的趨勢(shì)。在這種情況下,研究者們比以往任何時(shí)候都迫切地需要高效、全面、方便的學(xué)術(shù)信息。因此中文科技論文文本分類研究已經(jīng)成為信息領(lǐng)域中的一個(gè)熱門話題。該文針對(duì)中文科技論文文本特殊的文體格式和語言風(fēng)格進(jìn)行了系統(tǒng)地研究,并提出了基于層次分類模型的文本分類算法。實(shí)驗(yàn)表明,隨著分類類別粒度的細(xì)化,采用新的分類算法的分類器在精確率和召回率方面優(yōu)勢(shì)逐漸突出。相對(duì)于KNN、NB和SVM分類器更適合于中文科技論文文本的分類要求。

關(guān)鍵詞:復(fù)雜特征結(jié)構(gòu);權(quán)重;層次分類模型;分類算法

中圖分類號(hào):TP18文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)25-7189-03

Text Classification Method Research of the Chinese Technology Text

CHEN Pin

(Management Science Department, Xiamen University of Technology, Xiamen 361024, China)

Abstract: With increasingly recognition of technology and society development, science domain is oriented to pluralistic and modern trend. In this case, the researcher need the high-effect, complete and convenient science information more urgently than ever. So,Chinese technology text classification research has bicome a hot theme in the information domain.This paper carries through research by the numbers in allusion to special style format and language color of the Chinese technology text. And put forwardclassification arithmetic based on bed-classification model.The experiment makes clear that this new classification arithnetic is gradually better than KNN、SB and SVM when the sorts gradually fine.

Key words: complicated feature configuration; weight; bed-classification model; classification arithmetic

目前,中文科技論文文本大多是以電子文本的形式存在。針對(duì)中文科技論文文本分類的研究,其目的便是給有這方面需要的人群,如研究人員、學(xué)生等提供更為方便、高效、全面的學(xué)術(shù)需求。因此,本文明確了中文科技論文文本特殊文體格式可以分為:標(biāo)題名、作者情況、中文摘要、中文關(guān)鍵詞、正文、參考文獻(xiàn)等結(jié)構(gòu)成分,并結(jié)合中文科技論文文本的這些文本特性,提出了一種新的層次文本分類模型。基于該分類模型,針對(duì)中文科技論文文本進(jìn)行分類算法研究。實(shí)驗(yàn)表明,隨著分類類別粒度的細(xì)化,應(yīng)用于中文科技論文文本分類的新分類方法在召回率和精確率上的優(yōu)勢(shì)逐漸凸顯。

1 中文科技論文文本的層次分類模型

傳統(tǒng)的文本分類模型雖然也已經(jīng)定義了整個(gè)文本層的分類。但大部分文本由于缺乏科技論文文本的特殊組織結(jié)構(gòu),而忽略了這個(gè)文本的外延信息的利用。一篇科技論文文本通常是以完整的結(jié)構(gòu)呈現(xiàn)它的整個(gè)主題,包括標(biāo)題名、作者情況、中文摘要、關(guān)鍵詞、正文和參考文獻(xiàn)。因此,我們提出了一種新的層次分類模型。新模型的分類算法由如下三個(gè)步驟組成:

步驟一:中文科技論文文本結(jié)構(gòu)成分分裂,科技論文文本分裂為:標(biāo)題名、作者、中文文摘、關(guān)鍵詞、正文和參考文獻(xiàn);正文可分裂為:引言、文中和結(jié)論;文中可分裂為:層次標(biāo)題1、層次標(biāo)題2...層次標(biāo)題n。如圖1所示。

步驟二:科技論文文本結(jié)構(gòu)成分分裂為結(jié)束后,由于標(biāo)題名、作者和參考文獻(xiàn)具有很強(qiáng)的關(guān)聯(lián)性,因此把標(biāo)題名、作者和參考文獻(xiàn)一起進(jìn)行分類處理,記做歸并類別1;中文摘要、關(guān)鍵詞也放在一起進(jìn)行分類處理,記做歸并類別2;正文也同樣單獨(dú)分類處理,記做正文類別(也稱歸并類別3)。其中正文類別可以是由引言類別、文中類別和結(jié)論類別來考慮,這和文本分類的粒度有關(guān)系。如圖2所示。

步驟三:按照分類的要求分別采用不同的成分類別來處理分類。由此來看,我們把分裂后的文本各結(jié)構(gòu)成分分成了三個(gè)歸并類別來加以考慮。這樣做的好處是可以適應(yīng)具體情況:比如說當(dāng)歸并類別1的相似度很高(即達(dá)到某個(gè)相似度閾值時(shí)),我們就不再需要進(jìn)行其他類別的計(jì)算;如果歸并類別1相似度不夠高(即小于閾值時(shí)),我們就在進(jìn)行歸并類別2,并分配權(quán)重系數(shù)來綜合歸并類別1與歸并類別2的相似度;如果再不能達(dá)到閾值,就再進(jìn)行歸并類別3。如圖3所示。

2 中文科技論文文本的層次分類算法

在文本分類中,分類算法已經(jīng)有很多種了,例如,簡單貝葉斯方法,k-最近鄰方法,神經(jīng)網(wǎng)絡(luò)方法和支持向量機(jī)方法等等。本章中,對(duì)于中文科技論文文本,我們運(yùn)用的分類算法具體如下:

準(zhǔn)備:采用VSM作為文本表示的向量模型,并基于層次分類模型進(jìn)行文本分類。

輸入:訓(xùn)練文本類集C={C1,C2,…,Ci,…,CN}的原始特征向量;

待分類文本集D={D1,…,Dj,…,DM}的原始特征向量。

輸出:待分類文本歸屬類別(相似度)。

Step1利用Fj=(f1,f2,f3)表示特征向量的描述結(jié)構(gòu),式中f1表示詞匯名;f2表示權(quán)重?cái)?shù)值;f3表示結(jié)構(gòu)成分標(biāo)記,f3∈{B,Z,W,G,ZW,CK};所以可以根據(jù)復(fù)雜特征集中的結(jié)構(gòu)成分標(biāo)記f3(組塊標(biāo)注)來分裂結(jié)構(gòu)成分。

Step2對(duì)構(gòu)成歸并類別1的結(jié)構(gòu)成分進(jìn)行分類處理:

① 第i類訓(xùn)練文本中標(biāo)題原始特征向量為Boi,且Boi=Bi,則由公式(1)表示:

(1)

同理:第i類訓(xùn)練文本中作者情況原始特征向量為Zoi,且Zoi=Zi, Zoi=[ZF1i,ZF2i,…,ZFik2]。同理:第i類訓(xùn)練文本中參考文獻(xiàn)原始特征向量為CKoi,且CKoi=CKi,CKoi=[CKF1i, CKF1i,…, CKFik6]。

②根據(jù)文獻(xiàn)[1]中基于自然語言處理的特征選擇,第 類訓(xùn)練文本標(biāo)題原始特征向量自然語言處理:

(2)

同理:第i類訓(xùn)練文本作者情況、參考文獻(xiàn)原始特征向量自然語言處理:

③ 第j篇待分類文本的標(biāo)題名、作者情況以及參考文獻(xiàn)的原始特征向量分別表示為DBoj,DZoj和DCKoj。那么,根據(jù)文獻(xiàn)[1]中基于自然語言處理的特征選擇,待分類文本標(biāo)題名、作者情況以及參考文獻(xiàn)原始特征向量自然語言處理:

④ 訓(xùn)練文本類與待分類文本的標(biāo)題、作者情況和參考文獻(xiàn)特征向量相似度分別為:

Step3歸并類別1的相似度為:

將歸并類別1的相似度歸一化,并設(shè)定相似度閾值判斷。如果滿足這個(gè)閾值,即大于或者等于閾值,我們就輸出這個(gè)文檔的類別;如果不滿足這個(gè)閾值,即小于閾值,我們就繼續(xù)第四步。

Step4對(duì)構(gòu)成歸并類別2的組織結(jié)構(gòu)成分進(jìn)行分類處理:

① 同理:第 類訓(xùn)練文本中中文摘要原始特征向量為Woi,且Woi=Wt,Woi=[WF1i,WF2i,…,WFik3]。同理:第i類訓(xùn)練文本中中文關(guān)鍵詞原始特征向量為Goi,且Goi=Gi,Goi =[GF1i,GF2i,…,GFik4]。

② 根據(jù)文獻(xiàn)[1]中基于自然語言處理的特征選擇,第i類訓(xùn)練文本中文摘要和關(guān)鍵詞原始特征向量進(jìn)行自然語言處理:

③ 第j篇待分類文本的中文摘要和關(guān)鍵詞原始特征向量分別表示為DWoj和DGoj。那么,根據(jù)文獻(xiàn)[1]中基于自然語言處理的特征選擇,待分類文本的中文摘要和關(guān)鍵詞原始特征向量自然語言處理:

訓(xùn)練文本類與待分類文本的中文摘要和關(guān)鍵詞特征向量相似度分別為:

Step5設(shè)定歸并類別2的相似度為:

將歸并類別2的相似度歸一化,并設(shè)定相似度閾值判斷。如果滿足這個(gè)閾值,即大于或者等于閾值,我們就輸出這個(gè)文檔的類別;如果不滿足這個(gè)閾值,即小于閾值,我們就繼續(xù)第六步。

Step6對(duì)構(gòu)成歸并類別3的組織結(jié)構(gòu)成分進(jìn)行分類類別處理:

① 同理:第i類訓(xùn)練文本正文原始特征向量為ZWoi,且ZWoi=ZWi,ZWoi=[ZWF1i, ZWF2i,…,ZWFik5]。

② 根據(jù)文獻(xiàn)[1]中基于自然語言處理的特征選擇,第i類訓(xùn)練文本正文原始特征向量進(jìn)行自然語言處理:

③ 第j篇待分類文本的正文原始特征向量表示為DZWoj,那么,根據(jù)文獻(xiàn)[1]中基于自然語言處理的特征選擇,待分類文本的正文原始特征向量自然語言處理:。

④ 訓(xùn)練文本類與待分類文本的正文特征向量相似度為

Step7設(shè)定歸并類別3的相似度為:

(8)

將歸并類別3的相似度歸一化,并設(shè)定相似度閾值判斷。其決策規(guī)則為:在不允許兼類的情況下,選取相似度最大Max(Simi3)的文本類Ci,將待分類文本Dj歸入Ci中。若允許兼類,由給定相似度的閾值ξ,將待分類文本Dj歸入所有和它相似度超過ξ的文本類中。

3 實(shí)驗(yàn)與分析

本文采用其中的5160篇中文科技論文文本的語料庫上測試我們的研究算法,并對(duì)其效率和結(jié)果比較分析。選擇訓(xùn)練集和測試集的方法如下:將這些分好類的語料平均分成十份,選擇其中一份作為開放測試集,剩余的九份作為訓(xùn)練集和封閉測試集。這樣每一份都依次輪流作為開放測試集,運(yùn)行分類算法,共執(zhí)行10次分類操作,計(jì)算其平均值。其中,測試KNN、NB和SVM分類器性能,本文借用了復(fù)旦大學(xué)李榮陸老師公布在中文自然語言處理開放平臺(tái)(http://www.nlp.org.cn)上的文本分類系統(tǒng)。本文將對(duì)中文科技論文文本分類的新方法——基于層次分類模型的文本分類方法,與KNN法、NB法和SVM法在精確率和召回率方面作一個(gè)比較。如圖4所示。

實(shí)驗(yàn)結(jié)果可以更直觀地用圖4來表示。從圖中,我們可以更清楚地看到:

1)當(dāng)類別相對(duì)比較粗,即各領(lǐng)域之間的界限比較清晰時(shí),各分類器(KNN、NB、SVM及新方法)的精確率和召回率都比較高,都在80%以上。其中SVM分類器和新方法的性能都比較高,基本在90%左右。

2)當(dāng)類別逐漸變細(xì),即在各學(xué)術(shù)領(lǐng)域下的一級(jí)子領(lǐng)域?yàn)轭悇e時(shí),各分類器的精確率和召回率都有所下降,下降幅度平均在8%左右。此時(shí)新方法分類器逐漸比其他分類器呈現(xiàn)出性能方面的優(yōu)勢(shì),基本維持在85%左右。

3)當(dāng)類別相對(duì)比較細(xì),即各領(lǐng)域下的二級(jí)領(lǐng)域之間界限比較模糊時(shí),各分類器的性能都有所下降。KNN和NB分類器的性能下降比較明顯,降幅在10%左右。而新方法分類器的性能優(yōu)勢(shì)更加突出,基本維持在75%~85%之間。

4 結(jié)論

在研究中文科技論文文本分類算法中,本文提出了一個(gè)層次文本分類模型,為中文科技論文文本的分類算法建立了一個(gè)優(yōu)良的模型依據(jù)。實(shí)驗(yàn)表明,這個(gè)模型的提出,有利于適應(yīng)不同的分類粒度,從很大程度上提高了分類準(zhǔn)確率和分類效率。

參考文獻(xiàn):

[1] 陳頻.基于自然語言處理的中文科技論文特征提取研究[J].電腦知識(shí)與技術(shù),2007,3(4):1112.

[2] HAN Jia-wei.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.

[3] 賀海軍.WEB信息分類及檢索技術(shù)的研究[D].北京理工大博士學(xué)位論文,2002.

[4] Bloehdorn S, Hotho A. Text Classification by Boosting Weak Learners based on Terms and Concepts[C].Proceedings of the Fourth IEEE International Conference on Data Mining (ICDM,04).

[5] Wang Yi, Wang Xiao-Jing.A new approach to feature selection in text classification[C].In: Proceedings of the Fourth International Conference on Machine Learning and Cybernetics,Guangzhou,2005:18-21.

[6] Goncalves T, Quaresma P. Using IR Techniques to Improve Automated Text Classification[J].In: F.Meziane and E.Metais (Eds.):NLDB2004, LNCS 3136,2004:374-379.

主站蜘蛛池模板: 无码久看视频| 夜夜爽免费视频| 久草视频中文| 国产一级片网址| 国产精品成| 亚洲黄色视频在线观看一区| 国产精品福利导航| 成人精品区| 欧美成a人片在线观看| 国产91av在线| 免费欧美一级| 看你懂的巨臀中文字幕一区二区| 亚洲午夜福利精品无码不卡 | 国产免费久久精品99re不卡| 色欲综合久久中文字幕网| 国产在线啪| 天堂亚洲网| 中文字幕自拍偷拍| 精品91在线| 自偷自拍三级全三级视频| 综合五月天网| 在线免费观看a视频| 欧美无遮挡国产欧美另类| 国产又粗又爽视频| 亚洲成a人片| 国产99视频在线| 国产91高跟丝袜| 国产精品九九视频| 日韩精品无码一级毛片免费| 亚洲中文久久精品无玛| 久久一级电影| 婷婷亚洲视频| 色视频久久| 久一在线视频| 精品视频第一页| 香蕉在线视频网站| 538国产视频| 欧美19综合中文字幕| 午夜高清国产拍精品| 一本色道久久88亚洲综合| www亚洲天堂| 国产成人精品一区二区三区| 国产丰满成熟女性性满足视频| 2021国产精品自拍| 日日噜噜夜夜狠狠视频| 国产天天射| 她的性爱视频| 在线国产三级| 黄片一区二区三区| 中文字幕人成人乱码亚洲电影| 久久精品国产亚洲麻豆| 999精品视频在线| 亚洲欧美日韩另类在线一| 精品1区2区3区| 国产精品美女在线| 国产丝袜一区二区三区视频免下载| 青青青视频免费一区二区| 亚洲看片网| 99ri国产在线| 伊人91在线| 毛片a级毛片免费观看免下载| 国产精品部在线观看| 永久免费av网站可以直接看的| 日本色综合网| 亚洲精品免费网站| 国产91熟女高潮一区二区| 国产欧美一区二区三区视频在线观看| 毛片免费高清免费| 一本色道久久88综合日韩精品| 久久久久久久久亚洲精品| 国产又大又粗又猛又爽的视频| 老司国产精品视频91| www.日韩三级| 欧美日韩亚洲综合在线观看| 亚洲AV无码乱码在线观看代蜜桃 | 日韩免费成人| 国产三级精品三级在线观看| 国产三级视频网站| 国产福利在线观看精品| 97青草最新免费精品视频| 亚洲IV视频免费在线光看| 97se亚洲综合在线天天|