〔摘 要〕文本提出了一種基于語義的特征降維方法。通過依存關(guān)系抽取實(shí)現(xiàn)一次降維;通過計(jì)算類別和依存關(guān)系特征項(xiàng)的語義相似度,結(jié)合互信息方法進(jìn)行特征選擇實(shí)現(xiàn)二次降維。對中文文本分類的實(shí)驗(yàn)結(jié)果表明,提出的特征降維方法具有較好的分類效果。
〔關(guān)鍵詞〕文本分類;特征降維;互信息;依存關(guān)系;語義
DOI:10.3969/j.issn.1008-0821.2011.11.011
〔中圖分類號〕TP391 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2011)11-0046-05
Method of Feature Reduction in Chinese Text Classification Based on SemanticsHu Tao Liu Huailiang
(School of Management,Xidian University,Xi’an 710071,China)
〔Abstract〕This paper introduced a semantic-based feature dimension reduction method.Dependencies extracted by dimensionality reduction;by calculating the semantic similarity of categories and dependencies,combined with the multi-information feature selection method for the second dimension reduction.Experiments in Chinese text classification showed that the proposed feature dimension reduction method has better classification results.
〔Key words〕text classification;dimension reduction;multi-information;dependency relation;semantic
隨著信息技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)上的信息呈海量特征,人們對文本挖掘技術(shù)提出了更高的要求。作為文本挖掘的一個重要組成部分,文本分類成為研究的熱點(diǎn)。文本分類是指在預(yù)先給定的類別體系下,根據(jù)文本內(nèi)容自動確定文本類別的過程[1]。該技術(shù)在自然語言處理、信息組織與管理、內(nèi)容信息過濾等領(lǐng)域都有著廣泛的應(yīng)用。
文本分類中,主要采用向量空間模型來表示文本。向量空間模型的優(yōu)點(diǎn)在于將非結(jié)構(gòu)化的文本表示為向量形式,方便運(yùn)用各種數(shù)學(xué)方法處理。在向量空間模型下,文本特征的高維性和文本向量數(shù)據(jù)的稀疏性是影響文本分類效率的主要瓶頸。尋找合理的特征降維方法成為進(jìn)一步提高文本分類效率的關(guān)鍵。
1 文本特征降維常用的方法
特征選擇和特征抽取是文本特征降維中的主要方法。
特征選擇是指依據(jù)某個準(zhǔn)則從眾多原始特征中選擇部分最能反映類別統(tǒng)計(jì)特性的相關(guān)特征,即要找到對文本內(nèi)容的標(biāo)引能力最強(qiáng)的特征子集,本質(zhì)上是對特征集合的約簡。特征選擇注重特征與文本之間的分布信息而很少利用特征之間的語義信息,是從統(tǒng)計(jì)的角度對特征維數(shù) 進(jìn)行壓縮。常用的特征選擇方法有文檔頻度、特征熵、互信息、信息增益、χ2統(tǒng)計(jì) 量、特征權(quán)、期望交叉熵、幾率比等。這些模型由于構(gòu)造相對簡單、易于理解而得到廣泛應(yīng) 用。
特征抽取就是基于特征項(xiàng)之間的語義相關(guān)性、類別特征集對類內(nèi)文本聚合程度、類間離散程度的影響力等方面考量而對文本特征集的一種壓縮。特征抽取側(cè)重于特征之間、特征與文本之間的語義信息,是從變換的角度對特征進(jìn)行壓縮,但存在高維矩陣分解的困難。常用的特征抽取方法有主成分分析、潛在語義標(biāo)引、非負(fù)矩陣分解等。這些方法從不同的角度度量特征對文本分類所起的作用,但多數(shù)還是以文本特征項(xiàng)矩陣為基礎(chǔ)而進(jìn)行的一系列降維模式研究。
本文提出的基于語義的特征降維方法,對詞匯和類別進(jìn)行語義分析,考慮了句子中的詞匯間存在的關(guān)系,提取依存關(guān)系詞對作為特征項(xiàng)。利用了類別信息,對類別名稱和特征項(xiàng)進(jìn)行語義相似度計(jì)算,在互信息方法基礎(chǔ)上做了改進(jìn),更好的實(shí)現(xiàn)了特征降維。
2 依存關(guān)系分析
2.1 依存語法介紹
依存語法是一種使用非常廣泛的語法形式,其主要元素是語義依存關(guān)系。詞語之間存在一種有方向的二元關(guān)系,一般是一個詞支配另一個詞,或者說,一個詞受另一個詞支配,這種支 配與被支配的關(guān)系就稱作依存關(guān)系。依存語法認(rèn)為句子中謂語動詞是支配其他成分的中心, 而它本身卻不受其他任何成分的支配,所有的受支配成分都以某種依存關(guān)系從屬于其支配者 。依存關(guān)系既可以是句子中詞與詞之間的句法關(guān)系,也可以是語義關(guān)系。
1970年,Robinson J.提出了依存關(guān)系的四大公理[2],為依存語法奠定了基礎(chǔ)。由于漢語的特殊性,中國學(xué)者提出了第五條公理[3]:
(1)一個句子只有一個成分是獨(dú)立的;
(2)句子中的其他成分直接從屬于某一成分;
(3)任何一個成分都不能從屬于兩個或兩個以上的成分;
(4)如果成分A直接從屬于成分B,而成分C在句子中位于A和B之間,那么,成分C或者從屬于A,或者從屬于B,或者從屬于A和B之間的某一成分。
(5)中心成分左右兩邊的其它成分相互不發(fā)生關(guān)系。
依存語法有如下優(yōu)點(diǎn)[4]:
(1)表示簡潔、存儲空間小,更適用于基于自然語言的信息檢索。
(2)可計(jì)算性好,句子結(jié)構(gòu)表現(xiàn)為線性的依存關(guān)系序列,知識獲取時計(jì)算比較簡單。
(3)不過多強(qiáng)調(diào)句子中的固定詞序,依存語法采用中心詞趨動,比較適應(yīng)漢語詞序靈活的特點(diǎn)。
(4)不僅將語料中的詞頻信息作為單詞表示的上下文,而且還在詞的語義關(guān)系與它在文中的句法結(jié)構(gòu)信息之間建立聯(lián)系。這樣既豐富了上下文信息,同時又加深了對文本信息的挖掘。
2.2 依存關(guān)系分析及其獲取
依存關(guān)系分析[5]可以反映出句子中各成分之間的語義修飾關(guān)系,它可以獲得長距離的搭配信息,并與句子成分的物理位置無關(guān)。
基于知網(wǎng)定義的語義關(guān)系和句法關(guān)系大致有45種[6],其中語義關(guān)系36種,句法關(guān)系9種,如表1所示。表1 知網(wǎng)語義關(guān)系集
語義關(guān)系關(guān)系主體領(lǐng)有者存現(xiàn)體經(jīng)驗(yàn)者領(lǐng)屬物受事成品受事描寫體方向達(dá)成延續(xù)發(fā)端結(jié)果內(nèi)容時間限定修飾手段范圍整體來源整體工具終處所材料處所原處所目標(biāo)程度方式數(shù)量并列目的原因條件對象遞進(jìn)句法關(guān)系“地”字依存“的”字依存“等”字依存介詞依存副詞依存動補(bǔ)“有”依存動補(bǔ)“為”依存連接依存語氣依存
依存關(guān)系的計(jì)算,一般需要經(jīng)過以下的步驟:
(1)對文本進(jìn)行分詞處理。
(2)對分詞后的結(jié)果進(jìn)行句法分析,語法分析,找出具有依存關(guān)系的詞對。
(3)提取的詞對可能有多種組合情況,需要聯(lián)系上下文,統(tǒng)計(jì)詞對的頻率,按照一定的方法計(jì)算各詞對的權(quán)值,最后再選取權(quán)值最大的一對詞組。
實(shí)驗(yàn)中,筆者采用的是哈爾濱工業(yè)大學(xué)信息檢索研究中心的語言技術(shù)平臺——Language Technology Platform(LTP)對依存關(guān)系進(jìn)行獲取。LTP是一套完整的中文語言處理系統(tǒng),提供了一整套有底向上的豐富而且高效的中文語言處理模塊。實(shí)驗(yàn)中,運(yùn)用的是中文依存語法分析模塊。該模塊的依存句法分析系統(tǒng)用于對漢語進(jìn)行句法分析,將句子由一個線性序列轉(zhuǎn)化為一棵結(jié)構(gòu)化的依存分析樹,通過依存弧反映句子中詞匯之間的依存關(guān)系。
LTP依存句法標(biāo)注體系及含義如表2所示。表2 依存句法標(biāo)注體系及含義
關(guān)系符號關(guān)系符號定中關(guān)系A(chǔ)TT(attribute)“的”字結(jié)構(gòu)DE數(shù)量關(guān)系QUN(quantity)“地”字結(jié)構(gòu)DI并列關(guān)系COO(coordinate)“得”字結(jié)構(gòu)DEI同位關(guān)系A(chǔ)PP(appositive)“把”字結(jié)構(gòu)BA前附加關(guān)系LAD(left adjunct)“被”字結(jié)構(gòu)BEI后附加關(guān)系RAD(right adjunct)狀中結(jié)構(gòu)ADV(adverbial)比擬關(guān)系SIM(similarity)動賓關(guān)系VOB(verb-object)獨(dú)立結(jié)構(gòu)IS(indep.structure)主謂關(guān)系SBV(subject-verb)動補(bǔ)結(jié)構(gòu)CMP(complement)連動結(jié)構(gòu)VV(verb-verb)介賓關(guān)系POB(prep-obj)關(guān)聯(lián)結(jié)構(gòu)CNJ(conjunctive)核心HED(head)獨(dú)立分句IC(indep.clause)語態(tài)結(jié)構(gòu)MT(mood-tense)依存分句DC(dep.clause)無法確定NOT
相比知網(wǎng)的語義依存關(guān)系集,LTP中的依存關(guān)系定義的關(guān)系數(shù)量更少,而且意義更容易理解。對一個句子進(jìn)行依存分析,例如:“工信部向我校發(fā)來教師節(jié)賀信”,依存分析的結(jié)果如圖1所示。
3 基于語義的特征降維方法
3.1 利用依存關(guān)系進(jìn)行特征選擇
作為文本特征項(xiàng),依存關(guān)系詞對比詞語富含更多的語義信息,反映了句子中的語義關(guān)系,同時更具有可理解性。例如“病毒”這個詞語,它有可能是衛(wèi)生類的特征項(xiàng),也可能是計(jì)算機(jī)類的特征項(xiàng),無法直觀判斷。如果是“乙肝病毒”,即ATT(乙肝,病毒)依存關(guān)系詞對,那么這個特征項(xiàng)很大可能屬于衛(wèi)生類;同樣,如果是“掃描病毒”,VOB(掃描,病毒)那么這個特征項(xiàng)很大可能屬于計(jì)算機(jī)類。
句子依存關(guān)系有幾十種之多,若考慮全部依存關(guān)系,必然導(dǎo)致非常高的時間復(fù)雜度和計(jì)算復(fù)雜度。就單個詞語特征項(xiàng)而言,名詞、動詞和形容詞比其他詞性的詞語更能體現(xiàn)文本特征。由此可以推測,跟名詞、動詞、形容詞互相組合的依存關(guān)系詞對更能體現(xiàn)文本特征。利用LTP對500篇測試文本抽取依存關(guān)系發(fā)現(xiàn),SBV(動賓關(guān)系),VOB(主謂關(guān)系),ATT(定中關(guān)系)這3種關(guān)系占所有關(guān)系對的50%左右,但這3種關(guān)系包含的動詞、名詞和形容詞卻達(dá)到了90%以上。因此,在實(shí)驗(yàn)中主要選取SBV、VOB和ATT 3種依存關(guān)系作為主要特征項(xiàng),同時去掉含有代詞的關(guān)系對,因?yàn)榇~攜帶的語義信息很少。
一個句子中,同一個詞往往依賴于多個詞語構(gòu)成依存關(guān)系,例如“猴子吃香蕉”,這個句子存在兩種依存關(guān)系:SBV(猴子,吃)和VOB(吃,香蕉),為了避免重復(fù)計(jì)算,必須消除重復(fù)的依存關(guān)系,只保留最能表現(xiàn)文本特征的依存關(guān)系。這里需要計(jì)算依存關(guān)系詞對在句子中出現(xiàn)的頻率,保留頻率較高的;如果頻率相同,則計(jì)算依存關(guān)系詞對在文本中出現(xiàn)的頻率,保留頻率較高的;如果兩種關(guān)系的頻率相同,則按照SBV、VOB、ATT的先后順序進(jìn)行保留詞對;確保一個詞只存在于一個依存關(guān)系詞對中,并且只計(jì)算1次。
具體算法步驟如下:
(1)輸入一類別的文本集{T1,T2,T3,……,Tn};
(2)將每個文本表示為由句子構(gòu)成的形式{D1,D2,D3,……,Dn};
(3)抽取依存關(guān)系R,每篇文檔的每個句子可表示為{DiRj1,DiRj2,DiRj3,……,DiRjn}依存關(guān)系集的形式;而每個關(guān)系R由兩個詞組成Wij1,Wij2;
(4)統(tǒng)計(jì)每個依存關(guān)系詞對Rij在該類別中的頻率Fij,在每個句子中出現(xiàn)的頻率F1ij,記錄每個詞對的依存關(guān)系屬性Mij;
(5)檢查一個句子中是否有詞語同時屬于該句子中的多個依存關(guān)系。如果有這樣的詞Wij1,獲取含有Wij1的依存關(guān)系詞對Rij在該句子中出現(xiàn)的頻率F1ij,進(jìn)行比較并選擇頻率最高的;如果頻率相同,則獲取該文本中含有Wij1的依存關(guān)系詞對出現(xiàn)的頻率,比較選擇頻率最高的;如果頻率相同,則按SBV,VOB,ATT的先后順序進(jìn)行保留詞對。
(6)進(jìn)行下一個類別的依存關(guān)系詞對抽取。
通過對文本進(jìn)行依存關(guān)系抽取,以依存關(guān)系詞對作為特征項(xiàng),可以對文本特征進(jìn)行大幅的降維。一個類別大概500篇文本,以詞為特征項(xiàng),按照傳統(tǒng)特征選擇方法選擇,其維度在1 400左右;而采用依存關(guān)系作為特征項(xiàng),依存關(guān)系抽取后的特征維度在600左右,特征降維效果明顯。
3.2 基于互信息的特征選擇方法
利用依存關(guān)系抽取,進(jìn)行一次特征降維后,會得到一些關(guān)系相同的重復(fù)詞對,每個詞對的頻率可能不同。頻率不同,特征項(xiàng)對文本的表現(xiàn)力也不一樣。文檔頻率、互信息、χ2統(tǒng)計(jì)方法都是利用頻率對特征項(xiàng)進(jìn)行計(jì)算,特征值滿足一定閾值的特征項(xiàng)保留,這樣可以進(jìn)行二次特征降維。在基于信息的特征選擇方法中,互信息(multi-information,MI)方法[7]是常用的方法之一。
特征項(xiàng)ti與類別cj之間的互信息體現(xiàn)了特征項(xiàng)與類別之間的依存程度,公式如下:
MI(tk,cj)=logp(tk,cj)p(tk)p(cj)(1)
其中p(tk,cj)文本集中特征項(xiàng)tk與類別cj共現(xiàn)頻率,p(tk)為tk在文本集里出現(xiàn)的頻率,p(cj)為文本集里文本屬于類別cj的概率,而tk與文本集的互信息計(jì)算公式為:
MI(tk)=∑si=1p(cj)logp(tk,cj)p(tk)p(cj)
=∑si=1p(cj)logp(tkcj)p(tk)(2)
在類別cj內(nèi)出現(xiàn)的頻率越高、同時在訓(xùn)練集內(nèi)出現(xiàn)的頻率越低的特征tk對cj類文本的標(biāo)引能力越強(qiáng)。MI方法的優(yōu)點(diǎn)是考慮了低頻詞所帶有的信息量;缺點(diǎn)是對低頻詞過于敏感,作用被放大,忽視了訓(xùn)練樣本類別分布均勻與否對互信息值的影響。
3.3 利用類別的語義信息對互信息方法進(jìn)行改進(jìn)
每個文本集的類別都有名稱,如汽車、計(jì)算機(jī)、衛(wèi)生等,類別名稱也含有語義信息。通過計(jì)算類別名稱和類別中所在依存關(guān)系詞對的相似度,對依存關(guān)系詞對的MI值進(jìn)行補(bǔ)充改善,達(dá)到一定閾值的保留,未達(dá)到的去除。一方面,可以進(jìn)一步的特征降維;另一方面,可以提高特征選擇的準(zhǔn)確率,真正跟類別相關(guān)的特征項(xiàng)的互信息值更大,減小低頻率帶來的負(fù)面影響。
知網(wǎng)是一個以漢語和英語詞語所代表的概念為描述對象,以揭示概念間及概念所有的屬性間關(guān)系為基本內(nèi)容的常識知識庫。知網(wǎng)中提供了實(shí)體類、事件類、屬性類等多棵義原層次樹,分屬于不同的概念領(lǐng)域。很多學(xué)者利用進(jìn)行詞匯相似度的計(jì)算。詞匯相似度計(jì)算[8]方法的主要思想是:利用詞匯所對應(yīng)的義元計(jì)算相似度。
對于兩個漢語詞語W1和W2,如果W1有n個義項(xiàng)(概念):S11,S12,……,S1n,W2有m個義項(xiàng)(概念):S21,S22,……,S2m,我們規(guī)定,W1和W2的相似度是各個概念的相似度之最大值,也就是說:
Sim(W1,W2)=maxi=1…n,j=1…mSim(S1i,S2j)(3)
所有的義原根據(jù)上下位關(guān)系構(gòu)成了一個樹樁的義原層次體系,假設(shè)兩個義原在這個層次體系中的路徑距離為d,得到兩個義原間的語義距離:
Sim(p1,p2)=ad+a(4)
其中p1和p2表示兩個義原,d是p1和p2在義原層次體系中的路徑長度,是一個正整數(shù),a是一個可調(diào)節(jié)的參數(shù)。
由于類名和依存關(guān)系詞對以實(shí)詞為主,實(shí)詞概念相似度的計(jì)算如下:
Sim(S1,S2)=∑4i=1βiSimi(S1,S2)(5)
其中,βi(1i4)是可調(diào)節(jié)的參數(shù),且有:
β1+β2+β3+β4=1,β1β2β3β4
后者反映了Sim1到Sim4對于總體相似度所起到的作用依次遞減。設(shè)每個依存關(guān)系詞對跟類別名稱的相似度的值為qk,改進(jìn)后的特征項(xiàng)ti與類別cj之間的互信息計(jì)算表達(dá)式如下:
MI(tk,cj)I=logp(tk,cj)p(tk)p(cj)+qk(6)
改進(jìn)后的tk與文本集的互信息計(jì)算公式為:
MI(tk)I=∑si=1p(cj)logp(tkcj)p(tk)+qk(7)
改進(jìn)后的特征項(xiàng)的互信息值,蘊(yùn)含了類別的語義信息,減小了因頻率過高或過低對特征項(xiàng)選擇準(zhǔn)確率的影響,過濾了部分語義信息過少的特征項(xiàng),在提高準(zhǔn)確率的同時,進(jìn)一步達(dá)到了特征降維的目的。
4 文本分類試驗(yàn)及結(jié)果分析
本文對上述特征降維方法的分類效率進(jìn)行了試驗(yàn)。本文采用來自互聯(lián)網(wǎng)的新聞作為試驗(yàn)語料,有7類共3 320篇中文文本,其中分為經(jīng)濟(jì)類(425篇)、計(jì)算機(jī)類(513篇)、體育類(450篇)、教育類(398篇)、軍事類(461篇)、政治類(577篇)以及環(huán)境類(496篇)。試驗(yàn)時測試集和訓(xùn)練集采用3∶1的比例,即訓(xùn)練集中有2 490篇文本,測試集中有830篇文本,具體分布如表3所示。表3 試驗(yàn)語料各類文本分布表
類別訓(xùn)練集測試集類別訓(xùn)練集測試集
經(jīng) 濟(jì)319106軍 事346115計(jì)算機(jī)385128政 治433144體 育338112環(huán) 境372124教 育29999
本文采用哈爾濱工業(yè)大學(xué)信息檢索研究中心的LTP進(jìn)行依存關(guān)系抽取,再利用(7)式對 候選特征項(xiàng)的互信息進(jìn)行計(jì)算得到特征集。為了對比基于語義的特征降維方法的分類效果, 我們將同樣的測試文本和訓(xùn)練文本采用傳統(tǒng)的互信息方法進(jìn)行分類,分詞采用中科院的I(xiàn)C TCLAS中文分詞系統(tǒng),使用禁用詞表過濾停用詞、人工刪除冷僻的低頻詞、剔 除虛詞、助詞、人稱代詞、特高頻詞,使用(2)式計(jì)算選擇得到特征集。文本分類器使用 常用的KNN分類器,KNN分類方法在準(zhǔn)確率和召回率方面有著較好的表現(xiàn)[9] 。
文本分類中通常使用的性能評估指標(biāo)有查準(zhǔn)率、查全率和F1測試值。查準(zhǔn)率是所有判斷的文本中與人工分類結(jié)果相符的文本所占的比率,公式表示如下:
查準(zhǔn)率=正確分類文本數(shù)實(shí)際分類文本數(shù)
查全率是人工分類結(jié)果應(yīng)有的文本中與分類系統(tǒng)相符的文本所占的比率,公式表示如下:
查全率=正確分類文本數(shù)應(yīng)有文本數(shù)
F1是將查準(zhǔn)率和查全率綜合起來的一個指標(biāo),公式表示如下:
F1=查準(zhǔn)率×查全率×2查準(zhǔn)率+查全率
分類試驗(yàn)結(jié)果統(tǒng)計(jì)如表4所示,查準(zhǔn)率和查全率均是基于語義方法的數(shù)據(jù),F(xiàn)1和F′1分別代表基于語義方法和MI方法的測試值。表4 文本分類試驗(yàn)結(jié)果統(tǒng)計(jì)
類別查準(zhǔn)率查全率F1F′1經(jīng) 濟(jì)0.7730.7820.7770.823計(jì)算機(jī)0.7590.7650.7620.819體 育0.8010.7920.7960.854教 育0.7680.7710.7690.826軍 事0.7780.7630.7700.830政 治0.7510.7470.7490.817環(huán) 境0.7720.7650.7680.827平 均0.7720.7690.7700.828
從表4可以看出,體育類別的文本分類效果最好,F(xiàn)1值達(dá)到79.6%,最低的政治類只有74.7%。平均F1測試值為77.0%,相比較MI方法其F1值降低了約7%。盡管各項(xiàng)評估指標(biāo)比MI方法略低,但也都到達(dá)了75%以上,說明這種改進(jìn)的基于語義的特征降維方法應(yīng)用于中文文本分類是可行的。該方法還有以下幾個方面需要改善:依存關(guān)系提取的準(zhǔn)確率還不夠高,80%左右;忽略了很多其他的依存關(guān)系,可能會丟掉一些比較有標(biāo)引性的特征項(xiàng);對文本進(jìn)行依存關(guān)系的提取花費(fèi)時間較長,效率不高。
5 結(jié)束語
特征降維問題是文本處理所必須面對的主要問題之一,是制約提高文本分類效率的瓶頸。運(yùn)用語義的知識來進(jìn)行文本分類是研究的熱點(diǎn)。本文提出了一種基于語義的特征降維方法,先對文本進(jìn)行語義的依存關(guān)系詞對抽取,然后利用類別的語義信息,通過計(jì)算詞匯相似度來改進(jìn)互信息特征選擇方法,實(shí)現(xiàn)了在語義層面上對文本的特征降維。試驗(yàn)證明,這種降維方法具有一定的可行性。今后,我們將進(jìn)一步研究如何提高依存關(guān)系抽取的準(zhǔn)確率和計(jì)算效率,加強(qiáng)對語義層面上的特征降維研究,以提高文本分類效率。
參考文獻(xiàn)
[1]陳濤,謝陽群.文本分類中的特征降維方法綜述[J].情報學(xué)報,2005,24(6):691-694.
[2]Robinson J.Dependency structures and transformational rules[J].Language,1970,46(2):259-285.
[3]白妙青,鄭家恒.動詞與動詞搭配方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(27):70-72.
[4]李培,何中市,黃永文,等.基于依存關(guān)系分析的網(wǎng)絡(luò)評論極性分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(11):138-144.
[5]Gao jianfeng,Suzuki H.Unsupervised learning of dependency structure for language modeling[C]∥ACI.2003:521-528.
[6]唐怡,周昌樂,練睿婷,等.基于HowNet的中文語義依存分析[J].心智與計(jì)算,2010,4(2):109-116.
[7]周茜,趙明生,扈.中文文本分類中的特征選擇研究[J].中文信息學(xué)報,2003,18(3):17-23.
[8]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[A].第三屆漢語詞匯語義研討會論文集[C].臺北:[sn],2002:59-76.
[9]張寧,賈自艷,史忠植.使用KNN算法的文本分類[J].計(jì)算機(jī)工程,2005,31(8):171-172.