◆林游龍
(福州數(shù)據(jù)技術(shù)研究院有限公司 福建 350019)
隨著信息時(shí)代的高速發(fā)展,如何對(duì)自然語(yǔ)言文本進(jìn)行挖掘,特別是對(duì)其按照設(shè)定的語(yǔ)義進(jìn)行正確的歸類(lèi),已經(jīng)成為組織大量文本信息的一個(gè)關(guān)鍵問(wèn)題,這就是文本挖掘中很重要的一類(lèi)任務(wù)一文本分類(lèi)[1]。自動(dòng)文本分類(lèi)(Automatic Text Categorization)或者簡(jiǎn)稱(chēng)為文本分類(lèi),是指計(jì)算機(jī)將一篇文章歸于預(yù)先給定的某一類(lèi)或某幾類(lèi)的過(guò)程[2]。隨著文本信息量的快速增長(zhǎng),文本分類(lèi)已成為信息檢索、知識(shí)挖掘和管理等領(lǐng)域的關(guān)鍵技術(shù)[3-4]。文本分類(lèi)的精確程度取決于特征提取[5]和分類(lèi)算法[6]。人們提出了很多文本分類(lèi)方法,例如k-最近鄰分類(lèi)法,貝葉斯分類(lèi),決策樹(shù)和神經(jīng)網(wǎng)絡(luò)[7]。最廣泛使用以及效果最好的文本分類(lèi)方法是支持向量機(jī)與KNN 方法[8-9]。
支持向量機(jī)是由Vapnik 等人提出的一種學(xué)習(xí)技術(shù),是借助于最優(yōu)化方法解決機(jī)器學(xué)習(xí)問(wèn)題的新工具。它集成了最大間隔超平面、Mercer 核、凸二次規(guī)劃、稀疏解和松弛變量等多項(xiàng)技術(shù)[10]。由于其具有全局最優(yōu)、結(jié)構(gòu)簡(jiǎn)單、推廣能力強(qiáng)等優(yōu)點(diǎn),近幾年得到了廣泛研究并應(yīng)用于文本分類(lèi)、模式識(shí)別等領(lǐng)域[11]。
k-最近鄰居分類(lèi)(KNN)方法基于類(lèi)比學(xué)習(xí)[12],采用SVM(向量空間模型)[13]表示文檔,是一種非參數(shù)的分類(lèi)技術(shù),在基于統(tǒng)計(jì)的模式識(shí)別中非常有效,對(duì)于未知和非正態(tài)分布可以取得較高的分類(lèi)準(zhǔn)確率,具有魯棒性、概念清晰等諸多優(yōu)點(diǎn)[14]。
本文在對(duì)基于向量空間模型的分類(lèi)方法(如SVM[15-16])的研究發(fā)現(xiàn),基于向量空間模型的分類(lèi)方法存在不合理之處,即特征值之間的“鴻溝”,這種鴻溝會(huì)導(dǎo)致向量空間模型中兩點(diǎn)之間距離的計(jì)算出現(xiàn)偏差,由于目前基于向量空間模型的分類(lèi)方法都沒(méi)有考慮到這種鴻溝,因此分類(lèi)效果受到了一定的限制。……