999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合詞語(yǔ)統(tǒng)計(jì)特征和語(yǔ)義信息的文本分類方法研究

2021-08-06 05:42:16麗,馬
關(guān)鍵詞:語(yǔ)義分類特征

張 麗,馬 靜

(南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院,江蘇 南京211106)

1 引言

文本分類是文本挖掘的關(guān)鍵技術(shù)之一,其最直觀的作用是將文本進(jìn)行歸類,使得復(fù)雜錯(cuò)亂的海量文本能夠分門(mén)別類地進(jìn)行存儲(chǔ)、查找,在此基礎(chǔ)之上,通過(guò)對(duì)特定領(lǐng)域語(yǔ)料的分析,也能夠獲得更加深入的文本語(yǔ)義信息。因此,文本分類具有很大的研究?jī)r(jià)值。

向量空間模型VSM(Vector Space Model)[1]文本表示法是典型的基于統(tǒng)計(jì)的方法之一。基于VSM的分類方法,以特征項(xiàng)作為文本表示的基本單位,用特征項(xiàng)及相應(yīng)權(quán)重來(lái)代表特征信息,通常利用TF-IDF(Term Frequency-Inverse Document Frequency)方法計(jì)算特征項(xiàng)權(quán)重,將特征項(xiàng)表示為向量,權(quán)值大小代表了這個(gè)特征項(xiàng)能在多大程度上將其表示的文本與其他文本區(qū)分開(kāi)來(lái),最終文本被表示為多維向量空間中的一個(gè)向量,通過(guò)計(jì)算向量夾角大小來(lái)衡量文本相似度,如KNN(K-Nearest Neighbor)、SVM (Support Vector Machine)等,進(jìn)而對(duì)文本分類。該類方法操作性強(qiáng),計(jì)算簡(jiǎn)單高效,但這種方法基于詞袋法思想,假設(shè)特征詞之間相互獨(dú)立,從而忽略了詞語(yǔ)之間的語(yǔ)義關(guān)系和詞語(yǔ)在文本中的上下文結(jié)構(gòu)信息[2]。并且,向量空間模型在處理海量數(shù)據(jù)時(shí),特征維度會(huì)非常高,因此易產(chǎn)生向量空間高維性問(wèn)題。因此,目前亟需解決的問(wèn)題就是向量空間的維數(shù)災(zāi)難和語(yǔ)義缺失,從而進(jìn)一步提高海量文本分類的效果。裴頌文等[3]針對(duì)TF-IDF中存在的不足,提出一種動(dòng)態(tài)自適應(yīng)特征權(quán)重計(jì)算方法,不僅考慮了特征項(xiàng)詞頻和逆文檔頻率,并且還考慮了文本動(dòng)態(tài)變化情況下特征項(xiàng)的分散度和特征向量梯度差,對(duì)特征項(xiàng)權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整,有效提高了文本分類的性能。路永和等[4]引入詞性改進(jìn)特征權(quán)重計(jì)算方法,采用粒子群優(yōu)化算法迭代計(jì)算最優(yōu)詞性權(quán)重,與傳統(tǒng)的TF-IDF方法相比分類準(zhǔn)確率提高了2~6個(gè)百分點(diǎn)。

另外,基于文本復(fù)雜網(wǎng)絡(luò)的分類方法,在實(shí)現(xiàn)特征提取之后,利用特征詞網(wǎng)絡(luò)的最大公共子圖計(jì)算文本相似度,進(jìn)而分類。該方法保留了較多的語(yǔ)義信息和文本結(jié)構(gòu)信息,但該方法計(jì)算較為復(fù)雜,分類效率和準(zhǔn)確率有進(jìn)一步提升的空間。一些學(xué)者利用復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)信息改進(jìn)特征權(quán)重計(jì)算。杜坤等[5]以維基百科知識(shí)庫(kù)為數(shù)據(jù)源,考慮特征項(xiàng)之間的語(yǔ)義關(guān)聯(lián)構(gòu)造文本復(fù)雜網(wǎng)絡(luò),構(gòu)造評(píng)估函數(shù)來(lái)評(píng)價(jià)網(wǎng)絡(luò)節(jié)點(diǎn)重要程度,引入特征項(xiàng)在文本中的綜合特征指數(shù)及類別區(qū)分度改進(jìn)TF-IDF,提高了文本相似度計(jì)算的準(zhǔn)確率。

針對(duì)TF-IDF方法的不足,本文首先利用文獻(xiàn)[6]的方法,結(jié)合共現(xiàn)關(guān)系和依存句法關(guān)系構(gòu)建文本復(fù)雜網(wǎng)絡(luò),在保留語(yǔ)義信息的同時(shí)降低節(jié)點(diǎn)冗余。在此基礎(chǔ)上,基于文本復(fù)雜網(wǎng)絡(luò)中網(wǎng)絡(luò)節(jié)點(diǎn)統(tǒng)計(jì)特征改進(jìn)TF-IDF方法,除詞頻外,保留特征詞之間的句法關(guān)系、語(yǔ)義信息和結(jié)構(gòu)信息。并將特征向量和通過(guò)LSTM(Long Short-Term Memory)算法得到的語(yǔ)義向量融合,使得文本表示向量特征信息更為豐富,文本向量化的結(jié)果更精確,進(jìn)而達(dá)到提升文本分類準(zhǔn)確率的目標(biāo)。最終實(shí)驗(yàn)結(jié)果表明,本文提出的分類方法準(zhǔn)確率更高。

2 相關(guān)研究理論

2.1 TF-IDF

傳統(tǒng)的特征權(quán)重計(jì)算方法主要有二分類法、詞頻TF(Term Frequency)法、逆文檔詞頻IDF(Inverse Document Frequency)法、TF-IDF法,其中,TF-IDF法被廣泛應(yīng)用于文本相似度的計(jì)算。利用VSM對(duì)一篇包含n個(gè)特征詞的文本進(jìn)行表示,文本dj(t1,t2,t3,…,ti,…,tn)最終可以被表示為一個(gè)n維向量dj=((t1,W1),(t2,W2),…,(ti,Wi),…,(tn,Wn)),其中ti表示文本的第i個(gè)特征詞,Wi表示第i個(gè)特征詞的權(quán)重,權(quán)值越大,其文本表示能力越強(qiáng)。

(1)二分類法。若某特征詞在文本中出現(xiàn),則其權(quán)重即為1;不出現(xiàn),則其權(quán)重即為0。這種方法將所有特征詞同等看待,既不突出也不抑制任何一個(gè)特征[7]。其權(quán)重計(jì)算公式如式(1)所示:

(1)

(2)詞頻TF法。TF反映特征詞在文檔內(nèi)部的分布情況,是指特征詞在文檔中出現(xiàn)的次數(shù)與文檔中所有詞語(yǔ)數(shù)量的比例。這種方法認(rèn)為特征詞在文檔中出現(xiàn)的次數(shù)越多,其表征文檔的能力越強(qiáng)。其權(quán)重(特征詞ti在文本dj中出現(xiàn)的頻率)計(jì)算公式如式(2)所示:

(2)

其中,ni,j是特征詞ti在文本dj中出現(xiàn)的次數(shù),∑knk,j表示文檔dj中的詞語(yǔ)數(shù)量。

(3)逆文檔頻率IDF法。IDF反映特征詞在文檔集中的分布情況,這種方法認(rèn)為只在小部分文本中出現(xiàn)的特征詞比在大多數(shù)文本中都出現(xiàn)的特征詞能更好地表征文本類別信息。其權(quán)重計(jì)算公式如式(3)所示:

(3)

其中,|D|表示語(yǔ)料庫(kù)中的文件總數(shù),|{j:ti∈dj}|表示包含特征詞ti的文檔數(shù)目。

(4)TF-IDF法。同時(shí)考慮TF與IDF,并將向量進(jìn)行歸一化,特征詞的權(quán)重計(jì)算公式如式(4)所示:

TFIDFi,j=

(4)

TF-IDF通過(guò)TF來(lái)反映文本內(nèi)部特征,單純使用詞頻作為衡量詞語(yǔ)重要性的依據(jù),不夠全面,因?yàn)橛行┲匾~語(yǔ)出現(xiàn)的次數(shù)并不多,詞語(yǔ)的位置信息、詞性、詞語(yǔ)間的語(yǔ)義聯(lián)系、詞語(yǔ)在局部及全局的影響力等都是詞的重要特征,該方法無(wú)法利用這些信息,其權(quán)重計(jì)算結(jié)果很可能不準(zhǔn)確。

Figure 2 Construction method of text complex network圖2 文本復(fù)雜網(wǎng)絡(luò)構(gòu)建方法

2.2 LSTM

長(zhǎng)短期記憶LSTM神經(jīng)網(wǎng)絡(luò)模型[8,9]是循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)模型[10]的一個(gè)變種,是一種循環(huán)神經(jīng)網(wǎng)絡(luò)。LSTM學(xué)習(xí)的過(guò)程是對(duì)序列化輸入的文本信息進(jìn)行由左到右的學(xué)習(xí),這也符合人類讀取文本的過(guò)程。在文本分類研究中,一般會(huì)取RNN或者LSTM最后一個(gè)節(jié)點(diǎn)的輸出作為文本表示,然后結(jié)合Softmax和交叉熵?fù)p失函數(shù)來(lái)進(jìn)行文本分類模型的訓(xùn)練。然而,RNN在訓(xùn)練過(guò)程中會(huì)出現(xiàn)梯度彌散或者梯度爆炸等現(xiàn)象,并且當(dāng)句子較長(zhǎng)時(shí),隨著記憶單元的傳遞,對(duì)一開(kāi)始的輸入信息會(huì)有較多的遺忘。LSTM通過(guò)門(mén)控機(jī)制可以很好地避免記憶衰減,其隱藏層到隱藏層的權(quán)重是網(wǎng)絡(luò)記憶的控制者,實(shí)現(xiàn)對(duì)文本的長(zhǎng)期依賴進(jìn)行學(xué)習(xí),所以本文選擇LSTM捕捉序列信息。LSTM通過(guò)“門(mén)”結(jié)構(gòu)從細(xì)胞狀態(tài)去除信息或向細(xì)胞狀態(tài)增加信息,由記憶單元、輸入門(mén)、遺忘門(mén)和輸出門(mén)4個(gè)主要元素組成,如圖1所示。

Figure 1 Structure of LSTM cell圖1 LSTM單元結(jié)構(gòu)

LSTM單元在t時(shí)刻更新的公式如式(5)~式(10)所示:

ft=σ(Wf[ht-1,xt]+bf)

(5)

it=σ[Wi[ht-1,xt]+bi]

(6)

(7)

(8)

Ot=σ(Wo[ht-1,xt]+bo)

(9)

ht=Ot⊙tanh(Ct)

(10)

3 結(jié)合共現(xiàn)關(guān)系和句法關(guān)系的文本復(fù)雜網(wǎng)絡(luò)構(gòu)建及特征提取

3.1 文本復(fù)雜網(wǎng)絡(luò)構(gòu)建

本文構(gòu)建的特征降維文本復(fù)雜網(wǎng)絡(luò)采取文獻(xiàn)[6]的方法,結(jié)合詞語(yǔ)間共現(xiàn)關(guān)系和依存關(guān)系,文獻(xiàn)[6]驗(yàn)證了該方法能在表達(dá)文本語(yǔ)義的同時(shí)實(shí)現(xiàn)降維,有助于提升文本分類效果。構(gòu)建方法如圖2所示,其中共現(xiàn)詞對(duì)集依據(jù)共現(xiàn)關(guān)系抽取,出現(xiàn)在同一個(gè)句子中且跨度不大于2的詞語(yǔ)之間存在共現(xiàn)關(guān)系。依存詞對(duì)集依據(jù)句法依存關(guān)系抽取,詞語(yǔ)之間的句法關(guān)系主要包括主謂關(guān)系(SBV)、動(dòng)賓關(guān)系(VOB)、定中關(guān)系(ATT)、介賓關(guān)系(POB)等14種關(guān)系類型。分別抽取高于共現(xiàn)概率閾值Tm和依存概率閾值Tr的詞對(duì)組成二級(jí)特征詞條,以依存詞對(duì)豐富共現(xiàn)詞對(duì)的語(yǔ)義信息,獲得三級(jí)特征詞條,最后生成文本復(fù)雜網(wǎng)絡(luò)。通過(guò)對(duì)所有包含其一條邊的兩端節(jié)點(diǎn)表示的詞的詞條的權(quán)重求和,計(jì)算出這一條邊的權(quán)重。文本集中的文本dj就抽象為無(wú)向圖G=(N,E,W),其中,N、E、W分別表示該文本中的節(jié)點(diǎn)、邊和邊的權(quán)重。

3.2 文本特征提取

特征提取分為特征選擇和特征權(quán)重計(jì)算2個(gè)步驟,本文基于復(fù)雜網(wǎng)絡(luò)利用主成分分析PCA(Principal Component Analysis)和TOPSIS(Technique for Order Preference by Similarity to an Ideal Solution)方法實(shí)現(xiàn)特征選擇,結(jié)合復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)統(tǒng)計(jì)特征改進(jìn)TF-IDF權(quán)重計(jì)算方法。

(1)PCA方法確定節(jié)點(diǎn)評(píng)價(jià)指標(biāo)權(quán)重。

本文選取8個(gè)指標(biāo):度、聚類系數(shù)、加權(quán)度[11]、加權(quán)聚類系數(shù)[12]、介數(shù)中心度[13]、度中心性[14]、接近中心性[15]和PageRank值,較為全面地評(píng)價(jià)節(jié)點(diǎn)重要性。利用PCA方法進(jìn)行降維,確定各個(gè)指標(biāo)的權(quán)重。

PCA方法通過(guò)對(duì)數(shù)據(jù)進(jìn)行降維,提高計(jì)算效率。以本文為例,用于節(jié)點(diǎn)重要性評(píng)價(jià)的p個(gè)指標(biāo)組成指標(biāo)集x1,x2,x3,…,xp,r個(gè)節(jié)點(diǎn)的指標(biāo)構(gòu)成了原始數(shù)據(jù)矩陣X=[xij]r×p,(i=1,2,…,r;j=1,2,…,p),其中xij表示第i個(gè)節(jié)點(diǎn)在第j項(xiàng)指標(biāo)上的數(shù)據(jù)。主成分分析法將標(biāo)準(zhǔn)化后的原始數(shù)據(jù)矩陣進(jìn)行線性計(jì)算,求得協(xié)方差矩陣,即原始數(shù)據(jù)的相關(guān)矩陣R。并求解得到特征值λ1≥λ2≥…≥λp≥0,以及特征向量u1,u2,u3,…,up。u1,u2,u3,…,up分別是x1,x2,x3,…,xp的第1,第2,…,第p個(gè)主成分。u1,u2,u3,…,up互不相關(guān)且方差遞減。前i個(gè)主成分在總方差中的主成分貢獻(xiàn)率為αi,累計(jì)貢獻(xiàn)率為E。選取的主成分?jǐn)?shù)量越多,使得對(duì)應(yīng)的累計(jì)貢獻(xiàn)率越高,丟失的數(shù)據(jù)信息就越少,但是后續(xù)處理的運(yùn)算量也就越大,一般情況下選取累計(jì)貢獻(xiàn)率E≥85%的最小整數(shù),以達(dá)到對(duì)節(jié)點(diǎn)評(píng)價(jià)指標(biāo)降維的目的。

(2)TOPSIS方法評(píng)價(jià)節(jié)點(diǎn)重要性。

本文擬采用TOPSIS方法[16],利用降維后網(wǎng)絡(luò)統(tǒng)計(jì)的指標(biāo)對(duì)各個(gè)節(jié)點(diǎn)重要性進(jìn)行評(píng)價(jià)。TOPSIS的基本原理是通過(guò)計(jì)算評(píng)價(jià)對(duì)象與最優(yōu)解、最劣解的相對(duì)距離來(lái)排序。基于TOPSIS方法利用m個(gè)統(tǒng)計(jì)指標(biāo)對(duì)一個(gè)包含r個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)評(píng)價(jià)節(jié)點(diǎn)重要性,具體步驟[16]如下所示:

(3)特征權(quán)重計(jì)算。

為了準(zhǔn)確計(jì)算文本間的相似度,在確定文本特征之后,需要對(duì)每個(gè)文本的所有特征項(xiàng)賦予一定的權(quán)重。本文基于前文構(gòu)建的特征降維文本復(fù)雜網(wǎng)絡(luò),利用多個(gè)節(jié)點(diǎn)統(tǒng)計(jì)指標(biāo),考慮了詞語(yǔ)在全文及局部的影響力、與其他詞語(yǔ)的關(guān)聯(lián)程度,綜合考量了特征項(xiàng)的語(yǔ)義信息和統(tǒng)計(jì)信息提取特征詞。因此,利用基于前文構(gòu)建的特征降維文本復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)統(tǒng)計(jì)指標(biāo)評(píng)價(jià)的節(jié)點(diǎn)重要性結(jié)果,改進(jìn)IF公式,計(jì)算文本特征權(quán)重,能在文本轉(zhuǎn)換為向量的過(guò)程中保留一定語(yǔ)義內(nèi)容。本文的特征權(quán)重Wij計(jì)算公式如式(11)所示,其中,IDFi表示特征詞ti的逆文檔頻率,計(jì)算方法如式(3)所示。IMDij表示特征詞ti在文本dj中的重要度,計(jì)算方法如式(12)所示,其中,Cij是上文依據(jù)TOPSIS方法得到的文本ti在文本dj中的重要性系數(shù)。

Wij=IMDij*IDFi

(11)

(12)

4 融合詞語(yǔ)統(tǒng)計(jì)特征和語(yǔ)義信息的文本分類方法

4.1 基于LSTM的文本向量表示

LSTM用來(lái)處理具有序列關(guān)系的數(shù)據(jù)。首先需要構(gòu)建LSTM輸入詞向量矩陣,本文采用文本分析領(lǐng)域常用的word2vec方法[17],把文本中的每個(gè)詞都表示成一定維度的詞向量形式。本文采用自身語(yǔ)料集作為訓(xùn)練集,得到詞向量,具體操作細(xì)節(jié)為:將word2vec訓(xùn)練出來(lái)的結(jié)果作為詞向量矩陣的初始值,每條文本在輸入到模型之前都會(huì)進(jìn)行一個(gè)查表操作,查找出每個(gè)詞語(yǔ)對(duì)應(yīng)的詞向量,而該詞向量矩陣在訓(xùn)練模型的過(guò)程中會(huì)作為網(wǎng)絡(luò)參數(shù)進(jìn)行進(jìn)一步微調(diào),以達(dá)到更好的訓(xùn)練效果。通過(guò)將詞向量矩陣輸入LSTM模型,可以獲得相應(yīng)的用于表示文本的文本向量,代表的是整個(gè)文本的語(yǔ)義信息。

Figure 3 Flow chart of text classification method combining word statistical features and semantic information圖3 融合詞語(yǔ)統(tǒng)計(jì)特征和語(yǔ)義信息的文本分類方法整體流程示意圖

4.2 融合特征向量和語(yǔ)義向量的文本表示向量

為了豐富文本表示向量包含的文本信息,本文將上文LSTM模型中提取的語(yǔ)義向量和基于特征降維文本復(fù)雜網(wǎng)絡(luò)提取得到的特征向量相結(jié)合,從2個(gè)維度來(lái)表征文本信息,使新的文本表示向量信息量更豐富、區(qū)分度更高。對(duì)2種特征先分別進(jìn)行歸一化,然后再進(jìn)行組合,從而構(gòu)建出新的文本特征表示,最終文本表示向量如式(13)所示。

(13)

其中,zj為文本dj的LSTM文本向量表示,而θj則為基于特征降維文本復(fù)雜網(wǎng)絡(luò)提取的文本dj的特征向量,vj為組合后的語(yǔ)義特征表示向量,T則表示對(duì)矩陣的轉(zhuǎn)置操作,‖·‖2表示2-范數(shù),用來(lái)對(duì)zj和θj進(jìn)行歸一化處理。

最后,將融合后的文本表示向量送入Softmax分類器,實(shí)現(xiàn)文本分類。

4.3 本文方法流程

本文首先構(gòu)建一種特征降維文本復(fù)雜網(wǎng)絡(luò)進(jìn)行文本表示,然后基于文本復(fù)雜網(wǎng)絡(luò)實(shí)現(xiàn)文本特征提取,將特征向量化,接著利用LSTM深度學(xué)習(xí)算法直接提取文本向量,然后將特征向量與LSTM提取的文本向量相融合,再送入Softmax分類器實(shí)現(xiàn)文本分類。方法整體流程示意圖如圖3所示。

該文本分類方法的整體步驟如下所示:

步驟1對(duì)原始文本語(yǔ)料進(jìn)行清洗、分詞和去停用詞等預(yù)處理工作;

步驟2對(duì)預(yù)處理后的文本基于特征降維文本復(fù)雜網(wǎng)絡(luò)進(jìn)行表示;

步驟3依據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)統(tǒng)計(jì)指標(biāo)實(shí)現(xiàn)文本特征提取,并計(jì)算特征權(quán)重,將文本特征向量化,得到文本的特征向量;

步驟4進(jìn)行word2vec學(xué)習(xí),將語(yǔ)料中的每條文本表示為詞向量矩陣;

步驟5將步驟4得到的詞向量矩陣作為輸入,進(jìn)行LSTM模型訓(xùn)練,最終得到代表原文本詞向量層面信息的文本向量;

步驟6將步驟5得到的文本向量與步驟3得到的特征向量相結(jié)合來(lái)最終表示文本信息,并進(jìn)行Softmax文本分類。

5 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)數(shù)據(jù)

(1)數(shù)據(jù)存儲(chǔ)。

本文的實(shí)驗(yàn)語(yǔ)料來(lái)源于搜狗實(shí)驗(yàn)室發(fā)布的2012年6月和7月期間,國(guó)內(nèi)若干新聞?wù)军c(diǎn)中國(guó)際、體育、社會(huì)和娛樂(lè)等18個(gè)頻道的新聞數(shù)據(jù),數(shù)據(jù)內(nèi)容包括URL、ID、新聞標(biāo)題、新聞?wù)暮妥髡叩茸侄巍H斯ずY選刪去少量無(wú)關(guān)新聞、重復(fù)新聞和字?jǐn)?shù)較少新聞,最終用于實(shí)驗(yàn)的文本數(shù)是8 000條,其中財(cái)經(jīng)類、健康類、教育類、軍事類、旅游類、汽車(chē)類、體育類和娛樂(lè)類各1 000條。本文根據(jù)實(shí)驗(yàn)需要將文本數(shù)據(jù)標(biāo)識(shí)號(hào)、類別標(biāo)識(shí)、分詞后文本、二級(jí)特征詞、依存詞對(duì)、三級(jí)特征詞和權(quán)重信息等存入MySQL數(shù)據(jù)庫(kù)中。

(2)數(shù)據(jù)清洗。

網(wǎng)絡(luò)新聞文本數(shù)據(jù)相較于微博、論壇和評(píng)論數(shù)據(jù),更加規(guī)范,但是仍然存在著一些臟數(shù)據(jù),例如:

①圖片過(guò)多而字?jǐn)?shù)過(guò)少的新聞文本:例如一些旅游類的新聞,其中大多是一些風(fēng)景照,字?jǐn)?shù)過(guò)少,包含的信息過(guò)少,本文將長(zhǎng)度小于20個(gè)字符的新聞文本數(shù)據(jù)直接刪除;

②重復(fù)出現(xiàn)的新聞文本:熱點(diǎn)新聞文本可能出現(xiàn)多次;

③包含跳轉(zhuǎn)鏈接的新聞文本:一些熱點(diǎn)新聞,可能出現(xiàn)多家媒體進(jìn)行轉(zhuǎn)載的情況,這類新聞的末尾通常含有原網(wǎng)頁(yè)鏈接,如一篇轉(zhuǎn)載自光明網(wǎng)的新聞,在末尾可能包含URL字符串:“http://www.gmw.cn/…”,本文利用正則表達(dá)式直接將文本中所有URL字符去除;

④編輯名字、記者名字、雜志社名稱:新聞文本經(jīng)常在開(kāi)頭或者末尾出現(xiàn)編輯名字與記者名字,這不屬于文本的語(yǔ)義信息,例如,作者:張三,編輯:李四,本文利用正則表達(dá)式直接將這些無(wú)用信息去除;

⑤去除新聞文本中的英文信息:本文研究不涉及雙語(yǔ)文本的分類,只關(guān)注中文文本的分類方法,因此將過(guò)濾掉英文信息。

5.2 實(shí)驗(yàn)過(guò)程

本文實(shí)驗(yàn)主要參數(shù)設(shè)置如表1所示,特征詞數(shù)量s將通過(guò)多次實(shí)驗(yàn)對(duì)比確定最優(yōu)值。

Table 1 Main parameter setting

為了與本文方法進(jìn)行對(duì)比,本文設(shè)計(jì)了對(duì)比實(shí)驗(yàn),求出各個(gè)分類方法在同一數(shù)據(jù)集中上分類表現(xiàn),6個(gè)對(duì)比方法具體如下所示:

(1)方法1:使用傳統(tǒng)的TF-IDF方法實(shí)現(xiàn)特征提取和權(quán)重計(jì)算,最終得到文本表示向量,再結(jié)合KNN算法實(shí)現(xiàn)文本分類。

(2)方法2:使用傳統(tǒng)的TF-IDF方法實(shí)現(xiàn)特征提取和權(quán)重計(jì)算,最終得到文本表示向量,再結(jié)合SVM算法實(shí)現(xiàn)文本分類。

(3)方法3:利用本文設(shè)計(jì)的基于文本復(fù)雜網(wǎng)絡(luò)的特征提取結(jié)果,并使用改進(jìn)TF-IDF實(shí)現(xiàn)特征向量化,再結(jié)合KNN算法實(shí)現(xiàn)文本分類。

(4)方法4:利用本文設(shè)計(jì)的基于文本復(fù)雜網(wǎng)絡(luò)的特征提取結(jié)果,并使用改進(jìn)TF-IDF實(shí)現(xiàn)特征向量化,再結(jié)合SVM算法實(shí)現(xiàn)文本分類。

(5)方法5:使用LSTM模型提取文本向量,送入Softmax實(shí)現(xiàn)文本分類。

(6)方法6:使用本文提出的特征提取算法和特征權(quán)重計(jì)算方法提取特征向量,并使用LSTM模型提取文本向量,再將特征向量和文本向量相融合,最后送入Softmax分類器實(shí)現(xiàn)文本分類。

5.3 實(shí)驗(yàn)結(jié)果及分析

(1)特征詞數(shù)量。

本文以評(píng)價(jià)指標(biāo)準(zhǔn)確率precision、召回率recall和F1-score值為依據(jù),不斷更改特征詞數(shù)量s的取值進(jìn)行多次實(shí)驗(yàn),計(jì)算出了不同特征詞數(shù)量取值下的準(zhǔn)確率、召回率和F1值的變化,實(shí)驗(yàn)結(jié)果如圖4所示。由圖4可知,隨著特征詞數(shù)量的不斷增加,準(zhǔn)確率、召回率和F1值均在不斷提高,反映出文本分類效果的提升。但是,由于隨著特征詞數(shù)量的增加,方法的運(yùn)行時(shí)間會(huì)顯著增加。當(dāng)閾值設(shè)定為15時(shí),分類效果提升最明顯;當(dāng)閾值設(shè)定為20時(shí),準(zhǔn)確率、召回率和F1值提升效果不明顯,且此時(shí)特征詞較多會(huì)增加方法運(yùn)行時(shí)間,所以本文選擇將文本特征提取中特征詞數(shù)量s設(shè)置為15,此時(shí)文本分類效果較好且運(yùn)行時(shí)間較短,便于后續(xù)實(shí)驗(yàn)的進(jìn)行。

Figure 4 Influence of number of characteristic words on the evaluation index圖4 特征詞數(shù)量對(duì)評(píng)價(jià)指標(biāo)的影響

(2)分類效果。

通過(guò)方法構(gòu)建和實(shí)驗(yàn)驗(yàn)證能夠獲得各組實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果記錄如表2所示,6組實(shí)驗(yàn)結(jié)果平均F1值對(duì)比如圖5所示。從表2和圖5可以看出,傳統(tǒng)的分類器KNN的分類效果最差,本文提出的結(jié)合復(fù)雜網(wǎng)絡(luò)統(tǒng)計(jì)特征的文本分類方法效果最好。具體分析如下:

Table 2 Evaluation index values of text classification of each method

Figure 5 F1-score of six methods 圖5 6組方法的F1值

方法1與方法2相比、方法3與方法4相比,方法2和方法4效果較好,說(shuō)明在該語(yǔ)料庫(kù)中SVM分類器的表現(xiàn)好于KNN的。方法1與方法3相比、方法2與方法4相比,方法3和方法4效果更好,使用文本復(fù)雜網(wǎng)絡(luò)進(jìn)行特征提取結(jié)合KNN或SVM進(jìn)行分類,分類效果有所提升,說(shuō)明向量空間模型在進(jìn)行文本表示時(shí)受限于獨(dú)立性假設(shè),不利于引入語(yǔ)義信息,本文設(shè)計(jì)的基于特征降維文本復(fù)雜網(wǎng)絡(luò)的特征提取方法能夠有效獲取文本語(yǔ)義信息。基于LSTM的文本分類實(shí)驗(yàn)中,結(jié)合文本復(fù)雜網(wǎng)絡(luò)和LSTM的方法,分類準(zhǔn)確率達(dá)到92.02%,比基于LSTM的方法高了2.8%,比基于文本復(fù)雜網(wǎng)絡(luò)和KNN的方法高了4%,比KNN高了14%,說(shuō)明LSTM方法相比傳統(tǒng)機(jī)器學(xué)習(xí)方法在文本分類上有明顯的優(yōu)勢(shì),并且在LSTM抽取出的語(yǔ)義信息中加入基于文本復(fù)雜網(wǎng)絡(luò)的特征信息能夠有效提高文本的分類效果。

實(shí)驗(yàn)驗(yàn)證了本文設(shè)計(jì)的融合詞語(yǔ)統(tǒng)計(jì)特征和語(yǔ)義信息的文本分類方法確實(shí)進(jìn)一步提升了文本分類的準(zhǔn)確率。

6 結(jié)束語(yǔ)

為了解決處理海量文本語(yǔ)料時(shí),傳統(tǒng)方法帶來(lái)的維數(shù)災(zāi)難和語(yǔ)義缺失,從而導(dǎo)致分類不準(zhǔn)確的問(wèn)題,本文首先基于文本復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)統(tǒng)計(jì)特征改進(jìn)TF-IDF方法得到特征向量,在特征表示中融合了詞語(yǔ)的句法關(guān)系、詞性、結(jié)構(gòu)信息和詞頻計(jì)算特征權(quán)重,彌補(bǔ)了“詞袋”模型的缺點(diǎn);接著基于LSTM提取的語(yǔ)義向量,將特征向量與語(yǔ)義向量相融合,使新的文本表示向量信息量更豐富、區(qū)分度更高,使最終的文本分類效果更好。本文方法仍存在巨大的探索空間,向量融合方式較為粗糙,僅將特征向量和文本向量分別歸一化后相組合,在維度相差較大時(shí),分類效果不穩(wěn)定。下一步考慮將此分類方法運(yùn)用到短文本分類和輿情分析中。

猜你喜歡
語(yǔ)義分類特征
分類算一算
語(yǔ)言與語(yǔ)義
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語(yǔ)義模糊
主站蜘蛛池模板: 亚洲a免费| 国产爽歪歪免费视频在线观看| 成人永久免费A∨一级在线播放| 亚洲制服丝袜第一页| 性欧美精品xxxx| 天堂岛国av无码免费无禁网站| 72种姿势欧美久久久久大黄蕉| 99精品免费在线| 原味小视频在线www国产| 亚洲综合国产一区二区三区| 国产91特黄特色A级毛片| 在线免费观看a视频| 亚洲日韩每日更新| 性视频一区| 国产成人做受免费视频| 青青青视频蜜桃一区二区| 欧美第九页| 亚洲成人动漫在线| 欧美国产精品拍自| 久久久久国产一级毛片高清板| 好久久免费视频高清| 欧美专区日韩专区| 91麻豆精品国产高清在线| 久久久精品无码一区二区三区| 成人午夜视频网站| 国产导航在线| 欧美19综合中文字幕| 欧美精品影院| 国产另类视频| 久久99久久无码毛片一区二区| 欧美日本激情| 日本尹人综合香蕉在线观看| 99视频精品全国免费品| 日韩毛片免费视频| 呦系列视频一区二区三区| 欧美三级视频网站| 国产精品林美惠子在线观看| 久久精品这里只有精99品| 亚洲开心婷婷中文字幕| 成年看免费观看视频拍拍| 97狠狠操| 国产乱人免费视频| 久久国产精品波多野结衣| 国产精品国产主播在线观看| 综合色天天| 日韩成人免费网站| 国产精品99r8在线观看| 久久一本日韩精品中文字幕屁孩| 国产日韩精品欧美一区灰| 日本国产精品| 久久99精品久久久久纯品| 中文字幕乱码二三区免费| 亚洲欧美成aⅴ人在线观看| 国产精品成| 免费毛片视频| 国产精品区视频中文字幕| 日本精品视频一区二区| 国产成人永久免费视频| 久一在线视频| 在线无码av一区二区三区| 色播五月婷婷| 亚洲成a人片7777| 国产成人亚洲精品色欲AV| 黄片在线永久| 亚洲国产欧美国产综合久久| a级毛片在线免费观看| 亚洲高清国产拍精品26u| 一级黄色欧美| 亚洲国产高清精品线久久| 国产精品999在线| 日日拍夜夜嗷嗷叫国产| 日韩一区二区三免费高清| 国产精品亚洲五月天高清| 亚洲精品无码高潮喷水A| 久久久精品久久久久三级| 国产成人乱无码视频| 精品成人一区二区| 日本国产精品| 无码精品国产VA在线观看DVD| 九色视频在线免费观看| 亚洲日本精品一区二区| 久久青草热|