高知新 徐林會(huì)
(遼寧工程技術(shù)大學(xué)理學(xué)院 遼寧 阜新 123000)
?
基于隱馬爾科夫模型與語(yǔ)義融合的文本分類(lèi)
高知新 徐林會(huì)
(遼寧工程技術(shù)大學(xué)理學(xué)院 遼寧 阜新 123000)
提出一種融合語(yǔ)義的隱馬爾科夫模型用于文本分類(lèi)的方法。將特征詞的語(yǔ)義作為先驗(yàn)知識(shí)融合到隱馬爾科夫分類(lèi)模型中。通過(guò)信息增益提取特征詞,用word2vec提取特征詞語(yǔ)義,將每一個(gè)類(lèi)別映射成一個(gè)隱馬爾科夫分類(lèi)模型,模型中狀態(tài)轉(zhuǎn)移過(guò)程就是該類(lèi)文本生成過(guò)程。將待分文本與分類(lèi)模型做相似度比較,取得最大類(lèi)別輸出概率。該方法不僅考慮特征詞、詞頻、文檔數(shù)量先驗(yàn)知識(shí),而且將特征詞語(yǔ)義融合到隱馬爾科夫分類(lèi)模型中。通過(guò)實(shí)驗(yàn)評(píng)估,取得了比原HMM模型和樸素貝葉斯分類(lèi)模型更好的分類(lèi)效果。
隱馬爾科夫模型 語(yǔ)義融合 word2vec 信息增益 文本分類(lèi)
近年來(lái)隨著Web和移動(dòng)互聯(lián)網(wǎng)的廣泛使用,各種信息的增長(zhǎng)速度越來(lái)越快,其中文本信息占有重要地位。如何快速而有效地進(jìn)行文本的組織、管理以及使用是當(dāng)今信息處理的一個(gè)重要課題,而這也促進(jìn)了文本分類(lèi)技術(shù)的發(fā)展。文本分類(lèi)就是將未分類(lèi)的文本根據(jù)一定的分類(lèi)算法分配到正確的類(lèi)別中,它廣泛應(yīng)用在搜索引擎、信息過(guò)濾、文本識(shí)別、數(shù)字圖書(shū)館等方面。為了快速高效的處理海量文本數(shù)據(jù)集,基于統(tǒng)計(jì)的分類(lèi)模型被應(yīng)用到文本分類(lèi)中。文獻(xiàn)[1]將文本利用向量空間模型表示成空間向量,利用TF-IDF表示文本權(quán)重,對(duì)文本進(jìn)行分類(lèi);文獻(xiàn)[2]討論了統(tǒng)計(jì)模型在文本分類(lèi)中的應(yīng)用;文獻(xiàn)[3]將支持向量機(jī)應(yīng)用與文本分類(lèi),因?yàn)槠鋱?jiān)實(shí)的理論基礎(chǔ)和良好的分類(lèi)性能成為一經(jīng)典的分類(lèi)算法。除此以外,最大熵模型、模糊理論和二維文本模型等方法也被應(yīng)用于文本分類(lèi),同樣也取得了不錯(cuò)的效果[4-6]。
由于隱馬爾科夫模型(HMM)可以用來(lái)描述序列化隨機(jī)過(guò)程的統(tǒng)計(jì)特性,文本處理作為隨機(jī)過(guò)程統(tǒng)計(jì)特性一種,如何將HMM模型更好地應(yīng)用到文本處理中,成為當(dāng)下的研究熱點(diǎn)之一。文獻(xiàn)[7]利用HMM模型作為信息檢索模型,給定一個(gè)查詢(xún)系列,輸出一個(gè)和查詢(xún)相關(guān)的文檔。文獻(xiàn)[8]利用HMM模型用于文本分類(lèi),將每一個(gè)預(yù)定義的類(lèi)映射為一個(gè)HMM模型,給定一篇待分類(lèi)的文檔表示成詞序列,計(jì)算屬于該類(lèi)別的可能性大小。文獻(xiàn)[9]將卡方一致性檢驗(yàn)和TF-IDF方法結(jié)合提取特征詞向量,在此基礎(chǔ)上建立HMM分類(lèi)模型。
本文提出了一種文本分類(lèi)方法,將文本的特征詞,特征詞詞頻,文檔數(shù)量以及特征詞語(yǔ)義作為先驗(yàn)知識(shí)融合到HMM分類(lèi)模型當(dāng)中。通過(guò)信息增益方法提取特征詞,利用TF-IDF算法約束特征詞權(quán)重,利用word2vec提取特征詞的語(yǔ)義信息,將語(yǔ)義相似度較高特征詞合并,為每一個(gè)類(lèi)別建立HMM分類(lèi)模型。對(duì)于待分類(lèi)的文本,本文提出通過(guò)與分類(lèi)模型中特征詞向量做交集,交集集合特征詞作為觀察序列輸入到HMM分類(lèi)模型中,通過(guò)前進(jìn)算法取得各個(gè)類(lèi)別輸出概率,選取其中最大的作為分類(lèi)依據(jù)。
文本分類(lèi)任務(wù)是指將待分類(lèi)的文本自動(dòng)分配到預(yù)先定義好的類(lèi)別集合當(dāng)中。本文中,給定一個(gè)訓(xùn)練集合T={(d1,c1),(d2,c2),…,(dn,cn)},包含預(yù)定義的文檔類(lèi)別,HMM分類(lèi)模型目標(biāo)挖掘待分文檔和類(lèi)別之間的關(guān)系,高效準(zhǔn)確地將文檔分配到某一類(lèi)別中。
1.1 隱馬爾科夫模型
HMM模型(如圖1所示)建立在狀態(tài)和觀察獨(dú)立性上的統(tǒng)計(jì)模型,主要應(yīng)用于解決評(píng)估問(wèn)題、學(xué)習(xí)問(wèn)題和解碼問(wèn)題。一個(gè)HMM模型λ一般由5個(gè)部分組成,記為λ={S,V,A,B,Π},其中[10]:
(1)S是一組狀態(tài)的集合,設(shè)模型中共有N個(gè)狀態(tài),則狀態(tài)集記為:
S={s1,s2,…,sN}
(2)V是一組輸出符號(hào)的集合,設(shè)模型中共有M個(gè)輸出符號(hào),則符號(hào)集記為:
V={v1,v2,…,vM}
(3)A是狀態(tài)轉(zhuǎn)移概率分布矩陣,記為A={aij},aij表示從狀態(tài)si轉(zhuǎn)移到sj的概率,其中:
aij=p(qt+1=sj|qt=si)
(1)

(4)B是符號(hào)輸出概率分布矩陣,記為B={bi(k)},bi(k)表示在狀態(tài)si時(shí)輸出符號(hào)vk的概率,其中:
bi(k)=p(ot=vk|qt=si) 1≤j≤N1≤k≤M
(2)
(5)Π是初始狀態(tài)概率分布,記為Π={πi},πi表示狀態(tài)si作為初始狀態(tài)的概率,其中:
πi=p(qi)=si1≤i≤N
(3)

圖1 HMM模型圖
1.2 word2vec詞向量模型
word2vec是Google在2013年開(kāi)源的一款將詞語(yǔ)表征為實(shí)數(shù)值向量的高效工具。本文訓(xùn)練詞向量采用的skip-gram模型,經(jīng)測(cè)試,在小規(guī)模樣本集上skip-gram模型要比cbow模型效果要好。從圖2中看skip-gram應(yīng)該預(yù)測(cè)概率p(wi|wt),其中t-c≤i≤t+c且i≠t,c是決定上下文窗口大小的常數(shù),c越大則需要考慮的上下文語(yǔ)境就越多,一般能夠帶來(lái)更精確的結(jié)果,但是訓(xùn)練時(shí)間也會(huì)增加。假設(shè)存在一個(gè)w1,w2,…,wT的詞語(yǔ)序列,skip-gram的目標(biāo)是最大化:
(4)
基本的skip-gram模型定義p(wo|wI)為:
(5)
skip-gram是一個(gè)對(duì)稱(chēng)的模型,如圖2所示,如果wt為中心詞時(shí)wk在其窗口內(nèi),則wt也必然在以wk為中心的同樣大小窗口內(nèi),即:
(6)
實(shí)現(xiàn)此模型的算法分別為層次Softmax和Negative Sampling兩種算法[15]。

圖2 skip-gram模型圖
1.3 HMM分類(lèi)模型
每一篇文檔di都有一個(gè)類(lèi)別ci屬性,目標(biāo)建立基于訓(xùn)練集的分類(lèi)模型,完成新文本的分類(lèi)。本文利用HMM模型作為文檔生成器,如圖3所示,每一個(gè)類(lèi)映射成一個(gè)HMM模型,模型參數(shù)通過(guò)屬于本類(lèi)的數(shù)據(jù)集訓(xùn)練而得。當(dāng)一篇待分類(lèi)的文檔,先計(jì)算屬于當(dāng)前類(lèi)別的概率分布大小,再作為屬于當(dāng)前類(lèi)別的依據(jù)。

圖3 HMM文本分類(lèi)模型
在隱馬爾科夫分類(lèi)模型基礎(chǔ)上,融合特征詞語(yǔ)義、詞頻、特征詞本身等先驗(yàn)知識(shí),建立高效快速文本分類(lèi)模型。將文本信息表示成詞向量能夠讓模型就行數(shù)據(jù)化處理,本文采用word2vec模型,融合上下文語(yǔ)義,將文本映射到向量空間模型中,進(jìn)行內(nèi)積計(jì)算,通過(guò)設(shè)定閾值,將相似特征詞進(jìn)行合并。例如“文化”和“藝術(shù)”就可以合并為同一類(lèi)別的特征詞。為了去除文本中噪聲,處理以前進(jìn)行文本數(shù)據(jù)已處理。包括分詞、去除停用詞、去除詞頻相對(duì)文本數(shù)目較小的詞等。
2.1 特征詞提取
文本處理中時(shí)間復(fù)雜度和空間復(fù)雜度依賴(lài)于文本特征向量的維度。為了提高模型分類(lèi)效果準(zhǔn)確性,需要對(duì)文本進(jìn)行降維處理,最終選擇特征詞表示文檔。本文中采取信息增益算法,可以計(jì)算當(dāng)前類(lèi)別平均信息量。對(duì)于每一個(gè)w,信息增益G(w):
(7)

2.2 隱馬爾科夫分類(lèi)模型建立及參數(shù)訓(xùn)練
文本是由一些列的詞匯組成,在具體的不同文本中詞匯及其詞頻都不同。所以HMM分類(lèi)模型的建立在特征詞本身和特征詞詞頻基礎(chǔ)上,而在特征詞提取過(guò)程中已將語(yǔ)義信息融合到特征詞當(dāng)中。類(lèi)別特征詞集是構(gòu)建HMM分類(lèi)模型的基礎(chǔ),詞向量作為隱馬爾科夫模型的隱藏狀態(tài),而將詞向量對(duì)應(yīng)的詞頻作為對(duì)應(yīng)狀態(tài)的觀察序列。
對(duì)每一個(gè)隱馬爾科夫分類(lèi)模型,定義狀態(tài)集合S={s1,s2,…,sT},每一個(gè)si對(duì)應(yīng)著類(lèi)別特征詞的第個(gè)特征詞。狀態(tài)集由特征詞的順序構(gòu)建。狀態(tài)轉(zhuǎn)移過(guò)程即為特征詞遍歷過(guò)程,特征詞遍歷過(guò)程即為隸屬于該類(lèi)別文檔生成過(guò)程。特征詞輸出序列為特征詞的詞頻用k表示,k為符合一定相似度閾值的特征詞之和。所以得到在中間狀態(tài)si下,ck類(lèi)中對(duì)應(yīng)特征詞的觀察值分布為:
(8)

(9)


(10)
指定初始狀態(tài)s0的概率π={1,0,…,0}。對(duì)于類(lèi)別ck的隱馬爾可夫模型可以表示為:
λk={Π,Ack,Bck}
(11)
2.3 待分文本相似度比較
對(duì)于一個(gè)待分類(lèi)的文本,進(jìn)行如下步驟進(jìn)行分類(lèi):
(1) 對(duì)文本d按照預(yù)處理的方法,然后統(tǒng)計(jì)詞頻,得到詞向量和詞頻集合,并將wd表示為詞向量的形式。
(2) 將wd的詞向量分別與各類(lèi)別特征詞做交集,選取其中k個(gè)特征詞作為隱藏狀態(tài)。給定隱馬爾科夫模型λk和k個(gè)特征詞對(duì)應(yīng)的詞頻觀察序列即為od,利用前向算法[10]求解該觀察序列輸入該分類(lèi)模型的概率分布值p(od|λk)。
(3) 計(jì)算wd與所有HMM分類(lèi)模型的p(od|λk),待分文本的類(lèi)標(biāo)號(hào)就是max{p(od|λk)}。
對(duì)于待分文本不僅將詞匯本身,詞匯詞頻和詞匯的上下文語(yǔ)義融合到其中,所選取的k個(gè)特征詞更具代表性,能夠映射出該文本和該類(lèi)別的關(guān)聯(lián)程度。對(duì)于HMM分類(lèi)模型的構(gòu)建考慮到詞匯本身屬性以及詞匯語(yǔ)義等先驗(yàn)性知識(shí),構(gòu)建的模型不僅在數(shù)據(jù)維數(shù)上減少了,而且將相似度較高的特征詞進(jìn)行合并,也是根據(jù)語(yǔ)義信息對(duì)特征詞進(jìn)一步提取,得出的特征詞更好的代表這個(gè)類(lèi)別屬性信息。可以把HMM分類(lèi)模型作為該類(lèi)文本生成器,待分文本可以看作是它狀態(tài)轉(zhuǎn)移過(guò)程生成的樣本。
為驗(yàn)證模型的有效性,本文采用三組實(shí)驗(yàn)對(duì)模型進(jìn)行驗(yàn)證。實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于復(fù)旦大學(xué)文本分類(lèi)語(yǔ)料,采用C3、C7、C11、C32、C38、C39共6個(gè)類(lèi)別數(shù)據(jù)集。分詞采用HanNLP開(kāi)源工具,進(jìn)行分詞、去停用詞,利用word2vec進(jìn)行特征詞語(yǔ)義合并,提取特征詞。實(shí)驗(yàn)結(jié)果從準(zhǔn)確率、召回率、F-Score三個(gè)方面進(jìn)行評(píng)價(jià)。其中,word2vec 訓(xùn)練語(yǔ)料來(lái)自于人民日?qǐng)?bào)2014 。模型參數(shù)如表1所示。

表1 word2vec模型參數(shù)
3.1 HMM 模型試驗(yàn)對(duì)比
為驗(yàn)證模型有效性,將本文模型和不融合語(yǔ)義合并的模型對(duì)比。實(shí)驗(yàn)結(jié)果如表2所示。模型在三個(gè)指標(biāo)方面有顯著的提高。說(shuō)明了融合語(yǔ)義特征能夠提高HMM模型在文本處理中的有效性。其中文獻(xiàn)[1]中說(shuō)明了原模型的處理文本的方法。

表2 試驗(yàn)結(jié)果
3.2 交叉模型對(duì)比
為驗(yàn)證模型的可行性,本文建立的HMM模型和傳統(tǒng)的樸素貝葉斯模型[13]進(jìn)行對(duì)比。試驗(yàn)結(jié)果如表3所示。樸素貝葉斯作為文本分類(lèi)中的重要方法,廣泛應(yīng)用在自然語(yǔ)言處理領(lǐng)域當(dāng)中。本實(shí)驗(yàn)在準(zhǔn)確率、召回率和F-Socre三個(gè)方面對(duì)比取得了和樸素貝葉斯模型相當(dāng)?shù)男ЧM(jìn)一步說(shuō)明模型的有效性。

表3 交叉模型對(duì)比結(jié)果
3.3 訓(xùn)練樣本的數(shù)量對(duì)模型影響
統(tǒng)計(jì)模型,訓(xùn)練樣本的規(guī)模尺寸對(duì)模型的評(píng)估結(jié)果又很大影響。本文設(shè)計(jì)如下實(shí)驗(yàn)特征詞數(shù)為30。如圖4所示:水平軸表示每個(gè)類(lèi)別的樣本數(shù),垂直軸表示“詞匯+詞頻+語(yǔ)義+HMM”模型的平均準(zhǔn)確率。隨著訓(xùn)練樣本的增加,該模型的平均準(zhǔn)確率有顯著增加,可以解釋為隨著訓(xùn)練樣本的增加,通過(guò)文檔的詞匯、詞頻、語(yǔ)義,代表文檔的特征詞特征屬性提取的更充分,所以準(zhǔn)確率顯著增加,當(dāng)?shù)竭_(dá)[700,800]區(qū)間到達(dá)頂峰。隨著訓(xùn)練樣本進(jìn)一步增加,準(zhǔn)確率有下降的趨勢(shì),隨著樣本遞增,word2vec進(jìn)行語(yǔ)義合并時(shí),融合語(yǔ)義噪聲,使得特征詞代表性有所下降,準(zhǔn)確率會(huì)有所下降。
本文測(cè)試數(shù)據(jù)采用復(fù)旦大學(xué)文本分類(lèi)語(yǔ)料,測(cè)數(shù)據(jù)中最大數(shù)量1 000多篇,對(duì)于大樣本數(shù)據(jù)或者不均衡語(yǔ)料數(shù)據(jù)需要應(yīng)用過(guò)采樣或欠采樣方法[15]。將本模型應(yīng)用到其他大規(guī)模文本數(shù)據(jù),采用更為有效的評(píng)價(jià)指標(biāo)進(jìn)行評(píng)測(cè)也是接下來(lái)需要研究問(wèn)題。

圖4 訓(xùn)練樣本的數(shù)量對(duì)模型影響
本文提出一種基于HMM模型和融合語(yǔ)義分析的文本分類(lèi)方法。模型建立在特征詞基礎(chǔ)上,融合特征詞本身內(nèi)容,特征詞的詞頻以及特征詞的語(yǔ)義等先驗(yàn)知識(shí),將每一個(gè)類(lèi)別映射成隱馬爾科夫模型。本文對(duì)模型結(jié)構(gòu)和參數(shù)的訓(xùn)練進(jìn)行闡述,對(duì)比其他文本分類(lèi)統(tǒng)計(jì)模型,模型結(jié)構(gòu)簡(jiǎn)單,參數(shù)訓(xùn)練復(fù)雜度依賴(lài)于特征詞的維數(shù),然而語(yǔ)義分析起到特征詞降維的作用,而且根據(jù)語(yǔ)料的增加,特征詞的維度可以調(diào)整,這也是本模型特點(diǎn)。通過(guò)實(shí)驗(yàn)分析的三組實(shí)驗(yàn)可以說(shuō)明模型的有效性,取得了與樸素貝葉斯相當(dāng)?shù)慕Y(jié)果。如何針對(duì)具體領(lǐng)域更加有效地進(jìn)行特征提取和觀測(cè)值概率分布計(jì)算是今后研究的方向。
[1] Turney P D, Pantel P. From frequency to meaning: vector space models of semantics[J]. Journal of Artificial Intelligence Research, 2010, 37(1):141-188.
[2] Pelikan M, Goldberg D E, Lobo F G. A Survey of Optimization by Building and Using Probabilistic Models[J]. Computational Optimization and Applications, 2002, 21(1):5-20.
[3] Pal M, Foody G M. Feature Selection for Classification of Hyperspectral Data by SVM[J]. Geoscience & Remote Sensing IEEE Transactions on, 2010, 48(5):2297-2307.
[4] Kazama J, Tsujii J. Maximum Entropy Models with Inequality Constraints: A Case Study on Text Categorization[J]. Machine Learning, 2005, 60(1):159-194.
[5] Nunzio G M D. A Bidimensional View of Documents for Text Categorisation[M]// Advances in Information Retrieval. Springer Berlin Heidelberg, 2004:112-126.
[6] Liu W Y,Song N.A fuzzy approach to classification of text documents[J].Journal of Computer Science and Technology,2003,18(5):640-647.
[7] Miller D R H, Leek T, Schwartz R M. A hidden Markov model information retrieval system[C]//International Acm Sigir Conference on Research & Development in Information Retrieval. 2000:214-221.
[8] Yi K, Beheshti J. A hidden Markov model-based text classification of medical documents[J]. Journal of Information Science, 2009, 35(1):67-81.
[9] Li K, Chen G, Cheng J. Research on Hidden Markov Model-based Text Categorization Process[J]. International Journal of Digital Content Technology & Its Applications, 2011, 5(6):244-251.
[10] 楊健,汪海航.基于隱馬爾科夫模型的文本分類(lèi)算法[J].計(jì)算機(jī)應(yīng)用,2010,30(9):2348-2350.
[11] 羅雙虎,歐陽(yáng)為民.基于Markov模型的文本分類(lèi)[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(30):179-181.
[12] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2013.
[13] 杜選.基于加權(quán)補(bǔ)集的樸素貝葉斯文本分類(lèi)算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(9):253-255.
[14] 鄧力.深度學(xué)習(xí)方法和應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2015.
[15] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2011, 16(1):321-357.
TEXT CLASSIFICATION BASED ON HIDDEN MARKOV MODEL AND SEMANTIC FUSION
Gao Zhixin Xu Linhui
(CollegeofScience,LiaoningTechnicalUniversity,Fuxin123000,Liaoning,China)
In this paper, a text classification method based on Hidden Markov Model and semantic fusion is proposed. The semantics of the feature words are integrated into the hidden Markov model as a priori knowledge. Then, the characteristic words were extracted by information gain, and the feature words semantics were extracted by the word2vec. Each class was mapped into a hidden Markov model, and the state transition process in the model was the text generation process. The similarity between the text to be classified and the classification model was compared to obtain the maximum class output probability. This method not only considers the prior knowledge of feature words, word frequency and document quantity, but also integrates the semantic of feature words into hidden Markov classification model. Through the experimental evaluation, we got better classification result than the original HMM model and Naive Bayes classification model.
Hidden Markov model Semantic fusion word2vec Information gain Text classification
2016-07-20。高知新,副教授,主研領(lǐng)域:最優(yōu)化與應(yīng)用。徐林會(huì),碩士生。
TP3
A
10.3969/j.issn.1000-386x.2017.07.056