LDA與詞匯鏈相結(jié)合的主題短語抽取方法

2018-11-14 10:27:42張小鵬呂學(xué)強徐麗萍

小型微型計算機系統(tǒng) 2018年11期

張小鵬，呂學(xué)強，李卓，徐麗萍

1(北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室，北京 100101 2(北京城市系統(tǒng)工程研究中心，北京 100089)

1 引言

文獻(xiàn)主題提取技術(shù)，不僅能提高文檔檢索的質(zhì)量，而且可以有效處理文檔向量空間表示模型的高維稀疏性問題，在文本分類、聚類、信息推薦等NLP任務(wù)中具有廣泛應(yīng)用，因此主題提取也是當(dāng)今文本挖掘領(lǐng)域的研究重點之一.

目前國內(nèi)外學(xué)者所采用的主題識別或抽取方法主要有三種：第一種是基于詞頻和共現(xiàn)詞頻等統(tǒng)計方法，如詞匯鏈(Lexical chain)[1]，TF-IDF[2]等；第二種是基于向量空間模型的方法，如PLSA[3]，LDA(latent Dirichlet allocation)[3]等；第三種是基于網(wǎng)或圖的方法，如共詞網(wǎng)絡(luò)(Co-Word)[4]，TextRank[5]等.其中詞匯鏈與文本的結(jié)構(gòu)存在一種對應(yīng)關(guān)系，提供了關(guān)于文本中主題與結(jié)構(gòu)的重要線索[6]，且包含了較為豐富的語義信息，因此可利用詞匯鏈進(jìn)行文章主題信息的反映；另一方面，詞匯鏈雖然能夠表達(dá)文本的語義結(jié)構(gòu)，但其構(gòu)造過程需依賴知識庫進(jìn)行詞匯間語義相似度的計算，在知識庫不完備的情況下，未包含詞及其關(guān)鍵短語抽取的效果較差[7].LDA模型是一種經(jīng)典的概率主題模型.在不依賴知識庫的情況下就可識別大規(guī)模文檔集和語料庫潛在的主題信息.但傳統(tǒng)LDA模型基于 “詞袋”[8]模型假設(shè)，忽略了文檔中各個詞之間的順序.因此在很多情況下主題抽取效果并不理想，存在主題詞信息粒度過小、主題辨識度低、主題詞二義性等問題.

綜上所述，LDA模型是一種在文檔主題研究領(lǐng)域被普遍采用的概率主題模型；存在 “詞袋”模型假設(shè)的不足，且僅考慮了語料庫內(nèi)部語義信息，因此抽取效果往往不夠理想；而詞匯鏈借助語料庫之外的語義知識庫來計算詞語間關(guān)系，可以彌補LDA模型的不足，達(dá)到充分利用語料庫內(nèi)部和外部語義信息的目的.基于上述思路，本文提出了LDA結(jié)合詞匯鏈抽取主題的方法.實驗結(jié)果表明，該方法能明顯減少主題詞二義性問題，但依然存在主題詞信息粒度過小、主題辨識度低的問題.由此，本文通過進(jìn)一步利用強詞匯鏈中心詞，并結(jié)合一定的詞性規(guī)則，提取了文中更具表達(dá)力的主題短語.從而解決了主題詞信息粒度過小、主題辨識度低的問題.

2 相關(guān)概念

2.1 詞匯鏈的概念

詞匯鏈概念起源于1976年由Halliday與hasan提出的詞匯集聚概念[9]，用于將文本中相關(guān)的詞構(gòu)成一個鏈的過程.它是一種詞語間語義關(guān)系連貫性的外在表現(xiàn)，與文本的結(jié)構(gòu)和主題都有一定的對應(yīng)關(guān)系，能夠用于確定語境，進(jìn)而幫助消歧；也能夠用于文本抽取的各個任務(wù)中.

詞匯鏈?zhǔn)峭ㄟ^詞義間的關(guān)系來識別的構(gòu)建的，計算語義相似度需要知識庫的支持.而WordNet[10]就是一個較為完備的語義知識庫，因此可以將WordNet應(yīng)用到詞匯鏈構(gòu)建算法中.詞匯鏈構(gòu)建算法的核心思想是從當(dāng)前已構(gòu)造的詞匯鏈中選擇一條最合適的詞匯鏈作為與該候選詞相關(guān)的詞匯鏈.但由于該算法考慮的是到目前為此所出現(xiàn)的詞語間的語義關(guān)系，并不從文章總體上考慮，所以構(gòu)建的詞匯鏈往往不能正確表達(dá)文章的語義結(jié)構(gòu)，容易出現(xiàn)詞語的詞義誤判問題，這也是對詞匯鏈進(jìn)行改進(jìn)的主要著手點之一.如圖 1所示，本文只選取文本片段中的名詞作為候選詞匯，該片段中三條詞匯鏈及其分布情況：{specifications，requirements，obsolete，replacement，reasons，material，nature，scope}，{technical，solutions}和{reports，performance，system}

圖1 詞匯鏈分布樣例

2.2 詞義相似度

詞義相似度指的是兩個詞在不同的語境中相互替換但不影響語境的句法語義結(jié)構(gòu)的程度[11].Dekang Lin[12]認(rèn)為任何兩個詞語之間的相似度不僅取決于兩個詞之間的共性(Commonality)也取決于它們之間個性(Differences)，然后基于語義詞典并結(jié)合信息論的知識定義了相似度計算公式：

(1)

其中，S1，S2表示兩個義原，Sp表示離它們最近的共同祖先，p(Si)，(i=1，2或p)是Si結(jié)點的子結(jié)點個數(shù)(包括自己)與樹中的所有結(jié)點個數(shù)的比值.

2.3 LDA主題模型

主題模型是為了揭示大數(shù)據(jù)集合中的隱藏結(jié)構(gòu)而設(shè)計的一系列無監(jiān)督學(xué)習(xí)算法.主要思想是文檔可以看作是一系列主題的集合，而主題可以看作是一系列詞語的集合.換言之，一個文檔可以包含多個主題，而一個主題是由若干個詞語組成的集合.Hofmann把主題定義為基于詞的概率分布，同時把文檔定義為基于主題集合的概率分布.把文檔-主題-詞語三者的關(guān)系可以表示為：

(2)

其中，D表示文檔；T表示主題；W表示詞語.

Blei等人[11]基于上述理論于2003年提出了LDA(Latent Dirichlet Allocation)主題模型，它是一個用于主題生成的三層貝葉斯概率模型.LDA的概率主題模型可以表示為圖2所示.為了簡化問題的復(fù)雜性，LDA模型不考慮詞與詞之間的順序，把文檔中的每個詞看作是相互獨立的變量，即基于“詞袋”模型的假設(shè)，這也為模型的改進(jìn)提供了著手點.LDA模型同時采用Dirichlet分布函數(shù)來表示文檔中的各個主題分布，而Dirichlet分布的隨機向量中各個分向量之間是弱相關(guān)的，即假設(shè)了各個主題之間幾乎互不相關(guān)，這樣的假設(shè)與實際問題不符，這是LDA模型的另一個問題.

圖2 LDA概率主題模型

其中，k表示topic個數(shù)，α、β為先驗參數(shù).Zm，n為第m個document下第n個詞的topic.Wm，n第m個document的第n個word.θm表示第m個document的topic分布，φk表示第k個topic下詞的分布.

3 主題短語抽取

短語往往比單個詞蘊含的信息更加豐富，含義也相對明確，具有較好的主題概括力.本文提出的LDA結(jié)合詞匯鏈抽取主題短語的具體流程，如圖3所示.

為了便于描述流程圖，使用簡寫符號指代過程中數(shù)據(jù)集，Cp (Corps)表示實驗語料集，DTSet(Document-Topic Set)表示文檔-主題集，F(xiàn)CSet(Fulltext Chain Set)表示全文詞匯鏈集，NPSet (Noun- Phrase Set)表示二元和三元名詞短語集，CWSet(Center Word Set)表示中心詞集，TTPSet(Temp Topic Phrase Set)候選主題短語集，TPSet(Topic Phrase Set)主題短語集.具體流程步驟如下：

1)文檔預(yù)處理：去除停用詞和標(biāo)點符號后以′＄′符號作為分割符，得到實驗語料Cp；

2)求DTSet、FCSet及NPSet：在實驗語料Cp的基礎(chǔ)上，利用LDA訓(xùn)練及Gibbs采樣得到DTSet，并利用詞語相關(guān)度和WordNet知識庫構(gòu)造 FCSet，同時用規(guī)則匹配方式提取語料庫中的NPSet；

圖3 主題短語抽取流程圖

3)求CWSet：在上一步中求出的DTSet和FCSet的基礎(chǔ)上，計算主題詞與詞匯鏈的相關(guān)度，利用強鏈規(guī)則求出強詞匯鏈集合，然后循環(huán)遍歷強詞匯鏈集合中的每一個強鏈，將強鏈集合中頻率最高的元素作為最能代表該鏈的詞(即中心詞)，并將該詞加入到CWSet中，直到循環(huán)到強詞匯鏈集合中最后一個強鏈，循環(huán)結(jié)束，得到CWSet；

4)求TTPSet：在上述步驟中求出的NPSet和CWSet，經(jīng)過包含與被包含等規(guī)則的合并、去重操作得到TTPSet；

5)求TPSet：通過頻率、詞長和短語在文中所在的位置構(gòu)造主題度計算公式，計算TTPSet中每一個短語的主題度并設(shè)定閾值，將主題度滿足閾值的短語加入到TPSet，從而得到主題短語集，流程結(jié)束.

3.1 相關(guān)度計算

詞匯鏈可以通過計算詞語相關(guān)度的方式進(jìn)行構(gòu)建.詞語語義相關(guān)度是從語義層面反映詞語關(guān)聯(lián)程度的概念，本文使用兩個詞在同一語境下的共現(xiàn)的概率來計算詞語之間的語義相關(guān)度.語義相似度與語義相關(guān)度很容易被混淆，語義相似度指的是詞匯之間的相似性.語義相似度與語義相關(guān)度又具有一定的聯(lián)系，兩個詞匯語義相關(guān)，它們之間不一定語義相似，但如果兩個詞匯語義相似，那么它們一定是語義相關(guān)的.綜上所述，本文可以把語義相似度的計算作為語義相關(guān)度求解過程的一部分.

由于通信領(lǐng)域的技術(shù)文獻(xiàn)中涉及到大量的縮略詞，如表4 中的SIM(Subscriber Identification Module)，GSM(Global System for Mobile Communication)，BTS(Base Transceiver Station)等.這些縮略詞并沒有被WordNet所收錄，語義相似度計算公式也就無法應(yīng)用在這些縮略詞上.Manning[14]等人提出基于互信息的方法解決WordNet中未收錄詞的相關(guān)度計算問題[15].互信息常被應(yīng)用于計算兩個詞語之間的相關(guān)程度，具有不用依賴任何知識庫的特點，但互信息在低頻詞共現(xiàn)場景取得的效果并不好，且LDA抽取的文檔—詞匯矩陣是一種稀疏矩陣，本文只能基于段落內(nèi)詞共現(xiàn)計算詞語之間的相關(guān)程度.基于段落內(nèi)計算詞之間的相關(guān)程度，主題詞之間會出現(xiàn)大量低頻共現(xiàn)現(xiàn)象.為了解決上述問題，本文引入對數(shù)似然比(Log Likelihood Ratio).對數(shù)似然比在計算詞的低頻共現(xiàn)時比互信息具有更好的穩(wěn)定性.其基本思想是比較兩個詞匯相互獨立時得到的概率與構(gòu)造或然表得到的概率的一致程度.給定兩個詞匯u和v，則u，v所組成的或然表如表1所示.

表1 u、v組成的或然表

k11表示單詞u和單詞v共同出現(xiàn)的次數(shù)； k12表示單詞u出現(xiàn)但單詞v不出現(xiàn)的次數(shù)；k21表示單詞v出現(xiàn)但單詞u不出現(xiàn)的次數(shù)；k22表示單詞u和單詞v都不出現(xiàn)的次數(shù)；需要指出的是，本文對數(shù)似然比的應(yīng)用場景是基于LDA抽取結(jié)果的文檔-主題詞矩陣，因為該矩陣是一種稀疏矩陣，所以或然表中的詞共現(xiàn)現(xiàn)象統(tǒng)計是基于段落級而不是常規(guī)的句子級.對數(shù)似然比的公式如公式(3)所示.

(3)

其中，p=(k11+k12)/N，N=k11+k12+k21+k22，k11,k12,k21,k22，表示單詞u出現(xiàn)的概率，P1表示在v出現(xiàn)的情況下u出現(xiàn)的概率，P2表示在v不出現(xiàn)的情況下u出現(xiàn)的概率.對數(shù)似然比的值越大，表示語料中u、v搭配的短語是隨機出現(xiàn)的概率越小.

為了便于計算，本文將對數(shù)似然比的求解過程轉(zhuǎn)換為求行熵、列熵、矩陣熵的求解過程.引入對數(shù)似然比后，設(shè)wi，wj為文檔中的兩個詞語，可根據(jù)公式(1)將wi，wj的相似度表示為Sim(wi，wj)，根據(jù)公式(3)對數(shù)似然比表示為LLR(wi，wj)；若用Rel(wi，wj)表示wi，wj的相關(guān)度，則相關(guān)度計算方法如公式(4)所示.

Rel(wi，wj)=(1-λ)Sim(wi，wj)+λLLR(wi，wj)；

(i≥0；j≥0，i≠j)

(4)

其中，λ為可調(diào)節(jié)參數(shù)，由于在通信領(lǐng)域技術(shù)文獻(xiàn)中縮略詞所包含的信息量更大一些，而涉及到縮略詞的相關(guān)度計算中，公式(4)中前半部分相似度函數(shù)不一定會有值，但后半部分的對數(shù)似然比函數(shù)一定會有值，因此在本文實驗中將λ值設(shè)為0.6.

3.2 主題短語的抽取

針對技術(shù)文獻(xiàn)利用LDA抽取出文檔-主題詞集合DTSet后，結(jié)合詞語相關(guān)度計算方法可以進(jìn)一步完成詞匯鏈的構(gòu)建.首先構(gòu)建全文詞匯鏈，具體方法是通過掃描語料庫(Corps)中選定文檔(D)的詞集合，利用公式(4)求出相關(guān)度值與當(dāng)前處理的詞匯最大的詞，并將該詞插入到此詞匯鏈中，從而完成全文詞匯鏈的構(gòu)建.然后在全文詞匯鏈集合中求出與主題詞集合DTSet中的詞滿足一定相似度閾值的詞匯鏈集(LSet).具體方法是遍歷主題詞集合DTSet中的每一個詞w_i，利用公式(5)計算當(dāng)前詞w_i與全文詞匯鏈集合中的每一個詞匯鏈L_j的相似度，如果大于相似度閾值，就將該詞匯鏈L_j加入到詞匯鏈集(LSet)中.重復(fù)上述步驟，直至集合U中的詞掃描完成，也就求出了詞匯鏈集(LSet).對于給定詞w_i與詞匯鏈L_j的相似度計算方法如公式(5)所示.

(5)

其中，Sim(wi，Lj)表示當(dāng)前詞wi與詞匯鏈Lj的相似度.

為了更好地體現(xiàn)文檔的主題，還需要對詞匯鏈集(LSet)進(jìn)行強詞匯鏈的提取.強詞匯鏈對文檔的核心內(nèi)容更加具有代表性.為了得出強詞匯鏈，這里引入權(quán)重計算方法，如公式(6)所示.

(6)

其中，Score(Chain)為詞匯鏈權(quán)重評分函數(shù)，Len(Chain)為求鏈長函數(shù)，Hg(Chain)為均衡函數(shù)；Ti為詞匯鏈中第i個詞在全文出現(xiàn)的次數(shù)，n為詞匯鏈中的成員個數(shù).

使用權(quán)值評分函數(shù)對詞匯鏈進(jìn)行評分，選擇滿足一定“強鏈規(guī)則”的詞匯鏈作為強詞匯鏈；本文用ChainScore(Chain)表示強詞匯鏈的評分函數(shù)，AVG(Scores)表示(6)式中詞匯鏈權(quán)重評分函數(shù)得分的平均值，STD(Scores)表示(6)式中詞匯鏈權(quán)重評分函數(shù)得分的標(biāo)準(zhǔn)差；則“強鏈規(guī)則”可以表示為：Score(Chain)>AVG(Scores)+ 2×StandardDeviation(Scores)，選擇其中權(quán)重滿足“強鏈規(guī)則”的詞匯鏈作為詞匯鏈強鏈.

每條強鏈都對應(yīng)著一個主題線索，每個主題線索都有著互不相同的側(cè)重點.可以選取代表不同側(cè)重點的強詞匯鏈中的中心詞作為文檔主題信息的代表.對于選定文檔中的中心詞，其出現(xiàn)的頻次應(yīng)超過一定閾值，本文實驗中將閾值取為δ=(選定詞在文檔中出現(xiàn)次數(shù)/文檔不相同詞數(shù))，把超過閾值δ的詞作為文檔的候選詞中心詞.很多相關(guān)研究僅考慮名詞作為詞匯鏈中的候選詞，但經(jīng)實驗發(fā)現(xiàn)，除名詞以外的詞語對抽取文檔主題詞有正負(fù)兩方面的影響.具體為動詞對抽取的文檔主題詞質(zhì)量有相對積極的影響，而形容詞、副詞等其它詞對抽取主題詞的質(zhì)量有相對消極影響.因此只選擇文檔中具有名詞詞性或動詞詞性的詞語作為候選中心詞.根據(jù)上述實驗確定的閾值δ獲得每條鏈的候選中心詞集合.

短語比詞匯更能體現(xiàn)文檔的主題，本文期望以短語來體現(xiàn)文檔的主題.現(xiàn)實中的關(guān)鍵短語多以二元和三元結(jié)構(gòu)出現(xiàn)[13]，而名詞短語(N-P，Noun Phrase)與文檔內(nèi)容的表達(dá)最為一致[14]，因此可以用名詞短語來描述文檔的主題，英文中的名詞短語的主要語言模式如表2所示.

表2 英文文本中主要的名詞短語語言模式

如果兩個詞語在同一文本片段內(nèi)同時出現(xiàn)，那么這兩個詞就具有一定的相關(guān)性.兩個詞的同現(xiàn)頻率越高，則它們的相關(guān)性就越大，成為短語的可能性也就越大.由此可以聯(lián)系信息論中互信息的相關(guān)知識，得出詞語間的共現(xiàn)頻率計算方法.

(7)

(8)

其中，w1,w2,w3表示任意三個互不相同的詞語，F(xiàn)(w1,w2,w3)表示w1,w2,w3共同出現(xiàn)的次數(shù)，COF(w1,w2)表示w1與w2共同出現(xiàn)的頻率COF(w1,w2,w3)，表示，w1,w2,w3共同出現(xiàn)的頻率.

本文以3GPP官方網(wǎng)站提供的8500篇技術(shù)規(guī)范作為統(tǒng)計語料庫，記上文提到的英文名詞短語語言模式模版為Pt，設(shè)計的主題短語抽取算法步驟描述如下：

算法：主題短語抽取算法

輸入：3GPP技術(shù)規(guī)范統(tǒng)計語料庫，名詞短語模板Pt

輸出：主題短語集TPSet

L1 begin

L2 初始化 TPSet、TTPSet、CWSet；閾值變量γ=0.65；

L3 讀入統(tǒng)計語料庫，對語料進(jìn)行去停用詞、標(biāo)點預(yù)處理操作后得到Cp；

L4 按照詞性模版Pt對Cp中前一步處理過的語料進(jìn)行篩選，選出滿足詞性模版的二元、三元名詞短語；再對選出的名詞短語進(jìn)行統(tǒng)計，將出現(xiàn)次數(shù)大于1次的短語按照公式(c)和(d)計算共現(xiàn)頻率COF，篩選COF出大于閾值γ的名詞短語加入到集合TTPSet中.

L5 刪除TTPSet中被三元名詞短語已含有的二元名詞短語；

L6 刪除CWS中被TTPSet中短語所包含的中心詞，同時將TTPSet中包含中心詞的短語加入到TTPSet中，將CWS中剩下的中心詞也加入到TTPSet中；

L7 最后將TTPSet中的詞按照公式計算短語的主題度，對滿足主題度閾值的，按照主題度大小順序輸出，得到主題短語集合TPSet.

L8 End

3.3 主題度計算

候選主題短語與文檔主題的相關(guān)度通常與多種因素有關(guān).本文綜合考察候選主題短語的頻率特征、詞匯鏈長度特征以及位置特征對主題度的影響，通過構(gòu)造主題因子計算公式衡量候選主題短語的主題度.

1)頻率特征. 從統(tǒng)計學(xué)角度來看，候選主題短語的出現(xiàn)頻率從一定程度上能夠反映出文檔主題，如果候選主題短語在同一篇文檔中頻繁出現(xiàn)，則有較大可能性與文檔主題密切相關(guān)[16].考慮到作者在撰寫技術(shù)文檔時，通常會為了凸顯主題而反復(fù)使用主題相關(guān)的短語詞匯.因此，短語的頻率特征可以作為衡量主題度的一個因素.

2)詞長特征. 主題短語一般包含多個單詞，表達(dá)的涵義往往比單個詞匯更具體.本文將主題短語包含的單詞個數(shù)作為主題短語的長度特征.相對而言，候選主題短語長度越短，則提供的信息量越少，概括的主題含義越抽象；候選主題短語長度越長，則承載的信息越豐富，更有可能貼近文檔的主題思想.文獻(xiàn)[17]表明，同一篇文檔中，反映文檔主題思想的短語對應(yīng)的詞匯滿足長度最大的條件.因此，詞長也是一個不容忽視的因素.

3)位置特征. 同一個主題短語在特定的文檔中一般會在不同位置處多次出現(xiàn)，不同的位置對主題度的影響也不一樣.候選主題短語出現(xiàn)在文檔標(biāo)題中一般比出現(xiàn)在正文中更能體現(xiàn)文檔主題，出現(xiàn)在正文起始段落中的候選主題短語一般起到開門見山的作用，出現(xiàn)在正文末尾段落中的候選主題短語一般起到總結(jié)性的作用.因此，出現(xiàn)在正文的開頭和結(jié)尾部分的候選主題短語一般比中間位置更能體現(xiàn)文檔主題.本文將候選主題短語出現(xiàn)的位置劃分為標(biāo)題、正文起始段落、正文末尾段落以及正文中間部分，不同位置處賦予的主題權(quán)重如公式(9)所示.

(9)

綜合上述分析，本文針對候選主題短語提出如下計算主題度的方法，公式如(10)所示.

(10)

4 實驗及結(jié)果分析

4.1 實驗數(shù)據(jù)

本文實驗數(shù)據(jù)為3GPP官方網(wǎng)站FTP服務(wù)(http：//www.3gpp.org/ftp/)中公開的8500篇通信行業(yè)技術(shù)規(guī)范(TSG)文獻(xiàn).為了便于實驗，需要將技術(shù)規(guī)范文件中的扉頁、目錄和圖表等信息統(tǒng)一去除，只保留正文部分作為實驗語料(Corps)，并去除語料中的停用詞和標(biāo)點符號并以′＄′符號作為分割符.由于實驗語料的規(guī)模較大，加上所能獲取的專家知識有限，很難人工準(zhǔn)確識別出所有的主題短語，這也對評價指標(biāo)的計算帶來了一定的困難，為此本文選取其中的五種技術(shù)規(guī)范文檔集作為對比實驗的五個實驗組.由于每種技術(shù)規(guī)范又分為三個系列，為了達(dá)到更好的實驗效果，選取過程中盡量對技術(shù)規(guī)范的若干系列進(jìn)行平衡選取.把所選取的技術(shù)規(guī)范文檔集設(shè)置為3個不同的規(guī)模，并對選取的文檔進(jìn)行手工標(biāo)注主題短語.由于所選的實驗語料平均長度在4000字以上，為了較好的表達(dá)主題，每篇文獻(xiàn)手工標(biāo)注的主題短語個數(shù)設(shè)定為100個，3個文檔集合分別包含150篇，300篇，450篇實驗文獻(xiàn)，具體分配情況如表3所示.

表3 實驗文檔分配情況

4.2 效果及分析

本文通過LDA與詞匯鏈相結(jié)合的方法進(jìn)行主題短語的抽取.使用LDA4j作為主題抽取模型.將LDA的各參數(shù)分別設(shè)置為：文檔-主題參數(shù)alpha=2.0，主題-詞語參數(shù)beta=0.5，主題數(shù)目k=20，收斂前迭代次數(shù)BURN_IN=100，最大迭代次數(shù)ITERATIONS = 1000.利用LDA對上述語料庫進(jìn)行訓(xùn)練后，預(yù)測其中編號為ETSI-TS-101-402技術(shù)規(guī)范文件的主題，如表4所示，本文只列出前6個主題.

表4 LDA抽取的部分主題集

通過觀察LDA的抽取結(jié)果發(fā)現(xiàn)所抽取的主題可用性并不高.主要存在以下三個問題：

1)詞匯信息粒度過小，每個詞都是獨立的單詞；

2)主題詞二義性，沒有考慮詞匯的真正含義，如band，call等；

3)存在主題漂移現(xiàn)象，如文章的真實主題是與全球移動通信(GSM)的基站服務(wù)(BTS)有關(guān)，而topic3預(yù)測的主題是與移動交換中心(MSC)有關(guān)，與實際主題略有偏離.

本文在實驗過程中發(fā)現(xiàn)實驗語料存在大量可利用的數(shù)據(jù)特征，這些具有明顯數(shù)據(jù)特征的字符串很大概率上是縮略詞或者是具有專指意義的名詞短語，而且在主題表達(dá)上具有特殊的意義，如CDMA，IMMEDIATE ASSIGNMENT，Private Telecommunication Networks等.這些數(shù)據(jù)特征給主題抽取提供了便利，可以用字符串匹配技術(shù)將這些字符串直接標(biāo)定為名詞或者名詞短語，然后通過互信息、對數(shù)似然比等方法進(jìn)行過濾，最后將它們加入到候選主題短語集合中，計算主題度并按照所得的主題度大小進(jìn)行排序輸出.部分結(jié)果如表5所示，篇幅原因，本文展示每篇文獻(xiàn)主題度值排在前10的主題短語.

表5 部分抽取的主題短語

通過對比不難發(fā)現(xiàn)，與傳統(tǒng)的基于LDA主題抽取方法相比較，本文方法對于文獻(xiàn)的主題表達(dá)主要有以下4個方面的改善：1)主題信息粒度方面，傳統(tǒng)的PLSA、LDA等主題模型通常使用一系列單詞去解釋文本主題，信息粒度過小，不利于概念的表達(dá)；而本文使用一系列信息粒度更大的短語描述主題有助于更深一步地對主題概念進(jìn)行解釋.2)主題的辨識度方面，使用基于單詞的主題模型表達(dá)文本主題，往往會產(chǎn)生主題不易被區(qū)分的問題，如表4中topic1、topic3、topic6都是描述用戶電話信息的，topic2、topic4和topic5又都是描述全球移動通信系統(tǒng)的，無法準(zhǔn)確區(qū)分主題，如果人為進(jìn)行區(qū)分，會造成結(jié)果客觀性不足，也可能會產(chǎn)生一些矛盾.而基于短語進(jìn)行主題表達(dá)，每個短語都包含較為豐富的語義信息，從而對主題辨識度的提升有所幫助.3)語義消歧方面，基于單詞的主題模型容易出現(xiàn)多義詞，無法辨別其真正含義，從而產(chǎn)生歧義，影響主題無法準(zhǔn)確地得到表達(dá).如 topic2 中“power”的意思是“功率”還是“電源”? 在缺少上下文語境的情況下，讀者憑借主觀猜想很難對其正確地進(jìn)行區(qū)分.而基于短語的主題表達(dá)提供了一定的語境信息，有助于對多義詞的進(jìn)行正確的解讀，從而消除主題表達(dá)中的歧義現(xiàn)象.4)主題的可解釋性方面，傳統(tǒng)的基于單詞的主題模型中，同一個單詞可能被多個主題所包含，如表4中GSM同時在topic2、topic4和topic5中出現(xiàn)，這種情況對文獻(xiàn)主題的解釋以及分類具有負(fù)面影響，僅僅知道這些主題與“全球移動通信系統(tǒng)”有關(guān)，意義不大，所能為主題解釋提供的價值有限.而基于短語對主題進(jìn)行解釋則會大大改善這一情況.

表6 三種主題短語抽取方法在不同規(guī)模數(shù)據(jù)集上的準(zhǔn)確率和召回率

4.3 對比實驗

為了對提出的主題短語抽取方法的有效性進(jìn)行評價，本文進(jìn)行了一系列對比實驗并用準(zhǔn)確率、召回率和F1值對實驗結(jié)果進(jìn)行評價.在表(3)所示的五組實驗語料的基礎(chǔ)上，分別采用基于LDA的方法、基于詞匯鏈的方法以及LDA與詞匯鏈相結(jié)合的方法進(jìn)行主題短語的抽取，然后與手工標(biāo)注的主題短語進(jìn)行對比，從而得到每組語料抽取主題短語準(zhǔn)確率、召回率和F值.計算方法如公式(8)-公式(10)所示.

(11)

(12)

(13)

其中，Pi表示第i組的準(zhǔn)確率，Ri表示第i組的召回率，F(xiàn)1i表示第i組的F1值，TPi第i組正確抽取主題短語的個數(shù)，F(xiàn)Pi第i組提取主題短語不正確的個數(shù).

圖4 準(zhǔn)確率P的均值對比圖5 召回率R的均值對比

5 結(jié)束語

本文針對通信領(lǐng)域技術(shù)規(guī)格文獻(xiàn)，提出了一種LDA模型與詞匯鏈相結(jié)合的主題短語抽取方法.傳統(tǒng)的LDA模型基于“詞袋”模型的假設(shè)，忽略了文中原有詞語的順序；對語料庫本身進(jìn)行主題采樣，只利用了語料庫內(nèi)部的語義信息；因此容易出現(xiàn)較多的主題詞二義性問題.與詞匯鏈相結(jié)合，可以利用語料庫之外的具有較完備語義信息的知識庫WordNet，通過語義相關(guān)度計算和強鏈規(guī)則篩選可以得到強詞匯鏈，從而在很大程度上減少主題詞二義性問題.利用中心詞提取方法和N-P規(guī)則合并、去重等步驟可以完成主題短語的提取.借助具有更豐富語義信息的主題短語來表達(dá)主題，從而解決了主題詞粒度過小、辨識度低等問題.雖然將兩種技術(shù)相結(jié)合能夠保證主題抽取的準(zhǔn)確率和召回率，主題漂移現(xiàn)象也會得到改善.但該方法依賴較多，且主要針對三元以下的主題短語的進(jìn)行識別，具有一定的局限性.下一步作者將嘗試對該方法的適用范圍進(jìn)行改進(jìn)，在短語長度和中文語料上進(jìn)行改進(jìn)，以期達(dá)到較好應(yīng)用效果.