郭佳,羅森林,陳倩柔
(北京理工大學(xué)信息系統(tǒng)及安全對抗實驗中心,北京100081)
隨著互聯(lián)網(wǎng)信息時代的到來,信息在各個領(lǐng)域呈現(xiàn)爆炸式快速增長的態(tài)勢。在互聯(lián)網(wǎng)上幾乎可以找到任意所需的信息,尤其是互聯(lián)網(wǎng)搜索引擎的出現(xiàn),更是大幅提升了信息查找的過程;但由于信息過多,從這些海量信息中去除冗余,挖掘有價值的信息較為困難。同樣對于科學(xué)研究者而言,情況也是類似的。科學(xué)研究者不僅需要時刻把握領(lǐng)域內(nèi)研究內(nèi)容的變化趨勢,還需要具備快速了解并掌握一個新方法的能力。閱讀相關(guān)領(lǐng)域的論文是科研工作者快速掌握知識的主要途徑,然而由于每個領(lǐng)域均有大量已發(fā)表的論文。同時,新論文的發(fā)表也層出不窮。這使得科學(xué)研究者快速了解研究內(nèi)容、跟進(jìn)研究熱點(diǎn)變得困難。緩解該問題有效、可行的方法是利用熱點(diǎn)發(fā)現(xiàn)方法對一個領(lǐng)域隨時間變化的研究熱點(diǎn)做出檢測與總結(jié)。
科研熱點(diǎn)發(fā)現(xiàn)是話題發(fā)現(xiàn)的一個分支。話題發(fā)現(xiàn)起源于話題檢測與跟蹤(Topic Detection and Tracking,TDT)[1]。近年來,國內(nèi)外諸多學(xué)者針對科研熱點(diǎn)話題做出了眾多研究工作。稅等[2]使用Single-Pass聚類算法進(jìn)行話題識別,并對已聚類的報道進(jìn)行周期分類,提高了聚類的準(zhǔn)確類。為了取得更好的聚類效果,路等[3]利用一個兩層的K-means和層次聚類算法,并結(jié)合LSI話題模型,檢測并抽象出文本數(shù)據(jù)中的熱點(diǎn)話題。隨著研究的深入,文獻(xiàn)[4-5]引入了模擬數(shù)學(xué)模型改進(jìn)聚類算法提高了話題發(fā)現(xiàn)效果。Oladimeji[6]利用一種融合k-means聚類和神經(jīng)網(wǎng)絡(luò)的NED檢測算法,通過k-means與神經(jīng)網(wǎng)絡(luò)的融合方法能提高事件的檢測速率。宋[7]提出一種基于SOM聚類的話題發(fā)現(xiàn)方法,結(jié)合詞向量模型抽取數(shù)據(jù)的特征和改進(jìn)的SOM進(jìn)行話題聚類。Daniel等[8]利用Labeled-LDA模型,將文本數(shù)據(jù)的話題標(biāo)簽應(yīng)用于話題建模,并結(jié)合4S分類模型對話題進(jìn)行細(xì)維度劃分。Weng等[9]針對社交數(shù)據(jù)短小的問題,將同一用標(biāo)簽的數(shù)據(jù)整合成一個長文檔,然后利用LDA進(jìn)行主題挖掘。L Qiu[10]等提出LDA+K-means的聚類方法,通過LDA主題模型補(bǔ)充語義信息提高聚類效果。Chen[11]等人提出一種基于隨機(jī)森林和圖結(jié)構(gòu)的OTD算法,提升語料語義信息的挖掘,比詞袋模型表示的話題更優(yōu)。EI-Kishky[13]利用關(guān)聯(lián)算法快速得到短語集,結(jié)合短語袋主題模型挖掘主題-短語的分布信息,生成主題短語來表述話題。方等[14]利用K-means對文本聚類,然后通過LDA模型對每個類建模,并結(jié)合詞頻、詞長和詞跨度計算每個話題詞的權(quán)重。
基于聚類的話題發(fā)現(xiàn)方法存在文本特征語義表達(dá)能力不深的缺點(diǎn)。同時,稀疏表示法在解決實際問題時經(jīng)常會遇到維數(shù)災(zāi)難,且語義信息無法表示、無法揭示詞之間的潛在聯(lián)系等問題。本文針對以上問題,引入深度學(xué)習(xí)的Paragraph Vector(PV)模型表達(dá)文本特征。采用PV向量,緩解維數(shù)災(zāi)難問題,且挖掘詞之間的關(guān)聯(lián)屬性,優(yōu)化向量語義上的準(zhǔn)確度。
本方法首先對文本集合提取正文,獲得正文集合后進(jìn)行句子清洗,去停用詞后得到預(yù)處理結(jié)果。接著對預(yù)處理結(jié)果使用PV模型構(gòu)建向量表示,得到文本的語義表示向量。然后對語義表示向量計算相似度,進(jìn)行聚類分析得到研究主題。對主題熱度排序時加入文獻(xiàn)的引用信息,選擇前N個主題作為研究熱點(diǎn),原理如圖1所示。
引用信息提取指基于文本數(shù)據(jù)的結(jié)構(gòu)化特征獲取文本的引用信息,即引用次數(shù)。例如,Radev等[15]發(fā)布了AAN(ACL Anthology Network)語料。ANN中包括論文ID、作者信息、發(fā)表年份、論文來源和論文被引用信息。ANN中記錄如下:
C08-3004==>A00-1002
說明論文編號C08-3004的論文引用了ACL中另一篇編號為A00-1002的論文。利用這些信息可統(tǒng)計論文被引次數(shù),及被引時間的變化趨勢。
Paragraph vector[16]模型是一種無監(jiān)督的且不定長文本的連續(xù)分布式向量表示方法。PV模型的框架,如圖3所示。每個段落對應(yīng)一個向量,對應(yīng)段落表示矩陣D中的一行。每一個詞也對應(yīng)一個唯一的向量,對應(yīng)詞表示矩陣W中的一行。段向量和詞向量加權(quán)共同預(yù)測語境中的下一個單詞。圖3輸入Paragraph ID 的段落向量,以及單詞“the”、“cat”和“sat”的詞向量,PV模型訓(xùn)練后可預(yù)測出下一個單詞為“on”。PV模型的推斷過程及參數(shù),如式所示。

ω1,ω2,...,ωt+k表示訓(xùn)練語料中的單詞,按詞序排列。yi是單詞ωi非標(biāo)準(zhǔn)化對數(shù)概率,計算方法如式(2)所示。

b,U是softmax函數(shù)中的參數(shù),h由段落表示矩陣D和詞表示矩陣W共同計算得出。

圖2 PV模型框架
本文采用余弦夾角定義兩個向量之間的距離,余弦值越大代表兩個文檔之間越相似。向量dx={x1,x2...xn}和向量dy={y1,y2...yn}分別表示文檔dx和dy,相似度計算公式如式(3)所示。

文中采用K-means聚類算法檢測主題,該算法的優(yōu)點(diǎn)是簡單實用、時間復(fù)雜度較低適合大數(shù)據(jù)聚類,且適合高維度的文本聚類。
主題熱度與兩方面因素有關(guān):1)該主題下包含的文本數(shù),數(shù)目越多說明研究者越多,該主題研究熱度也越高;2)該主題下文本的平均被引次數(shù),文本的平均被引次數(shù)越多說明文本的影響力越大,該研究主題越重要。根據(jù)主題內(nèi)文本的數(shù)量和平均被引次數(shù),主題熱度的打分策略如式(4)所示。

式中:H(Ci)為主題熱度,NCi為主題Ci的文本數(shù)量,表示主題Ci的平均被引次數(shù),參數(shù)θ用于調(diào)整主題內(nèi)文本數(shù)量與平均被引次數(shù)的權(quán)重。本文取θ=0.5。
為了驗證本方法通過利用PV補(bǔ)充語義信息,能夠提高話題發(fā)現(xiàn)的效果。本實驗采用ANN語料庫中ACL正刊會議集2012年收錄的168篇會議論文作為實驗數(shù)據(jù)。
3.2.1 ARI方法
蘭特指數(shù)(Adjusted Rand Index,ARI)計算方法如下。

RI如式(6),TP表示同一類的樣本對被分到同一個簇的個數(shù);TN表示不同類的樣本對,被分到不同簇的個數(shù);FP表示不同類的樣本對,被分到同一個簇的個數(shù);FN表示同一類的樣本對,被分到不同簇的個數(shù)。

3.2.2 同質(zhì)性,完整性和V-measure
同質(zhì)性(homogeneity,h)是指,每個類簇只包含一個真實類別的樣本。完整性(completeness,c)是指,所有屬于同一個類別的樣本均被劃分到同一類簇中。同質(zhì)性和完整性的調(diào)和平均值為V-measure。已知數(shù)據(jù)集的真實聚類結(jié)果為C,實驗聚類結(jié)果為K。計算方法如下。

H(C|K)是已知聚類結(jié)果K,求真實類別標(biāo)記的條件熵,C)是類別的熵[17],其中,nc和nk分別表示真實類別c和聚類類別k中樣本的個數(shù),nc,k表示從類別c被分配到類別k的樣本個數(shù),H(k|C)和H(K)使用相似的定義方法。
V-measure的計算方法,如式(11)所示。

h、c和v取值范圍為[0,1],越接近1說明聚類效果越好。
3.3.1 向量長度和窗口長度選擇實驗
L表示PV模型生成向量的維度,W表示上下文詞的個數(shù)。采用網(wǎng)格法調(diào)整參數(shù),L從25~200步進(jìn)為25調(diào)整,W從3~11步進(jìn)為2調(diào)整。實驗結(jié)果,如圖3所示。
由圖3可知,當(dāng)L=100,W=3時,聚類結(jié)果最優(yōu)。當(dāng)L不變,W增大時,實驗結(jié)果呈下降趨勢。說明詞與周圍詞的關(guān)聯(lián)度較大,W過長會引入較大的噪聲,導(dǎo)致結(jié)果下降。

圖3 參數(shù)選擇實驗
3.3.2 聚類個數(shù)選擇實驗
在向量長度為100,窗口長度為3的條件下,調(diào)整聚類個數(shù)。聚類個數(shù)K從3開始,以2為步長到81為止,結(jié)果如圖4所示。

圖4 聚類個數(shù)實驗
當(dāng)K值在[13,49]范圍內(nèi)變動時,ARI的值在0.45左右略微浮動。一方面因本實驗所用語料文本規(guī)模較小,主題劃分粒度不宜過細(xì);另一方面是因?qū)τ贏RI評價方法而言,當(dāng)聚類個數(shù)增多時[18],ARI的值有趨向于1的趨勢。因此,本文K取13。
3.3.3 對比分析實驗
本方法與2012年程輝提出的基于VSM的研究熱點(diǎn)發(fā)現(xiàn)方法以及基于LDA的話題發(fā)現(xiàn)方法進(jìn)行比較。
在聚類個數(shù)為13,聚類方法為K-means的條件下,得到實驗結(jié)果如表1所示。

表1 對比實驗結(jié)果
由表1可知,基于PV的熱點(diǎn)發(fā)現(xiàn)方法相比基于LDA及VSM的方法,無論在ARI評價標(biāo)準(zhǔn)或是HCV評價標(biāo)準(zhǔn)下,效果均有優(yōu)勢,發(fā)現(xiàn)話題更為精準(zhǔn)。原因在于:首先,本文利用PV模型優(yōu)化向量語義上的準(zhǔn)確度。VSM基于詞性詞頻構(gòu)建文檔特征,不僅無法表示語義信息且還存在維數(shù)災(zāi)難的問題。LDA引入隱藏層,構(gòu)建基于語義維度的文檔表示向量,然而由于LDA基于詞袋假設(shè)構(gòu)建模型,忽略了詞語上下文的信息,故語義表達(dá)能力仍有欠缺。PV低維空間表示法,緩解了維數(shù)災(zāi)難問題,通過挖掘詞之間的關(guān)聯(lián)屬性,優(yōu)化向量語義上的準(zhǔn)確度,從而提高了話題發(fā)現(xiàn)的準(zhǔn)確度。其次,本文將論文的被引信息作為論文語義特征的補(bǔ)充。論文的被引次數(shù)及被引趨勢,說明論文的研究價值與意義,進(jìn)一步提高了話題發(fā)現(xiàn)的準(zhǔn)確率。
研究熱點(diǎn)發(fā)現(xiàn)可以幫助科學(xué)研究者快速掌握當(dāng)前研究熱點(diǎn)、研究內(nèi)容的變化趨勢,這對研究工作起到了更好的參考指導(dǎo)作用。針對研究熱點(diǎn)發(fā)現(xiàn)語義特征維數(shù)過高,且無法表示語義信息的問題,本文利用深度學(xué)習(xí)的PV模型表達(dá)文本特征。PV模型的低維空間表示法,不但緩解維數(shù)災(zāi)難問題,且還能挖掘詞之間的關(guān)聯(lián)屬性,優(yōu)化向量語義上的準(zhǔn)確度。同時,本文挖掘文本的引用信息,將論文被引特征作為內(nèi)容表示的補(bǔ)充,從而提高了話題發(fā)現(xiàn)的準(zhǔn)確度,并降低了漏檢率。