999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA的社科文獻主題建模方法

2018-03-05 02:06:40李昌亞劉方方
計算機技術與發展 2018年2期
關鍵詞:模型

李昌亞,劉方方

(上海大學 計算機工程與科學學院,上海 200444)

0 引 言

社會科學文獻,簡稱社科文獻,是指記載有關社會科學知識、信息的一切物質載體。在現代信息社會中,社科文獻數量龐大,內容廣泛,種類繁多,載體多樣,發展速度快[1],尤其是社科文獻領域下的專題文獻主題交叉比較明顯。隨著社會發展,文獻中會不斷出現很多新詞,很多詞語會具有特定含義,如“四化并舉”、“黃金水道”、“成本化解”等。這種情況僅僅通過人工分類,或者單純地依靠機器自動進行主題提取、分類,不能很好地提取出文獻的主題和類別。

對于處理自然語言中的問題,主題模型是一種很常見和成熟的技術。主題模型的起源是隱性語義索引(latent semantic analysis,LSA)[2],嚴格意義上講,隱性語義索引并不是真正的主題模型,但是其基本思想促進了主題模型的發展。概率隱性語義索引(probabilistic latent semantic analysis,pLSA)[3]就是由LSA發展而來的一個基于概率模型的主題模型。Blei等以pLSA為基礎提出的LDA(latent Dirichlet allocation)[4]是一個完全的概率生成模型。近年來,業內出現的許多概率模型都是以LDA為基礎,結合不同的業務進行改進的,但是這些算法都不太適合對社科文獻領域類的文檔集進行主題提取。

因此,為了能夠高效、準確地提取社科文獻領域類中文檔集的主題,文中提出一種以LDA模型為基礎,結合社科文獻的特點,改進主題建模過程的主題建模方法。

1 相關工作

LDA主題模型,本質思想是以概率為基礎對文本進行主題建模。它獨立于文本自身特點,所以對于不同領域的業務需求,如果直接應用LDA算法進行主題建模,結果都是不夠精準的。因此,提出了很多結合不同的業務需求,對LDA進行相應改進的算法。首先是將LDA模型運用到短文本領域,如微博、用戶評論等,它們對LDA模型本身沒有過多的改進,而是偏向對LDA模型的應用。張志飛等[5]利用LDA建模后的主題特點對短文本進行分類;高明等[6]將LDA主題模型應用在對微博的個性推薦方面。將LDA模型應用到博客、帖子和話題追蹤和預測等方面[7-8]都有很好的價值,但是對于該論文背景中篇幅較長、量比較大的社科文獻,這些方法明顯不太適合。

其次,主要是在LDA模型的基礎上引入新的參數或者約束條件。何錦群[9]提出對文檔集的所有隱藏主題進行分類,即主題層之上再引入一層表示主題的類別,該算法適合文檔集主題分布比較廣泛的情形,但是對于主題交叉和特征詞比較明顯的文檔集效果不太明顯。SA-LDA[10]算法和SRC-LDA[11]中利用句法分析構建語料庫的約束條件,從而引導主題建模,但該算法使用于短文本,不太適合具有篇幅較長的文檔。

另外,還有就是從LDA概率模型的基本原理出發,認為概率模型主要受高頻詞的影響,會使得建模后的主題不夠明確。胡勇軍等[12]利用LDA高頻詞作為短文本分類的空間模型的特征向量。張小平[13]在建模過程中選擇降低高頻詞的權重,這個改進雖然可以降低常用高頻詞匯對建模的影響,但是對于那些主題詞比較明顯、具有很多新詞新義的文檔集依然存在不足。雖然從整體上降低了常用高頻詞的干擾,但是不能提高特征詞和新詞在主題建模過程中的重要性。

因此,文中提出一種根據文檔集自身的主題特征進行特征詞標注,然后在LDA建模過程中增加主題特征詞權重的建模方法,從而使得建模結果的主題分布更加準確,更加符合文檔集自身的特點。

2 LDA模型

2.1 模型描述

LDA是一種非監督學習技術,可以用來識別大規模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息[14-15]。LDA模型從實際情況出發,一個文檔由多個隱含主題隨機組成,而每個主題又可以由文檔中的多個詞語進行表示(如圖1所示)。因此,可將一篇文檔表示為隱含主題的概率分布(doc-topic),而每一個隱含主題又可以看作詞語的概率分布(topic-word)。這種思想有利于大規模文檔集處理中的空間降維,即把文檔映射到topic層面上。LDA在建立兩個分布時,采用了詞袋(bag of words)[16]的方法,這種方法忽略了每一篇文檔中句子的語法、次序,以及詞之間的關系,文檔中每個詞語的出現都是相互獨立的。

圖1 文檔-主題-詞語關系

LDA建模的基本層次結構是文檔-主題-詞語。簡單理解為:每篇文檔都是由若干個詞語組成的,同時每篇文檔都有潛在的幾個相關的主題,而組成這篇文檔所有的有用詞語可以看成是這幾個主題詞對應的一部分相關的詞語。因此,認為文檔與主題之間的概率分布(doc-topic)是多項分布Z~Multinational(θm),主題與詞語之間的概率分布(topic-word)也是多相分布W~Multinational(ψk)。LDA引入了Dirichlet分布作為多項分布的先驗分布進行求解,LDA模型的結構如圖2所示。

圖2 LDA模型結構

利用LDA模型[17]對文檔集主題模型進行生成可以理解為對整個文檔集中的詞語進行生成,其具體過程如下:

(1)建模過程中,首先給定α和β的值,及主題K的取值。對于α和β通常根據經驗取值。

(3)確定文檔中的詞語。首先,在給定主題zij的情況下,根據β值結合

(4)重復步驟2和步驟3,直到完成對一篇文檔的所有詞語的生成,再到所有文檔的生成。

由LDA模型的建立過程可知,對于圖2中參數的理解,可以得到所有變量的聯合分布公式:

p(Zm,n|θm)p(θm|α)p(ψk|β)

(1)

利用上述LDA模型對社科文獻領域的文檔集建模后的部分主題結果如表1所示。結果表明,同一個主題下的所有主題詞明顯是同一類別的詞語,但是部分主題中仍然存在一些相關度很低的詞語,而且對于一些文檔集中出現次數較少且很重要的詞語-主題特征詞,明顯是不會出現在主題詞中或者位序很靠后。

表1 LDA模型建模后的主題類別

2.2 模型實現方法

LDA模型的超參數估計通常采用EM算法和Gibbs Sampling算法,其中Gibbs Sampling算法通過迭代采樣來逼近真實的概率分布[18],實現相對簡單,而且應用較廣泛。

在實際應用過程中,從文檔集的輸入到最終主題模型結果的輸出,對文檔集預處理、分詞之后直接應用Gibbs采樣對文檔集進行LDA模型的實現處理,其步驟如下:

Step1:輸入文檔集進行預處理、分詞;

Step2:利用Gibbs Sampling算法對分詞后的文本進行迭代采樣;

Step3:迭代完成,輸出主題模型結果。

整個模型實現過程并沒有考慮到文檔集自身的主題特點,而是對預處理、分詞之后的文檔集直接利用Gibbs Sampling算法進行實現。這種做法會造成主題分布偏向文檔中那些常用的高頻詞,忽略了文檔中那些主題特征明顯的詞語在建模過程中的影響。

(2)

(3)

(4)

在實際處理過程中,超參數α和β是作為常量處理的。式(3)表示文檔m下的主題k的分布情況,其中nm.k表示文檔m下主題k出現的次數,分母表示文檔m中所有主題出現次數的總和。式(4)表示主題k下的詞w的分布情況,其中nk,w表示主題k下的詞w出現的次數,分母表示主題k中所有詞語出現次數的總和。

根據Gibbs Sampling的公式可以得出,nm.k和nk,w是對所有的詞或者主題通過詞自身出現的次數或者主題被記錄次數的統計,而并沒有考慮詞本身對該篇文檔的重要性。由于高頻詞在主題中和文檔中占有的比例都較大,導致主題的分布偏向高頻詞的主題傾斜。對于那些主題特征比較明顯的詞語,出現的次數比較少,就會在建模過程中低作用化,甚至沒有作用。

如果在利用Gibbs采樣過程中,對于采樣那些主題特征比較明顯的詞語時,不僅考慮統計次數,而且考慮它們在文檔中的權重值,那么就能增加這些詞語在建模過程中的重要性。如表1中的主題3的“文化產業”和“世博會”、主題4的“金融機構”、主題5的“知識產權”、主題6中的“長江三角洲”等詞語,如果增加這些詞語的權重值,那么在模型結果中,它們對應的主題詞位序就會上升,主題詞間相關度也會增加。

3 改進的LDA模型建模方法

由于LDA模型是一種概率模型,建模過程中是以詞頻作為基礎,所以對主題的采樣結果會偏向高頻詞。這種建模方法是不符合社科文獻主題分布特點的。為了能夠對社科類文獻提取更加準確的主題模型,提出一種結合文檔集自身隱含的主題特征,改進LDA建模過程中采樣策略的方法,然后應用該方法對文檔集進行主題的提取。

3.1 主題建模過程

主要介紹的是對建模過程中的改進方法,不同于改進前的LDA建模過程。改進后的建模過程中將考慮文檔集自身的主題特點,即在文檔集預處理之后,先進行初步采樣,根據文檔集的特征詞標記文檔中的詞語信息,形成一個主題引導詞庫,然后再利用主題引導詞庫計算特征詞的權重,從而達到增加主題引導詞對主題建模時的影響。與之前的三步實現過程比較,增加了相應的四個處理步驟,改進后的總體實現步驟如下:

Step1:輸入文檔集進行預處理、分詞;

Step2:初步采樣;

Step3:特征詞標注;

Step4:獲取主題引導詞庫;

Step5:結合步驟2、4,計算引導詞權重;

Step6:利用Gibbs Sampling算法對分詞后的文本進行迭代采樣;

Step7:迭代完成,輸出主題模型結果。

在利用Gibbs采樣之前對預處理、分詞后的文檔集進行初步采樣、特征詞標注、計算引導詞權重三個過程。通過這三個過程可以提取出文檔集中主題特征比較明顯的詞語信息,然后利用這些信息再進行Gibbs采樣。

初步采樣:記錄文檔集中文檔數量和每篇文檔中詞語的數量。

特征詞標記:標記每一個主題特征詞在每一篇文檔中出現的次數。該過程的結果形成一個主題引導詞庫,詞庫中的詞都是文檔中出現頻率較小的,而且是文檔主題導向的關鍵詞。

計算引導詞權重:根據初步采樣的信息和特征詞標記的結果,計算主題特征詞中每一個詞在每篇文檔中對應的權重值。

由于引導詞庫中不同的詞語出現的頻率不一樣,而且對于不同文檔的重要程度也不一樣,故借鑒TF-IDF[19]的思想和一個可變參數δ對引導詞進行權值計算。

(5)

計算好主題引導詞對應的權重之后,在Gibbs Sampling過程中,在求主題和詞的分布時加上該詞對應的權重值即可。

由于該方法中考慮了文檔集自身的特點,增加了主題特征詞在采樣過程中的重要性,所以會增加主題特征詞在文檔主題分布中的影響,最終使建模結果更加準確,文檔集的主題分布更加精準。

3.2 主題建模方法的實現步驟

改進后的建模方法較改進前的建模過程在Gibbs采樣前增加了一些與計算主題特征詞相關的處理過程。因此,改進后算法的基本步驟如下:

步驟1:輸入分詞后的每一篇文檔,一行為一篇文檔,同時輸入α、β、δ、主題數K,以及迭代次數。

步驟2:掃描每一篇文檔的每一個詞語和特征詞庫進行比較,并記錄每篇文檔詞的個數dm,如果不是特征詞,循環此步驟,直至所有的文檔都被掃描完。

步驟5:Gibbs采樣,采樣過程中統計每篇文檔中每個詞語的頻率時,要和特征詞進行比對,如果是,需要在主題特征詞中查找對應的權重,并且加上該詞對應的權值。

步驟6:循環執行步驟5,直至結果收斂,即迭代次數完成。

步驟7:輸出主題建模結果。

(6)

(7)

(8)

已知文檔集中“文化產業”、“世博會”、“金融機構”、“知識產權”、“長江三角洲”等詞語都屬于文檔集中文檔的主題特征詞語,它們在主題建模過程中應該起著很重要的作用。為了增加這些詞語的重要性,在進行初步采樣時,首先把這些詞作為主題特征詞進行標記加入主題引導詞庫中,然后計算它們各自在每篇文章的權重值,最后在進行Gibbs采樣的過程中,掃描到這些詞語后,在統計頻率時加入它們對應的權重值,即式(7)和式(8)的實現過程。

按照改進后的實現步驟進行相應的實驗得到建模結果,其中包含了主題特征詞的部分主題分布,與表1中展示的結果相比,那些主題引導詞庫中的主題特征詞在主題詞中的位序明顯有所提高。部分主題分布對比的情況如下:

主題3:“文化產業”、“世博會”分別上升了1個位序和3個位序;

主題4:“金融機構”上升了5個位序;

主題5:“知識產權”上升了7個位序;

主題6:“長江三角洲”上升了4個位序。

通過上述的建模過程,可以促使采樣的主題分布偏向主題特征詞的方向,同時那些常見高頻詞的影響就會有所降低,最終使文檔的主題建模更加準確。

4 實 驗

實驗主要通過應用LDA模型改進建模方法前后兩種情況的對比進行。

4.1 實驗分析

實驗中文檔集使用的是社科文獻領域類的專題文獻。對于文檔集的數量大小,依次是100篇、1000篇、5000篇、10000篇。α的默認值是1/K(K是主題數量,取值為20);β一般設置為0.02;δ默認取0.02;吉布斯采樣的迭代次數一般設置為2000。

為了保證實驗的對比性,其他參數都是相同的。即相同文檔集下,α、β、主題數K,以及迭代次數都是一樣的。

對相同的文檔主題特征詞增加權重值前后在主題建模后的模型結果中的情況進行對比。圖3展示了主題特征詞(t1:文化產業,t2:世博會,t3:金融機構,t4:知識產權,t5:長江三角洲)在對應主題中的概率值的變化。結果表明,這些主題特征詞增加權重后,其概率值明顯有所增加,即它們在建模過程中對主題分布的影響有所增強。

圖3主題特征詞概率值對比

兩種不同建模方法得到的主題模型中,對同一個主題下的主題詞之間的相似度,即主題的明確度進行對比,相似度越高,文檔主題提取的越明確。圖4展示了兩種模型結果中部分主題的主題詞相似度對比情況。

圖4 主題的主題詞相似度對比

圖5為在兩種不同方法下建模后文檔主題之間的相似度的對比情況。結果表明,主題之間相似度越低,文檔集主題提取的類別越準確。

圖5主題之間的相似度對比

4.2 實驗結果

通過對主題引導詞的加權,提高主題引導詞在文檔中的重要性,從而影響文檔和文檔集的主題分布情況,最終使主題建模的結果更加符合文檔集自身的主題分布特點。實驗表明,在主題建模過程中增加文檔集中主題特征詞的權重進行主題建模的方法是行之有效的。

算法中對主題引導詞加權時需要用到的引導參數δ,依據經驗選取了0.02。在具體的應用中,可以根據主題引導詞對文檔集的重要性進行適當改變,δ值越大,引導詞對主題的貢獻率就越大,對主題的分布就越偏向該引導詞。

5 結束語

提出一種針對社科文獻領域類的文檔集的主題建模方法。首先利用文檔集中主題特征詞處理得到主題引導詞庫,然后計算主題引導詞權重并將其權重值增加到建模過程中,引導模型的主題分布,最后得到符合文檔集自身主題特點的建模結果。

實驗結果表明,該方法可以成功引導主題分布的情況,達到建模后的主題更加符合文檔集本身主題分布特點的目的。

[1] 王 昱.社科文獻的特點、作用及省級社科文獻資源建設[J].青海社會科學,1994(6):83-89.

[2] DEERWESTER S,DUMAIS S T,FURNAS G W,et al.Indexing by latent semantic analysis[J].Journal of the Association for Information Science and Technology,1990,41(6):391-407.

[3] DAN O.Probabilistic latent semantic analysis[C]//Proceed-ings of uncertainty in artificial intelligence.[s.l.]:[s.n.],1999:289-296.

[4] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[5] 張志飛,苗奪謙,高 燦.基于LDA主題模型的短文本分類方法[J].計算機應用,2013,33(6):1587-1590.

[6] 高 明,金澈清,錢衛寧,等.面向微博系統的實時個性化推薦[J].計算機學報,2014,37(4):963-975.

[7] YANO T,COHEN W W,SMITH N A.Predicting response to political blog posts with topic models[C]//Human language technologies:the2009conference of the north american chapter of the association for computational linguistics.[s.l.]:Association for Computational Linguistics,2009:477-485.

[8] 張曉艷,王 挺,梁曉波.LDA模型在話題追蹤中的應用[J].計算機科學,2011,38(10A):136-139.

[9] 何錦群.LDA在信息檢索中的應用研究[D].天津:天津理工大學,2014.

[10] 余維軍,劉子平,楊衛芳.基于改進LDA主題模型的產品特征抽取[J].計算機與現代化,2016(11):1-6.

[11] 彭 云,萬常選,江騰蛟,等.基于語義約束LDA的商品特征和情感詞提取[J].軟件學報,2017,28(3):676-693.

[12] 胡勇軍,江嘉欣,常會友.基于LDA高頻詞擴展的中文短文本分類[J].現代圖書情報技術,2013(6):42-48.

[13] 張小平,周雪忠,黃厚寬,等.一種改進的LDA主題模型[J].北京交通大學學報:自然科學版,2010,34(2):111-114.

[14] 施乾坤.基于LDA模型的文本主題挖掘和文本靜態可視化的研究[D].南寧:廣西大學,2013.

[15] 倪麗萍,劉小軍,馬馳宇.基于LDA模型和AP聚類的主題演化分析[J].計算機技術與發展,2016,26(12):6-11.

[16] WALLACH H.Topic modeling:beyond bag of words[C]//Proceedings of the23rd international conference on machine learning.Pittsburgh,Pennsylvania:[s.n.],2006.

[17] WEI Xing,CROFT W B.LDA-based document models for Ad-hoc retrieval[C]//Proceedings of the29th annual international ACM SIGIR conference on research and development in information retrieval.New York:ACM,2006:178-185.

[18] NEVADA L V. Fast collapsed Gibbs sampling for latent Dirichlet allocation[C]//Proceeding of the14th ACM SIGKDD international conference on knowledge discovery and data mining.New York,USA:ACM,2008:569-577.

[19] SALTON G. Introduction to modern information retrieval[M].New York:McGraw-Hill Book Company,1983.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产97公开成人免费视频| 色综合久久综合网| 午夜福利在线观看成人| 激情乱人伦| 国产成人一区| 老色鬼久久亚洲AV综合| 日韩精品成人网页视频在线| 国产丝袜第一页| 亚洲欧美在线精品一区二区| 国产91久久久久久| 91小视频在线| 在线无码九区| 2048国产精品原创综合在线| 国产欧美精品午夜在线播放| 国产剧情伊人| 波多野一区| 黄色在线网| 欧美成人午夜在线全部免费| 国产麻豆福利av在线播放| 在线中文字幕日韩| 国内精品视频| 国产一区二区三区免费观看| 老司机aⅴ在线精品导航| 日韩欧美中文字幕在线韩免费| 最新国产午夜精品视频成人| 国产一区二区三区在线精品专区| 欧美中文字幕第一页线路一 | 激情影院内射美女| 亚洲综合久久一本伊一区| 欧美日本不卡| 国产福利免费在线观看| 国产小视频在线高清播放| 高清久久精品亚洲日韩Av| 久久久久久尹人网香蕉| 日韩天堂在线观看| 成人福利视频网| 欧美国产精品拍自| 国产视频欧美| 久久夜夜视频| 精品久久香蕉国产线看观看gif| 呦女精品网站| 国产精品对白刺激| 成年女人18毛片毛片免费| 欧美日韩精品综合在线一区| 亚洲成人免费在线| 亚洲免费福利视频| 国产在线视频自拍| 91精品国产一区自在线拍| 亚洲精品777| 国产女人18毛片水真多1| a级毛片在线免费| 免费不卡在线观看av| 亚洲成人手机在线| 亚洲成av人无码综合在线观看| 亚洲国产中文欧美在线人成大黄瓜| 国产精品页| 老司机aⅴ在线精品导航| 香蕉伊思人视频| 欧美在线黄| 亚洲动漫h| 国产AV无码专区亚洲A∨毛片| 国产草草影院18成年视频| 久久国产精品无码hdav| 国产免费好大好硬视频| 一级香蕉视频在线观看| 免费无码一区二区| 欧美午夜在线播放| 亚洲男人的天堂网| 五月天综合婷婷| 精品国产乱码久久久久久一区二区| 多人乱p欧美在线观看| 婷婷成人综合| 国产www网站| 亚洲福利一区二区三区| 日韩精品亚洲一区中文字幕| 色播五月婷婷| 亚洲丝袜中文字幕| 午夜电影在线观看国产1区| 亚洲最新在线| 久久精品一卡日本电影| 久久美女精品| 日韩精品一区二区三区视频免费看|