王慶福,王興國
(遼寧行政學院,遼寧 沈陽 110161)
基于LDA的網絡評論主題發現研究
王慶福,王興國
(遼寧行政學院,遼寧 沈陽 110161)
目前國內存在各種類型的輿論平臺,以資訊類輿論平臺為主,咨詢類平臺的受眾通常都會對咨詢進行評論,分析提取評論中主題內容,對評論信息進行分類分析。了解當前網民的核心訴求具有非常重要的意義。主題模型作為主題發現中重要的模型手段,對主題的定位具有明顯的效果。
網絡評論;主題發現;網民導向
伴隨著新聞資訊類平臺的不斷出現,網絡上越來越多的網民評論信息,這些信息一方面反映了當下網民對當前時政的看法,另一方面也可以分析當前網民的興趣點。因此對網絡評論的分析一方面可以提供施政機關以輿情導向,另一方面,通過網民的評論分析也可以對平臺改善用戶體驗,分析用戶行為提供重要借鑒。
政府機關的官方網站有很多市民的評論信息,今日頭條和網易新聞等社交媒體也有眾多的網民評論信息,電商平臺有眾多的用戶對商品和服務的評價信息。分析這些評論信息背后用戶的意圖,對施政機關來說,可以提高自身施政的力度,電商平臺等可以分析用戶的評論來改善服務,或者可以通過用戶的滿意程度來調整推薦的內容等。
主題模型的表示中,主題可以定義為一個概念,它可以由一系列的單詞組成,主題是這些單詞的條件概率??梢灾卑椎卣J為主題是一個桶,桶內裝滿了各種出現概率高的單詞,這些單詞與這個主題有很強的關聯性。
主題是一個隱藏的信息,需要通過一定的手段來做發現,可以理解為每篇文檔都以一定的概率包含某個詞,文檔通過包含的詞來體現一定的主題,文檔需要從主題中選取一些需要的詞來組成文檔,這是一個完整的過程。因此,生成一篇文檔時,每個詞出現的概率如公式1所示。

(公式1)
將主題模型的公式表示具體到圖的形式如圖1所示。

圖1 主題模型的公式示意
“文檔-詞語”構成矩陣表示每個詞語在文檔中出現次數,即出現頻率?!霸~語-主題”矩陣表示每個詞語在給定主題中出現頻率?!拔臋n-主題”矩陣表示每個文檔包含該主題的概率。給定一系列文檔,首先對文檔進行分詞,計算各個文檔中詞語頻率可得到“文檔-詞語”矩陣,主題模型即是通過“文檔-詞語”訓練得到“詞語-主題”和“文檔-主題”矩陣。
主題模型最早使用SVD的LSA(隱形語義分析),然后引入基于概率的pLSA(ProbabilisticLatent Semantic Analysis),其參數學習采用EM算法和后來改進PLSA,引入hyperparameter的LDA(Latent Dirichlet Allocation),其參數學習主要采用EM和Gibbs sampling,下面主要介紹LDA。
網民的評論并沒有主題信息,展現形態是一條一條的語句,需要對這些語句進行分析處理,構建主題模型進行訓練。LDA以文檔集合D作為輸入(會有切詞,去停用詞,取詞干等常見的預處理,略去不表),希望訓練出的2個結果向量(設聚成k個Topic,VOC中共包含m個詞),如圖2所示。
對每個D中的文檔d,對應到不同topic的概率θd=<Pt1,…,Ptk>,其中,Pti表示d對應T中第i個topic的概率。計算方法是直觀的,Pti=nti/n,nti其中表示d中對應第i 個topic的詞的數目,n是d中所有詞的總數。
t=<Pw1,…pwm>,其中,Pwi表示t生成VOC中第i個單詞的概率。計算方法同樣很直觀,Pwi=nwi/n,其中nwi表示對應到topic t的VOC中第i個單詞的數目,N表示所有對應到topic t的單詞總數。

圖2 LDA主題模型學習
在表1中,給出了一些主題對應的詞語概率表示,表示這些詞語落在當前主題(桶)內的概率。

表1 主題-詞語對應
許多算法可以訓練一個LDA模型。選擇EM算法,因為它簡單并且快速收斂。用EM訓練LDA有一個潛在的圖結構,在GraphX之上構建LDA是一個很自然的選擇。
LDA主要有2類數據:詞和文檔。把這些數據存成一個偶圖(見圖3),左邊是詞節點,右邊是文檔節點。每個詞節點存儲一些權重值,表示這個詞語和哪個主題相關;類似的,每篇文章節點存儲當前文章討論主題的估計。

圖3 文檔-詞語-主題表示
LDA是眾多主題模型中一種,它們都是基于概率分布假設的領域。LDA試圖通過當前的已知數據推測生成未知數據即隱藏主題的過程。LDA的過程定義了觀測數據和推測隱藏數據之間的聯合概率分布。通過使用聯合分布來推測估算隱藏變量的條件分布(后驗概率)進行數據分析。對于LDA而言,觀測數據就是文檔和詞語構成的聯合矩陣數據,隱藏變量就是詞語之間主題結構。則推測文檔中隱含的主題信息其實就是在給定數據的前提下生成隱藏變量的分布。
LDA主要基于多種假設信息,LDA將文檔表示成詞袋的形式,文檔中各個詞語構成詞袋中各個元素,其通過弱化文檔中某些信息來發現文檔中潛藏的更加復雜的結構。這種假設雖然在某種程度上不符合現實,但是在發現文本中語義結構信息確具有非常重要大意義。LDA通過構建文檔和詞語之間的關聯性,以理論化的方式對關聯矩陣進行矩陣分解,分解的要義就是通過發現文檔和詞語之間的潛藏信息(主題結構)。LDA巧妙地將未知隱藏數據的分析轉化為當前已經信息進行分析(后驗概率)。在LDA和隱馬爾可夫模型之間進行切換的主題模型。這些模型顯著地擴展了參數空間,并且顯示了語言建模帶來的性能提升。
LDA是一個優秀的模型,主題被作為隱藏的信息可同時作用在詞語和文檔上,它并非是單一主題的適配,而是多個主題同時發現的結果,每組文檔通過不同的概率分布來包含著多種主題。值得一提的是,產生的LDA的模型參數和概率分布可以通過簡單的微調可適用于其它的推斷算法。為了適配用戶偏好、機器翻譯、搜索日志、用戶評論和社交網絡等多種數據,LDA衍生出多種類型的數據進行分析。
LDA模型的推斷算法不僅在文本處理領域嶄露頭角,也被廣泛運用在其它領域。例如研究者們通過類別文本中詞語包含主題信息,在圖像分析時,每幅圖像都可以表征為由一個個視覺模型組合而成,則此處的視覺模型可以聯想為文本中主題信息,主題模型在圖像領域可以被用來進行圖像分類,圖像識別等。另外,主題模型可以實現對原始數據的壓縮,通過將原始數據轉換為聯合矩陣的形式,聯合矩陣經過主題訓練后分解為矩陣相乘的形式,分解后的矩陣包含了原始數據中主要信息,可以提取適當的維度來實現數據壓縮的效果。
[1]陳文濤,張小明,李舟軍.構建微博用戶興趣模型的主題模型的分析[J].計算機科學,2013(4):127-130,135.
[2]朱旭東,劉志鏡.基于主題隱馬爾科夫模型的人體異常行為識別[J].計算機科學,2012(3):251-255,275.
[3]王李冬,魏寶剛,袁杰.基于概率主題模型的文檔聚類[J].電子學報,2012(11):2346-2350.
[4]魏強,金芝,許焱.基于概率主題模型的物聯網服務發現[J].軟件學報,2014(8):1640-1658.
[5]楊瀟,馬軍,楊同峰,等.主題模型LDA的多文檔自動文摘[J].智能系統學報,2010(2):169-176.
Research on Topic Discovery in Online Reviews Based on LDA
Wang Qingfu,Wang Xingguo
(Liaoning Academy of Governance,Shenyang 110161,China)
The various types of public opinion platform, based on information platform of public opinion and consulting platform audience usually comments on consultation, analysis to extract thematic content review, to review the information for classification analysis, to understand the core demands of the current Internet users has very important significance. Topic model, as an important model in the subject discovery, has obvious effect on the orientation of the subject.
online review; topic discovery; public opinion
王慶福(1979-),男,遼寧沈陽,本科,講師;研究方向:計算機網絡與數據庫技術。