999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA的網絡評論主題發現研究

2016-08-11 05:45:23王慶福王興國
無線互聯科技 2016年11期
關鍵詞:分析信息模型

王慶福,王興國

(遼寧行政學院,遼寧 沈陽 110161)

基于LDA的網絡評論主題發現研究

王慶福,王興國

(遼寧行政學院,遼寧 沈陽 110161)

目前國內存在各種類型的輿論平臺,以資訊類輿論平臺為主,咨詢類平臺的受眾通常都會對咨詢進行評論,分析提取評論中主題內容,對評論信息進行分類分析。了解當前網民的核心訴求具有非常重要的意義。主題模型作為主題發現中重要的模型手段,對主題的定位具有明顯的效果。

網絡評論;主題發現;網民導向

伴隨著新聞資訊類平臺的不斷出現,網絡上越來越多的網民評論信息,這些信息一方面反映了當下網民對當前時政的看法,另一方面也可以分析當前網民的興趣點。因此對網絡評論的分析一方面可以提供施政機關以輿情導向,另一方面,通過網民的評論分析也可以對平臺改善用戶體驗,分析用戶行為提供重要借鑒。

政府機關的官方網站有很多市民的評論信息,今日頭條和網易新聞等社交媒體也有眾多的網民評論信息,電商平臺有眾多的用戶對商品和服務的評價信息。分析這些評論信息背后用戶的意圖,對施政機關來說,可以提高自身施政的力度,電商平臺等可以分析用戶的評論來改善服務,或者可以通過用戶的滿意程度來調整推薦的內容等。

1 LDA算法簡介

主題模型的表示中,主題可以定義為一個概念,它可以由一系列的單詞組成,主題是這些單詞的條件概率??梢灾卑椎卣J為主題是一個桶,桶內裝滿了各種出現概率高的單詞,這些單詞與這個主題有很強的關聯性。

主題是一個隱藏的信息,需要通過一定的手段來做發現,可以理解為每篇文檔都以一定的概率包含某個詞,文檔通過包含的詞來體現一定的主題,文檔需要從主題中選取一些需要的詞來組成文檔,這是一個完整的過程。因此,生成一篇文檔時,每個詞出現的概率如公式1所示。

(公式1)

將主題模型的公式表示具體到圖的形式如圖1所示。

圖1  主題模型的公式示意

“文檔-詞語”構成矩陣表示每個詞語在文檔中出現次數,即出現頻率?!霸~語-主題”矩陣表示每個詞語在給定主題中出現頻率?!拔臋n-主題”矩陣表示每個文檔包含該主題的概率。給定一系列文檔,首先對文檔進行分詞,計算各個文檔中詞語頻率可得到“文檔-詞語”矩陣,主題模型即是通過“文檔-詞語”訓練得到“詞語-主題”和“文檔-主題”矩陣。

主題模型最早使用SVD的LSA(隱形語義分析),然后引入基于概率的pLSA(ProbabilisticLatent Semantic Analysis),其參數學習采用EM算法和后來改進PLSA,引入hyperparameter的LDA(Latent Dirichlet Allocation),其參數學習主要采用EM和Gibbs sampling,下面主要介紹LDA。

2 主題發現

網民的評論并沒有主題信息,展現形態是一條一條的語句,需要對這些語句進行分析處理,構建主題模型進行訓練。LDA以文檔集合D作為輸入(會有切詞,去停用詞,取詞干等常見的預處理,略去不表),希望訓練出的2個結果向量(設聚成k個Topic,VOC中共包含m個詞),如圖2所示。

對每個D中的文檔d,對應到不同topic的概率θd=<Pt1,…,Ptk>,其中,Pti表示d對應T中第i個topic的概率。計算方法是直觀的,Pti=nti/n,nti其中表示d中對應第i 個topic的詞的數目,n是d中所有詞的總數。

t=<Pw1,…pwm>,其中,Pwi表示t生成VOC中第i個單詞的概率。計算方法同樣很直觀,Pwi=nwi/n,其中nwi表示對應到topic t的VOC中第i個單詞的數目,N表示所有對應到topic t的單詞總數。

圖2  LDA主題模型學習

在表1中,給出了一些主題對應的詞語概率表示,表示這些詞語落在當前主題(桶)內的概率。

表1 主題-詞語對應

許多算法可以訓練一個LDA模型。選擇EM算法,因為它簡單并且快速收斂。用EM訓練LDA有一個潛在的圖結構,在GraphX之上構建LDA是一個很自然的選擇。

LDA主要有2類數據:詞和文檔。把這些數據存成一個偶圖(見圖3),左邊是詞節點,右邊是文檔節點。每個詞節點存儲一些權重值,表示這個詞語和哪個主題相關;類似的,每篇文章節點存儲當前文章討論主題的估計。

圖3 文檔-詞語-主題表示

LDA是眾多主題模型中一種,它們都是基于概率分布假設的領域。LDA試圖通過當前的已知數據推測生成未知數據即隱藏主題的過程。LDA的過程定義了觀測數據和推測隱藏數據之間的聯合概率分布。通過使用聯合分布來推測估算隱藏變量的條件分布(后驗概率)進行數據分析。對于LDA而言,觀測數據就是文檔和詞語構成的聯合矩陣數據,隱藏變量就是詞語之間主題結構。則推測文檔中隱含的主題信息其實就是在給定數據的前提下生成隱藏變量的分布。

LDA主要基于多種假設信息,LDA將文檔表示成詞袋的形式,文檔中各個詞語構成詞袋中各個元素,其通過弱化文檔中某些信息來發現文檔中潛藏的更加復雜的結構。這種假設雖然在某種程度上不符合現實,但是在發現文本中語義結構信息確具有非常重要大意義。LDA通過構建文檔和詞語之間的關聯性,以理論化的方式對關聯矩陣進行矩陣分解,分解的要義就是通過發現文檔和詞語之間的潛藏信息(主題結構)。LDA巧妙地將未知隱藏數據的分析轉化為當前已經信息進行分析(后驗概率)。在LDA和隱馬爾可夫模型之間進行切換的主題模型。這些模型顯著地擴展了參數空間,并且顯示了語言建模帶來的性能提升。

3 結語

LDA是一個優秀的模型,主題被作為隱藏的信息可同時作用在詞語和文檔上,它并非是單一主題的適配,而是多個主題同時發現的結果,每組文檔通過不同的概率分布來包含著多種主題。值得一提的是,產生的LDA的模型參數和概率分布可以通過簡單的微調可適用于其它的推斷算法。為了適配用戶偏好、機器翻譯、搜索日志、用戶評論和社交網絡等多種數據,LDA衍生出多種類型的數據進行分析。

LDA模型的推斷算法不僅在文本處理領域嶄露頭角,也被廣泛運用在其它領域。例如研究者們通過類別文本中詞語包含主題信息,在圖像分析時,每幅圖像都可以表征為由一個個視覺模型組合而成,則此處的視覺模型可以聯想為文本中主題信息,主題模型在圖像領域可以被用來進行圖像分類,圖像識別等。另外,主題模型可以實現對原始數據的壓縮,通過將原始數據轉換為聯合矩陣的形式,聯合矩陣經過主題訓練后分解為矩陣相乘的形式,分解后的矩陣包含了原始數據中主要信息,可以提取適當的維度來實現數據壓縮的效果。

[1]陳文濤,張小明,李舟軍.構建微博用戶興趣模型的主題模型的分析[J].計算機科學,2013(4):127-130,135.

[2]朱旭東,劉志鏡.基于主題隱馬爾科夫模型的人體異常行為識別[J].計算機科學,2012(3):251-255,275.

[3]王李冬,魏寶剛,袁杰.基于概率主題模型的文檔聚類[J].電子學報,2012(11):2346-2350.

[4]魏強,金芝,許焱.基于概率主題模型的物聯網服務發現[J].軟件學報,2014(8):1640-1658.

[5]楊瀟,馬軍,楊同峰,等.主題模型LDA的多文檔自動文摘[J].智能系統學報,2010(2):169-176.

Research on Topic Discovery in Online Reviews Based on LDA

Wang Qingfu,Wang Xingguo
(Liaoning Academy of Governance,Shenyang 110161,China)

The various types of public opinion platform, based on information platform of public opinion and consulting platform audience usually comments on consultation, analysis to extract thematic content review, to review the information for classification analysis, to understand the core demands of the current Internet users has very important significance. Topic model, as an important model in the subject discovery, has obvious effect on the orientation of the subject.

online review; topic discovery; public opinion

王慶福(1979-),男,遼寧沈陽,本科,講師;研究方向:計算機網絡與數據庫技術。

猜你喜歡
分析信息模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 日韩在线播放中文字幕| 波多野衣结在线精品二区| 亚洲欧洲日韩综合| 久久无码免费束人妻| 亚洲床戏一区| 国产人成在线视频| 高清国产va日韩亚洲免费午夜电影| 国产日产欧美精品| 欧美亚洲香蕉| 成人福利在线看| 婷婷99视频精品全部在线观看 | av在线5g无码天天| 青青网在线国产| 国产91视频免费| 亚洲狼网站狼狼鲁亚洲下载| 美女潮喷出白浆在线观看视频| 久久无码av三级| 国产成人1024精品| 国产精品免费电影| 白浆免费视频国产精品视频 | 欧美成人aⅴ| 精品無碼一區在線觀看 | 91久久夜色精品| 伊在人亞洲香蕉精品區| 国产精品v欧美| 一本无码在线观看| a级毛片一区二区免费视频| 国产最爽的乱婬视频国语对白 | 亚洲AV成人一区二区三区AV| 东京热高清无码精品| 久久亚洲国产最新网站| 亚洲最大福利视频网| 国产亚洲欧美在线人成aaaa| 中文成人在线视频| 久久成人免费| 亚洲人成影院午夜网站| 国产精品视频导航| 福利国产微拍广场一区视频在线| 精品视频第一页| 免费人成网站在线观看欧美| www.亚洲一区二区三区| 一本大道东京热无码av| 亚洲综合专区| 国产综合色在线视频播放线视| 久草视频精品| 亚洲精品第一页不卡| 国产精品美女免费视频大全 | 亚洲日韩精品无码专区| 国产杨幂丝袜av在线播放| 久久精品66| 国产美女在线观看| 久久人妻xunleige无码| 久久99精品久久久久纯品| 九九香蕉视频| 天天视频在线91频| 国产精品久久久精品三级| 99尹人香蕉国产免费天天拍| 国产成人高清亚洲一区久久| 国产毛片高清一级国语 | 日韩高清欧美| 亚洲成人网在线观看| 国产精品不卡片视频免费观看| 国产午夜福利在线小视频| 婷婷丁香在线观看| 99在线观看国产| 四虎在线高清无码| 91久久精品国产| 亚洲欧洲免费视频| 久久精品视频亚洲| 国产麻豆福利av在线播放| 又爽又大又黄a级毛片在线视频 | 国产va在线观看免费| 四虎影视8848永久精品| 欧美国产在线一区| 国产一级在线播放| 国产91在线免费视频| 五月婷婷丁香综合| h网址在线观看| 国产av一码二码三码无码| 亚洲综合九九| 一级做a爰片久久免费| 午夜无码一区二区三区|