999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于約束型LDA的評價對象-情感詞關聯關系提取

2021-11-03 01:58:11萬紅新彭欣悅
現代信息科技 2021年8期

萬紅新 彭欣悅

DOI:10.19850/j.cnki.2096-4706.2021.08.008

摘? 要:隨著社交媒體的發展,網絡上產生了大量的評論類文本數據,這些數據蘊含了豐富的情感信息。對這些文本數據進行情感極性分類,需要提取評價對象-情感詞的匹配關系。文章提出了基于約束LDA主題模型的評價對象-情感詞關系提取模型CE-LDA,將語義先驗知識嵌入到LDA模型,在有效提取評價對象和情感詞的同時,發現它們之間的關聯性。通過實驗分析,CE-LDA模型對于評價對象和情感詞及其關聯關系的提取具有較好的效果。

關鍵詞:語義知識;主題模型;約束嵌入;情感分類

中圖分類號:TP311? ? ? 文獻標識碼:A? ? 文章編號:2096-4706(2021)08-0027-03

Extraction of Association Relationship between Evaluation Object and

Emotion Words Based on Constrained LDA

WAN Hongxin,PENG Xinyue

(School of Mathematics and Computer Science,Jiangxi Science & Technology Normal University,Nanchang? 330038,China)

Abstract:With the development of social media,a large amount of comment text data has been generated on the internet,which contain rich emotion information. To classify the sentiment polarity of these text data,it is necessary to extract the matching relationship between the evaluation object and the emotion words. An the evaluation object and the emotion words relationship extracting model CE-LDA based on the constrained LDA topic model is proposed,which embeds semantic prior knowledge into the LDA model,and discovers the relevance between evaluation object and emotion words while effectively extracting them. Through experimental analysis,the CE-LDA model has a good effect on the extraction of evaluation object,emotion words and their associated relationships.

Keywords:semantic knowledge;topic model;constraint embedding;emotion classification

0? 引? 言

互聯網的發展普及使得網絡上產生了大規模的評論類文本數據。如何有效提取海量文本中存在的情感知識,是文本數據挖掘面臨的挑戰問題。應用情感分析技術可以對評論類文本進行情感極性分類,了解輿情走向,從而實現輿情管控和疏導。要有效實現情感分類,首先要能夠提取評價對象和情感詞,并發現它們之間的匹配關系,在此基礎上才可能進行情感分析。

現有評價對象-情感詞提取模型和算法存在的主要問題有:

(1)語義先驗知識的提取。中文文本語義結構復雜,模型對于中文語義難以理解,需要提取語義信息引入到模型。

(2)中文文檔的有效表示。網絡文本的數據量極其龐大,需要有效降低文檔表示的向量維度。

(3)模型的語義嵌入。需要設計有效的語義知識嵌入機制,提高模型對中文文本的語義理解能力。

針對已有模型在評價對象和情感詞提取中存在的問題,本文提出了加入語義知識的CE-LDA(Constraint Embedded LDA)模型,提升模型對于復雜文本中評價對象和情感詞的識別度。

1? 研究現狀

LDA(Latent Dirichlet Allocation)主題模型[1]是一種概率型文本生成模型,可以利用模型進行關鍵詞聚類,從而提取評價對象、評價詞及其關聯關系。

譚旭等(2018)[2]結合文本解析和深度學習來實現文本數據的多層次特征選擇及情感極性分類,并結合LDA模型和時間序列分析實現動態的多粒度的情感分析;Titov等(2008)[3]將LDA主題模型擴展為廣粒度的MG-LDA(Multi-Grain LDA)模型,進行了全局評價對象和局部評價對象的區分;Lin等(2009)[4]對LDA模型進行改進,將情感特征作為層結構加入LDA,設計了JST(Joint Sentiment Topic)模型來抽取評價對象和評價詞;Ozyurt等(2020)[5]考慮到數據稀疏問題和缺乏共現模式,設計了SS-LDA(Sentence Segment LDA)模型用于提取商品特征屬性;Thenmozhi等(2019)[6]提出了基于LDA的話題提取模型,跟蹤和分析可以為各種領域的決策意見提供參考的情感信息;Albuquerque等(2019)[7]提出了基于適用于不同類型數據的Rlda分析模型:模型的數據聚類分析可以應用于生態、遙感、營銷和金融等不同領域;彭云等(2017)[8]提出了語義關聯介入的SRC-LDA(Semantic Relation constrained LDA)模型,用語義先驗知識嵌入到LDA模型,提高模型對于上下文關系的理解力;Lu等(2011)[9]利用種子詞語來強化主題和評價詞之間的關系,提出了STM(Sentiment Topic Model)主題模型,可以實現文檔級別和句子級別的主題提取;Park等(2019)[10]通過基于LDA的主題建模來識別和預測文本主題信息,在加權參數的幫助下提取與未來相關的風險主題;崔雪蓮等(2018)[11]基于LDA模型提出了無監督的評論文本的情感分析主題模型,利用情感詞典的詞語褒貶性進一步計算,從而獲取情感極性分類。

2? 模型設計

在LDA模型中嵌入詞語的語義關系先驗知識,來影響LDA模型的詞語屬于主題的概率分布,發現更多的符合語義要求的評價詞和情感詞,并通過主題聚類來挖掘它們之間的關聯關系。語義關系主要考慮評價對象詞語之間的主題必然關系和互斥關系。

2.1? 評價對象之間的必然語義關系

必然語義關系是指這類評價對象詞語在主題分布中,盡可能地分配到同一主題。評價對象的必然語義聯系主要考慮同義詞,同義詞在主題分配時,分配到同一主題的概率要高于非同義詞,這樣可以提高主題對于評價對象的內聚度,如商品評論中的“價格”“價位”和“價碼”等詞語,如圖1所示,其中有邊直接連接的評價對象具有必然語義關系。利用同義詞詞典可以實現評價對象的必然語義關系。

2.2? 評價對象之間的互斥語義關系

利用句法依存和詞性分析,可以實現互斥語義關系的提取,如以上2個例句中的評價對象可表示為如圖2所示,其中有邊直接連接的評價對象具有互斥關系。

互斥語義關系是評價對象詞語在主題分布中,盡可能地分配到不同主題。這種關系可以從句式結構中進行挖掘,一般一個完整句子中評價對象不會重復出現,如商品評論中的句子“不但價格合適,而且外形也很漂亮”“色彩很亮,重量很輕,運行速度也飛快!”等,這些句子中的評價對象基本不會重現,可以利用這種互斥關系來影響主題的詞語分配。

2.3? CE-LDA模型設計

CE-LDA模型在標準LDA模型基礎上,將提取的語義信息引入到主題-詞語分配,提高LDA模型的語義關系理解能力。

2.3.1? 語義約束

在詞語進行主題分配時,查找詞語的必然語義關系集合Sm和互斥語義關系集合Sc,如果詞語存在于相應集合中,則和主題已分配的詞語進行關系確認,并找出已分配詞語和當前詞語的關系。如果主題與詞語關系屬于Si,則增加當前詞語屬于該主題的概率,否則減少屬于該主題的概率。

2.3.2? CE-LDA模型

CE-LDA模型依然保持為三層結構:文檔層、主題層和詞語層。只是在主題-詞語分配時,需要根據當前詞語與已分配主題詞語的必然關系和互斥關系進行概率的調整。CE-LDA模型設計如圖3所示,符號說明如表1所示。

2.3.3? 評價對象和情感詞關聯關系提取算法

算法主要考慮主題-文檔分布θ、主題-詞語分布φ以及受約束的主題-詞語分布φm和φc,具體步驟為:

(1)選擇主題分布θ~Dirichlet(α)。

(2)選擇詞語分布φ:

1)if(r=1)選擇詞語分布φc~ζc·Dirichlet(β);(ζc是互斥語義關系權重參數)。

2)else if(r=2)選擇詞語分布φm~ζm·Dirichlet(β);(ζm是必然語義關系權重參數)。

3)else選擇分配概率φ~Dirichlet(β)。

(3)對于待分配的文檔詞語w:

1)主題分布概率z~θ。

2)if(w∈Sm)選擇詞語w~φm

3)if(w∈Sc)選擇詞語w~φc

4)else選擇詞語w~φ。

(4)文檔-主題分布參數θ和詞語-主題分布參數φ如式(1)和(2)所示。

3? 實驗比較和分析

實驗數據來源于淘寶購物平臺用戶的“平板電腦”商品評論文本數據,共采集98 647篇文檔,包含374 632個句子。對商品評論文本數據的評價對象-情感詞的關聯關系提取進行比較,主要考察關系提取的召回率,對比的模型包括:JST模型、STM模型和CE-LDA模型。用召回率來評估評價對象-情感詞的關聯關系的提取率,如圖4所示。其中,橫坐標表示主題個數,縱坐標表示召回率。

從圖4不同模型的召回率對比可以發現,隨著主題個數的增加,召回率都在提升,這是由于主題詞語增加后,必然會發現更多的關聯關系。CE-LDA模型的提取率優于其他模型,尤其是當主題數設置為90~120個時,其他模型的關系提取率沒有顯著提升,而CE-LDA模型的提取率明顯高于其他模型。由于在CE-LDA模型中嵌入了2類語義約束,使得主題內部的內聚度提高,而主題之間的耦合度減少。

4? 結? 論

在海量的中文網絡文本數據挖掘中,復雜的語義關系增加了評價對象和情感詞的挖掘難點。CE-LDA模型對現有LDA模型進行了改進,提出了約束型的LDA主題模型,將詞語間的必然語義關系和互斥語義關系加入LDA。通過對不同模型的評價對象和評價詞關聯關系提取進行比較和分析,發現本文提出的CE-LDA模型的召回率優于其他模型。通過實驗數據表明,在LDA模型中引入語義先驗知識,可以改善LDA概率型模型對于詞語語義關系理解的不足,在主題-詞語分配中提高詞語的主題內聚度,同時降低詞語的耦合度,提升主題對詞語關系的識別度和區分度,從而更有效地提取評價對象詞、情感詞及其之間的關聯關系。

參考文獻:

[1] BLEI D M,NG A Y,JORDAN M I. Latent Dirichlet Allocation [J].Journal of Machine Learning Research,2003,3(3):993-1022.

[2] 譚旭,吳俊江,徐磊,等.面向深度學習的多維度中文網絡輿情分析 [J].小型微型計算機系統,2018,39(7):1471-1477.

[3] TITOV I,MCDONALD R. Modeling online reviews with multi-grain topic models [C]//Proceedings of the 17th international conference on World Wide Web(WWW).New York:Association for Computing Machinery,2008:111-120.

[4] LIN C H,HE Y L. Joint sentiment/topic model for sentiment analysis [C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management(ACM CIKM).New York:Association for Computing Machinery,2009:375-384.

[5] OZYURT B,AKCAYOL M A. A new topic modeling based approach for aspect extraction in aspect based sentiment analysis:SS-LDA [J].Expert Systems with Applications,2020,168:114-231.

[6] THENMOZHI M,INDIRA R,DHARANI R. Using Lexicon and Random Forest Classifier for Twitter Sentiment Analysis [J].International Journal of Computer Science and Engineering,2019,7(6):591-594.

[7] ALBUQUERQUE P,VALLE D,LI D J. Bayesian LDA for mixed-membership clustering analysis:The Rlda package [J].Knowledge-Based Systems,2019,163:988-995.

[8] 彭云,萬常選,江騰蛟,等.基于語義約束LDA的商品特征和情感詞提取 [J].軟件學報,2017,28(3):676-693.

[9] LU B,OTT M,CARDIE C,et al. Multi-aspect Sentiment Analysis With Topic Models [C]//Proceedings of the 11th IEEE International Conference on Data Mining Workshops(ICDMW).Vancouver:IEEE,2011:81-88.

[10] PARK I,YOON B,KIM S,et al. Technological Opportunities Discovery for Safety Through Topic Modeling and Opinion Mining in the Fourth Industrial Revolution:The Case of Artificial Intelligence [J].IEEE Transactions on Engineering Management,2019,99:1-16.

[11] 崔雪蓮,那日薩,劉曉君.基于主題相似性的在線評論情感分析 [J].系統管理學報,2018,27(5):821-827.

作者簡介:萬紅新(1970—),女,漢族,江西南昌人,教授,碩士,研究方向:數據挖掘、軟件工程;彭欣悅(2001—),女,漢族,江西宜春人,研究方向:軟件工程、數據庫技術。

收稿日期:2021-03-16

基金項目:江西省高校人文社科項目(JC191 17);江西省教育廳科技項目(GJJ201127);江西科技師范大學大學生創新創業訓練計劃項目(2021 11318002)

主站蜘蛛池模板: 国产成人h在线观看网站站| 欧洲高清无码在线| 99久久国产综合精品2023| 啦啦啦网站在线观看a毛片| 国产激情无码一区二区免费| 狠狠色噜噜狠狠狠狠色综合久| 国产在线观看人成激情视频| www.亚洲色图.com| 久久男人视频| 九月婷婷亚洲综合在线| 亚洲激情区| 国产精品99久久久| 亚洲成aⅴ人片在线影院八| 国产精品视屏| 无码日韩人妻精品久久蜜桃| 国产福利2021最新在线观看| 亚洲一区二区约美女探花| 日本尹人综合香蕉在线观看| 青青草原国产| 国产精品99一区不卡| 免费人欧美成又黄又爽的视频| 91久久夜色精品国产网站| 国产在线自乱拍播放| 亚洲国产成人久久精品软件| 国产高潮流白浆视频| 91在线播放国产| 久久精品无码一区二区日韩免费| 国产情侣一区二区三区| 制服丝袜 91视频| 亚洲精品视频免费| 亚洲日韩国产精品无码专区| 久久频这里精品99香蕉久网址| 精品国产美女福到在线直播| 国产熟睡乱子伦视频网站| 一级成人a做片免费| 在线永久免费观看的毛片| 日韩av手机在线| 中文字幕久久亚洲一区| 色香蕉影院| 亚洲中久无码永久在线观看软件| 亚洲三级影院| 欧洲欧美人成免费全部视频| 97人人做人人爽香蕉精品| 久久一级电影| 亚洲有无码中文网| 制服丝袜国产精品| 一级毛片在线播放| 夜夜操天天摸| 中文字幕欧美日韩高清| 狠狠综合久久| 日韩AV无码免费一二三区| 沈阳少妇高潮在线| 精品国产免费第一区二区三区日韩| 午夜精品区| a毛片基地免费大全| 欧美黑人欧美精品刺激| 国产高潮流白浆视频| 久久国产亚洲欧美日韩精品| 国模沟沟一区二区三区| 久久黄色免费电影| 精品伊人久久大香线蕉网站| 欧美曰批视频免费播放免费| 热伊人99re久久精品最新地| 色综合成人| 久久精品日日躁夜夜躁欧美| 亚洲成A人V欧美综合| 色妞永久免费视频| 97成人在线视频| 91福利国产成人精品导航| 国产欧美日韩综合在线第一| 国产欧美日韩在线在线不卡视频| 都市激情亚洲综合久久| 欧美日韩中文国产| 国产成人免费视频精品一区二区| 久久综合色88| 国产午夜看片| 亚洲成在人线av品善网好看| 人妻21p大胆| 五月婷婷精品| 一级毛片免费高清视频| 亚洲欧美日韩久久精品| 亚洲精品黄|