999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義與情感詞典的微博評論情感分析方法

2021-12-10 02:48:44白剛
現代計算機 2021年30期
關鍵詞:文本情感分析

白剛

(桂林旅游學院,桂林 541006)

0 引言

每逢節假日旅游點均出現游客暴增現象。游客量的增加會改變旅游體驗,游客的評論數據是游客體驗直觀的反映,其中的情感傾向代表了對旅游點的積極或消極態度,也是旅游點規劃的重要參考依據[1]。

但是,評論信息作為非結構化文本數據難以直接分析其情感傾向,需要采用算法將文本轉換成可定量的情感傾向數據。傳統的方法主要包括基于情感詞典的方法[2-4]和基于機器學習的方法[5-7],但基于情感詞典的方法主要依賴于情感詞典的構建[8],對上下文語義及語氣等考慮不足。機器學習的方法需要大量人工的特征標注,對較小訓練集效果欠佳,且不同的分類器對結果精度影響較大。

本文拓展了情感詞典的基礎方法,借鑒了機器學習方法中的標注語料方法,采用哈工大語言技術平臺(language technology platform,LTP)進行分句、分詞和詞性標注,結合知網情感詞典(HowNet)進行情感詞統計,情感副詞、語氣標點加權進而獲得文本情感得分。

1 研究背景及方法

1.1 研究背景

2021年“五一”期間出現了國內旅游高峰,成都和重慶或為熱門旅游目的地,游客量分別達到了390萬和280萬人次。微博作為國內用戶基數最大、信息交換速度最快的社交平臺之一,“五一”期間產生了大量的用戶評論信息,評論中隱含用戶對旅游目的地的情感傾向,挖掘潛在的情感傾向對旅游目的地的規劃和運營有重要的意義。但由于評論數據的非結構化屬性,難以直接進行量化分析,迫切需要高效準確的將文本數據轉換成情感分值的方法。

1.2 研究方法

N-LTP中采用的中文分詞(CWS)被視為基于字符的序列標記問題,采用線性解碼器對每個字符進行分類[9]:

其中,y i表示每個字符的標簽概率分布;WCWS和bCWS是可訓練的參數。

N-LTP中的詞性(POS)標記使用一個簡單地MLP來對每個詞語進行詞性分類,分類后可對名詞等非情感詞進行刪除以減少計算工作量。

式中,y i表示每個詞的詞性概率分布;WPOS和bPOS是可訓練的參數。

輸入文本情感得分如公式(3)。

式中,CPOS和Cneg分別為情感正向詞和情感負向詞的出現頻次,wadv為情感副詞權重,Cadv為前置情感副詞出現頻次,wpun為情感詞后強調性標點權重得分。

2 數據來源及處理

2.1 數據來源及采集方法

選擇新浪微博作為數據采集平臺,采用爬蟲進行數據采集。采用新浪微博的高級搜索,關鍵詞限定為話題標簽#成都#和#重慶#,時間區間限定為2021年5月1日00:00~2021年5月5日23:59,分別抓取成都和重慶的用戶ID、評論、來源地、性別等相關信息。

最終獲取數據集數量為成都評論數據共計4789條,重慶評論數據8563條。

2.2 數據處理及結果

觀察數據發現,數據存在部分缺失、錯誤、無效、重復等問題。導入Mariadb數據庫后,采用存儲過程對數據進行基本清洗,去除重復和無效記錄,并根據人工檢查去除廣告性質的評論文本記錄,最終得到成都有效評論數據3941條,重慶有效評論數據7123條。

3 文本情感分析

3.1 情感分析原理

評論文本情感分析流程如圖1所示,情感傾向可認為是主體對某一客體主觀存在的內心喜惡和內在評價的一種傾向。主要由兩個方面來衡量:一個情感傾向方向,由情感詞數量測量;一個是情感傾向度,由情感詞分級+情感程度副詞與語氣標點加權測量。

圖1 情感分析原理

文本情感分析的分析粒度可以是詞語、句子、段落或篇章。

段落級情感分析主要是面向特定事件或主題進行情感傾向分析,通常要事先構建對應主題的情感詞典,如音樂評論的分析,就需要音樂特定的情感詞典來進行分析,最終效果會由于通用情感詞典;也可以通過人工標注大量音樂評論來構建分類器。句子級的情感分析一般通過統計分詞后的情感詞的分值進行計算。

篇章級的情感分析,通常通過聚合篇章中所有的句子的情感傾向來計算得出。因此,句子粒度的情感分析,既是解決如評論等短文本情感分析的基礎,同時也是篇章級文本情感分析的基礎。

3.2 分句與分詞

對于中文評論,分句方式較為簡單,采用標點分句。分詞采用哈工大N-LTP的cws.model模型,其基本原理為建模為基于字的序列標注問題,對于輸入句子的字序列,模型給句子中的每個字標注一個標識詞邊界的標記(式1),然后基于統計模型同時融合詞典的方法最大正向匹配得到分詞結果。為增加分詞準確率,添加了知網情感詞典等外部詞典,分詞樣例如表1所示。

表1 分詞結果樣例

詞性標注中n為名次,v為動詞,wp為標點,d為副詞,a為形容詞,c為連詞。

3.3 情感分析

將分詞以后的詞袋按照詞性比對停用詞列表(StopWords),去除不帶有情感意義的停用詞,提高情感分析性能。然后根據情感詞級別進行情感詞頻統計、情感詞位置與程度副詞、否定詞加權計算以及句尾符號加權計算得出句子的最終情感得分。算法邏輯的關鍵部分如下:

算法1:微博評論情感分析算法

輸入:微博評論自然語言段落weibo_content

輸出:評論情感分析得分S s

1S s=[]

2 sentences=Cut_Sentence(weibo_content)

3 for sent in sentences:

4 words=tokenize(sent)#式1

5 seg_words=del_stopwords(words)

6CPOS=0

7 Cneg=0

8 for word in seg_words:

9 if word in posdict:

10CPOS+=1

11wadv,Cadv=Match_adv(CPOS)

12 elif word in negditc:

13…#消極情感計算

14 elif word word==′!′or word==′!′or word==′?′or word==′?′:

15wpun=Set_WP(CPOS)

16S ss=(CPOS+wadvCadv+wpun)-(Cneg+wadvCadv+wpun)#S ss為分句情感得分

17S s=∑S ss

18 returnS s

采用算法1對數據庫中微博評論文本(表1)進行情感分析打分,樣例結果如表2所示。

表2 情感分析樣例

表2中,副詞“尤其”為情感傾向為正向的形容詞“開心”的前置位置為1的語義加強副詞,在詞典中權重為6。本例評論結束標點為句號,沒有標點符號加權。本例情感分析最終得分計算公式為:Ss=(5+6×1+0)-(2+0+0),最終情感得分9,情感傾向方向為正向,情感傾向度較強。

4 效果測評

4.1 算法效率

軟件環境數據庫采用Mariadb 10.4版本,開發語言采用Python 3.6版本,硬件環境為Intel(R)Xeon(R)CPU E5-2620 v4;32 G RAM。對4000條評論信息進行情感分析打分,運行時長為483秒,平均每條評論數據情感打分時間為0.12秒。

4.2 人工標注與機器標注對比

選取數據庫中機器標注評分為正向(評分為正數)、中性(評分為0)和負向(評分為負數)的記錄各10條進行人工情感標注和打分,打分采用5人小組的感性打分方式,不規定單個詞語的得分細則,最后取平均值作為最終該條目的情感得分。最終人工標注得分與算法標注得分對比如圖2所示。

圖2 人工標注與機器標注對比

如圖2所示,在情感傾向方向上,人工標注與機器標注傾向性在30條樣例中,一條出現情感傾向差異,正確率96.7%;情感傾向度方面,人工標注與機器標注在低分區間(絕對值<8)基本沒有差異,在高分區間,人工標注普遍評分略大于機器標注,最小差異11%,最大差異36%。

可以發現,在情感傾向方向維度上,人工標注和機器標注結果基本一致,但機器標注效率遠高于人工標注。在情感傾向度維度上,人工標注在無給定單個詞語得分的情況下,人工標注與機器學習標注有較大差異,同時人工小組內打分差異較大,存在較大波動。

5 結語

本研究采用哈工大語言技術平臺進行分句、分詞和詞性標注,同時結合知網情感詞典進行情感詞統計,情感副詞、語氣標點加權獲得文本情感得分,構建了新的算法。該算法對傳統的情感詞典打分方法進行了延伸和拓展,加入了上下文語義要素,考慮了情感詞前置副詞的語義加強效果,增加了句子結尾標點語氣效果的權重。

綜合來看,算法效率高(0.12秒/條),準確率較高(96.7%),在對社交網絡采集的文本大數據進行分句、分詞和情感分析的工作中,采用本算法可極大提高研究工作的效率。后續研究將對算法使用的情感詞典和副詞詞典進行人工修訂以增加準確率。

猜你喜歡
文本情感分析
隱蔽失效適航要求符合性驗證分析
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 精品超清无码视频在线观看| 三级视频中文字幕| 中美日韩在线网免费毛片视频| 国产剧情国内精品原创| 亚洲天堂日韩av电影| 在线看AV天堂| 久久亚洲国产最新网站| 九九九国产| 免费国产一级 片内射老| 欧美全免费aaaaaa特黄在线| 亚洲人在线| 精品国产免费观看一区| 国产美女人喷水在线观看| 国产精选小视频在线观看| 日韩高清成人| 色欲综合久久中文字幕网| 国产三级视频网站| 91亚洲国产视频| 波多野结衣无码AV在线| 国产成人精品一区二区免费看京| 国产91丝袜在线播放动漫 | 日韩国产黄色网站| 免费看a毛片| 国产熟女一级毛片| 永久免费无码日韩视频| 国产高颜值露脸在线观看| 熟妇人妻无乱码中文字幕真矢织江| 亚洲美女AV免费一区| 欧美日韩中文国产| 久久青草精品一区二区三区| 欧美成人一级| 国产偷倩视频| 国产成人精品一区二区三在线观看| 欧美精品伊人久久| 国产噜噜噜| 欧美第二区| 无码综合天天久久综合网| 99er这里只有精品| 国产一区二区人大臿蕉香蕉| 四虎亚洲国产成人久久精品| 亚洲欧美精品日韩欧美| 国产青榴视频| аv天堂最新中文在线| 日本尹人综合香蕉在线观看| 中文字幕 欧美日韩| 精品国产免费观看一区| 欧美国产精品不卡在线观看 | 欧美日韩资源| 成人亚洲天堂| 久久精品无码一区二区日韩免费| 99久久免费精品特色大片| 日韩av无码精品专区| 亚洲91精品视频| 91精品国产情侣高潮露脸| 热思思久久免费视频| 中文字幕亚洲乱码熟女1区2区| 五月婷婷精品| 激情成人综合网| 国产精品成人一区二区不卡 | 午夜电影在线观看国产1区| 亚洲丝袜中文字幕| 美女无遮挡免费视频网站| 久久香蕉国产线看观看式| 亚洲国产精品不卡在线 | 91青青视频| 国产欧美日韩资源在线观看| 国产精品美女自慰喷水| 88av在线看| 国产美女丝袜高潮| 97se亚洲综合在线天天| 天天综合亚洲| 亚洲人成色在线观看| 国产成人乱无码视频| 精品夜恋影院亚洲欧洲| 99久久国产综合精品2023| 99视频免费观看| 欧美成人一区午夜福利在线| 国产精品视频导航| 青青久在线视频免费观看| 亚洲一区二区无码视频| 91麻豆精品国产高清在线| 国产激爽大片在线播放|