999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于復雜句式短文本情感分類研究

2018-11-13 05:31:20李毅捷段利國李愛萍
現代電子技術 2018年22期

李毅捷 段利國 李愛萍

摘 要: 目前,網絡文本中主觀內容的情感傾向性識別成為文本信息處理的研究熱點。針對漢語中復雜句式的結構特點以及對多種復雜句式的有效分析,基于word2vec進行情感詞典的擴建,將擴充后的情感詞典、關聯詞表、否定詞表進行特征提取,得到有效的特征詞序列,構建新的復雜句式模型并結合SVM進行訓練和預測,完成復雜句式情感分類。實驗結果表明,提出的復雜句式情感分類模型在處理精度方面比傳統的句子級情感分類方法有了明顯的提高,獲得良好的情感分析效果。

關鍵詞: 文本信息處理; 情感分析; 復雜句式; word2vec; 情感分類模型; SVM

中圖分類號: TN911?34; TP391.1 文獻標識碼: A 文章編號: 1004?373X(2018)22?0182?05

Abstract: The sentiment tendency recognition of the subjective content in the current network text is a hot research topic of text information processing. In allusion to the structure characteristics of complex sentence patterns in Chinese and effective analysis of various complex sentence patterns, the sentiment dictionary is expanded based on the word2vec. Feature extraction is conducted for the expanded sentiment dictionary, associated word list, and negative word list, so as to obtain the effective sequence of feature words. The new model of complex sentence patterns is established, which is trained and predicted by combining with the SVM, so as to complete sentiment classification of complex sentence patterns. The experimental results show that, in comparison with the traditional sentence?level sentiment classification method, the proposed sentiment classification model of complex sentence patterns has a significant improvement in processing accuracy and can obtain a good sentiment analysis effect.

Keywords: text information processing; sentiment analysis; complex sentence patterns; word2vec; sentiment classification model; SVM

隨著互聯網的興起及迅速普及,開放性不斷提高,人們通過微博等網絡平臺和電子商務等網站發表對時事新聞、熱門話題、各種商品的觀點和看法,用戶龐大而穩固。交互的便捷使網絡成為了人們越來越喜歡表達自己觀點和相互交流的主要方式之一。隨之而來網絡上產生的主觀性文本包含大量有用情感信息[1],因此對復雜句式的情感分析需要不斷探索與學習。

1 研究現狀

目前,對復雜句式的情感傾向性分析主要是基于機器學習的方法[2],吳曉吟研究了基于篇章情感分析中條件句、轉折句、比較句對情感分析的影響,提出這三種句型的情感分析算法使篇章級情感分析準確率有所提高[3]。楊富平等人提出基于SVM和復雜句式的情感分類方法,通過分析漢語復雜句的結構特點,比較各類特征組合的情感分類正確率[4]。Song Rui等人通過建立比較句式模型利用條件隨機場(CRF)進行比較句提取與分析[5]。Ramanathan Narayanan等人研究條件句情感分析,建立基于主題的監督學習模型從5個不同領域的條件句證明所提方法的有效性[6]。針對目前文本表達方式自由與多樣等問題造成的復雜句式影響句子級情感分析的問題,本文對各種中文復雜句式進行詳細情感分析,提出一種針對復雜句式的情感分類準則以及基于word2vec的情感詞典擴展方法,結合SVM分類器完成復雜句式的情感分類。

2 復雜句式

2.1 復雜句式簡介

漢語中復雜句由幾個分句組成,含有多個主謂(賓)結構陳述兩件或兩件以上事情,重點在主句陳述的事情而分句的出現是為了更全面地闡釋主句的含義,總結常見復雜句式:假設句式是某種情況下所產生的結果。例句:“如果不隨便扔垃圾,環境就會變好。”褒義詞“變好”影響句子情感極性,假設條件或特定條件下子句表達的情況不一定會發生。常用關聯詞:如果,只要……就;只有……才;即便、即使、就算、哪怕、縱使……還,也等。條件句式提出特定條件產生特定結果,或不管任何條件都產生某種結果。例句“不管這條道路多艱苦,我都會付出我的熱情。”中“艱苦”與“熱情”褒貶情感詞的出現對分類的判定產生影響,后一分句中的情感詞是重點。常用關聯詞:無論、不管、不論……都。

轉折句式前后分句意思完全相對或部分相對。例句:“雖然生活水平提高,但是不能奢侈浪費。”轉折句中“雖然”引導的分句不是整句話的重點,“但是”引導的分句情感是整句話的重點。常用關聯詞:雖然、雖說、雖是、盡管……但、但是、然而、可是、不過……。

說明因果句式前后分句分別闡明原因和闡釋結果,前后分句都是客觀真相。推論因果句式前后分句分別提出一個前提和由該前提推導出的結論,結論句中的情感詞更能代表句子的情感傾向。常用關聯詞:因為……所以;原來、因此……;既然……就。

并列句式由多個簡單句不分主次不分從屬關系并列組成,前后分句都是客觀事實。常用關聯詞:又……又……;既……又……;一邊……一邊……;那么……那么……。

選擇句式分句分別列舉多種情況并從中選出一種情況,例句:“你喜歡游泳,還是喜歡打球。”褒義情感詞“喜歡”對情感分類的判定產生影響。常用關聯詞:是……還是……;與其……不如……;或者……要么……。遞進句式前后分句的關系在意義上進一層次,前后分句都是客觀事實。常用關聯詞:不但、不僅……。

2.2 復雜句式處理

本文根據各種復雜句式的特點,將引導復雜句式的關聯詞歸納為三類,如表1所示。

若復雜句式包含否定詞,則前后分句分別統計否定詞數量,句中含有奇數重否定會改變句子的情感傾向,含有偶數重否定與句子表達情感傾向相同[7]。本文總結常見否定詞:未、從未、難以、絕非、不宜、沒有、非、不曾、莫、不夠、毋、否、不大、不太、顛覆、不、未曾、并非、未必、休、不要、沒、否認、勿、沒法、無、無法、不便、別、不許、不是。本文不僅通過關聯詞識別,還考慮關聯詞的詞性、復雜句式模型來識別復雜句。根據表1對復雜句式的分類,結合否定詞,將第一、二、三類關聯詞用[WA,WB,WC]表示,奇數和偶數重否定分別用[DO,DE]表示,情感詞用[WS]表示,總結復雜句式匹配模型如下:

3 資源構建

3.1 情感詞典

情感詞典的建立和擴展是文本情感分析研究工作的基礎。情感詞典[8]的完善對提高情感分析準確率有很大幫助。中文情感分析領域當前沒有統一標準化的情感詞典,本文選取的中文情感詞典:將HowNet中文情感詞典進行整理有褒義詞(4 566個)貶義詞(4 370個)。大連理工大學情感詞典對中文詞匯、短語進行詳細描述,將詞語情感分為7大類21小類,本文選取11 229個褒義詞匯、10 783個貶義詞匯以及5 375個中性詞匯。網絡文本中大量帶有情感傾向的新詞會影響分詞的性能,進而影響文本情感分類結果。為了提高文本情感分類的準確率,本文經收集整理網絡資源摘選出464個帶有情感傾向的網絡詞匯構建網絡熱點詞情感詞典,如表2所示。

3.2 word2vec原理

word2vec(word to vector)能夠學習含有上億條語句的語料庫并輸出適度維度空間中的詞向量,通過這些詞向量之間的運算完成各種自然語言處理的計算任務,許多文本處理把詞語作為原子單位,但詞語之間沒有語義相似這一概念,使處理文本任務時有一定局限性,word2vec能從龐大數據集中計算出高維詞向量空間中包含上下文語義信息,有利于挖掘更多情感信息。本文采用基于Hierarchical Softmax的CBOW模型進行訓練,該模型比傳統神經概率語言模型去掉了投影層,輸出層對應一個二叉樹,改用了Huffman樹,降低了計算復雜度,提高了計算速度[9]。

通過分析有些詞語不是輸入詞語的相近詞,例如“疼痛”“狀態”“疾病”等,為了將更精確的相近詞擴充到基礎情感詞典,本文使用改進的基于《知網》的詞匯語義相似度計算方法[10]。對上一步產生的詞語集進行過濾,計算輸入情感詞與相近詞集中每個詞的語義相似度,定義語義相似度取值為[0,1]內實數,當兩個情感詞相似度值等于1則語義完全相同。本文設定閾值為1,保留和種子詞語義相似度值為1的詞語作為最終入選的相近詞,如表4所示。

將已構建的基礎情感詞典中情感詞作種子詞,通過上述方法,去除基礎情感詞典中已存在的重復詞,經過人工整理,最終褒義情感詞擴充465個,貶義情感詞擴充510個,中性情感詞擴充105個。

3.3 復雜句式情感分析

4 實驗結果及分析

本文使用了豆瓣電影七大分類各100部電影共20 000條影評作為數據集,除去重復和無價值數據,剩余17 542條影評,進行情感極性標注,將分類數據集按比例1∶1用于訓練與測試。本文將情感傾向分為褒貶中三類,實驗分別使用傳統SVM分類器和加入本文構建的復雜句式情感評判規則進行情感傾向性研究,本文以準確率、召回率、F值作為實驗的評價指標,單位為%,實驗結果如表5和圖1所示。

根據實驗結果得出7種復雜句式在準確率、召回率、F值三方面都有不同程度的提高,遞進句式和并列句式提高程度略低。本文繼續驗證擴展后情感詞典對情感傾向性影響,設基礎詞典:關聯詞典+否定詞典+網絡熱點詞詞典。特征詞典1:HowNet詞典+基礎詞典。特征詞典2:大連理工大學情感詞典+基礎詞典。特征詞典3:HowNet詞典+大連理工大學情感詞典+基礎詞典。特征詞典4:擴展后情感詞典+基礎詞典。實驗結果如表6所示。

通過實驗結果分析,擴充后的情感詞典在情感分類準確率、召回率、F值三方面都有明顯提高,擴充后情感詞典包含了豐富的語義信息,挖掘到詞語間更多的語義關系,可以得到更完善的領域詞、網絡新詞、情感詞。綜合以上優勢本文提出的復雜句式情感傾向性分析方法有更好的分類效果,展現出優良的性能。

5 結 語

中文文本中涵蓋豐富的情感信息,情感分析所使用的方法要考慮是否能正確判斷出作者要傳達的所有情感,有些詞語同時具備褒貶性,例如“好事”,可以表示一件令人快樂的事件,也可以表示對他人的貶責。分詞對情感傾向性的判別也很重要,例如“我與其余人不同”,若沒識別出“其余”而識別成“與其”則影響情感分析結果。有些關聯詞的識別,例如“他不如你好看”中“不如”分詞系統標注是動詞,不是連詞,例如“她不管你了”中“不管”雖標注成連詞,但不符合復雜句式的匹配模式。有些日常詞語單獨使用不具備情感,搭配后具有情感傾向,例如“成績上漲”表達快樂,“物價上漲”表達不滿。這些問題都會影響情感傾向性的判斷,未來工作要繼續對文本情感分析進行更加深入的學習與研究。

參考文獻

[1] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010,21(8):1834?1848.

ZHAO Yanyan, QIN Bing, LIN Ting. Text sentiment analysis [J]. Journal of software, 2010, 21(8): 1834?1848.

[2] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? sentiment classification using machine learning techniques [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Philadelphia: Association for Computational Linguistics, 2002: 79?86.

[3] 吳曉吟.中文復雜句型的情感分析研究[EB/OL]. [2013?03?15].http://www.doc88.com/p?1738770331623.html.

WU Xiaoyin. Sentiment analysis of complex sentences for Chinese document [EB/OL]. [2013?03?15]. http://www.doc88.com/p?1738770331623.html.

[4] 楊富平,黃志勇.基于SVM和復雜句式的中文微博情感分析[EB/OL].[2016?01?12].http://www.doc88.com/p?3317610703317.html.

YANG Fuping, HUANG Zhiyong. Chinese micro?blog sentiment classification based on SVM and complex phrasing [EB/OL]. [2016?01?12]. http://www.doc88.com/p?3317610703317.html.

[5] 宋銳,林鴻飛,常富洋.中文比較句識別及比較關系抽取[J].中文信息學報,2009,23(2):102?107.

SONG Rui, LIN Hongfei, CHANG Fuyang. Chinese comparative sentences identification and comparative relations extraction [J]. Journal of Chinese information processing, 2009, 23(2): 102?107.

[6] NARAYANAN R, LIU B, CHOUDHARY A. Sentiment analysis of conditional sentences [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2009: 180?189.

[7] 李愛萍,邸鵬,段利國.基于句子情感加權算法的篇章情感分析[J].小型微型計算機系統,2015,36(10):2252?2256.

LI Aiping, DI Peng, DUAN Liguo. Document sentiment orientation analysis based on sentence weighted algorithm [J]. Journal of Chinese computer systems, 2015, 36(10): 2252?2256.

[8] BACCIANELLA S, ESULI A, SEBASTIANI F. SentiWordNet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining [C]// Proceedings of the International Conference on Language Resources and Evaluation. Valletta: European Language Resources Association, 2010: 2200?2204.

[9] LILLEBERG J, ZHU Y, ZHANG Y. Support vector machines and word2vec for text classification with semantic features [C]// Proceedings of 14th International Conference on Cognitive Informatics & Cognitive Computing. Beijing: IEEE, 2015: 136?140.

[10] 江敏,肖詩斌,王弘蔚,等.一種改進的基于《知網》的詞語語義相似度計算[J].中文信息學報,2008,22(5):84?89.

JIANG Min, XIAO Shibin, WANG Hongwei, et al. An improved word similarity computing method based on HowNet [J]. Journal of Chinese information processing, 2008, 22(5): 84?89.

[11] 邸鵬,段利國.基于復雜句式的文本情感傾向性分析[J].計算機應用與軟件,2015,32(11):57?61.

DI Peng, DUAN Liguo. Text sentiment polarity analysis based on complex sentences [J]. Computer applications and software, 2015, 32(11): 57?61.

主站蜘蛛池模板: 亚洲男人天堂2020| 国产导航在线| 色综合五月婷婷| 欧美在线中文字幕| 亚洲高清中文字幕| 亚洲中文字幕久久无码精品A| 国产免费怡红院视频| 在线观看无码av五月花| 精品久久777| 免费一级全黄少妇性色生活片| 手机看片1024久久精品你懂的| 国产又爽又黄无遮挡免费观看| 中文字幕无码制服中字| 精品久久久久久成人AV| 国产产在线精品亚洲aavv| 黄色网页在线播放| 91精品专区| 欧美日韩高清在线| 在线观看免费人成视频色快速| 激情乱人伦| 农村乱人伦一区二区| 国产三级a| 天天综合网站| 青青操视频免费观看| 91av国产在线| 国产91丝袜| 最新国产网站| 日韩毛片在线播放| 久久综合婷婷| 伊人五月丁香综合AⅤ| 伊人国产无码高清视频| 国产97视频在线观看| 波多野结衣在线se| 免费网站成人亚洲| 国产swag在线观看| 日韩欧美在线观看| 日本日韩欧美| 国产丝袜无码精品| 日韩福利视频导航| 久久香蕉国产线看精品| 91区国产福利在线观看午夜| 国产永久免费视频m3u8| 一级成人欧美一区在线观看| 天堂亚洲网| 99久久无色码中文字幕| 免费看av在线网站网址| 国产精品太粉嫩高中在线观看| 91无码视频在线观看| 精品一区二区三区自慰喷水| 国产免费网址| 宅男噜噜噜66国产在线观看| 伊伊人成亚洲综合人网7777| 国产91小视频| 天天综合天天综合| 麻豆精品久久久久久久99蜜桃| 国产精品成| 自拍偷拍欧美日韩| 国产一级二级在线观看| 在线亚洲精品自拍| 国产成熟女人性满足视频| 国产一区在线观看无码| 亚洲AV无码乱码在线观看裸奔 | 亚洲成人免费看| 成人亚洲视频| 中文字幕伦视频| 狠狠操夜夜爽| 114级毛片免费观看| 精品一区二区三区水蜜桃| 青青网在线国产| 嫩草国产在线| 91免费片| 亚洲久悠悠色悠在线播放| aaa国产一级毛片| 亚洲无线视频| 99草精品视频| 亚洲欧美一级一级a| 国产精品所毛片视频| 72种姿势欧美久久久久大黄蕉| 欧美日韩国产精品va| 国产又爽又黄无遮挡免费观看| 中文天堂在线视频| 日韩欧美视频第一区在线观看|