999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

主客觀與褒貶分類融合的微博情感傾向性分析

2014-04-29 18:49:20韓中元等
智能計算機與應用 2014年6期

韓中元等

摘 要:在微博情感傾向性分析中,一種典型分析方法是先對微博進行主客觀分類,再對判定為主觀的微博進行褒貶分類,但其問題在于主客觀分類錯誤將直接傳導到褒貶分類。針對這一問題,本文提出了一個主客觀分類和褒貶分類融合的評估情感傾向性強度的模型。首先使用改進的邏輯回歸模型構建主客觀分類模型,并結合情感詞典構建褒貶分類模型;然后,將二者融合,構建情感傾向性強度模型來選出具有較強情感的微博;最后應用褒貶分類模型判定情感傾向性。該方法在第六屆中文傾向性分析評測(COAE2014)的微博觀點句識別任務中獲得了主要指標Micro_F1值和Macro_F1值的第二名。

關鍵詞:情感傾向性分析;主客觀分類;褒貶分類;微博

中圖分類號:TP391.1 文獻標識碼:A 文章編號:2095-2163(2014)06-

Abstract: A typical practice in sentiment analysis consists of two steps: first classify the subjective sentences from the objective ones, and then distinguish the positives from the negatives among the subjective sentences. To alleviate the issue of error accumulation arising from such a pipeline approach, this paper investigates a unified model for microblog sentiment analysis. Firstly, a subjective-objective classification model is constructed by the improved Logistic Regression model. And a positive-negative classification model is proposed by using sentiment dictionary and the improved Logistic Regression. Secondly, an emotional intensity model, which is a linear combination of the two classification sub-models, is applied to select the microblogs with more strong sentiment. Lastly, the sentiment classification is judged by the positive-negative classification model. The final release of COAE 2014 indicates that the proposed method ranks as top 2 in micro_F1 and macro_F1 in the task.

Keywords: Sentiment Tendency Analysis; Subjective-Objective Classification; Positive-Negative Classification; Microblog

0引 言

隨著微博的不斷發展和實用普及,國內外學者圍繞微博展開了一系列研究,其中微博情感傾向性分析已然成為研究熱點之一。微博情感分析即是對帶有情感色彩的主觀性微博進行分析、處理、歸納和推理,就是通過對微博情感信息的綜合計算和技術評定,藉此實現了解人們針對實體、人物、事件、主題及其屬性的主觀意見和對應情感的研究宗旨[1]。微博的情感分析在挖掘用戶觀點、產品反饋、商品推薦、潛在用戶挖掘等多方面均具較高的應用價值。而且,在理論上,情感分析技術也有助于自然語言處理領域其他研究方向的深度發展,具體來說則如自動文本摘要以及問答系統等[2]。

當前研究中,文本情感分析主要采用了基于情感知識的方法和基于分類的方法[2]。針對此兩類方法,可做如下綜述和解析。

一方面,基于情感知識的方法可通過考察文本內部是否含有情感知識來完成主客觀分析和褒貶分析[3]。這類方法的情感知識主要是通過情感詞典、領域詞典或主觀文本中帶有情感極性的組合評價單元而相應獲得。例如:文獻[4]利用情感詞典識別文本中的情感詞,文獻[5]通過WordNet半自動地構建評價詞詞典和修飾詞詞典,文獻[6]則通過模板獲取名詞詞性的評價詞語等。

另一方面,基于分類的方法就是將情感分析視為分類任務,并使用機器學習的方法,以及選取大量有意義的特征來訓練分類器。本文沿用的即是分類的方法。在具體任務上,情感傾向性分析包含著主客觀分析和褒貶義分析。而在分類方法中,則對應著主客觀分類和褒貶義分類。

其中,主客觀分類是指將文本分為主觀、客觀文本兩類,其核心是分類模型的選擇和分類特征的選取。典型研究包括:文獻[7]使用詞語作為特征,而將樸素貝葉斯模型作為分類器以完成情感文本的主客觀分類,文獻[8]又將符號、人稱代詞等一些特殊文本作為特征進行主客觀文本分類,文獻[9]即采用基于圖的分類算法完成句子級的主客觀分類等。

而褒貶義分類就是將主觀文本分為褒義、貶義兩類。相關研究包括:文獻[10]以支持向量機作為分類器,提出了一個兩步分類方法,首步將微博按主客觀分類,后步再將主觀微博分為積極的和消極的兩類,文獻[11]則重點構建了基于樸素貝葉斯、支持向量機和條件隨機場情感分類器,文獻[12]即應用K-最鄰近法設計了一個分類器,其特征使用了Twitter的特有屬性和習慣用法(比如標簽和表情等)。

在基于分類方法進行微博情感傾向性分析的相關研究中,一般認為,只有含有主觀情感的微博才具有褒貶義,因此,典型處理是將情感分析分為兩個階段:首先將微博分為主觀和客觀兩類,再對分類為主觀的微博進行褒貶分類(即情感極性分類)[10,13]。然而,這種方法卻因建立在完全信任主客觀分類結果的基礎上,而極有可能導致主客觀分類的錯誤直接傳導到褒貶分類中。為減少錯誤的積累傳遞,本文即將微博的主客觀分類模型和褒貶義分類模型相互融合,提出了一個情感強度模型,通過利用該模型而對微博的情感傾向性強度實施判斷,再基于此來選擇具有較強情感傾向性的微博進行褒貶義分析。

本文提出方法的有效性在第六屆中文傾向性分析評測(COAE 2014)的微博觀點句識別任務(Task 4)中得到了檢驗。評測結果表明,將主客觀分類與褒貶分類融合的中文微博情感傾向性分析方法以較小的精確率損失換來了召回率的明顯提高,進而獲得了整體性能的更大提升,在主要評價指標Micro_F1和Macro_F1上獲得了第二名。

1 主客觀分類與褒貶分類融合的情感傾向性分析方法

1.1 整體框架

本文所提出的融合主客觀分類和褒貶義分類的中文微博的情感傾向性分析方法的整體框架描述如圖1所示。該框架的主要內容包括:利用帶主客觀標注的微博構建主客觀分類模型;利用帶褒貶標注的微博和情感詞典構建褒貶分類模型;融合主客觀分類模型和褒貶分類模型的情感傾向性強度模型。

在該框架中,首先以二元文法(bigram)作為微博的特征,采用改進的邏輯回歸模型,在主客觀微博訓練數據上學習主客觀分類模型θs;亦采用同樣方式得到一個基本的褒貶義分類模型。然后,利用情感詞典作為先驗知識對褒貶分類模型的特征權重進行調整,以彌補訓練樣本少而帶來的數據稀疏問題,由此得到褒貶分類模型θJD。最后,將θs和θJD線性加權,構造了一個情感傾向性強度模型θP。對于測試數據,可利用傾向性強度模型θP選擇具有情感傾向性的微博,再通過褒貶分類模型θJD而完整給出情感傾向性分析結果。

1.2 主客觀分類模型

本文采用改進的邏輯回歸模型學習主客觀分類模型和褒貶分類模型。以主客觀分類模型為例,學習過程可以描述為:對微博內容提取特征向量x,用主觀微博和客觀微博組成的序對構建訓練數據,再利用對數損失函數和梯度下降法在訓練數據集上學習每個特征x的權重θ。

在測試數據上,邏輯回歸模型根據訓練階段學習到的特征權重,對測試數據的特征求和,將其記為θ·x,其中,x是特征向量,θ表示向量的權重。

情感傾向性分析的基礎依據就是微博的特征,特征選擇對性能將具有直接的影響。與文本分類問題相比,微博內容有其特殊之處。人們在使用微博發表看法時,表達上比較隨意,語法結構也不嚴謹,用詞極不規范且存在網絡用語等大量未登錄詞,這即對傳統的分詞方法提出了挑戰。

針對微博特征提取面臨的相應問題,并借鑒文獻[14-15]在n-gram上的成果經驗以及bigram在信息檢索中的良好性能,本文將選用基于漢字的bigram(不引起歧義的情況下,本文簡稱為bigram)作為微博的特征。基于漢字的bigram提取特征是將相鄰的兩個漢字作為一個特征,例如“三星手機”可以拆成“三星”、“星手”、“手機”三個特征。每篇微博轉換為bigram特征向量,其特征值則為布爾值,即某篇微博若包含某個bigram,其值為1,否則為0。

研究已知,微博內容并不如正式文本那樣規范書寫、格局嚴謹,其中的語法錯誤、錯別字等十分常見,這就可能會增加分詞錯誤,從而影響分類器的有效性。采用bigram、而未用分詞處理,避免了分詞錯誤帶來的影響。同時,對于一些書寫錯誤的詞或相應詞的變形,也能起到一定的辨識作用。

1.3 褒貶分類模型

采用改進的邏輯回歸模型,利用褒貶數據可以學習到一個褒貶義分析模型θJ。但由于訓練樣本少、情感詞匯覆蓋面不足,本文將利用情感詞典作為詞匯權重的先驗值、并加入到褒貶義模型中,這在一定程度上緩解了詞特征的稀疏問題。

每個褒義詞(貶義詞)被賦予一個常數權重Wd加入θJ中,得到θJD。具體來說,由于本文采用的是bigram,因此詞典上每個褒貶義詞按照bigram切分后,每個褒義詞對應bigram權重之和為Wd,每個貶義詞對應bigram權重之和則為-Wd。基于此,可利用θJD對微博的褒貶義進行判定。為簡便起見,本文即將|Wd|設為1。

1.4 主客觀分類與褒貶義分類融合的情感傾向性強度模型

如前所述可知,為避免主客觀分類的錯誤傳遞到褒貶分類中,本文將二者結合,進而提出了情感傾向性強度模型,而利用該模型則可選擇獲得具有較強的情感傾向性的微博。微博的情感傾向性強度越大,含有褒貶義情感的概率也會越大。

具體來說,一方面,從表1中可以看出,主客觀分析模型學習到的詞匯往往不帶有情緒傾向性。但從褒貶義角度,如果一個用戶帶有強烈的褒貶義傾向,則該微博是主觀微博的概率則會相應增大。hit2lab_run4是hit2lab_run1根據話題對微博進行篩選的實驗結果。微博與話題的相似性利用語言模型計算,將與每個話題最為相似的前2 500條微博作為備選,并對這些微博采用與hit2lab_run1相同的方法,進行主客觀分類后,再將判定為主觀的微博根據θJD做出最終褒貶判斷。

hit2lab_run5是情感傾向性強度模型的實驗結果。通過利用語言模型計算每篇微博與話題的相似度得分,每個話題選擇得分最高的7 000條微博,共21 000條微博,同事使用情感傾向性強度判定模型θP,選取情感傾向性強度最大的10 000篇微博,再根據θJD給出最終褒貶分析結果。

2.4 實驗結果

3 結束語

在微博的情感傾向性分析中,為解決主客觀分類錯誤向褒貶義分類的傳遞,本文提出了將主客觀分類和褒貶分類融合的微博情感傾向性強度模型,利用該模型能夠減少錯誤傳遞的影響。而且,利用微博情感傾向性強度模型可以較好地選擇出富含情感的微博。實驗結果表明,本文所提出的方法以較少的精確率代價換來了召回率的較大提升,從而獲得了衡量總體性能的F1值的提升,其有效性已在COAE2014評測中得到了切實證明。本文所提出的融合主客觀和褒貶分類的微博情感傾向性強度模型尚存在大量的研究需要繼續全面深入開展,未來將進一步探索更有效的融合方法用以提高情感傾向性分析的性能指標。

參考文獻:

[1] 趙妍妍,秦兵,劉挺. 文本情感分析[J]. 軟件學報, 2010. 21(8): 1834-1848.

[2] 謝麗星,周明,孫茂松. 基于層次結構的多策略中文微博情感分析和特征抽取[J]. 中文信息學報, 2012, 26(1): 73-83.

[3] HATZIBASSILOGLOU V, WIEBE J M. Effects of adjective orientation and gradability on sentence subjectivity[C]// Proceedings of the 18th conference on Computational Linguistics, 2000(1):299-305.

[4] KIM SM, HOVY E. Automatic detection of opinion bearing words and sentences[C]//Proceedings of the International Joint Conference on Natural Language Processing, 2005, 61?66.

[5] WHITELAW C, GARG N, ARGAMON S. Using appraisal groups for sentiment analysis[C]// Proceeding Of the ACM SIGIR Conference On Information and Knowledge Management. New Youk: ACM Press, 2005:625-631.

[6] RILOFF E, WIEBE J. Learning extraction patterns for subjective expressions[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing , 2003:105?112.

[7] YU H, HATZIVASSILOGLOU V. Towards answering opinion questions: Separating facts from opinions and identifying the polarity of opinion sentences[C]//Proceedings of the 2003 conference on Empirical Methods in Natural Language Processing. 2003:129?136.

[8] YAO TF, PENG SW. A study of the classification approach for Chinese subjective and objective texts[C]// Proceeding of the third National Conference for Information Retrieval and Content Security. 2007:117?123.

[9] PANG B, LEE L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics , 2004:271?278.

[10] BARBOSA L. FENG J. Robust sentiment detection on Twitter from biased and noisy data[C]// Proceedings of the 23rd International Conference on Computational Linguistics, 2010:36–44.

[11] PARK A, PAROUBEK P. Twitter as a Corpus for Sentiment Analysis and Opinion Mining[C]//Proceedings of the International Conference on Language Resources and Evaluation. 2010:1320-1326.

[12] DAVIDOV D, TSUR O, RAPPOPORT A. Enhanced sentiment learning using Twitter hashtags and Smileys[C]// Proceedings of the 23rd International Conference on Computational Linguistics. 2010:241–249.

[13] JIANG Long, YU Mo, ZHOU Ming, et al. Target-dependent Twitter sentiment classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 2011:151-160.

[14] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language processing , 2002(10): 79?86.

[15] CUI H, MITTAL V, DATAR M. Comparative experiments on sentiment classification for online product reviews[C]//Proceedings of the 21st national conference on Artificial intelligence, 2006(2): 1265?1270.

[16] 譚松波,王素格,廖祥文,等. 第五屆中文傾向性分析評測技術報告[C]// 第五屆中文傾向性分析評測會議, 2013:5-33.

主站蜘蛛池模板: 免费毛片视频| 成人综合网址| 中文字幕天无码久久精品视频免费| 天天操天天噜| 欧美日韩成人在线观看| 午夜视频免费一区二区在线看| 免费网站成人亚洲| 青青青亚洲精品国产| 97se亚洲综合在线| 成人亚洲视频| 丁香五月激情图片| 又粗又大又爽又紧免费视频| 婷婷99视频精品全部在线观看 | 婷婷五月在线视频| 亚洲va视频| 99热这里只有精品免费国产| 欧美午夜在线观看| 99伊人精品| 再看日本中文字幕在线观看| A级毛片高清免费视频就| 亚洲首页在线观看| 亚洲欧美成人影院| 欧美啪啪视频免码| 欧美日韩北条麻妃一区二区| 91啪在线| 全午夜免费一级毛片| 日本道中文字幕久久一区| 日韩欧美综合在线制服| 宅男噜噜噜66国产在线观看| a级毛片一区二区免费视频| 国产激爽大片高清在线观看| 欧美97色| 人妻免费无码不卡视频| 91色在线观看| 亚洲欧美成aⅴ人在线观看| 夜夜拍夜夜爽| 夜精品a一区二区三区| 婷婷中文在线| 麻豆精品在线播放| 国产一级片网址| 一区二区三区精品视频在线观看| 国产自视频| 国产精品免费p区| 成色7777精品在线| 久久久噜噜噜久久中文字幕色伊伊| 国产精品久久自在自2021| 日本a∨在线观看| 免费a级毛片18以上观看精品| 久久一本精品久久久ー99| 久久久受www免费人成| 亚洲人成网线在线播放va| 天天色综网| 国产麻豆精品久久一二三| 国产在线视频福利资源站| 亚洲视屏在线观看| 国产成人调教在线视频| 四虎影视永久在线精品| 久久熟女AV| 999国内精品久久免费视频| 99re这里只有国产中文精品国产精品 | 日韩欧美国产另类| 久久一色本道亚洲| 欧美性猛交一区二区三区| 少妇精品网站| 成人在线观看不卡| 亚洲成人网在线观看| 国产精品无码一二三视频| 亚洲视频影院| 无码中文AⅤ在线观看| 国产精品亚洲日韩AⅤ在线观看| 日韩福利视频导航| 中文字幕亚洲另类天堂| 日本午夜影院| 亚洲人成电影在线播放| 无码日韩人妻精品久久蜜桃| 欧美午夜小视频| 午夜激情福利视频| 国产精品夜夜嗨视频免费视频| 亚洲色图欧美在线| 香蕉eeww99国产在线观看| 在线观看无码av五月花| 久久精品只有这里有|