999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

情感分類綜述

2016-11-14 03:27:46李超男
現代計算機 2016年29期
關鍵詞:分類監督特征

李超男

(四川大學計算機學院,成都 610065)

情感分類綜述

李超男

(四川大學計算機學院,成都610065)

隨著電子商務和媒體社交工具的普及,互聯網上充斥著極其豐富的信息資源。商業界、政界和學術界敏感的認識到這些數據的寶貴,大批研究者開始分析抽取這些數據中的信息。情感分類受到研究者們的密切關注,因為有效的情感分析可以引導人們消費、幫助商家改進研究新產品、對社會輿情進行監控等。介紹情感分類的機器學習方法和側重解決的問題,并對目前情感分類的研究進展進行總結歸納。

情感分類;情感分析;評價指標;特征選擇

0 引言

目前,隨著媒體社交工具如微博、微信等的蓬勃發展,人們越來越喜歡在網上發表自己的情感和觀點。因此,對網絡上這些大量的帶有情感的數據進行分析分類對于電子商務中用戶決策和輿情監控等有重要的意義。情感分類是一種特殊的文本分類,它對包含有主觀傾向性的文本進行分析整理得到文本發表者對某種觀點的支持與否,如人們對于“衣服”的“尺碼、布料、做工、設計”等屬性的情感傾向。本文從機器學習方法和情感分類側重關注要解決的問題對情感分類研究工作進展進行分析、闡述、總結。

1 情感分類的機器學習方法

1.1有監督學習的情感分類

監督學習是一種根據給定標簽的數據集不斷調整函數參數使其達到期望目標的機器學習任務。Pang首次運用監督學習方式進行情感分類;他在文獻[1]中比較了樸素貝葉斯、最大熵和支持向量機三種分類算法及特征選擇策略(Bigram、Unigram、Parts-of-Speech)及詞位置和特征權重的選擇在情感分類中的效果,證明了情感分類任務比主題分類要復雜困難[1]。

此后,很多研究者致力于提高監督學習的情感分類研究。如Kim和Hovy借助主題來進行英語詞和句子的情感分類,后來他們利用使用語義角色標注的語義結構從網絡新聞媒體中分析文本發布者和該文本主題的觀點[2]。Balamurali and Joshi使用詞義特征(WordNet中的同義反義詞集)進行情感分類,實驗結果表明比基于詞特征的分類效果要好得多[3]。不同于傳統詞袋模型,Bespalov等將文檔看做BON (bag-ofngram,(n>3))并使用latent n-grams解決這種方法引發的維度災難[4]。

1.2半監督學習的情感分類

半監督學習是在大量沒有標注的數據集(US)和少量已標注數據集 (LS)上進行學習的問題。協同學習(Co-training)、自學習、Transductive SVM和EM是最常見的算法。Co-training是用在數聚集特征劃分到的不同特征集上獨立學習到的分類器在無標注數據集上進行分類或者標注。Wan就采用Co-training方法使用少量有標注的英文語料在大量的無標注中文語料上進行了高效的中文情感分類[5]。Li和Huang也采用了協同學習方法對分成個人和非個人兩種類別的文本清醒半監督情感分類[6]。Dasgupta和Ng采用以將明確的容易提煉的和模糊的難以分類的評論區分開來為主要思想的半監督方法進行極性分類[7]。

另外值得一提的是,Sindhwani和Melville采用基于文章和詞的二部圖即用詞的先驗知識結合未標記語料進行情感分類[8]。形、音、義是語言的三個屬性,其中義尤其重要。研究文本的詞義語義信息無疑對于自然語言處理數據挖掘有很重要的意義。隨著深度學習算法的日益成熟,自然語言處理研究者們將深度學習算法逐漸引入NLP任務中并取得較好效果。Zhou和Chen提出了一種由RBM和無監督學習方法結合構造的半監督學習算法AND[9]。

1.3無監督學習的情感分類

無監督學習的情感分類僅在未標注的數據集上進行學習,他們提取未標注數據集的情感傾向特征然后根據這些特征給數據集打上情感類別的標簽。最典型的無監督學習是聚類,聚類使得數據集中的數據按照某些相似的特征分類組織。聚類類型有劃分聚類(K-means、CLARA、PCM)、層 次 聚 類 (CURE、ROCK、CHEMALOEN)、基于密度聚類(DBSCAN、FDC、OPTICS)、基于網格聚類(SING、CLIQUE)和基于模型聚類(COBWEB、CLASSIT)。以往的無監督情感分類大多數都是借助種子詞集實現,例如:Turney抽取含有形容詞和副詞短語的語料,之后計算這些短語與種子詞“poor”及“excellent”的點互信息,然后用得到的點互信息計算短語的情感傾向得分[10]。

只考慮每個單詞的極性然后通過計算該詞語在各個極性中頻數的多少決定文檔的情感傾向效率是很低的,如:“完美”一詞表現出了直觀的積極性,但若是“完美的混亂”這個短語所表達的情感傾向就不同了;基于單個詞的向量空間模型雖在學習詞法信息方面取得很大成功,但它們不能準確捕捉長短語或句子多表達的綜合信息。Weichselbraun and Poria就在句子層面即結合上下文環境進行情感分類[11]。Richard Socher團隊依次提出向量矩陣空間,遞歸神經網絡RNN,MV-RNN和RNTN等基于語義分析樹結構的方法進行句子層面語義分析[12]。

2 情感分類任務研究的問題

2.1領域適應性

情感分類具有領域相關性,研究者發現監督學習的情感分類方法在訓練測試集分屬不同領域的數據集上分類效果較差。Hu和Liu研究發現對產品的評論分類結果與在新聞和文學上的評論分類結果是不同的[13]。所以解決領域適應性問題是情感分類的重要研究方向。研究者們一直在尋找一種有效的映射方法,使得一個領域的數據集特征可以映射到另一個領域的數據集特征,即找到這些特征的相關性。領域適應中的訓練集的選取、特征選擇和各種分類器的融合是具體的研究內容。Alec Go和Richa Bhayani用推特上的博文進行情感分類,這種數據集對于模型的建立非常重要,訓練出來的模型適用于其他領域[14]。吳瓊和劉悅提出基于熱傳導模型思想的框架進行跨領域情感分類[15]。

跨領域要求有大的涉及多領域的訓練數據集,如果采用有監督的方式就會耗費大量人工去標注數據集,所以絕大多數采取半監督或者無監督方法去自動學習數據集的特征。Deschacht and Moens提出了隱含詞語言模型,這個模型是無監督的,它通過對詞匯進行聚類減少了語義角色標注中詞匯化特征的稀疏性[16]。聚類緩解了詞匯化特征的稀疏性,但是在句法結構上提取的特征的稀疏性幾乎沒有方法進行有效的解決。在圖形處理計算視覺領域可以有效地自動學習發現圖片數據集的高層次特征并取得巨大成功的深度學習算法引起了NLP學者們的視線。莊濤就采用可以學習到兩個領域的公共特征的DBN模型減少了領域特征之間的稀疏性。Glorot和Bordes采用一種疊加自動去噪編碼器(Stacked Denoising Auto-Encoders)和稀疏整流裝置單元結合的深度學習方法用于情感分類,而他們設計的模型在含有22個領域的評論上效果很好[17]。

2.2數據不平衡

數據不平衡就是指收集的數據集中各類數據分布及其不均勻,如二分類問題,屬于正例和負例的數據比例為500:1,這種現象就屬于數據不平衡。在情感分類問題中,實際收集到的語料集大多是不均勻的,傳統的分類方法將會將類別偏向多數的類別降低分類器的分類性能。解決數據不平衡問題有兩種思路:第一種是數據層面,既然數據平衡那么就尋找適當的抽樣算法讓數據達到平衡,具有代表性的抽樣方法有重采樣(欠采樣和過采樣)、SMOTE、Informed Undersampling等;第二種是算法層面,主要考慮數據錯分即多的一類被分為少數,少數被分為多數這種誤分類所導致的代價函數,最主要的算法思想就是代價敏感學習。

3 情感分類評價指標

一般情感分類器采用以下三個評價指標:正確率和召回率(查全率)以及F-score。

表1

正確率P和召回率R的計算公式分別如下:

F-score表示準確率和查全率的調和平均值。

4 結語

情感分類作為自然語言處理中文本分類的一種,在商界和學術界都得到了很大關注,是科研工作者們的研究熱點也在研究過程中獲得很大進展。本文從機器學習方法和情感分類側重研究的問題出發,介紹了一系列的相關工作。情感分類技術中文本的表示(VSM、詞組、概念)、文本特征選擇方法(信息增益、χ2統計量、互信息……)、特征權重計算(TF-IDF、TFC、ITC、熵……)、分類器設計這些因素的選擇至關重要。目前的研究工作主要側重于文本特征的提取和分類模型的創建。

[1]Pang B,Lee L,Vaithyanathan S.Thumbs up:Sentiment Classification Using Machine Learning Techniques[C].Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10.Association for Computational Linguistics,2002:79-86.

[2]Kim S M,Hovy E.Determining the Sentiment of Opinions[C].Proceedings of the 20th International Conference on Computational Linguistics.Association for Computational Linguistics,2004:1367.

[3]Balamurali A R,Joshi A,Bhattacharyya P.Harnessing Wordnet Senses for Supervised Sentiment Classification[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1081-1091.

[4]Bespalov D,Qi Y,Bai B,et al.Sentiment classification with Supervised Sequence Embedding[C].Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Springer Berlin Heidelberg,2012:159-174.

[5]Wan X.Co-training for Cross-Lingual Sentiment Classification[C].Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 1-Volume 1.Association for Computational Linguistics,2009:235-243.

[6]Li F,Huang M,Zhu X.Sentiment Analysis with Global Topics and Local Dependency[C].AAAI.2010,10:1371-1376.

[7]Dasgupta S,Ng V.Mine the Easy,Classify the Hard:a Semi-Supervised Approach to Automatic Sentiment Classification[C].Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume 2.Association for Computational Linguistics,2009:701-709.

[8]Sindhwani V,Melville P.Document-Word Co-Regularization for Semi-Supervised Sentiment Analysis[C].2008 Eighth IEEE International Conference on Data Mining.IEEE,2008:1025-1030.

[9]Zhou S,Chen Q,Wang X.Active Deep Networks for Semi-Supervised Sentiment Classification[C].Proceedings of the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:1515-1523.

[10]Turney P D.Thumbs up or Thumbs Down:Semantic Orientation Applied to Unsupervised Classification of Reviews[C].Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2002:417-424.

[11]Weichselbraun A,Gindl S,Scharl A.Extracting and Grounding Context-Aware Sentiment Lexicons[J].IEEE Intelligent Systems,2013,28(2):39-46.

[12]Socher R,Perelygin A,Wu J Y,et al.Recursive Deep Models for Semantic Compositionality over a Sentiment Treebank[C].Proceed

ings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).2013,1631:1642.

[13]Hu Y,Lu R,Li X,et al.Research on Language Modeling Based Sentiment Classification of Text[J].Journal of Computer Research& Development,2007,44(9):1469-1475.

[14]Go A,Bhayani R,Huang L.Twitter Sentiment Classification Using Distant Supervision[J].CS224N Project Report,Stanford,2009,1:12.

[15]吳瓊,劉悅,沈華偉,等.面向跨領域情感分類的統一框架[J].計算機研究與發展,2013,50(8):1683-1689.

[16]Deschacht K,Moens M F.Semi-Supervised Semantic Role Labeling Using the Latent Words Language Model[C].Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing:Volume 1-Volume 1.Association for Computational Linguistics,2009:21-29.

[17]Glorot X,Bordes A,Bengio Y.Domain Adaptation for Large-Scale Sentiment Classification:A Deep Learning Approach[C].Proceedings of the 28th International Conference on Machine Learning(ICML-11).2011:513-520.

Sentiment Classification;Sentiment Analysis;Evaluation Index;Feature Selection

Overview of Sentiment Classification

LI Chao-nan
(College of Computer Science,Sichuan University,Chengdu 610065)

With the popularity of e-commerce and social media tools,Internet is full of extremely abundant source of information.Businessman,government staff and academia realized the great value of these data,which many researchers have begun to extract information from these data.Sentiment classification attract the attention of researchers,because the effective sentiment analysis can guide consumption,help to developing new products and monitoring public opinion and so on.Introduces the machine learning methods and key problems of the sentiment classification,and gives a summary to the research progress of the sentiment classification.

1007-1423(2016)29-0041-04

10.3969/j.issn.1007-1423.2016.29.009

李超男(1991-),女,河南濮陽人,研究生碩士,研究方向為數據挖掘

2016-07-12

2016-10-10

猜你喜歡
分類監督特征
分類算一算
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
主站蜘蛛池模板: 国产男人天堂| 欧美精品啪啪| 91久草视频| 婷婷六月综合网| 日韩在线视频网站| 日韩精品成人网页视频在线| 国产在线专区| 98超碰在线观看| 成人国内精品久久久久影院| 国产午夜小视频| 久久伊伊香蕉综合精品| 欧美三级自拍| 欧洲成人免费视频| 视频一本大道香蕉久在线播放| 91成人在线免费观看| 国产不卡国语在线| 亚洲精品视频网| 毛片在线看网站| 综合色亚洲| 九九热精品视频在线| 玖玖免费视频在线观看| 制服丝袜无码每日更新| 欧美性久久久久| 在线观看无码av免费不卡网站| 99精品国产自在现线观看| 国产精品亚洲综合久久小说| 毛片免费在线视频| 亚洲成年人网| 青青草原国产精品啪啪视频| 国产H片无码不卡在线视频| 国产91小视频在线观看 | 五月婷婷综合网| 欧美一级色视频| 992Tv视频国产精品| 亚洲一区二区在线无码| 精品三级网站| 国产黄色免费看| 国产成人精品午夜视频'| 99热国产在线精品99| 欧美成a人片在线观看| 中文字幕天无码久久精品视频免费 | 中文字幕1区2区| 国产成人综合久久精品尤物| 精品国产欧美精品v| 国产污视频在线观看| 波多野结衣第一页| 九九热这里只有国产精品| 91麻豆国产精品91久久久| 亚洲欧美一级一级a| 国产精品手机在线播放| 毛片网站在线看| 伊人狠狠丁香婷婷综合色| 亚洲AV无码一二区三区在线播放| 91小视频版在线观看www| 欧美天天干| 午夜福利在线观看成人| 中国成人在线视频| www.亚洲色图.com| 国产精品天干天干在线观看 | 亚洲无线观看| 国产在线精品香蕉麻豆| 亚洲精品成人福利在线电影| 小13箩利洗澡无码视频免费网站| 国产丰满大乳无码免费播放| 亚洲v日韩v欧美在线观看| 亚洲成人网在线观看| www.亚洲一区| 日韩免费中文字幕| 精品伊人久久久久7777人| 午夜精品福利影院| a毛片在线播放| 成人免费黄色小视频| 国产高清无码第一十页在线观看| 久久青草免费91观看| 这里只有精品在线| 久久毛片网| 中文字幕第4页| 99青青青精品视频在线| 青草国产在线视频| 国产成人一区二区| 国产欧美日本在线观看| 成人永久免费A∨一级在线播放|