999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

細粒度微博情緒識別的集成算法研究

2015-04-29 00:44:03王紅
智能計算機與應用 2015年1期

王紅

摘 要:目前大部分微博情緒分析研究集中在粗粒度情緒的劃分,但細粒度微博情緒更能反映公眾對輿論熱點、政策的反應。因此提出了一種結合樸素貝葉斯和K最近鄰的集成算法,著重對新浪微博展開了情緒識別與分析的研究。首先采用樸素貝葉斯分類算法將微博分為有無情緒兩類。然后根據情緒本體庫的分類規則,分別構建待預測微博和已標注微博的21維情緒向量。最后采用K最近鄰算法,計算待預測情緒微博與已標注情緒微博的向量相似度,從而獲取待預測微博的細粒度情緒。實驗表明K最近鄰算法的引入,在微博細粒度情緒識別的準確率上取得了較好的效果。

關鍵詞:情緒分析;細粒度;樸素貝葉斯;K最近鄰;微博

中圖分類號:TP391 文獻標識碼:A 文章編號:2095-2163(2015)01-

Abstract: Currently, most sentiment analysis of micro-blog has been focused on coarse-grained sentiment analysis, but fine-grained sentiment is better for reflecting the opinion of the public when they are facing the social focus. Therefore, an integrated algorithm which is a combination of Naive Bayes and K-Nearest Neighbor is put forward, which has been applied to the sentiment recognition and analysis of sina microblog. First, microblog is classified into two types: sentiment and non- sentiment by using Bayesian classification algorithm. And then a 21 dimension vector is built for the predicted and the marked microblog on the basis of the sentiment ontology. Finally the vector similarity between the predicted microblog and the marked ones is calculated by using K-nearest neighbor algorithm, which could help to identify the fine-grained sentiment of microblog. Experimental results show that a good result is achieved in fine-grained sentiment recognition of microblog based on the combination of Naive Bayes and K-nearest neighbor algorithm.

Keywords: Sentiment Analysis; Fine-grained; Native Bayes; K-Nearest Neighbor; Microblog

0 引 言

近年來,Web2.0技術獲得了迅速發展,而與此同時,微博作為一種新興的網絡交流媒介,正因其獨具的及時性、簡潔性和對信息傳播的便捷性特點[1],心音了越來越多的使用者和研究者。以國內的新浪微博為例,目前其上的注冊用戶已超過3億,用戶每日的發博量則突破1億條[2]。微博中用戶發表的大量信息直接反映了該用戶本體對某個事件或者政府出臺的某項政策的反應和傾向。而且,情緒作為人的內心感受和表達,在判讀其對事物的觀點傾向具有重要作用[3]。可以說微博中涉及到的任何觀點都與作者的情緒有著緊密的聯系,因而開展微博情緒的識別和劃分研究對于分析微博中海量的評論信息即具有實際現實的參考價值。但目前大部分的微博情緒分析卻只是集中在粗粒度的情緒劃分(也就是有無情緒的判斷),這在某些情況下已經無法滿足對文本信息處理的高精要求。基于此,本文根據對目前分類方法的研究提出了一種用于對微博進行細粒度情緒劃分(也就是文本情緒具體類別)的集成算法。具體來說,就是對于一條微博,先識別其是否包含情緒,而對于包含情緒的微博,則需判別其具體的情緒分類。

本文第0節分析了微博情緒識別的背景和意義,簡要介紹了本文的研究內容。第1節概略介紹了微博情緒細粒度劃分的目標以及在微博情緒方面國內外的一些研究現狀。第2節框架性地提出了本文針對微博情緒細粒度識別的總體方案,第3節完整給出了情緒細粒度識別的關鍵性技術,第4節則是集成算法的設計,而且通過實驗結合其他的算法對比了對情緒分類的效果,第5節即總結了本文工作的不足以及對下一步研究的展望。

1 相關工作

細粒度的微博情緒劃分包含兩個方面,首先判斷一條微博是否包含情緒,然后對于包含情緒的微博再進行細粒度的情緒劃分,判斷出該微博博主的主要情緒。針對于目前對情緒的分類[4],即anger(憤怒)、disgust(厭惡)、fear(恐懼)、happiness(高興)、like(喜好)、sadness(悲傷)、surprise(驚訝)、none(無情緒),細粒度的情緒劃分旨在能夠對一條微博進行上述分類的單分類輸出。

目前,國內外針對微博情緒方面取得了一定的研究成果。Alec等使用微博中的表情符號來標注正負情緒的訓練集,并通過訓練集運用距離監督的方法對微博信息解決了正負情緒的自動分類[5]。Aman等則通過一種基于知識的方法實現句子級的情緒識別[3,6]。在此基礎上,Quan Changqin等使用情緒詞對句子的情緒進行了識別,同時也研究了基于情緒詞的句子級情緒分析[3,7]。進一步地,劉歡歡等人針對微博語料中類別樣本數不平衡的問題,提出了一種提高情緒識別方法性能的樣本集成方法,主要是針對微博粗粒度的劃分,即判斷其是否包含情緒[3]。另外,龐磊等人又通過表情圖片和情緒關鍵詞對微博語料進行收集和標注,而且將情緒知識運用到了中文微博的情感分類方面[8]。

由此可見,目前對微博情緒的分析研究仍然主要集中在粗粒度情緒識別,一方面是有無情緒的識別,另一方面是正負情緒的識別。微博作為一種開放化的社交服務,無論在商業領域或是在管理領域都有著極高的應用價值。企業可以將其作為一個理想的營銷平臺,而政府則可憑此了解人們對社會公共事件和熱點問題的看法觀點。但由于其特有的語言風格和本身內容信息的多樣、海量等特點,粗粒度的情緒劃分在某些情況下已經不能滿足已經發展變化的要求,因而對微博情緒的細粒度劃分將會日益突顯其核心且先進的研究價值。

2 情緒細粒度識別的總體方案

圖1給出了情緒細粒度識別的總體流程圖,從圖中可以看到細粒度劃分微博情緒的總體流程是先擴展本體庫,在大連理工構建的情感本體詞匯庫的基礎上擴展針對微博中網絡用語的詞匯,而后對測試集和訓練集中的微博進行分詞。分詞結束后,將根據一定規則統計出詞語中用于貝葉斯分類的特征項,再通過特征項進行微博有無情緒的識別。下一步,即對測試集和訓練集中有情緒的微博文本進行向量化處理,采用K最近鄰算法,計算待預測情緒微博與已標注情緒微博的向量相似度,從而獲取待預測微博的細粒度情緒。

3關鍵性技術

3.1 擴展本體庫

本文對微博的情緒分類識別沿用大連理工大學建立的情感詞匯本體。該資源從不同的角度描述一個中文詞匯或者短語,包括詞語詞性種類、情感類別、情感強度連同極性等信息。該本體庫的情感共分為7大類21小類,具體來說,7類為樂、好、怒、哀、懼、惡、驚;21類為快樂(PA)、安心(PE)、尊敬(PD)、贊揚(PH)、相信(PG)、喜愛(PB)、祝愿(PK)、憤怒(NA)、悲傷(NB)、失望(NJ)、疚(NH)、思(PF)、慌(NI)、恐懼(NC)、羞(NG)、煩悶(NE)、憎惡(ND)、貶責(NN)、妒忌(NK)、懷疑(NL)、驚奇(PC),情感強度分為1,3,5,7,9五檔,9表示強度最大,1為強度最小[4]。

微博作為目前流行的一種互聯網應用,內容中綜合著各式各樣的網絡用語,因此研究從4 000條已經人工標注了情緒分類的新浪微博中人為地篩選出常用的網絡用語和所有的QQ表情所代表的詞語以及對情緒識別有表征意義的其他詞匯,從而完成了對極性和強度等相應屬性的標注,由此獲得了對情感本體庫的有效擴展。

3.2 分詞

針對于待分類的每條微博,首先采用中科院計算所開發的ICTCLAS分詞系統進行分詞,但考慮到微博語言的特殊性,研究中構建了分詞器中特有的停用詞庫。這樣做是因為在微博的情緒識別中,有很多諸如語氣詞之類的所謂停用詞在情緒識別的過程中都發揮了重要的表征作用。另外,研究中進一步將情緒識別所用到的大連理工構建的情感詞匯本體庫和擴展的網絡語言情感詞匯庫加入到分詞器的用戶詞典以保證分詞器對微博語句分詞的準確性。

3.3 特征項提取

為了便于對微博進行有無情緒的貝葉斯分類,則對訓練集中的每條微博進行了科學的抽象,即進行了特征項的提取。而將微博進行分詞之后,就要統計出各個詞在有無情緒兩種情況下分別出現的次數,再會選擇出一部分在有無情緒這兩種情況下出現次數差別較大的詞,并將其作為特征項。

3.4 文本表示

文本表示是指將文本從一個非結構化格式轉化成計算機可識別的結構化格式的處理過程[1]。針對于那些包含情緒的微博,在此選擇的文本表示模型則是向量空間模型,也就是將微博文本向量化。根據本體庫的構建規則,可將每條微博表示成21維的向量。其中,每一維的分量相應代表本體庫中的每一個具體的小情感分類,即每條微博均有21個小類情緒特征。并且,每個分量值將依賴于本體庫,如果微博中的詞能與本體庫中的詞相匹配,則將該詞的強度作為分量值,出現多個詞的小情感類別相同的情況就將各個詞對應的強度累加作為分量值;而對于那些小情感類別中沒有出現詞的情況,則在向量中對應的該分量值將設定為零。例如對于如下的一條真實的微博:“妹妹2年多的頑固性失眠,這次經劉醫生3次針術后,已連續一周安然入睡到自然醒,我真高興。”經過分詞之后該微博與本體庫匹配的詞為:頑固、失眠、安然、自然、高興。在本體庫中,頑固屬于NN(貶責),強度為3;失眠屬于NE(煩悶),強度為5;安然和自然都屬于PE(安心),強度分別為5、3;高興屬于PA(快樂),強度為5。那么對于該微博形成的21維向量的各分量值即可表述為:PA(5.0),PE(8.0),PD(0.0),PH(0.0),PG(0.0),PB(0.0),PK(0.0),NA(0.0),NB(0.0), NJ(0.0),NH(0.0),PF(0.0), NI(0.0),NC(0.0),NG(0.0),NE(5.0),ND(0.0),NN(3.0) , NK(0.0) , NL(0.0),PC(0.0)。

4 算法設計與實驗分析

4.1 算法思想

本文對微博細粒度情緒劃分采用樸素貝葉斯和K最近鄰的集成算法[9]。其中,用樸素貝葉斯算法進行大粒度的劃分,也就是有無情緒的劃分;在此基礎上,針對包含情緒的微博,即運用K最近鄰的算法進行細粒度的情緒劃分。

4.2 實驗設置

實驗使用的語料是由計算機學會發布的訓練語料,該語料是基于相對細粒度情緒標注規則的語料庫,以XML文檔格式組織,包括了微博的整體細粒度情緒標注以及單個句子的細粒度情緒標注。語料主要來自新浪微博,共有4 000條微博數據。語料中有8種基本的情緒:即anger(憤怒)、disgust(厭惡)、fear(恐懼)、happiness(高興)、like(喜好)、sadness(悲傷)、surprise(驚訝)、none(無情緒)。

實驗中使用了3種分類方法:支持向量機分類方法、K最近鄰分類方法、以及樸素貝葉斯-K最近鄰集成方法,針對衡量分類的性能,采用準確率作為細粒度情緒劃分的衡量標準,準確率計算如公式(1)所示:

其中#sample_correct是被正確劃分測試樣本的數目,#sample_proposed是提供的測試樣本總數。

4.3 實驗結果分析

實驗使用的訓練語料中共有4 000條微博數據,其中有情緒的微博為2 647條,無情緒的微博為1 533條。在這次實驗中,將用3 500條微博作為訓練集,其中包含有情緒的2 172條,來訓練分類模型,而用剩下的500條微博來做測試。使用SVM做8類分類預測,特征值的計算來源于對大連理工本體庫擴展后的詞匯,使用21維情緒作為最終的特征,準確率為46.8%。使用K最近鄰算法,用待測試的500條微博特征向量分別與訓練集中的3 500條微博特征向量實行余弦相似度計算得到3 500個相似度值,并取K=21(試驗中得到)個最大值,對這21個分量情緒做相似度累加,累加和最大的情緒將作為預測情緒,準確率為51.6%。使用基于樸素貝葉斯-K最近鄰集成算法,先通過樸素貝葉斯進行有無情緒的識別,在此基礎上,對有情緒的微博,則用K最近鄰算法進行細粒度的情緒劃分,做法同上,準確率為60.6%。圖2為分別使用支持向量機分類方法、K最近鄰分類方法、以及樸素貝葉斯-K最近鄰集成方法的情緒細粒度分類的效果。

由圖2可以很直觀地看出,基于樸素貝葉斯-K最近鄰的集成方法對微博細粒度情緒分類的效果要明顯好于其他兩個方法,而其提升的幅度已然都超過了5%。

5 總結與展望

本文主要研究了微博細粒度情緒識別的集成方法,通過對大連理工構建的本體庫進行針對于微博網絡語言詞庫的擴展,以特征詞為驅動,先由樸素貝葉斯分類的算法對微博進行有無情緒的二分類,而后針對有情緒的微博采用K最近鄰算法對其進行細粒度情緒的劃分。通過對兩種分類算法的集成,充分發揮了每個分類算法各自性能上的優勢,提高了對微博細粒度情緒的識別準確率。但是通過訓練集數據的測試過程也看到了一定的不足,在整個算法中過度地依賴了情感本體庫,而現實中的詞語多是動態更新變化的,因而對于那些本身是有情緒的而不包含本體庫中的詞的微博,該算法效果并不明顯。針對這些情況的后續處理,即是下一步要做的研究工作。

參考文獻:

[1] 麥藝華.面向中文微博的社會網絡分析及應用[D].廣州:華南理工大學,2012.

[2] 周勝臣,瞿文婷,石英子,等.中文微博情感分析研究綜述[J].計算機應用與軟件,2013,30(3); 161-164.

[3] 劉歡歡,李壽山,周國棟,等.中文情緒識別方法研究[J].江西師范大學(自然科學版),2013,37(2):120-124.

[4] 徐琳宏,林鴻飛,陳建美.情感詞匯本體的構造[J].情報學報,2008,27(2):180-185.

[5] GO A, BHAYANI R, HUANG L. Twitter sentiment classification using distant supervision[R]. Stanford :Stanford Digital Library Technologies Project, 2009

[6] AMAN S, SZPAKOWICZ S. Identifying expressions of emotion in text[M]// MATOUSEK V, MAUTNER P: Text, speech and dialogue, Springer:Lecture notes in computer science, ,2007,4629:196-205.

[7] QUAN Changqin,REN Fuji. Sentence emotion analysis and recognition based on emotion words Using Ren-CECps[J].International Journal of Advanced Intelligence,2010,2(1) :105-117.

[8] 龐磊,李壽山,周國棟.基于情緒知識的中文微博情感分類方法[J].計算機工程,2012,38(13):156-158.

[9] 孫涼艷.基于K近鄰集成算法的分類挖掘研究[D].西安:西北大學,2010.

主站蜘蛛池模板: 国产69囗曝护士吞精在线视频| a级毛片在线免费观看| 97成人在线观看| 激情六月丁香婷婷四房播| 精品五夜婷香蕉国产线看观看| 免费国产不卡午夜福在线观看| 日韩精品一区二区深田咏美| 久久国产高潮流白浆免费观看| 凹凸国产熟女精品视频| 天天综合网色中文字幕| 风韵丰满熟妇啪啪区老熟熟女| 国产亚洲精品无码专| 午夜老司机永久免费看片| 国产麻豆永久视频| 亚洲三级色| 国产精品分类视频分类一区| 欧美a级完整在线观看| 国产AV无码专区亚洲精品网站| 亚洲男人的天堂网| 日韩av手机在线| 国产资源站| 午夜日韩久久影院| 欧美国产三级| 国产超薄肉色丝袜网站| 欧洲极品无码一区二区三区| 直接黄91麻豆网站| 国产导航在线| 国产丰满大乳无码免费播放 | 57pao国产成视频免费播放| 国产区91| www.狠狠| 全色黄大色大片免费久久老太| 亚洲人在线| 日本三级欧美三级| 久久国语对白| 国内精品自在欧美一区| 欧美午夜在线观看| 色天天综合| 亚洲人成网站色7799在线播放| 尤物成AV人片在线观看| 欧美人与牲动交a欧美精品| 日韩欧美中文亚洲高清在线| 国产原创第一页在线观看| 亚洲日韩国产精品无码专区| 国产精品一区二区久久精品无码| 亚洲精品国产综合99| 国产又粗又猛又爽| 国产精品观看视频免费完整版| 欧美久久网| 亚洲AV成人一区二区三区AV| 东京热高清无码精品| 日日拍夜夜操| 久久综合五月| 国产亚洲欧美在线人成aaaa| 9966国产精品视频| 深夜福利视频一区二区| 91尤物国产尤物福利在线| 久久精品国产精品一区二区| 四虎国产精品永久一区| 国产精品亚欧美一区二区| 国产av无码日韩av无码网站| 国产激爽爽爽大片在线观看| 九色最新网址| 色哟哟国产成人精品| 日韩高清中文字幕| 免费国产黄线在线观看| 国产日本视频91| 国产精品99一区不卡| 狠狠色婷婷丁香综合久久韩国 | 九九热精品视频在线| 国产精品专区第1页| 国产欧美日韩资源在线观看| 亚洲精品无码日韩国产不卡| av在线手机播放| 国产福利不卡视频| 亚洲欧美激情小说另类| A级全黄试看30分钟小视频| 欧美成人精品欧美一级乱黄| 日本免费精品| 欧美综合一区二区三区| 色天堂无毒不卡| 九九香蕉视频|