999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微博情感傾向算法的改進與實現

2013-04-29 17:47:38張偉舒呂云翔
知識管理論壇 2013年9期

張偉舒 呂云翔

【摘要】為了提升對微博數據分析的準確度,首先對微博的發展現狀及文本特點進行分析;其次提出全新的情感傾向詞典構建方案,在改進現有詞典的同時加入三個全新類型的詞典,并以此作為詞法分析的基礎;隨后建立可解析詞與詞、子句與子句之間的邏輯關系的語法庫,從而實現對微博文本的語法分析;最后,應用本文提出的改進算法,設計、實現算法驗證程序并進行測試。結果表明,改進算法在處理微博文本數據時正確率為80.74%,較原算法提高了22.72%。

【關鍵詞】情感傾向分析 微博 情感詞典 算法

微博情感傾向算法的改進與實現

自2006年Twitter在國外興起開始,微博以其方便、快捷的特點迅速風靡全球。據統計,Twitter在2012年平均每天都有1億7 500萬Tweet被發布;在國內,新浪在率先推出微博服務后,已經聚集了4.24億微博用戶,平均每天活躍用戶多達4 230萬[1]。同時,騰訊微博也借助于其在即時通訊領域的優勢,用戶數量很快就突破了2億,處于強勢追趕階段。各種形式的微博服務已經成為網民發布信息、交換對于事件的看法、觀點與態度的重要途徑。

微博用戶數量的快速增長,使得網絡上出現了海量的、以文本形式存在的數據信息。這些信息包含了用戶對于特定事物的心情、看法、評價等。由于微博特有的文本長度限制,單條微博所能提供的信息相對有限,因此需要通過增加數據量來彌補這一缺陷。面對大量的文本數據信息,采用人工手段進行傾向分析往往會力不從心,因此,需要一種可以快速準確地對大規模文本進行傾向標注的方法,微博情感傾向分析研究就是在這種背景下發展起來的。

背景及相關研究

微博情感傾向性分析就是對說話人的態度(或稱觀點、情感)進行分析,也就是對文本中的主觀性信息進行分析[2]。早期的微博情感傾向分析主要是進行詞語語義的傾向計算[3]和文本情感分類[4-6]等工作。隨著研究的不斷深入,分析的重點逐漸轉移到了更加精細的粒度上,如產品屬性挖掘[7]、情感摘要[8]、情感分類器等[9]。

現有的情感傾向分析大致可以分成4個級別: 詞語級別、短語級別、語句級別和篇章級別[10]。詞語級別的分析主要是基于詞典的語義相似度或層次結構來計算單詞的情感傾向[11]。短語級別的情感傾向分析是在詞語級別之上引入了程度詞、否定詞等分析內容,從而增加了判斷情感傾向正負強弱的準確性。短語級別的情感傾向分析可以采用語料庫[12-13]和詞典[14-15]兩種方法。句子級別的情感傾向分析主要包括主客觀語句的區分、主觀語句的傾向性計算以及語句中細粒度內容的提取[16-18]。篇章級別的情感傾向分析就是從一個整體的角度對文本進行情感傾向性分析[19-20]。在這4個級別上已有了一定數量的研究成果。

2009年,Yang Shen[14]提出了MBEWC微博情感傾向計算器。 該方法在算法設計時考慮了目標數據的特殊性,并進行了一些針對微博文本分析的改進。但在進行數據分析時,仍然存在以下缺陷:①沿用了由情感詞詞典、程度詞詞典和否定詞詞典三個詞典組成的短語情感傾向分析體系,沒有添加其他針對微博數據特征的詞典系統;②計算子句傾向時,采用的是直接統計的方式,沒有將詞匯之間的修飾關系考慮在內;③分析子句之間關系時,雖然考慮到了子句先后順序對子句情感傾向權重的影響,但是卻沒有進一步將邏輯關系考慮在內,導致該算法在分析轉折句、感嘆句等特殊句式時正確率下降。

本文在Yang Shen等所提出的MBEWC微博情感傾向計算器的基礎上,在清華大學人機交互與媒體集成研究所的支持下,提出了針對微博文本信息的特殊性的改進算法。本算法以微博文本中的情感傾向元素以及相關的語法特征作為情感傾向證據,在原有的以情感詞、程度詞、否定詞為核心的分析系統基礎上,針對微博的語言特征及用戶使用習慣,添加了表情、語氣詞以及用于進行主客觀判斷的部分特殊詞,以有效地提升情感傾向分析的準確度。除此之外,本算法還引入了修飾語法和邏輯語法的概念,以確定文本信息中詞與詞之間、子句與子句之間的邏輯關系。新算法通過子句分割、子句傾向計算、邏輯關系計算、整句傾向匯總等步驟實現。算法驗證程序可根據獲取的詞典、語法庫等數據信息,對微博情感傾向進行自動標定。最后進行了網絡真實微博信息的相關測試。

情感傾向詞典構建與分析

文本情感傾向分析的基礎是判斷詞語的語義傾向[21]。現有的情感傾向詞典構建中,比較常見的是情感詞詞典、否定詞詞典以及程度詞詞典。分析時通常以單個詞作為目標,而忽略了詞與詞之間的順序、修飾關系,導致分析準確率有限。本文在對現有的上述三個詞典進行改進的基礎上,添加了特殊標識符詞典、表情詞典以及語氣詞詞典三個新的詞典。以這六個不同功能的詞典構成一個新的詞典系統,對文本數據進行綜合分析,以期得到一個更加準確的結果。

首先,本文對現有的情感傾向詞典系統進行了改造與重構。新的情感傾向詞典系統不僅對MBEWC中提到的情感詞詞典、程度詞詞典和否定詞詞典進行了內容和結構上的改進,而且新添加了表情詞典、語氣詞詞典以及特殊標記符詞典,從而提升文本分析的準確度。其中,情感詞詞典包含可以反映用戶情感傾向的名詞、形容詞和副詞,如“高興”、“失望”等;程度詞詞典包含可以反映用戶情緒激烈程度的形容詞和副詞,如“非常”、“特別”等;否定詞詞典包含表示否定關系的詞匯,如“不”、“非”等;表情詞典包含微博中可能出現的表情符號,如“ ”(大笑)、“OTZ”(膜拜)等;語氣詞詞典包含各種語氣助詞和感嘆詞,如“哈哈”、“唉”等;特殊標識符用于識別微博中的特定標記,包含各種新聞、廣告的對應標記。在以上六個詞典中,前三個詞典適用于大多數文本傾向分析工作,后三個則是針對微博的文本特征特別設計的,可以有效地提升分析的準確率。

隨后,對網絡上1萬條新浪微博數據進行分詞、統計,為詞典中的各個詞條計算對應的權值:情感詞、表情詞與語氣詞的權值表示用戶的基礎傾向,權值范圍是[-20,20];否定詞表示否定關系,權值為-1;程度詞表示情感激烈程度,權值范圍是[0.7,1.3];特殊標記符用于判斷情感傾向的可信度,權值為1或0。每個詞條均由多人分別進行標記,取其平均值作為結果,從而保證這一過程的客觀性。

新建立的詞典系統共包括詞條2 637條(見表1)。

通過這種方法建立的詞典系統的優點是:①針對性強。由于詞典組中的詞條均來自真實的微博數據,因此與其他方式建立的詞典組相比,該詞典組包含了較多的網絡用語和專有詞匯(這些內容在其他文本數據中十分少見),從而更加適合處理微博數據。②分析全面。這個詞典組由六個詞典構成,可以對微博文本數據進行表情符號、語氣特征以及可信度進行評判,使得整個分析過程更加全面合理。

微博情感傾向算法主要流程

在進行數據分析之前,先要對數據進行篩選,剔除微博系統自動發布的廣告和新聞信息,僅保留能夠反映用戶真實情感傾向的微博數據。這部分工作主要依靠特殊標識符詞典的識別和判斷。

微博情感傾向分析改進算法的主要流程如下:

● 子句分割。根據標點符號將讀入的微博數據分割為多個子句c1,c2,…,cn。由于部分標點符號會對子句的傾向值產生影響(例如小括號中的內容多為解釋說明,屬于次要信息),因此需要對部分子句進行額外的權值運算,權值取值范圍為[0.5,1.5]。

● 表情符號分析。利用表情詞典,對于ci中的表情符號a1,a2,…,an進行匹配(見圖1),并累計表情符號的權值為Ai。如果Ai大于特定閾值,則以Ai作為子句ci的情感傾向值Eci,并直接執行“重復計算”流程;如果Ai小于特定閾值,則將表情符號從ci中刪去,生成ci,并進行后續分析。

● 修飾關系分析。利用情感詞詞典、程度詞詞典以及否定詞詞典識別ci中的情感詞(e1,e2,…,en)、程度詞(d1,d2,…,dn)和否定詞(n1,n2,…,nn)。修飾關系的分析主要是根據特定方向的最近原則來確定,即根據每個程度詞和否定詞在詞典中的修飾標記位,確定其修飾方向,并將該方向最近的一個情感詞作為其修飾目標。程度詞和否定詞的權值會與被修飾的情感詞相乘,作為修飾后的情感詞權重ei。隨后,已經完成修飾的程度詞和否定詞會被從ci中刪去,生成ci(見圖2)。

● 語氣分析。利用感嘆詞詞典,識別ci中的語氣詞(m1,m2,…,mi),從而進行子句的語氣分析。

● 子句傾向匯總。將子句中的表情(ai)、情感詞(ei)以及語氣詞(mi)的系數進行加和,得到子句的傾向值Eci。

● 重復計算。當子句ci的傾向值計算完成后,轉至下一子句,并重復上述的過程,直至所有子句的傾向值計算完成。

● 子句邏輯分析。根據子句中所包含的邏輯連詞,對特定子句進行額外的權值運算,從而增強和削弱部分子句的重要程度。此外,還需要根據子句的先后順序,進行權值運算,突出位置靠后子句的重要程度,得到邏輯分析后的子句傾向值Eci。

● 子句傾向匯總。對每一個子句傾向值Eci進行累加,得到該微博的情感傾向系數E。

至此,微博數據的情感傾向分析已經完成,E即為所求的傾向系數。

算法測試評估

在完成上述工作后,利用C++編寫算法驗證程序。該程序可以讀入詞典系統以及微博數據,并按照算法流程進行計算,最后得出相應的情感傾向。筆者使用這個程序對算法進行測試。測試中將以下結果視為判斷成功:積極傾向微博的計算結果>0;中立傾向微博的計算結果=0;消極傾向微博的計算結果<0。

4.1 數據準備

利用網絡爬蟲重新獲取了一定量的微博數據,并從中隨機抽取了10 000條用于測試。這樣做可以有效降低爬蟲軟件帶來的數據來源局限性,使得測試結果更加客觀。

測試數據的情感傾向由多人分別進行標定,并在最后進行統一匯總。匯總時,將情感傾向標定意見相同的微博作為樣例,對意見不同的微博進行討論,直至所有測試數據的情感傾向被確定。測試數據的分布如表2所示:

4.2 算法測試

使用對比試驗的方式,借用現在比較成熟的ROST_EA[14]微博情感傾向分析系統與本文所提出的改進算法進行比較,從而明確新算法的特點、優勢與不足。本文主要比較了兩種算法的召回率與準確率。

召回率代表原有的某種傾向微博(積極、中立或消極)被算法成功識別的概率。即召回率越高,算法在處理該類微博時遺漏越少。

測試結果如表3所示:

準確率代表在算法做出某種傾向判斷(積極、中立或消極)時,判斷為正確的概率,即準確率越高,算法在做出該類判斷時錯誤越少。

測試結果見表4。

從表4可以看出,與ROST_EA相比,新算法在處理情感傾向比較明顯的微博時略遜于ROST_EA,分別低0.84%和3.48%;但是在處理情感傾向比較模糊或偏向中性的微博時,準確率提高了46.53%。 整體而言,在分析微博數據的過程中,新算法的正確率高達80.74%,遠高于ROST_EA的58.02%。

盡管ROST_EA在處理情感傾向明顯的微博時召回率略微高于本算法,但是這并不代表該算法的分析模式占優。在分析這些微博時,ROST_EA總共將4 901條微博標記為積極傾向、將3 053條微博標記為消極傾向,但它們之中判斷正確的僅有2 678條和1 314條。這說明該算法在判斷出較多的具有傾向性微博的同時,也包含了大量的錯誤判斷,導致整體效果有限。反觀新算法,其不但在判斷傾向性明顯的微博時表現優秀,在面對中立傾向的微博時也一樣具有很高的召回率,達到了召回率和正確率的平衡。改進的算法與

4.3 測試結果分析

新算法針對現有算法的缺陷進行了改進和完善,具體改進效果如表5所示:

從表5可以看出,新算法在詞典系統、詞法分析和語法分析等方面的改進提升了數據分析的正確率。其中,僅詞典系統改進就使得分析正確率提升了16.05%,從而證明了詞典系統改進方案的有效性。此外,詞法分析與語法分析分別使分析正確率提升了4.15%和3.52%,這一方面顯示出本文所提出的詞法語法分析體系的合理性,另一方面也反映了現有的修飾規則和語法庫還不夠完善,有進一步改善的空間。最后,改進算法中的格式統一、文字翻譯等其他改進項也使得正確率得到了0.33%的提升。

整體而言,本文提出的改進算法對現有算法的缺陷進行了彌補,并提出了一系列改進措施,使得微博文本數據分析的正確率有了較大的提升。

結 語

本文提出了一種針對微博系統的情感傾向分析算法,用于對網絡微博文本進行傾向性分析。與現有的微博情感傾向分析算法相比,這套算法考慮了更多的語法因素,從而使分析計算過程更加科學合理。最后,本文還對所提出的算法進行了測試并與現有的微博情感傾向算法進行對比,證明新算法具備明顯的優勢和特點。

[參考文獻]

[1] 新浪網. 新浪2012年第三季度財務報告[EB/OL].[2013-04-17].http://tech.sina.com.cn.

[2] 馮希瑩,王來華. 輿情概念辨析[J]. 社會工作(學術版), 2011(5):83-87.

[3] Hatzivassiloglous V, MCKeown K. Predicting the semantic orientation of adjectives[C]// Proceedings of ACL-97, 35th Annual Meeting of the Association for Computational Linguistics. Madrid: ACL, 1997:174-181.

[4] Zagibalov T, Carroll J. Automatic seed word selection for unsupervised sentiment classification of Chinese text[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008).Manchester: Coling 2008 Organizing Committee, 2008:1073-1080.

[5] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing(EMNLP 2002). Philadelphia:ACL,2002:79-86.

[6] Turney P D, Littman M L. Measuring praise and criticism: Inference of semantic orientation form association[J]. ACM Transactions on Information Systems, 2003, 21(4):315-346.

[7] 王素格. 基于Web的評論文本情感分類問題研究[D].上海:上海大學, 2008.

[8] Tan S, Wu G, Tang H. A Novel scheme for domain-transfer problem in the context of sentiment analysis[C]//Proceedings of the 16th ACM Conference on Information and Knowledge Management. Lisbon: ACM, 2007:979-982.

[9] Hu M, Liu B. Mining and summarizing customer reviews[C]//Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle: ACM, 2004:168-177.

[10] 魏韡,向陽. 中文文本情感分析綜述[J].計算機應用,2011(12):3321-3323.

[11] 杜偉夫,譚松波,云曉春,等. 一種新的情感詞匯語義傾向計算方法[J].計算機研究與發展,2009,46(10):1713-1720.

[12] Yuen R W M, Chan T Y W, Lai T B Y. Morpheme-based derivation of bipolar semantic orientation of Chinese words[C]//Proccedings of the 20th International Conference of Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2004: 1008 - 1014.

[13] 張靖,金浩. 漢語詞語情感傾向自動判斷研究[J]. 計算機工程, 2010, 36(23): 194-196.

[14] Yang Shen. Emotion mining research on Micro-blog[C]//2009 1st IEEE Symposium on Web Society(SWS 2009). Lanzhou: Lanzhou University,2009.

[15] 朱嫣嵐,閔錦,周雅倩,等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學報, 2006, 20(1): 14-20.

[16] 熊德蘭,程菊明,田勝利. 基于HowNet的句子褒貶傾向性研究[J]. 計算機工程與應用, 2008, 44(22): 143- 144.

[17] 李實,葉強,李一軍. 中文網絡客戶評論的產品特征挖掘方法研究[J]. 管理科學學報, 2009, 12(2): 142-152.

[18] 劉鴻宇,趙妍妍,秦兵,等. 評價對象抽取及其傾向性分析[J]. 中文信息學報, 2010, 24(1): 84-88.

[19] 唐慧豐,譚松波,程學旗. 基于監督學習的中文情感分類技術比較研究[J].中文信息學報, 2007, 21(6):88 - 94.

[20] 李壽山,黃居仁. 基于Stacking組合分類方法的中文情感分類研究[J]. 中文信息學報, 2010, 24(5): 56 - 61.

[21] 吳迪. 漢語微博文本特征研究[D]. 長春:吉林大學, 2012.

主站蜘蛛池模板: 久久精品国产电影| 免费人成又黄又爽的视频网站| 亚洲av无码人妻| 亚洲美女一区二区三区| 黄色网在线| 国产精品免费入口视频| 99久久精品免费观看国产| 欧美一级99在线观看国产| 亚洲三级影院| 福利片91| 中文字幕在线观| 国产欧美精品午夜在线播放| 澳门av无码| 亚洲最新在线| 国产黄视频网站| 亚洲伊人电影| 又粗又大又爽又紧免费视频| 四虎国产在线观看| 国产精品入口麻豆| 91久久国产热精品免费| 亚洲第一视频网| 99久久精品久久久久久婷婷| 久久先锋资源| 91久久国产热精品免费| 亚洲电影天堂在线国语对白| 免费观看三级毛片| 亚洲成AV人手机在线观看网站| 视频在线观看一区二区| 国产一二视频| 风韵丰满熟妇啪啪区老熟熟女| 亚洲一区免费看| 日本欧美在线观看| 久久国产V一级毛多内射| 国产美女在线免费观看| 激情无码视频在线看| 色哟哟国产精品一区二区| 亚洲 日韩 激情 无码 中出| 五月天丁香婷婷综合久久| 福利国产微拍广场一区视频在线| 一本一道波多野结衣av黑人在线| 国产清纯在线一区二区WWW| 无码人中文字幕| 国产成人91精品| 乱人伦99久久| 亚洲成人精品在线| 色老头综合网| 国产在线精彩视频论坛| 一本二本三本不卡无码| 午夜精品区| 欧美中文字幕一区二区三区| 毛片网站免费在线观看| 国产亚洲欧美日韩在线一区| 无套av在线| 国产成人麻豆精品| 久久精品丝袜| 国产爽歪歪免费视频在线观看| 久久一日本道色综合久久| jijzzizz老师出水喷水喷出| 狠狠色综合网| 日韩在线影院| 欧美一区二区三区不卡免费| 91啪在线| h网址在线观看| 无码粉嫩虎白一线天在线观看| 国产日韩欧美一区二区三区在线| 亚洲精品另类| 久久精品66| 波多野吉衣一区二区三区av| 日韩免费毛片视频| 久久免费视频播放| 久久99精品久久久久纯品| 91色在线观看| 国产精品开放后亚洲| 91麻豆精品国产高清在线| 九色91在线视频| 丁香六月激情婷婷| 免费一看一级毛片| 亚洲欧美日韩动漫| 在线国产91| 国产办公室秘书无码精品| 女同国产精品一区二区| 国产成人精品午夜视频'|