999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于微博電影評論的情感分析研究

2017-03-29 06:56:55錢慎一楊鐵松
現代計算機 2017年5期
關鍵詞:特征提取文本情感

錢慎一,楊鐵松

(鄭州輕工業學院計算機與通信工程學院,鄭州 450001)

基于微博電影評論的情感分析研究

錢慎一,楊鐵松

(鄭州輕工業學院計算機與通信工程學院,鄭州 450001)

近幾年,數據挖掘分析成為一個熱點研究的課題,其中的文本研究分析更成為熱中之熱,而微博電影評論成為一種新的電影設計模式,也就自然成為研究對象。主要從數據采集、特征提取、情感詞典構建及情感計算幾個方面進行研究,提出基于句法分析算法,并進行必要研究,進一步提高微博電影評論情感傾向分析的正確率。

數據挖掘;情感分析;特征提取

0 引言

近些年,隨著互聯網的飛速發展,網絡技術日新月異的變革,人們的各種思想也就充斥在各種網絡論壇之上。微博作為一種新興的社交平臺,憑借著快、短、靈活的特點,成為了最火熱的用戶發布、傳播、共享信息的平臺。隨著用戶量的增漲,微博對社會輿論的影響日益增加,并潛移默化的改變著人們的生活方式。微博里海量的文本信息,很多都有用戶的參與,存在著大量的有價值信息。微博電影評論就是其中一類,用戶借助微博平臺,表達著自己的觀點,成為了一種新的電影社交模式。

微博電影評論與傳統的網絡電影評論相比,信息量更大,及時性更強,獲得人們的關注度更高。因此對微博電影評論的情感分析研究意義重大,不僅可以引導觀眾的觀影決策,而且可以使制片商調整他們的營銷策略。微博電影評論挖掘是在一個特定的領域,所有它更有針對性,并且特征豐富,除了要關注電影品質本身,還要關注演員、編劇、導演、制作人、出品公司等。這些都是電影評論的特征,相比其他產品可能更具挑戰性。目前,國內外對于電影評論的研究相對較少,Chaovalit P等人[1]分別采用基于機器學習和語義傾向兩種方法進行研究,Zhuang L等人[2]通過提取特征詞對的方法等。本文主要是基于依存句法規則方法對微博電影品論情感分析進行研究。

1 微博電影情感分析框架

首先我們先來明確情感的定義[3],情感就是人們情緒上的變化,例如喜怒哀樂。這樣我們就可以把情感劃分成正傾向、負傾向和中立態度幾類。正傾向的態度就是積極的、樂觀的、使人向上的態度。負傾向就正好相反,使人悲觀、憤怒。像生氣,郁悶等是屬于負傾向態度這類的。中立態度是指客觀的去分析,并沒有一自己的好惡去評判。

情感分析傾向的計算可分為以下幾步:(1)數據預處理;(2)聚類分析(特征提?。?;(3)情感詞典的建立;(4)情感計算。如圖1所示:

圖1 微博電影情感分析框架

首先就是行進數據預處理階段,在這個階段主要的工作是對需要分析的文本進行爬取收集,再就是進行簡單的分詞處理、去除停用詞、詞頻計算[4]等操作,把文本儲存到準備好的數據庫中,以備后續使用。接著是特征提取,情感詞的抽取是短文本情感分析的重要部分。在聚類分類的過程中,詞語是基本特征,電腦若是想要理解人類的語言時,一般經過兩步的加工量化,第一步是特征提取,確保主要的部分被篩選出來;第二步是特征權重計算,將文本量化,方便理解并計算。其中的特征提取,作用是為了降維,降低復雜度,去除噪聲,從而增加分類精度。再來就是情感詞典的建立,雖說眼下的情感詞典很多,卻還沒有一部完整且通用的情感詞典。在國外,目前較為流行且成熟的情感詞典資源有GI詞典[5]。該詞典給出的每個詞條都相當全面。如褒義詞、貶義詞、反義詞等。還有LIWC詞典[6],該詞典的類別體系和CI詞典大致相同SentiWordNet詞典[7],該詞典是基于WordNet中的詞條進行情感分類的,國內的情感分析研究起步不久,當前能應用的詞典資源自然有限。大概有知網的情感詞典[8]、臺灣大學的情感極性詞典、還有大連理工大學信息檢索樣就是整理標注的情感詞匯本題庫等。目前比較常用的方法是,先對大規模的詞典庫進行分析研究,對常用的詞語進行標注,選為基礎詞。然后具有針對性的獲得新的情感詞,從而擴展情感詞典。如下圖:

圖2 擴展詞典

最后是情感傾向分析,本文從句子的結構角度出發,采用基于依存句法的情感分析方法,對句子中的短語進行識別抽取、從細粒度的角度對基礎情感詞和極性短語進行量化計算,再對句子進行特定句式識別消除它們對句子極性的影響,進而以量化的文本極性值完成句子級細粒度的情感計算。

2 依存句法分析

依存語法[9](Dependency Parsing,DP)是研究句子內各個成分之間的句法依存關系來揭示其句法結構。將漢語句子從一個線性序列轉換成一棵完整的依存分析樹。它的表達形式十分簡潔,無需額外添加語法符號,所以相對來說容易理解。由于句法分析是深入語言內部結構進行分析的,其分析結果能夠強有力的支持句子情感分析。依存句法分析的目的是構建輸入句子的句法結構樹。

圖3 句法結構樹實例

圖中我們可以看出由“我”與“欣賞”、“很”與“欣賞”、“突出”與“的”、“欣賞”與“電影”、“突出”與“電影”等組成的短語。并且中間都有一條帶有箭頭的有標記的弧線。每條弧線清晰的給出了每個詞語的依存關系。

(1)依存關系對的表示

微博句子的情感分析關鍵在于對情感詞依存關系的選取上,對于依存關系樹上存在的兩個節點x和y,x為子節點,y為父節點,通過分析依存關系樹,我們可以找到兩者在書中的節點id,從而給出的依存關系對的表達方式為:

RelationPair=

從上圖所示的例子中,抽取“很欣賞”和“突出動感”的依存關系對。表示如下:

<1,很,d,2,欣賞,v,ADV,0.8>

<3,突出,v,4,動感,n,VOB,0.4>

(2)依存關系的距離

依存距離這里是指兩個存在依存關系的詞匯之間的線性距離,也就是兩個節點次序之差的絕對值大小。例如下面的兩個句子:a:“這部電影不太好看”。B:“這部電影太不好看”。我們可以看出,雖然只有兩個字的次序不一樣,但這兩句話的感情程度是有很大的差異的。對兩句話進行句法分析,可得到的關系對如下:

a:<2,不,d,3,好看,a,ADV,0.8>

<1,太,d,3,好看,a,ADV,0.8>

b:<2,太,d,3,好看,a,ADV,0.8>

<1,不,d,3,好看,a,ADV,0.8>

可以看出a中否定詞“不”與“好看”的依存距離是2,b中的否定詞“不”與“好看”的依存距離是1,由此可知,依存距離越小,感情極性越強。由依存關系定義,若將依存距離看成是主導詞和從屬詞在句子中距離的差,我們不分正負,只求句子距離上的差別,所以采用去計算的絕對值:

Distance(Wordx,Wordy)=|idx-idy|

其中Wordx、Wordy表示遍歷依存句法樹得到的節點id,也就是Wordx、Wordy的詞號。

(3)情感短語的計算

在進行句子級的情感計算時,主要對句子中出現的情感詞構成的依存關系進行分析。先對文本分分句,再進行分詞、詞性標注;繼而通過情感詞典來判斷是否有情感值,若有則將之添加到情感詞類表,如果有否定詞或程度副詞,則根據擴展的情感詞典進行相應的處理。最后用句子中情感詞和情感短語的情感強度平均值作為整個文本的感情傾向值。

情感短語計算:

Value=degree(Word1)*polarity(Word2)/Distance(Word1,Word2)

其中Word1、Word2分別為副詞和情感詞,polarity表示情感詞,degree表示情感程度詞。

(4)句子級情感計算

有了依存關系對的情感極性,再加上句子中每個情感詞,并將其情感傾向值歸一求和。就得到了句子級的情感計算[10]公式:

其中βi為情感詞的權值,n為情感詞、情感短語總數。

這樣就計算出了句子的情感極性,先給出依存句法的情感計算方法,進行深入的討論,再分析了影響微博情感的詞語及短語情感傾向,最終完成了句子級的情感計算。

3 實驗

現如今,針對電影的情感分類方法有很多,其中基于協同訓練的半監督情感分類方法相對高效。那就用本文的算法與之相比較。

(1)先進行數據采集,從新浪網進行評論采集,有30000條微博電影評論數據。并進行人工標注,把文本分類成褒義、貶義和中性3種。

(2)評價方法

對采集的文本進行情感傾向分析,將自動分析的結果和人工標注的對比。測試結果越接近人工標注,則說明實驗越正確。

評價指標采用最被接受的,評測時使用準確率(precision)和召回率(recall),并用綜合評分指標F來衡量正確率。

準確率(precision)=分析正確的文本數/總的文本數

召回率(recall)=分析正確的文本數/總的正確的文本數

其中P表示正確率,R表示召回率。

(3)實驗設計及分析

基于依存句法的算法,通過系統分析這30000條文本,在不同閾值下的F值的曲線變化如下圖:

表1

由上表可知,當閾值達到0.15時,情感分析結果達到最優。取閾值0.15進行實驗,與協同訓練算法[11]進行比較。

表2

由上表可以看出本文的算法的各方面都是高于協同訓練算法的,結果證明本文的實驗結果是達到預期效果的。

4 結語

本文針對微博電影評論進行了情感分類研究,提出了基于依存句法規則對微博電影評論分類的方法。并進行了實驗和比對,取得了一些效果,但仍存在許多的不足。比如,情感詞典的多維構造,以及有效地解決特征稀疏問題等。所有還需要我們更加努力地進行下一步的研究和改進。

[1]Chaovalit P,Zhou L.Movie Review Mining:A Comparison Between Supervised and Unsupervised Classification Approaches[C]. System Sciences,2005:112-148.

[2]Zhuang L,Jing F,Zhu X Y.Movie Review Mining and Summarization[C].2006:99-132.

[3]龐觀松,蔣盛益.文本自動分類技術研究綜述[J].情報理論與實踐,2012,35(1):96-123.

[4]Hung C,Lin H K.Using Objective Words in SentiWordNet to Improve Word-of-Mouth Sentiment Classification[J].IEEE Intelligent Systems,2013,28(2):147-154.

[5]Philip J.Stone,Dexter C Dunphy,Marshall S.Smith,Daniel M.Ogilvie.The General Inquirer:A Computer Approach to Content Analysis.MIT Press,1966.

[6]Pennebaker,J.W.,Booth,R.J.,&Francis,M.E.Linguistic Inquiry and Word Count:LIWC 2007.Austin,TX.2007.

[7]Stefano Baccianella,Andrea Esuli,Fabrizio Sebastiani.An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. LREC.2010.

[8]HowNet[R/OL].HowNet's Home Page.http//www.keenage.com.2011,12,10.

[9]劉海濤.依存語法的理論與實踐[M].北京:科學出版社,2009.

[10]施寒瀟.細粒度情感分析研究[D].蘇州大學,2013.

[11]Blum A,Mitchell T.Combining Labeled and Unlabeled Data with Co-Training[C].Proceedings of the Eleventh Annual Conference on Computational Learning Theory.ACM,1998:92-100.

Research on Emotional Analysis Based on Micro-Blog Film Criticism

QIAN Shen-yi,YANG Tie-song
(College of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450001)

In recent years,data mining analysis has become a hot research topic,in which the text research and analysis has become a hot,microblog film commentary has become a new film design pattern.Mainly studies the data acquisition,feature extraction,emotion dictionary construction and emotion computation,proposes a syntax analysis algorithm and makes necessary research.And further improves the micro-blog movie comments emotional analysis of the correct rate.

Data Mining;Emotion Analysis;Feature Extraction

1007-1423(2017)05-0048-04

10.3969/j.issn.1007-1423.2017.05.012

錢慎一(1975-),男,江蘇揚州人,碩士,副教授,碩士生導師,研究方向為數據庫與信息集成、計算機應用技術

2016-11-29

2017-02-12

楊鐵松,男,河南商丘人,碩士,研究方向為數據挖掘為大數據分析

猜你喜歡
特征提取文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 久久综合婷婷| 波多野结衣无码中文字幕在线观看一区二区 | 国产av剧情无码精品色午夜| 欧美另类精品一区二区三区 | 在线观看视频99| 国产精品女主播| 高清视频一区| 亚洲美女高潮久久久久久久| 亚洲国产日韩在线成人蜜芽| 日韩精品一区二区三区swag| 噜噜噜久久| 无码一区中文字幕| www亚洲精品| 国产日韩欧美在线播放| 国产精品第| 国产成本人片免费a∨短片| 国产精品性| 狠狠久久综合伊人不卡| 日本精品影院| 亚洲视频a| 欧美一级在线看| 日韩精品亚洲一区中文字幕| 亚洲人精品亚洲人成在线| 久青草免费在线视频| 久久99精品久久久久久不卡| 日韩 欧美 小说 综合网 另类| 亚洲精选无码久久久| 国产00高中生在线播放| 91九色国产porny| 国产后式a一视频| 99re精彩视频| 在线色国产| 国产成人成人一区二区| 香蕉网久久| 久久精品视频亚洲| 天天躁夜夜躁狠狠躁图片| 国产区免费| 欧美自拍另类欧美综合图区| 国产小视频免费| 少妇精品在线| 蜜桃视频一区二区| 欧美在线精品一区二区三区| 91精品人妻互换| 毛片最新网址| 久久女人网| 久久久久88色偷偷| 国产精品va免费视频| 国产精品视频3p| WWW丫丫国产成人精品| 亚洲最大福利网站| 99在线视频免费| 国产女人综合久久精品视| 亚洲无码高清一区二区| 亚洲第一在线播放| 亚洲最猛黑人xxxx黑人猛交| 五月婷婷综合在线视频| 亚洲国产精品一区二区高清无码久久| 国产亚洲精品97在线观看| 亚洲女人在线| 国产色婷婷视频在线观看| 国产成人综合久久| 亚洲天堂日本| 久草中文网| 欧美国产精品不卡在线观看| 国产成年女人特黄特色大片免费| 国产人在线成免费视频| 欧美视频在线不卡| 国产97区一区二区三区无码| 亚洲精品视频网| 中文字幕乱妇无码AV在线| 国产乱人免费视频| 美女高潮全身流白浆福利区| 亚洲天堂久久| 91在线无码精品秘九色APP| 99ri精品视频在线观看播放| 视频在线观看一区二区| 91小视频在线观看| 欧美日本视频在线观看| 亚洲中文字幕av无码区| JIZZ亚洲国产| 亚洲精品va| 婷五月综合|