999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種利用語義相似特征提升細粒度情感分析方法

2017-04-14 00:46:56陳自巖傅興玉
計算機應用與軟件 2017年3期
關鍵詞:語義分類特征

陳自巖 黃 宇 王 洋 傅興玉 付 琨

1(中國科學院大學 北京 100049)2(中國科學院空間信息處理與應用系統重點實驗室 北京 100190)

一種利用語義相似特征提升細粒度情感分析方法

陳自巖1,2黃 宇2王 洋2傅興玉2付 琨2

1(中國科學院大學 北京 100049)2(中國科學院空間信息處理與應用系統重點實驗室 北京 100190)

情感分析主要研究人們正面或負面情感的表達。隨著網頁文本的爆炸式增長,情感分析在學術研究和實際應用中都成了熱門話題。細粒度的情感分析方法通常采用兩步策略,從而極易產生自底向上的層疊錯誤問題。為了解決這個問題,研究者們提出了一種基于馬爾科夫邏輯的細粒度的情感分析聯合框架。其中最常用的傳統全局特征是自底向上和自頂向下特征。為了更好地提升細粒度情感分析的聯合學習能力,一種新的語義相似特征被提了出來,中文情感分析數據集上的實驗證明,此特征能對情感分析聯合框架帶來極大的改進。

細粒度的情感分析 馬爾科夫邏輯 語義相似特征

0 引 言

情感分析也叫觀點挖掘,主要用來分析人們在傳達信息時所含的情緒觀點,以及對人們的態度、感情色彩進行判別或者評估[1]。隨著互聯網技術的進步,情感分析自2000年以來呈現出蓬勃發展的趨勢,支持向量機(SVM)、條件隨機場(CRF)和基于詞典等方法的提出,使得情感分析在輿情監控、異常事件監測、金融預測等領域得到廣泛應用。

通常,情感分析按粒度可以分為文檔級、句子級、子句級和短語級。文檔級的情感分析旨在對整個文檔分成正面、負面及中立,其主要應用在微博等短文本中[2-3],但在長文本中則顯得比較粗糙,因此細粒度的情感分析應運而生。例如,文獻[4]針對句子級的情感分析提出了一系列的方法來挖掘產品評論;文獻[5]采用兩步策略分析短語的情感傾向。由于一個句子中可能表達不止一種情感傾向,因此本文選擇子句級的情感分析粒度。子句級的情感分析最重要的預處理工作是子句分隔,文獻[6]選擇語篇分隔理論作為基本的分類單元;文獻[7]則粗略地用漢語逗號進行子句分隔。

傳統的細粒度情感分析方法經常采用鏈式結構的兩步策略,即主觀分類和極性分類。前者旨在識別出具有主觀性的句子或者短語,后者則對識別出的主觀性句子或短語進行正面或負面的分類。這種鏈式結構極易產生層疊錯誤問題,如果一個沒有情感傾向的句子或者短語在主觀分類中被誤判成主觀的,其不可避免地影響極性分類的性能。因此文獻[7]提出了一種基于馬爾科夫邏輯[8]的細粒度情感分析聯合框架,使用自底向上和自頂向下的全局特征將主觀分類和極性分類進行聯合學習,從而減少了鏈式結構帶來的層疊錯誤。此文獻中還引入了一種二元結構特征,認為同一句子中相鄰的子句很有可能具有相似的情感極性,但這種假設在相互轉折的子句中就不再成立,如“這本書很貴,但內容確實很精彩”中,兩個子句具有相反的極性。

針對以上問題,本文提出了一種新的語義相似特征,認為兩個子句在語義上的相似度越高,越具有相同的極性。為了度量兩個子句的語義相似度,本文提出了一種基于全局向量GloVe(Global Vectors)[9]模型的相似度計算方法。首先利用全局向量模型在大規模未標注數據上訓練詞向量,然后采用加權和的方法計算子句向量,最后計算子句向量之間的余弦相似度作為子句間的語義相似度。馬爾科夫邏輯是一種統計關系表征語言,其將一階邏輯融入到無向圖模型中,從而能使豐富的特征或領域知識融合在一起聯合學習推導。語義相似特征是一種全局特征,可以用馬爾科夫邏輯的全局表達式進行表示,從而提升子句間情感分類的聯合學習能力。最后本文在譚松波的中文情感分析語料集(ChnSentiCorp)上進行實驗,為了滿足本文的子句級的情感分析,我們引入了一種人工標注計劃對數據進行再加工,從而獲得子句級上的標注。

1 馬爾科夫邏輯聯合模型

本節將簡要介紹基于馬爾科夫邏輯的子句級情感分析的聯合學習框架,其基本思想是將主觀分類和極性分類進行隔離,并分別用不同的局部特征集進行獨立學習。然后利用全局特征再將主觀分類和極性分類整合到一個完整的網絡中統一學習,其基本原理可以用圖1表示。

圖1 子句級情感分析的聯合框架

1.1 馬爾科夫邏輯網

馬爾科夫邏輯網是一種強大的統計關系表征語言,其能將一階邏輯和馬爾科夫隨機場進行結合。在一階邏輯中,一個表達式只代表一個布爾值,即成立與不成立。而馬爾科夫邏輯放松了這一限制,其對每個一階邏輯表達式賦一個權重,在訓練階段,越多的數據滿足某一表達式,則其對應的權重越大,對于不滿足的則通過懲罰減小權重。一個馬爾科夫邏輯網由一系列的(Fi,wi)對組成,其中Fi是一階邏輯表達式,而wi是此一階邏輯表達式對應的權重值,其聯合概率可以表示為:

(1)

其中,F是一階邏輯表達式的數目,ni(x)是滿足表達式Fi成立的數目。

每個表達式由一系列的一階變量,謂詞和邏輯連接符組成,如:

wicontainadj(s)?subjective(s)

此表達式隱含的意義是如果一個子句中存在形容詞,那么這個子句很有可能帶有主觀性,權重wi代表了表達式成立的可信度。表達式中s是一個變量,代表每個子句,containadj是已知謂詞,而subjective是隱含謂詞,需要從已知謂詞中推導出來。

1.2 局部表達式

局部表達式用來由已知謂詞推導隱含謂詞,本節通過定義一系列的局部特征來設計局部表達式,從而實現主觀分類和極性分類的分別訓練。表1列出了所用到的謂詞,其中已知謂詞描述了所抽取的特征。極性分數的計算方法可以參考文獻[10]。

表1 所用到的謂詞

表2和表3分別列出了主觀分類和極性分類中的局部表達式,其中加號“+”表示對于變量的不同取值賦以不同的權重值。從兩個表中看出分成兩個獨立步驟的好處是能根據具體的分類任務設計有效的局部特征。

表2 主觀分類中的局部表達式

表3 極性分類中的局部表達式

1.3 全局表達式

上節采用局部表達式分別學習了主觀分類和極性分類,而這兩個步驟之間存在著相輔相成的聯系,馬爾科夫邏輯通過定義全局表達式,可以使兩個獨立的局部分類器融入到統一的網絡框架中,其中最常用的兩個全局特征是自底向上(式(2))和自頂向下(式(3))。

sentiment(s,sen+)?polarity(s,″non″)sentiment(s,sen+)?!polarity(s,″non″)

(2)

polarity(s,po+)?sentiment(s,sen+)

(3)

在自底向上的推導過程中,我們給主觀分類的變量賦予分離的權重,從而使主觀與客觀的子句都能進入到極性分類階段。而自頂向下的推導為主觀分類提供了反饋信息,減少了因主觀分類傳播下來的層疊錯誤問題。

除了以上兩個全局特征,文獻[7]還引入了一種二元結構特征,其認為相鄰的子句之間具有相同的情感極性,相應的表達式為:

bigram(s1,s2)∧polarity(s1,″pos″)?polarity(s2,″pos″)bigram(s1,s2)∧polarity(s1,″neg″)?polarity(s2,″neg″)

(4)

其中已知謂詞bigram(s1,s2)表示兩個子句之間的相鄰性。這種二元結構特征只是單純地依賴結構上的相鄰性,并沒有充分考慮子句間的語義描述,因此在遇到語義表達相反的子句時就會出現問題。

2 語義相似特征

馬爾科夫邏輯依靠全局表達式將各個子任務整合到一個完整的框架中,好的全局特征可以提升模型的聯合學習能力,本節將詳細介紹一種有效的全局特征,其能充分利用子句間的語義相似信息,提升各個子句間的相互推導能力。本節首先介紹怎樣利用全局向量模型獲得詞在語義空間上的線性表征(即詞向量),然后根據詞向量來獲得子句向量,繼而計算子句之間的余弦相似度,并將其作為子句間的語義相似信息。

2.1 全局向量模型

在大規模未標注數據中,詞與詞之間的共現統計是非監督學習詞向量的最直接也是最重要的特征。全局向量模型是一種能直接捕獲這種特征來訓練詞向量的有效方法,其基本原理是首先通過詞的共現統計形成一個共現矩陣Xij,其中每個元素代表詞i和j之間的共現程度,然后設計一系列的函數去近似共現概率,由于詞向量空間具有內在的線性結構,因此這些函數可以用下式表示:

(5)

其中,w∈d表示詞向量,Pik表示詞與詞之間的共現概率。為了訓練詞向量,文獻[9]中提出了一種最小方差回歸模型作為代價函數,并用AdaGrad獲取最優化結果。

2.2 語義相似度計算

通過詞向量的加權和,我們可以得到子句向量,由于情感詞在子句中的重要性,我們給其賦予較大的權重,用公式表示如下:

(6)

其中,M表示子句中情感詞的個數,N表示子句中其它詞的個數。由此可以得到子句間的語義相似度為:

(7)

假設子句間的相似度越高,其表達的感情色彩越相近。因此在聯合學習之前,我們在整個數據集中找到與每個子句語義相似度最高的子句,并將它們放在如下的全局表達式中:

similarity(s1,s2)∧polarity(s1,″pos″)?polarity(s2,″pos″)similarity(s1,s2)∧polarity(s1,″neg″)?polarity(s2,″neg″)

(8)

其中已知謂詞similarity(s1,s2)表示兩個子句之間在語義上的相似性。與公式中的二元結構特征相比,語義相似特征更是一種真正意義上的全局特征,其不再單純依賴結構上的相鄰性,而是在整個數據集中尋找語義上的相似信息,從而更好地提升聯合學習的能力。

3 實 驗

3.1 數據集

選擇譚松波的中文情感分析數據集(ChnSentiCorp)[11],并在子句級上進行再次標注。中文情感分析數據集主要來自攜程的賓館評論、當當的書籍評論和京東的筆記本電腦評論,共有一萬多篇,每一篇都有文檔級的正負極性標注。為了滿足子句級情感分析的需求,選取了覆蓋三個類別、長短不齊的300篇文檔,同時邀請了三個與本研究無關的標注者對這些文檔進行子句判別,同時對每個子句賦予正面、負面、中立等類別的標注。最終形成了4642個子句,其中34%為正面、47%為負面及19%為中立。為了評估三個標注者的標注可信度,我們引入了Fleiss’skappa[12],其能有效地衡量多個標注者標注數據的一致性。對于我們的數據,獲得了0.78的Fleiss’skappa值,這個數值基本接近0.8的完美標注。

3.2 實驗設置

本實驗的流程如圖2所示,其中采用現有的系統“ICTCLAS”[13]進行分詞與詞性標注,并采用基于詞典的方法檢測否定詞、程度副詞及觀點詞。詞向量的訓練是在一萬多篇原始數據集上進行,詞向量的維度設置為50,迭代訓練次數為100次。最后引入開源工具“MarkovtheBeast”實現馬爾科夫邏輯的聯合學習與推導。為了驗證語義相似特征的有效性,我們設計了兩個模型:Base_MLN和Similarity_MLN。其中前者采用二元結構特征,而后者采用語義相似特征。

圖2 實驗流程

3.3 實驗結果

由于子句級的情感分析的標注費時費力,因此數據量比較小,為了避免小樣本產生的過擬合現象,我們采用十折交叉驗證。這個數據集被分成十等分,每一次測試,我們選擇其中9份作為訓練集,另外一份作為測試集。我們采用正確率(A)、準確率(P)、召回率(R)和F1值來評估方法的有效性。表4和表5分別列出了主觀分類和極性分類的結果。

表4 主觀分類結果

表5 極性分類結果

從以上兩個表中可以看出Similarity_MLN在主觀分類中提高了約2.23%的正確率,而在極性分類中則提高了約4.86%的正確率,這充分表明了語義相似特征的有效性。

4 結 語

本文重點研究子句級的情感分析,傳統的方法往往采用兩步策略,這往往產生層疊錯誤問題。基于馬爾科夫邏輯的聯合模型使各個子任務融入到統一的框架下,從而有效地減少了層疊錯誤。本文在此基礎上提出了一種新的全局特征,即語義相似特征,充分考慮了語義相似的兩個子句很有可能具有相同的情感傾向,有效地提升了聯合學習的能力。在中文情感分析數據集上的實驗結果表明語義相似特征優于前人的二元結構特征。將來的研究會集中在兩個方面:子句分隔和更細粒度的分類(喜、怒、哀、樂等)[14]。

[1] 周勝臣,瞿文婷,石英子,等.中文微博情感分析研究綜述[J].計算機應用與軟件,2013,30(3):161-164.

[2] 李巖,韓斌,趙劍.基于短文本及情感分析的微博輿情分析[J].計算機應用與軟件,2013,30(12):240-243.

[3] 李澤魁,趙妍妍,秦兵,等.中文微博情感傾向性分析特征工程[J].山西大學學報(自然科學版),2014,37(4):570-579.

[4]HuM,LiuB.Miningandsummarizingcustomerreviews[C]//ProceedingsofthetenthACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.ACM,2004:168-177.

[5]WilsonT,WiebeJ,HoffmannP.Recognizingcontextualpolarityinphrase-levelsentimentanalysis[C]//Proceedingsoftheconferenceonhumanlanguagetechnologyandempiricalmethodsinnaturallanguageprocessing.AssociationforComputationalLinguistics,2005:347-354.

[6]ZirnC,NiepertM,StuckenschmidtH,etal.Fine-GrainedSentimentAnalysiswithStructuralFeatures[C]//IJCNLP,2011:336-344.

[7]ChenZ,HuangY,TianJ,etal.Jointmodelforsubsentence-levelsentimentanalysiswithMarkovlogic[J].JournaloftheAssociationforInformationScienceandTechnology,2015,66(9):1913-1922.

[8]RichardsonM,DomingosP.Markovlogicnetworks[J].Machinelearning,2006,62(1-2):107-136.

[9]PenningtonJ,SocherR,ManningCD.Glove:GlobalVectorsforWordRepresentation[C]//EMNLP,2014,14:1532-1543.

[10] 張成功,劉培玉,朱振方,等.一種基于極性詞典的情感分析方法[J].山東大學學報(理學版),2012,47(3):47-50.

[11]TanS,ZhangJ.Anempiricalstudyofsentimentanalysisforchinesedocuments[J].ExpertSystemswithApplications,2008,34(4):2622-2629.

[12]FleissJL.Measuringnominalscaleagreementamongmanyraters[J].Psychologicalbulletin,1971,76(5):378.

[13]ZhangHP,LiuQ,ChengXQ,etal.Chineselexicalanalysisusinghierarchicalhiddenmarkovmodel[C]//ProceedingsofthesecondSIGHANworkshoponChineselanguageprocessing-Volume17.AssociationforComputationalLinguistics,2003:63-70.

[14] 歐陽純萍,陽小華,雷龍艷,等.多策略中文微博細粒度情緒分析研究[J].北京大學學報(自然科學版),2014,50(1):67-72.

A FINE-GRAINED SENTIMENT ANALYSIS METHOD USING SEMANTICSIMILARITY FEATURE

Chen Ziyan1,2Huang Yu2Wang Yang2Fu Xingyu2Fu Kun2

1(UniversityofChineseAcademyofSciences,Beijing100049,China)2(KeyLaboratoryofTechnologyinGeospatialInformationProcessingandApplicationSystem,InstituteofElectronics,ChineseAcademyofSciences,Beijing100190,China)

Sentiment analysis mainly focuses on the study of people’s emotional expressions including positive and negative sentiment. With the explosive growth of web texts, sentiment analysis has become a hot topic in both academic researches and practical applications.The method of fine-grained sentiment analysis traditionally adopts a 2-step strategy, which is extremely easy to result in stack-up bottom-up errors. A joint fine-grained sentiment analysis framework based on Markov logic is proposed to solve this problem. “Bottom-up” and “Top-down” are the two most commonly used traditional overall features. In order to improve the joint learning ability of fine-grained sentiment analysis, a new semantic similarity feature has been proposed. Experiments on the data set of Chinese sentiment analysis prove that the semantic similarity feature can bring a significant improvement to the joint fine-grained sentiment analysis framework.

Fine-grained sentiment analysis Markov logic Semantic similarity feature

2016-02-17。國家自然科學

61331017)。陳自巖,博士生,主研領域:文本信息抽取。黃宇,副研究員。王洋,助理研究員。傅興玉,助理研究員。付琨,研究員。

TP3

A

10.3969/j.issn.1000-386x.2017.03.005

猜你喜歡
語義分類特征
分類算一算
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 色一情一乱一伦一区二区三区小说| 国产白浆在线观看| 亚洲一区二区三区中文字幕5566| 亚洲第一成年免费网站| 国产在线一区视频| 99精品视频在线观看免费播放| 欧美精品啪啪| 亚洲床戏一区| 永久免费无码成人网站| 亚洲二区视频| 伊人精品视频免费在线| 天堂网亚洲综合在线| 在线视频精品一区| 欧美国产日本高清不卡| 香蕉在线视频网站| 国产黄色片在线看| 凹凸国产分类在线观看| 全色黄大色大片免费久久老太| 国产啪在线| 青青操视频在线| 91视频青青草| 免费A∨中文乱码专区| 国产91视频免费| 影音先锋丝袜制服| 久久久久久高潮白浆| 亚洲成人高清在线观看| 夜夜高潮夜夜爽国产伦精品| 狠狠色成人综合首页| 又粗又硬又大又爽免费视频播放| 国产麻豆精品久久一二三| 亚洲综合精品第一页| 亚洲永久视频| 亚洲综合极品香蕉久久网| 国模私拍一区二区| 欧美午夜在线播放| 久久婷婷五月综合色一区二区| 亚洲妓女综合网995久久| 日本午夜在线视频| 亚洲国产清纯| 久久美女精品国产精品亚洲| 2020国产精品视频| 青青久在线视频免费观看| 国产va欧美va在线观看| 国产91透明丝袜美腿在线| 蜜臀AVWWW国产天堂| 亚洲欧美不卡| 国产精品无码一二三视频| 精品国产毛片| 无码中文AⅤ在线观看| 日韩精品毛片人妻AV不卡| 国产精品19p| 99久久精品国产综合婷婷| 欧美a在线看| 女人18毛片水真多国产| 亚洲性视频网站| 国产精品大尺度尺度视频| 玖玖精品在线| 国产一级裸网站| 国产视频一二三区| 九九这里只有精品视频| 青青操视频在线| 日韩精品一区二区深田咏美| 波多野结衣AV无码久久一区| 58av国产精品| 久久精品欧美一区二区| 少妇被粗大的猛烈进出免费视频| 黄色福利在线| аⅴ资源中文在线天堂| 国产精品国产三级国产专业不| 欧美成人免费一区在线播放| 国产精品爽爽va在线无码观看 | 色综合综合网| 免费看黄片一区二区三区| 四虎永久在线精品影院| 在线国产综合一区二区三区| 91香蕉视频下载网站| 制服丝袜亚洲| 亚洲欧美精品日韩欧美| 欧美a网站| 激情亚洲天堂| 久久99热66这里只有精品一| 在线色国产|