999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向旅游評論的情感特征識別方法

2018-11-22 11:58:54陳耀東彭蝶飛
計算機技術與發展 2018年11期
關鍵詞:語義特征文本

陳耀東,彭蝶飛

(1.長沙師范學院 信息與工程系,湖南 長沙 410100; 2.長沙師范學院 科研與學科建設處,湖南 長沙 410100)

1 概 述

情感分析(sentiment analysis,又稱極性分類)主要對主觀性文本所表達的情感進行褒貶分類的問題進行研究。從應用場景的角度看,情感分析任務可分為無主題的分析方法和主題指定的分類方法。前者主要針對主題不明確的微博等篇章級文本進行情感極性分析[1],一般同時涉及主題的挖掘過程,偏重于統計模型的研究。后者是給定某個或者若干關聯主題考慮句一級或者詞一級文本的細粒度情感分類[2],偏重于計算語言學的方法。主題指定的情感分析方法主要依靠情感詞集[3-4]、詞性以及句子結構抽取N-Gram[5]、句法關系[6]等語法特征獲得特征-主題的關系,再通過統計模型分類情感。語義角色標注(semantic role labeling,SRL)是一種區別于傳統深層分析的淺層語義分析技術,旨在分析句子的語義框架(即謂詞框架)。由于避免對句子的深層結構分析,角色標注的準確率遠高于句子成份的識別。目前中文的語義角色標注庫是PropBank[7]。文獻[8]是對利用SRL進行情感分析進行研究,采用角色從在線新聞文本中提取觀點(情感詞)、觀點持有者以及評價對象,文獻[9]通過SRL抽取評論主題。但這些方法都只是利用角色關系提取主題,未考慮判斷情感特征與主題的相關性。另外,文獻[2]等面向金融領域通過SRL獲取主題-特征項,而文中面向的游客評論存在大量句內多主題情況,基于游客評論庫的角色標注特點與分布統計設計出更有效的分類方法。

主題是情感分析的基礎,面向微博等的情感分析通常是考慮篇章的整體情感傾向,主題本身不明確或者是在情感分析的同時通過學習算法自動獲取。這一方式不適于景區游客評論等一些需要明確主題或者主題預設的應用領域,特別是當前大數據驅動之下,國內的傳統旅游向智慧旅游轉變,通過識別、挖掘游客對于景區、景點等特點主題的情感傾向,能夠及時發現景區管理的現行問題,有效改進管理質量。通過觀察游客評論發現,評論語句通常涉及多個主題且交織在一起,大量的噪聲特征可能導致分類器對某特定主題的情感誤判,如例句A所示:

例句A:盡管這些簡陋的餐館衛生條件不大好,我還是被景區的美景打動了。

例句A是對某個景區的評論,情感分析時應首先明確美景是所描述的主題,餐館和衛生條件均與文本主題無關,進一步可判定前兩個特征詞“簡陋”、“不大好”為噪聲(描述的對象不是主題),“打動”為真正有效的情感特征(描述主題美景)。由于噪聲特征多于真正有效的情感特征,在傳統篇章級情感分析方法下例句A將被錯分為貶義。由此可見,只能采用細粒度的情感分析方法確定特征與主題的相關性,才能保證對游客評論情感判別的正確分類。

文中從主題與情感特征的相關性展開研究,在明確主題條件下討論對應情感特征是否是有效的判定標準,并提出了有效性的度量方法。在此基礎上,以在線情感文本的元數據信息(metadata)為指示詞,設計了一種有“針對性”的候選主題抽取算法以及一種有效情感特征的識別與抽取方法。圖1展示了工作流程,分兩個階段,第一階抽取段候選主題項,依據評論網站的元數據信息獲取評論文本的候選主題集;第二階段識別有效情感特征,通過候選主題項找到主題句并對其進行語義角色標注,根據角色的語義指向判斷候選情感特征是否為主題相關的有效特征。

圖1 研究流程

2 基于角色標注的情感特征識別

2.1 基于主題元數據的主題項抽取

對主題元數據進行研究發現,許多評論網站、論壇等通常會以格式化或半格式化的方式給出評論對象的介紹和相關說明,比如景區網站以統一格式列出景點、餐飲,影評網站展示每部影片的片名、演員、導演、劇情等。這些信息有些正是評論的對象,有些則與評論對象密切相關(如具有所屬關系、上下位關系等),將這些具有一定結構化程度的信息統稱為主題元數據(topic metadata)。主題元數據是經過加工的主題屬性或其組成部分的名詞性成分,在評論中有“針對性”地抽取與元數據相關的成分作為候選主題特征項。

當前主要考慮具有兩種關系的成分:修飾關系和并列關系。

(1)修飾關系(modification/adjunction)。考慮句法樹中的定中類短語,若指示詞處于修飾詞,那么將所修飾的中心名詞作為特征項候選。文中主要考慮句法樹中的名詞短語以及嵌套名詞短語形式。如例句B的名詞短語“潯龍河的親子營”,若潯龍河為指示詞,且修飾親子營,則親子營為候選主題項。再如例句C中的名詞短語“櫻花園的便捷擺渡車”,盡管櫻花園作為指示詞不直接修飾擺渡車,仍將它所修飾的名詞短語的中心詞擺渡車作為主題項候選。

例句B:[Arg0潯龍河的親子營] [ArgM-Adv太] [Predicate好玩]了。

例句C:[Arg0大家] [ArgM-Adv都很][Predicate認同][Arg1櫻花園的便捷擺渡車]。

例句D:[Arg0這里的交通和路況]令人[predicate不大滿意]。

(2)并列關系(coordination)。考慮句法樹中的名詞性的并列短語,若其中的一個名詞成分是已知的主題項候選,則另一個名詞成分也是候選。如例句D中,若交通是已獲取的特征項,則路況也是候選主題項。

實際過程中采用bootstrap方式,即首先以景區評論庫的metadata詞為候選詞,通過上述修飾關系規則與并列關系規則獲取候選特征項,得到特征項集合后以此作為候選項再次遍歷評論庫,直至沒有新特征項被發掘。bootstrap方式最后選取前K個高頻特征項(實驗過程經驗性地選擇K為200)作為最終的主題特征項集。

2.2 基于語義指向的情感特征識別

對于每個評論文本,經過主題項抽取步驟后,將包含主題項的句子作為主題句,通過HowNet情感詞典抽取主題句的所有情感詞,再通過情感特征識別算法形成有效特征集。

2.2.1 有效情感特征

定義1 有效情感特征(effective sentiment words):文本有效情感特征是指符合下面條件的預選情感詞:該情感詞處于主題句內;該情感詞的語義指向是給定主題。

為描述方便,將文獻[10-11]所識別的文本特征稱為基本情感特征(也即詞袋特征),文獻[12-13]的特征表示稱為主題情感特征。表1展示了有效情感特征與它們的異同。

表1 三種文本情感特征表示類型

有效情感特征實際上是主題情感特征的子集。有效情感特征的語義相關是建立在情感詞與主題間的語義關聯,這種相關主要通過語義指向(semantic orientation)來判定。語義指向[14-15]是一個漢語語言學問題,主要是指句法結構中句法成分之間所具有的帶方向或目標的語義聯系。由于普通語言學對語言現象的研究是描寫性的,缺乏定量分析,因而文中借助語義角色來判斷情感詞的語義指向,即情感詞的語義指向由所屬的語義角色決定。

2.2.2 情感特征識別

利用語義角色標注器給每個主題句進行角色標注。對每個主題情感特征,計算該特征對應角色的語義指向,并判別該主題情感特征是否為有效情感特征。對景區評論庫中情感詞的語義角色分布情況進行統計(情感詞共出現約36 000次)與研究,發現情感詞在角色中的分布很不均衡:

(1)作為謂詞出現的情形占有約45%,包括實義動詞(如喜歡、暈倒)、形容詞性謂詞(不錯、好吃、不堪)、名詞性謂詞(眼緣、好感,違和感)的情形,以及無謂詞類句子;

(2)作為受事Arg1的情形占約30%;

(3)作為修飾類狀語ArgM-ADV的情形占約9%。

然后進一步統計了情感詞的語義指向,研究出現情感詞的角色(簡稱為情感角色)的語義指向分布。統計基于一個事實:在一個謂詞框架中,若某個角色含有主題特征項,則它是框架中情感角色的語義指向。基于以上統計分析,構建有效情感特征識別算法,如算法1所示。

算法1對名詞性情感角色(Arg0~Arg4)和非名詞性角色(謂詞和非核心角色)分別進行處理。名詞性角色簡單地指定其自身作為語義指向(步驟4.1),而對于非名詞角色,按角色優先規則進行分析(步驟3和4.2)。步驟5和6對有效情感特征進行識別,即當情感角色的語義指向(targetRole)存在且中心詞為主題特征項,則認為該情感角色所含的情感詞是有效情感特征,否則判別為非有效情感特征。

3 實驗與分析

3.1 實驗說明

(1)數據收集與處理。實驗面向游客評論的情感分析問題。選取了湖南省兩個代表性景區—長沙縣潯龍河生態小鎮和南岳衡山,通過攜程、窮游、窮驢、驢媽媽等活躍網站以及本地旅游論壇社區,利用爬蟲軟件抓取了18 500余條評論信息,同時使用HTML分析器獲取每個評論文本對應的元數據。對原始數據進行了預處理,包括去重(去除重復評論)、除噪(廣告、無任何主題的評論)、剪枝(去除長度小于10個字的評論),最終得到10 523個有效評論文本。

(2)模型特征。文中主要研究的是實現情感特征的有效抽取,因此實驗的關鍵是評估不同的特征選取方法對最終情感分類效果的影響。為此,將評論文本采用詞袋方法(bag-of-words)描述,形式化定義如下:假設{w1,w2,…,wm}是一個預選情感詞集,每個評論文本表示為v=(f1,f2,…,fm),其中fi∈{0,1},fi=1當且僅當wi在指定文本中出現,反之亦然。利用表1的三種特征表示,即wi在文本中出現;wi在文本主題句中有出現;wi是文本中出現的有效情感詞,分別記為:基本特征詞表示(basic sentiment words,BSW)、主題特征詞表示(topic-relative sentiment words,RSW)、有效特征詞表示(effective sentiment words,ESW)。選取SVM(支持向量機)作為訓練和分類模型(具體使用SVMLight開源軟件),SVM具有學習性能強、泛化性高、受樣本規模影響較小等優點。

3.2 實驗結果

從已標注的評論庫中隨機抽取不同數量的標注評論文本作為訓練集,以另1 000篇文本作測試集,結果如表2所示(數據為F1值)。可以看到當標注文本小于500時,BSW的性能總優于RSW和ESW。通過分析認為,當標注樣本較小時,ESW和RSW所獲取的特征向量相對比較稀疏。當訓練文本大于500時,RSW和ESW的性能顯著提高,并超過了BSW。這說明了與主題相關的情感特征較好地反映了文本的真實情感。值得注意的是,ESW的效果在表中總低于RSW。對錯分的文本進行深入觀察,發現絕大多數情況是:一方面所含的句子較少(超過一半的文本僅含1到3個句子),導致在訓練時未能獲取足夠的角色特征;另一方面這些文本具有明顯的口語化色彩,這些不合語法規范的句子致使句法分析器和角色標注器的分析準確率嚴重下降。

表2 有效情感特征評估結果(平均2句/文本)

為排除上述兩個文本內在缺陷對評測造成的干擾,收集比較長的評論文本進行實驗(每篇含6個以上的句子),結果見表3。

表3 有效情感特征評估結果(平均8句/文本)

這時,ESW的性能明顯超過了RSW和BSW,即使是在標注集較小的環境下。這說明有效情感特征的選擇對文本情感的分析具有重要影響。這一結論也可以從BSW的性能變化得到。比較表3和表2的第一列,當文本長度增加時BSW的性能反而有下降趨勢。這可以解釋為文本長度的增加帶來了與主題無關的特征增多,由于BSW不區別情感特征與主題的相關性,因而造成分析的錯誤。

4 結束語

構建了一個基于語義角色的情感分析器,將角色標注任務提供的語義信息應用于情感分析,實驗部分面向在線游客評論庫。實驗結果表明,對于較長的文本,通過基本角色的情感分析器所抽取的特征能有效地提高分類性能,但在短文本中,由于句法分析和語義分析處理口語化的非完整句子的能力較差,從而導致整體效果不如經典方法。因此得出結論:情感分析對語言的深層分析,尤其是語義分析的要求非常高;提高文本語義分析能力,建立合適的語義模型是解決這一問題值得研究的途徑。

猜你喜歡
語義特征文本
語言與語義
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 夜夜操天天摸| 国产欧美日韩视频一区二区三区| 无码网站免费观看| 国产本道久久一区二区三区| 91视频免费观看网站| a毛片在线免费观看| 欧美亚洲日韩中文| 国产农村精品一级毛片视频| 国产成人h在线观看网站站| 2020最新国产精品视频| 久久精品国产999大香线焦| 亚洲欧美综合精品久久成人网| 视频二区欧美| 国产精品观看视频免费完整版| 欧美一区二区啪啪| 99精品高清在线播放 | 永久免费无码成人网站| 狠狠做深爱婷婷久久一区| 国产精品成人一区二区不卡 | 亚洲人成网站18禁动漫无码| 成人福利在线视频免费观看| 欧洲熟妇精品视频| 亚洲二区视频| 亚洲第一视频免费在线| 四虎亚洲精品| 欧美综合中文字幕久久| 国产精品无码一区二区桃花视频| 91无码人妻精品一区| 免费三A级毛片视频| 国产欧美日韩另类精彩视频| 亚洲国产日韩一区| 天天综合网色中文字幕| 亚洲中文精品久久久久久不卡| 久久精品无码一区二区日韩免费| 色综合激情网| 亚洲AV永久无码精品古装片| 欧美福利在线观看| 1级黄色毛片| 久久久久人妻精品一区三寸蜜桃| 亚洲精品桃花岛av在线| 国产一二三区在线| 亚洲视频色图| 国产精品第| 97久久超碰极品视觉盛宴| 国产成人夜色91| 超碰色了色| 精品少妇三级亚洲| 国产高潮视频在线观看| 99久久精品国产精品亚洲| 2021最新国产精品网站| 91久久精品国产| 日本免费a视频| 亚洲成人免费在线| 中文字幕第4页| 欧美日韩第三页| 亚洲天堂网在线播放| 成年人久久黄色网站| 91av成人日本不卡三区| 91青青视频| 亚洲国产精品无码AV| 99热这里只有精品免费国产| 国产精品999在线| 欧美成人午夜视频免看| 亚洲无码视频图片| 毛片在线播放网址| 日本久久久久久免费网络| 高潮毛片免费观看| 高清久久精品亚洲日韩Av| 国产综合网站| 日韩欧美中文在线| 亚洲无线观看| 无码一区中文字幕| 18禁影院亚洲专区| 国产福利拍拍拍| 91av国产在线| 永久免费无码成人网站| 综合久久五月天| 久久永久视频| 亚洲 日韩 激情 无码 中出| 日韩欧美国产综合| 国产精品三级av及在线观看| 国产成人免费高清AⅤ|