999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于句法結構的評價對象抽取方法在不同模板上的性能分析

2017-06-06 11:54:24楊云
長春教育學院學報 2017年4期
關鍵詞:定義特征文本

楊云

基于句法結構的評價對象抽取方法在不同模板上的性能分析

楊云

文本情感分析是自然語言處理領域的一個重要研究課題,主要是對網絡上的主觀性文本信息(如評論,微博等)進行處理。評價對象抽取是文本情感分析的重要組成部分,目的是抽取出主觀性文本中每句話所描述的實體及其屬性,以便為情感分析的其他任務提供幫助。本文通過深入分析經預處理后句子的句法結構,在已有特征上加入了三種特征,并分析在不同窗口大小下的模板性能,選擇性能最佳的模板以抽取更為準確的評價對象。

句法結構;情感分析;評價對象;模板

一、相關知識介紹

文本情感分析[1]亦稱評論挖掘,是把有情感色彩的主觀性文本進行分析、處理和歸納的過程,是一個重要且有應用價值的研究課題[2]。評價對象抽取[3][4][5]即抽取出該主觀句中所表達的中心思想,也就是說,抽取出該句中所表明的主題,如句子“昨天在京東買了一款手機,它的像素還不錯”中所要抽取的評價對象是“像素”。

本文選用CRF模型的實現CRF++0.53工具包(http://taku910.github.io/crfpp/網站可供下載)作為序列標記工具,用于標記并識別評價對象。該工具的核心文件為crf_learn.exe與crf_test.exe,分別用于訓練與識別。用于評價對象抽取的識別過程,是將特征提取后的結果與相應的模板(根據需要自行定義)輸入到crf_learn.exe中訓練,則會自動生成模型(model);利用crf_test.exe文件,通過上步生成的model進行標記;最后將標記為評價對象(B-tgt)的特征抽取出即可。

句法分析是指分析句中的詞與詞之間的某種依存關系,即反映該句的句法結構信息。在文本情感分析領域中,它主要針對主觀性文本進行句法分析。現有的句法分析工具主要有斯坦福大學開發的Parser,McDonald的MSTParser及哈爾濱工業大學開發的語言技術平臺——LTP。本文選用斯坦福的Parser進行句法分析。在使用句法分析工具之前,應先對原始語料進行分詞處理,再把分詞后的結果輸入到句法分析工具中,得到分析結果。

為驗證算法的有效性,本文選用信息檢索領域常用的評價指標P、R、F作為評價對象抽取效果的驗證指標,具體的如公式1、2和3所示。

其中,P:準確率,指識別正確的評價對象與系統檢索出的評價對象的比值;R:召回率,指識別正確的評價對象與實際正確的評價對象的比值;F:F值,指準確率與召回率的調和平均值。

另外,為進一步減少實驗的誤差,本文選用k折交叉驗證的方式來確定最終的實驗性能。將特征提取的結果隨機分成k份,隨機選取其中的k-1份作為訓練數據,剩下的1份作為測試數據;將k-1份訓練數據訓練成模型,再用模型來識別測試數據;以上過程重復k次來確保結果更加精準。對于k的取值,本文將k設為10。理論上折數越大測試的系統性能越準確,當折數達到十折,已足以讓系統性能達到最優。因此,本文采用十折交叉驗證的方式來驗證系統性能的準確性。

要想更為準確地抽取評價對象,選取窗口大小適宜的模板尤為重要。對此,本文在7種窗口大小的模板上進行了實驗與驗證。

二、模板定義

模板反映了每句評論句中詞間的上下文信息。模板的選取對于實驗的特征選取起著關鍵作用。模板用于控制詞之間的窗口大小,窗口過小,所包含信息過少,特征利用不全面,導致系統性能降低;窗口過大,引入了過多的信息,降低了運行效率,實驗效果也未必提高。

定義:大小為2n+1的窗口:(w-n,w-(n-1),…,w0,…,wn-1,wn)。代表以當前詞為中心,把窗口大小設定為前后各n個詞語。

本文采用該定義方法來定義模板,模板的大小用于限定組成評價對象的詞語的數量,為探索性能最佳的模板,本文將探討當窗口大小為2—7的系統性能變化。因為評價對象由單個詞或詞組組成,評價對象的長度一般都不超過2,因此探討評價對象長度在3以內的系統性能變化,即窗口大小為2—7。

本文將模板定義成三類,以當前詞為中心,考慮當前詞的前后各一個詞、各兩個詞和各三個詞。具體定義如下:

1.模板一可分以下三種情況:

tmp1-=(-1,0)表示以當前詞為中心,考慮當前詞的前一個詞,即窗口大小為2。

tmp1=(-1,0,1)表示以當前詞為中心,考慮當前詞的前、后各一個詞,即窗口大小為3。

tmp1+=(0,1)表示以當前詞為中心,考慮當前詞的后一個詞,即窗口大小為2。

其中,tmp1-與tmp1+主要反映了模板的非對稱性,將用實驗來驗證模板一中的三個模板的性能。

2.模板二的定義:

tmp2-=(-2,-1,0)表示以當前詞為中心,考慮當前詞的前兩個詞,即窗口大小為3。

tmp2=(-2,-1,0,1,2)表示以當前詞為中心,考慮當前詞的前、后各兩個詞,即窗口大小為5。

tmp2+=(0,1,2)表示以當前詞為中心,考慮當前詞的后兩個詞,即窗口大小為3。

其中,tmp2-與tmp2+同樣是非對稱模板。

3.模板三的定義:

tmp3=(-3,-2,-1,0,1,2,3)表示以當前詞為中心,考慮當前詞的前、后各三個詞,即窗口大小為7。由于評論中的言語一般比較簡潔,很少有長度超過7的評價對象,因此,這里就只驗證對稱模板這種形式。

以tmp1模板、tmp2模板與tmp3模板為例,具體的定義如表1、表2及表3所示。依此類推。

表1 tmp1模板定義

表2 tmp2模板定義

表3 tmp3模板定義

以上是對tmp1模板、tmp2模板與tmp3模板的定義,tmp1-、tmp1+、tmp2-、tmp2+的定義與其類似。

三、實驗設置

本文的對比實驗采用Jakob[6]的方法,因此選用了與其相同的數據集,對三個數據集進行了實驗。選用了DarmstadtServiceReviewCorpus(DSRC)數據集(http://www.ukp.tu-darmstadt.de/data/sentiment-analysis/)的“服務”數據集234篇,“大學”數據集256篇,TheInternetMovieDatabase(IMDb)數據集(http://www.imdb.com/)的“電影”領域的評論1829篇。

本文的對比實驗內容主要為Jakob文中的5個特征——已有特征,分別是詞特征、詞性特征、最短依存路徑特征、最短詞距離特征和主觀句特征。在已有特征的基礎上,通過深入分析句子的句法結構,加入了情感詞特征、依存關系特征及依存關系詞特征,并結合相應的模板來驗證特征的選擇對評價對象抽取的性能影響。具體的特征定義如下:

特征一:詞特征(tk),指詞本身。

特征二:詞性特征(pos),指該詞所對應的詞性。

特征三:最短依存路徑(dLn),該特征為布爾型特征。用于判斷當前詞是否是與情感詞有直接依存關系的詞,若是,則記為1;反之,記為0。

特征四:最短詞距離特征(wDs),該特征為布爾型特征。用于判斷當前詞是否是與情感詞最近的名詞,若是,則記為1;反之,記為0。

特征五:主觀句特征(sSn),該特征為布爾型特征。用于判斷當前詞所在的句子是否是主觀句,若是,則記為1;反之,記為0。

特征六:情感詞特征(stWord),該特征為布爾型特征。用于判斷當前詞是否為情感詞,若是,則記為1;反之,記為0。

特征七:依存關系特征(tkRel),表示與當前詞有依存關系的詞的依存標簽。

特征八:依存關系詞特征(rWord),表示與當前詞有直接依存關系的詞。

在評價方式上,本文選用信息檢索領域常用的評價指標:準確率P、召回率R和F值。

為測試系統性能的準確性,本文選用十折交叉驗證的方式,將特征提取后的結果分為十份,隨機選取九份作為訓練數據并與相應的模板一起輸入到CRF模塊中訓練成模型,用模型來標識一份測試數據,以上過程重復十次,取十次結果的平均值作為最終的評價結果。

四、評價對象抽取在不同模板上的性能分析

本文首先在三個英文數據集上進行了實驗,在選取相同特征、相同領域和不同模板的條件下,以選取性能最佳的模板。

在特征選取上,已有特征的組合:詞特征、詞性特征、最短依存路徑特征、最短詞距離特征和主觀句特征的組合;全部特征的組合:詞特征、詞性特征、最短依存路徑特征、最短詞距離特征、主觀句特征、情感詞特征、依存關系特征和依存關系詞特征的組合。

在模板的選取上,在三個領域“服務”“大學”和“電影”的數據集上,分別驗證在tmp1-、tmp1、tmp1+、tmp2-、tmp2、tmp2+及tmp3模板上的評價對象抽取性能。具體的性能變化曲線圖如圖1、2、3所示。

圖1 “服務”數據集上模板性能的驗證

圖2 “大學”數據集上模板性能的驗證

其中,X軸代表選用的模板,Y軸代表F值,用于衡量實驗的性能。

圖3 “電影”數據集上模板性能的驗證

從圖1、2和3的性能曲線看出,全部特征的性能要優于已有特征;在三個數據集上,tmp1模板的系統性能最好,要優于tmp2與tmp3模板的性能。并且tmp1模板的性能要優于tmp1-與tmp1+模板,即選用窗口大小為(-1,0,1)的性能最好,優于窗口大小為(-1,0)與(0,1)大小的模板;tmp2模板的性能要優于tmp2-與tmp2+模板,即選用窗口大小為(-2,-1,0,1,2)的性能最好,優于窗口大小為(-2,-1,0)與(0,1,2)大小的模板。由此驗證了對稱模板的性能要優于非對稱模板,且考慮當前詞的前后各一個詞的模板(tmp1模板)能夠取得更好的性能。

以上三組實驗均是以特征和領域為不變量,模板為變量進行的實驗,tmp1模板的性能要優于其他模板,tmp1模板的窗口為(-1,0,1),是以當前詞為中心,同時考慮當前詞的前后各一個詞,即評價對象的長度在3以內;而在網絡評論中,有一些特殊的評價對象的長度大于3,這樣的評價對象可由tmp3模板(窗口大小為7)獲取到,但大多數評價對象的長度不會超過7,因此,窗口過大可能會引入不相關的詞語,同時也會降低系統的運行效率與性能。

為準確有效地抽取評價對象,本文在不同模板上進行了性能分析,以當前詞為中心,考慮當前詞前后各3個詞的7種窗口大小的模板,經實驗驗證了窗口大小為3的模板抽取評價對象的效果最好,即考慮當前詞及當前詞前后各1個詞。

在今后的后續研究中,繼續探索更為有效的特征以提高評價對象識別的精度,為情感分析的上層任務服務;面對中文評論的不規范性和復雜性,將引入語義因素,根據上下文語義來識別評價對象;也可考慮評論相關度[7],獲取更多有用的信息,并探索適合中文的自然語言處理工具,以減少由分詞、詞性標注、句法分析錯誤而帶來的誤差,將成為下一步工作的努力方向。

[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010(8).

[2]KesslerJ,NicolovN.TargetingSentimentExpressionsthroughSupervisedRankingofLinguisticConfigurations[C].Proc.oftheThirdInternationalAAAIConferenceonWeblogsandSocialMedia.2009.90-97.

[3]YangB,CardieC.JointInferenceforFine-grainedOpinionExtraction[C].Proc.ofACL.2013.

[4]WilsonT,HoffmannP,SomasundaranS.Opinionfinder:ASystemforSubjectivityAnalysis[C].Proc.ofHLT/EMNLP.2005.34-35.

[5]LinW,WilsonT,WiebeJ.WhichSideAreYouOn?IdentifyingPerspectivesattheDocumentandSentenceLevels[C].Proc.oftheTenthConferenceonComputationalNaturalLanguageLearning(Coling).USA:AssociationforComputationalLinguistics,2006.109-116.

[6]JakobN,GurevychI.ExtractingOpinionTargetsinaSingleandCross-DomainSettingwithConditionalRandomFields[C].Proc.ofthe2010ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).USA:AssociationforComputationalLinguistics,2010.1035-1045.

[7]WangJ,YanZ.Anapproachtorankreviewsbyfusingandminingopinionbasedonreviewpertinence[J].InformationFusion,2015:3-15.

責任編輯:郭一鶴

TP181

A

1671-6531(2017)04-0038-04

楊云/長春教育學院信息技術教育部助教,碩士(吉林長春130061)。

猜你喜歡
定義特征文本
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
主站蜘蛛池模板: 尤物特级无码毛片免费| 中文字幕在线不卡视频| 欧美一区二区三区国产精品| 欧美日韩另类在线| 国内精品久久久久鸭| 成人在线亚洲| 婷婷色中文网| 欧美成人精品一区二区| 成人年鲁鲁在线观看视频| 国产在线精品99一区不卡| 欧美日韩一区二区在线播放| 91久久精品国产| 亚洲av片在线免费观看| 国产一级无码不卡视频| 毛片一级在线| 国产午夜一级淫片| 美女被操91视频| 伊人成人在线| 欧美国产日韩在线观看| 亚洲国产黄色| 天堂亚洲网| 国产乱人伦AV在线A| 久久免费成人| 青草午夜精品视频在线观看| 欧美另类图片视频无弹跳第一页| 久久久久久国产精品mv| 国产成人91精品免费网址在线| a毛片免费观看| 亚洲嫩模喷白浆| 99视频在线看| 97国产在线观看| 在线网站18禁| 色综合天天娱乐综合网| 色综合久久久久8天国| 国产成人欧美| 国产呦精品一区二区三区下载| 亚洲av综合网| 婷婷丁香在线观看| 91精品啪在线观看国产91九色| 欧美三級片黃色三級片黃色1| 国产主播在线一区| 99热这里只有精品免费国产| 国产精品美人久久久久久AV| 免费a级毛片18以上观看精品| 欧美午夜理伦三级在线观看| 少妇精品在线| 中日无码在线观看| 久久黄色一级视频| 中文字幕av一区二区三区欲色| 亚洲精品片911| 成人精品在线观看| 二级特黄绝大片免费视频大片| 日韩av资源在线| 日韩a在线观看免费观看| 午夜福利在线观看成人| 免费观看欧美性一级| 日本黄色a视频| 日韩123欧美字幕| 无码专区国产精品一区| 国产精品漂亮美女在线观看| 国产靠逼视频| 亚洲欧美日韩另类| 九九九国产| 国产黑丝视频在线观看| 国产91无码福利在线| 99在线观看精品视频| 爱色欧美亚洲综合图区| 欧美午夜一区| 高清国产va日韩亚洲免费午夜电影| 久久综合色视频| 亚洲精品动漫| 色久综合在线| 日韩欧美国产成人| a级毛片在线免费| 色丁丁毛片在线观看| 日韩av高清无码一区二区三区| 国产在线观看成人91| 亚洲日本中文字幕天堂网| 国产精品嫩草影院av| 国产视频入口| 日本人妻丰满熟妇区| 女人一级毛片|