999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于在線比較評(píng)論情感分析的方法探索

2019-09-29 13:42:59楊帆
中國(guó)市場(chǎng) 2019年25期

楊帆

[摘要]比較評(píng)論是一種比較普遍的評(píng)論形式,借用比較可以得到產(chǎn)品之間的差異性。文章在研究現(xiàn)有情感分析方法的基礎(chǔ)上,對(duì)比較評(píng)論情感分析方法進(jìn)行了探討。其一般過程為:采用簡(jiǎn)單的比較句識(shí)別方式,使用監(jiān)督學(xué)習(xí)構(gòu)建特征詞典,在詞典中增加非特征詞的特征判斷,然后采用情感極性判斷或使用情感詞權(quán)重、程度副詞以及否定詞加權(quán)計(jì)分的方法判斷語(yǔ)句的情感得分,獲取到比較產(chǎn)品之間在特征屬性上的差異。

[關(guān)鍵詞]中文比較評(píng)論;情感分析;中文分詞;評(píng)價(jià)模型

[DOI]10.13939/j.cnki.zgsc.2019.25.185

1引言

隨著網(wǎng)上購(gòu)物的蓬勃發(fā)展,網(wǎng)絡(luò)評(píng)論越來越多,中文文本的情感分析研究也隨之增加。這些評(píng)論對(duì)于產(chǎn)品的評(píng)價(jià)有較高的現(xiàn)實(shí)意義,比起早期的商品購(gòu)物評(píng)分機(jī)制,評(píng)論更加具體,更加多元化,對(duì)于評(píng)論的挖掘是對(duì)評(píng)分機(jī)制的重要補(bǔ)充,甚至有超越和代替評(píng)分的趨勢(shì)。在這些商品購(gòu)買評(píng)論中,比較評(píng)論是指用戶購(gòu)物后發(fā)表的評(píng)論中有關(guān)這一產(chǎn)品與另一產(chǎn)品的對(duì)比信息,這類還有比較句的評(píng)論比起一般評(píng)論,能反映出更多產(chǎn)品之間的差異和優(yōu)劣,有助于分析產(chǎn)品在市場(chǎng)上的競(jìng)爭(zhēng)力,故比較評(píng)論挖掘近來也受到研究者的重視,有不少學(xué)者對(duì)其進(jìn)行情感分析并得到關(guān)于多個(gè)產(chǎn)品在不同屬性上的比較數(shù)據(jù),為決策者提供參考。

2相關(guān)研究

比較評(píng)論挖掘的研究是從文本挖掘中的關(guān)系抽取技術(shù)演化而來的,關(guān)系抽取是信息抽取的一個(gè)重要分支,是將有關(guān)系的實(shí)體從文本中獲取出來的方法。其具體的手段包括監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)以及遠(yuǎn)程監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)人工參與多,而無(wú)監(jiān)督學(xué)習(xí)則無(wú)人工行為,遠(yuǎn)程監(jiān)督是借用遠(yuǎn)程數(shù)據(jù)進(jìn)行人工標(biāo)注的方式。

借助關(guān)系抽取的研究方法,比較評(píng)論情感分析主要從以下幾個(gè)方面開展,包括比較句識(shí)別技術(shù)、比較要素抽取以及比較觀點(diǎn)的情感分析。

2.1比較句識(shí)別技術(shù)

比較句的識(shí)別最開始是英文的識(shí)別研究,Jindal等提出將分類器和CSR相結(jié)合的比較句識(shí)別方法獲得了不錯(cuò)的F值。[1]國(guó)內(nèi)較早的研究是黃小江討論了漢語(yǔ)比較句的范疇、外延和特征,定義了漢語(yǔ)比較句識(shí)別的任務(wù),并提出用SVM分類器將漢語(yǔ)句子分為“比較”和“非比較”兩類。[2]黃高輝以SVM為分類器,以特征詞和 CSR序列規(guī)則為特征, 同時(shí)利用 CRF算法抽取實(shí)體對(duì)象 , 并增加以實(shí)體對(duì)象的信息作為特征,顯著提高了比較句識(shí)別的準(zhǔn)確率 、召回率和 F 度量。[3]

比較句的識(shí)別主要是通過識(shí)別算法發(fā)掘文本中的比較語(yǔ)句,由于中文語(yǔ)句的靈活性,其算法比英文的比較句復(fù)雜,也有學(xué)者提出比較簡(jiǎn)單的發(fā)現(xiàn)方式,特別是針對(duì)差比語(yǔ)句的情感分析研究,其識(shí)別方式為只要語(yǔ)句中包含兩個(gè)比較產(chǎn)品以及“比”就識(shí)別為差比語(yǔ)句。文章的研究就是采用這種簡(jiǎn)單有效的方式進(jìn)行識(shí)別。

2.2比較要素的抽取

比較要素是比較句中的特征識(shí)別,即比較點(diǎn)的識(shí)別和抽取,簡(jiǎn)單地說就是這個(gè)比較句是在比較這兩個(gè)對(duì)象的什么特征。對(duì)于細(xì)粒度的屬性級(jí)別的情感研究,特征發(fā)現(xiàn)和抽取也是非常重要的一個(gè)環(huán)節(jié)。

比較要素的抽取目前主要有兩種方法,一種是人工總結(jié)特征詞典,包括收集產(chǎn)品說明書中的產(chǎn)品特征,相關(guān)專家給出的產(chǎn)品特征以及總結(jié)部分測(cè)試文本中的特征,然后根據(jù)特征詞典使用字符串匹配的方法抽取比較句中的比較點(diǎn)信息;另一種是使用特征發(fā)掘,在沒有特征詞典的情況下,使用發(fā)掘算法在測(cè)試數(shù)據(jù)集中發(fā)現(xiàn)總結(jié)特征詞,動(dòng)態(tài)形成特征詞典,然后在使用字符串匹配等方式抽取比較點(diǎn)。[4-5]

2.3比較觀點(diǎn)的情感分析

比較觀點(diǎn)的情感分析是比較評(píng)論挖掘的第三個(gè)研究方向,這個(gè)主要是借用一般語(yǔ)句的情感分析方法對(duì)比較語(yǔ)句做情感分析。常用的情感分析主要是使用情感詞典,并結(jié)合考慮程度副詞以及否定詞,然后判斷出該句的情感傾向。目前有兩種情感計(jì)分方法,一種是只判斷情感極性,正面情感為+1,負(fù)面情感為-1;另一種是在判斷極性的基礎(chǔ)上,還要根據(jù)程度副詞判斷好壞程度,有的還會(huì)根據(jù)情感詞本身的情感強(qiáng)烈程度給出權(quán)重后再結(jié)合程度副詞進(jìn)行判斷。[6]

3模型實(shí)現(xiàn)方式

3.1實(shí)現(xiàn)工具

(1)Python語(yǔ)言與爬蟲技術(shù)。Python語(yǔ)言是一種簡(jiǎn)單而又強(qiáng)大的高級(jí)編程語(yǔ)言,有非常豐富的數(shù)據(jù)結(jié)構(gòu),靈活的程序處理方式,以及大量的支持該語(yǔ)言的第三方函數(shù)庫(kù),在爬蟲和大數(shù)據(jù)處理方面有非常明顯的編程優(yōu)勢(shì)。[7]

(2)分詞。現(xiàn)存的幾大分詞工具有:結(jié)巴中文分詞、中科院分詞、Smallseg以及Yaha分詞等,其效果存在細(xì)微的差異,大致上的分詞結(jié)果相仿。文章采用基于python的結(jié)巴中文分詞技術(shù),對(duì)抽取出的比較評(píng)語(yǔ)進(jìn)行分詞。

分詞的好壞主要影響情感分值的計(jì)算,對(duì)于特征抽取的影響較少。為了減少由于分詞不當(dāng)而導(dǎo)致的詞語(yǔ)計(jì)分錯(cuò)誤,多采用人工的方式對(duì)情感詞典進(jìn)行修正。

(3)詞典。詞典的優(yōu)劣直接決定了模型的有效性,一般在現(xiàn)存的一些詞典(知網(wǎng)情感詞典、臺(tái)灣大學(xué)NTUSD、清華大學(xué)李軍的褒貶義詞典等)基礎(chǔ)上,結(jié)合所訓(xùn)練的文本材料自身的行業(yè)特點(diǎn),設(shè)計(jì)特定語(yǔ)境的情感詞典。另外,為了抽取特征,獲得比較對(duì)以及計(jì)算情感權(quán)重,還需要設(shè)計(jì)產(chǎn)品名稱詞典、特征詞典、特征分類詞典、否定詞典、程度副詞詞典以及同義詞典。其中程度副詞詞典分為前綴詞典和后綴詞典。

部分詞典情況如表1所示。

3.2實(shí)現(xiàn)步驟

按照比較評(píng)論情感分析的具體需要,文章設(shè)計(jì)了一種基于在線比較評(píng)論情感分析步驟,如圖1所示。從網(wǎng)絡(luò)評(píng)語(yǔ)到統(tǒng)計(jì)分析,共包括了5大處理過程:網(wǎng)絡(luò)評(píng)語(yǔ)的爬取、數(shù)據(jù)的預(yù)處理與比較句的識(shí)別、自動(dòng)分詞、訓(xùn)練情感詞典、計(jì)算情感得分、統(tǒng)計(jì)分析。

4結(jié)論

文章在現(xiàn)有研究的基礎(chǔ)上,提出了一種在線比較評(píng)論情感分析方法的解決思路,能很好地對(duì)產(chǎn)品做成評(píng)價(jià),進(jìn)行數(shù)據(jù)試驗(yàn)后,其評(píng)價(jià)的結(jié)果與官方給出的排名結(jié)果基本一致。而此方法不僅能對(duì)產(chǎn)品的綜合情況進(jìn)行分析,還可以針對(duì)產(chǎn)品某一具體特征的情況給出評(píng)價(jià)值,為決策提供更加精細(xì)的分析數(shù)據(jù)。主要的研究不足為模型的智能化程度還不夠,分值計(jì)算為線性方式也會(huì)損失精度,后續(xù)研究可進(jìn)一步完善。

參考文獻(xiàn):

[1]?NITIN JINDAL,BING LIU.?Identifying comparative sentences in text documents[C].Washington:In Proceedings of SIGIR,2006:244-251.

[2]黃小江,萬(wàn)小軍,楊建武.漢語(yǔ)比較句識(shí)別研究[J].中文信息學(xué)報(bào),2008, 22 (5):30-37.

[3]黃高輝,姚天防,劉全升.CRF算法的漢語(yǔ)比較句識(shí)別和關(guān)系抽取[J].計(jì)算機(jī)應(yīng)用研究,2010, 27(6): 61-64.

[4]王鳳霞.比較句識(shí)別及觀點(diǎn)要素抽取方法研究[D].太原:山西大學(xué),2013.

[5]周紅照,侯明午,侯敏,等.基于語(yǔ)義分類的比較句識(shí)別與比較要素抽取研究[J].中文信息學(xué)報(bào),2014,28(3):136-141,149.

[6]?吳晨,韋向峰 .?用戶評(píng)價(jià)中比較句的識(shí)別和傾向性分析[J].計(jì)算機(jī)科學(xué),2016,43(6A):435-439.

[7]黃紅梅,張良均.?Python數(shù)據(jù)分析與應(yīng)用[M].北京:人民郵電出版社,2017.

主站蜘蛛池模板: 欧美午夜视频| 亚洲品质国产精品无码| 日本免费a视频| 亚洲国产欧美国产综合久久| 青青草原偷拍视频| 黄色免费在线网址| 国内老司机精品视频在线播出| 中文字幕亚洲专区第19页| 手机在线看片不卡中文字幕| 免费a在线观看播放| 手机在线免费不卡一区二| 高清无码手机在线观看| 97青青青国产在线播放| 亚洲第一中文字幕| 国产福利影院在线观看| 欧美成人免费一区在线播放| 无码aⅴ精品一区二区三区| 免费观看欧美性一级| 欧美午夜在线视频| 国语少妇高潮| 91精品国产91久久久久久三级| 日韩毛片免费| 亚洲国产精品日韩专区AV| 中文字幕无码中文字幕有码在线| 伊人丁香五月天久久综合| 久久免费看片| 久久精品一品道久久精品| 欧美午夜一区| 亚洲伊人久久精品影院| 国产特级毛片aaaaaa| 亚洲av综合网| 亚洲欧洲自拍拍偷午夜色无码| av在线5g无码天天| 亚洲码一区二区三区| 国产av剧情无码精品色午夜| a级毛片在线免费| 国产精品区网红主播在线观看| 韩日午夜在线资源一区二区| 国产欧美日韩另类精彩视频| 欧美在线黄| 国内99精品激情视频精品| 欧美日韩国产综合视频在线观看| 草草影院国产第一页| 一区二区在线视频免费观看| 亚洲综合二区| 二级特黄绝大片免费视频大片| 国产日韩精品欧美一区灰| 久99久热只有精品国产15| 欧美有码在线| 欧美一级视频免费| 日韩欧美中文在线| 波多野结衣二区| 一级毛片高清| 亚洲中文无码av永久伊人| 日本免费一区视频| 亚洲欧洲日本在线| 久久成人国产精品免费软件| 一级一级一片免费| 亚洲人成网址| 国产精品自在自线免费观看| 亚卅精品无码久久毛片乌克兰 | 国产精品一区不卡| 国产精品视频猛进猛出| 国产成人免费手机在线观看视频 | 喷潮白浆直流在线播放| 伊人成人在线视频| 日韩无码一二三区| 亚洲经典在线中文字幕| 色婷婷成人| 免费中文字幕在在线不卡| 成人中文在线| 日韩一级二级三级| 亚洲福利网址| 99热这里只有精品5| 无遮挡国产高潮视频免费观看| 99热这里只有精品免费| 日韩在线2020专区| 人妻一区二区三区无码精品一区 | 欧美笫一页| 91精品国产91久久久久久三级| 色综合久久综合网| 日日拍夜夜操|