999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線評論研究綜述:基于細(xì)粒度情感分析視角

2018-09-10 00:30:35賈守帆張博彭世豪
電子商務(wù) 2018年11期
關(guān)鍵詞:文本挖掘

賈守帆 張博 彭世豪

摘要:在電子商務(wù)服務(wù)中,用戶的在線評論對消費者的購買決策與商家行為的影響日益凸顯,如何利用這一重要的在線文本數(shù)據(jù)去挖掘用戶的情感傾向成為學(xué)界以及業(yè)界關(guān)注的焦點。經(jīng)過文獻(xiàn)整理,本文梳理出一個在線評論的細(xì)粒度層次情感分析業(yè)務(wù)流程,基于這一流程分析了本領(lǐng)域的研究與發(fā)展現(xiàn)狀,為未來的研究提供參考。

關(guān)鍵詞:在線評論;文本挖掘;情感分析

引言

近年來我國電子商務(wù)飛速發(fā)展,各類電商平臺大量崛起,據(jù)國家統(tǒng)計局統(tǒng)計數(shù)據(jù)顯示:2017年網(wǎng)上零售額達(dá)到71751億元,同比2016年增長32.2%。伴隨電子商務(wù)的不斷普及以及平臺逐步完善的業(yè)態(tài)功能體系,電商平臺帶來了大量個性化、網(wǎng)絡(luò)化、非結(jié)構(gòu)化的在線評論文本。在線評論作為一種新型的口碑傳播方式,打破了傳統(tǒng)口碑以人際擴(kuò)散為基礎(chǔ)的時空限制,使得潛在消費者可以通過閱讀評論來完善對產(chǎn)品的認(rèn)知,輔助完成購買決策。商家可以通過收集評論內(nèi)容來分析用戶對商品的態(tài)度,獲取用戶的喜好進(jìn)而更好的為消費者服務(wù)。基于在線評論在電子商務(wù)鏈條中重要的作用,國內(nèi)外學(xué)者對此領(lǐng)域給予了極大關(guān)注,本文收集了近年國內(nèi)外在線評論研究的文獻(xiàn)成果,從情感分析視角出發(fā),對在線評論領(lǐng)域的相關(guān)技術(shù)應(yīng)用以及研究現(xiàn)狀進(jìn)行概述。

1、基于文本情感分析的在線評論研究

信息爆炸時代,互聯(lián)網(wǎng)的高度開放性和可追溯性使得消費者在作出網(wǎng)購決策前面對著海量的消費者評論,這些評論通常包含著他人有價值的觀點意見,對這些包含觀點的評論文本進(jìn)行人工識別和分析是極其低效率的,因此自動化的文本情感分析成為當(dāng)前主流的應(yīng)用領(lǐng)域。情感分析,是屬于文本挖掘的一個細(xì)分研究領(lǐng)域,是指通過自然語言的處理從文本中提取出人們對于實體及其屬性所表達(dá)的觀點、情感、態(tài)度和情緒等[1]。從分析的粒度層次來看可劃分為粗粒度情感分析和細(xì)粒度情感分析,粗粒度情感分析包括篇章級和句子級情感分析,細(xì)粒度層次的分析則是基于評價對象及其屬性的分析。伴隨著人工智能、自然語言處理技術(shù)的進(jìn)步,業(yè)界對情感分析的要求逐步提高,細(xì)粒度層次的情感分析正成為當(dāng)前國內(nèi)外研究的熱點內(nèi)容,本文通過分析當(dāng)前細(xì)粒度層次情感分析的業(yè)務(wù)流程來對當(dāng)前在線評論研究進(jìn)行概述。

1.1 預(yù)處理

研究人員從電商網(wǎng)站等第三方平臺取得的評論數(shù)據(jù)要首先經(jīng)過預(yù)處理階段,主要包括中文分詞,詞性標(biāo)注,語言學(xué)特征處理等。

(1)中文分詞指的是按照一定的規(guī)范將連續(xù)的字序列重組為詞序列的過程,中文分詞技術(shù)歸屬于自然語言處理技術(shù)范疇,現(xiàn)有的分詞算法可分為三大類:基于統(tǒng)計的分詞方法、基于字符串匹配的分詞方法和基于理解的分詞方法。常見的分詞工具有:Hightmon開發(fā)的中文分詞引擎scws;支持Linux及Windows系列操作系統(tǒng)的ICTCLAS;基于Jovo的開源中文分詞組件Pooding(庖丁解牛分詞)等。盡管已有分詞工具較為成熟,但中文是一種十分復(fù)雜的話種,計算機(jī)在識別過程中還是會出現(xiàn)無法分辨歧義詞以及無法識別網(wǎng)絡(luò)新詞等難題。

(2)詞性標(biāo)注即確定分詞結(jié)果中每個單詞是名詞、動詞、形容詞或其他詞性的過程。

(3)語言學(xué)特征處理是指根據(jù)語言學(xué)特征對分詞和詞性標(biāo)注后的產(chǎn)品評論進(jìn)行進(jìn)一步的完善,一方面解決分詞工具無法識別的個別產(chǎn)品特征,此外為了提高處理文本的效率以及節(jié)省存儲空間,需過濾掉分詞結(jié)果中出現(xiàn)頻率高但無實際語義的停用詞(例如:的、是、啊等)。

1.2 屬性抽取

數(shù)據(jù)預(yù)處理完成后,需要從預(yù)處理結(jié)果中進(jìn)一步抽取產(chǎn)品屬性,產(chǎn)品屬性在評論文本中往往是用戶評價的對象。例如“這款手機(jī)的音效非常好”, “手機(jī)的屏幕清晰色彩好”,這兩句評論中產(chǎn)品屬性分別為“音效”和“屏幕”,屬性抽取的任務(wù)就是從在線評論文本中抽取出這樣的屬性。綜合目前的研究現(xiàn)狀來看,屬性提取主要分為四種方法:1)基于頻率的屬性抽取;2)利用句法關(guān)系抽取;3)利用監(jiān)督學(xué)習(xí)抽取;4)利用主題模型抽取,具體的方法特征與詳細(xì)信息如表1所示。

產(chǎn)品屬性的提取對于情感分析來說十分重要,它們代表著觀點評價的對象或者消費者在評論中談?wù)摰闹黝}。過去學(xué)者們提出了許多無監(jiān)督和半監(jiān)督的模型用于屬性抽取,然而從實際應(yīng)用層面來說,目前這些模型還存在著一些問題。例如這些模型大都基于一元模型的,而實際生活中很多屬性都是由多個單詞組成的短語。此外,目前的方法主要著眼于抽取名詞和名詞短語類型的特征,實際在很多情況下許多特征并不全是由名詞和名詞短語構(gòu)成,存在通過動詞表達(dá)的現(xiàn)象,這時已有的抽取算法就無法適用。

1.3 情感分類

情感分類的目標(biāo)是確定評論文本中針對不同屬性所表達(dá)的觀點傾向:正面、負(fù)面還是中性。在之前例子(“這款手機(jī)的音效非常好”)中,評論者對手機(jī)音效表達(dá)了正面的觀點。通過文獻(xiàn)的整理,我們總結(jié)出情感分類通常使用的兩類方法:基于監(jiān)督學(xué)習(xí)和基于詞典的無監(jiān)督學(xué)習(xí)。

1.3.1 基于監(jiān)督學(xué)習(xí)的方法

基于監(jiān)督學(xué)習(xí)的情感分類通常使用支持向量機(jī)(SVM)、樸素貝葉斯分類器等機(jī)器學(xué)習(xí)算法。該方法優(yōu)勢在于,它的學(xué)習(xí)算法可以通過優(yōu)化手段從各種特征中自動學(xué)到一個有效的分類模型,而這些在學(xué)習(xí)算法中所習(xí)得的特征大部分情況下難應(yīng)用于基于詞典的分類方法。劣勢在于基于監(jiān)督學(xué)習(xí)的方法依賴于人工標(biāo)注的訓(xùn)練集,但不同領(lǐng)域數(shù)據(jù)的分布、類別標(biāo)記的分布都具有很大的差異性,導(dǎo)致現(xiàn)有基于監(jiān)督學(xué)習(xí)的方法難以應(yīng)用于大規(guī)模、多領(lǐng)域的實際數(shù)據(jù)。

1 .3.2 基于詞典的無監(jiān)督學(xué)習(xí)

基于詞典的情感分類方法是使用包含情感詞短語、俚語、組合規(guī)則的情感詞典,并結(jié)合情感聚合函數(shù)來識別出在線評論文本中針對每個屬性所表達(dá)的情感傾向,該方法主要包括以下四個步驟。

1)標(biāo)記情感表達(dá)詞

此步驟的目標(biāo)是在評論語句中找出每處情感表達(dá),并判斷情感傾向,每個正面的情感表達(dá)+1,負(fù)面的情感表達(dá)一1.

2)處理情感轉(zhuǎn)換詞與轉(zhuǎn)折從句

情感轉(zhuǎn)換詞指的是能改變情感傾向的詞或者短語,如“手機(jī)屏幕不清晰,但是還能接受”中的“不” “但是”屬于情感轉(zhuǎn)換詞。通常通過給定的詞典檢測并標(biāo)記出來,在情感分析過程中不考慮它們的情感貢獻(xiàn),只考慮它們的情感轉(zhuǎn)折作用。

3)聚合情感打分

用情感聚合函數(shù)來給得到的情感打分,從而確定評論文本中針對每個屬性的觀點情感傾向。假設(shè)句子S包含屬性集合{a1,…,am),情感表達(dá)集合{sel,…,sen)以及通過上述步驟得到的每個情感表達(dá)的得分,則句子S中每個屬性al的情感傾向可以通過下面的聚合函數(shù)得到:

基于詞典的分類方法能夠有效的避免監(jiān)督學(xué)習(xí)方法中的部分問題,在面對大規(guī)模、多領(lǐng)域的實際應(yīng)用場景時具有良好的效果,魯棒性強,領(lǐng)域獨立,因此業(yè)界與學(xué)術(shù)界的許多開發(fā)與研究都使用此類方法。當(dāng)然基于詞典的分類方法缺點在于,構(gòu)建分類所需的知識庫(詞典、模板等)需要消耗大量的人力物力,另外難以解決的長尾問題,利用已有的情感詞我們大概只能處理60%的情況,而剩下的低頻的40%語言現(xiàn)象是無法處理的。

2、總結(jié)

本文從細(xì)粒度層面對在線評論的情感分析進(jìn)行了介紹,并梳理出細(xì)粒度情感分析通用的業(yè)務(wù)流程?;谏衔牡姆治雠c梳理,我們可以發(fā)現(xiàn),情感分析是一個涉及多任務(wù)的綜合研究,有很多子問題相互交叉,不僅僅是一個單獨的問題。與此同時,國內(nèi)該領(lǐng)域研究還存在一些亟待研究和解決的問題,主要包括以下幾點。

第一,缺乏對產(chǎn)品隱性屬性的挖掘。產(chǎn)品屬性層面上可細(xì)分為顯性屬性和隱性屬性,例如“這款手機(jī)的音效非常好”和“這款手機(jī)不容易放進(jìn)錢包里”兩條評論, “音效”可稱為顯性屬性,而“不容易放進(jìn)錢包里”則表達(dá)了產(chǎn)品的隱性屬性“體積”。通常隱性屬性的表達(dá)較為復(fù)雜,導(dǎo)致現(xiàn)有的研究缺乏對產(chǎn)品的隱形屬性進(jìn)行足夠深層次的挖掘。第二,缺乏成熟的語料庫和實驗平臺,用于公共研究使用的語料庫太少,同時因缺乏開放的實驗平臺和統(tǒng)一的評價標(biāo)準(zhǔn),導(dǎo)致方法的有效性較難驗證。第三,研究缺乏規(guī)范化,現(xiàn)有研究在語料詞性標(biāo)注規(guī)范、情感特征提取定義等很多方面沒有達(dá)成共識,很難對不同方法的實驗結(jié)果進(jìn)行客觀的比較和評價。

伴隨我國電子商務(wù)的高速發(fā)展,對于從在線評論中挖掘出更多的潛在商業(yè)價值的需求越發(fā)增多,基于這些強烈的應(yīng)用需求以及技術(shù)上的挑戰(zhàn)將會使得這一研究領(lǐng)域在未來會有很大的研究價值和發(fā)展空間。

參考文獻(xiàn):

[l]吳應(yīng)良,黃媛,王選飛.在線中文用戶評論研究綜述:基于情感計算的視角[J].情報科學(xué),2017,35(06):159-163+170.

[2]鄭霖,徐德華.基于改進(jìn)TFIDF算法的文本分類研究[J].計算機(jī)與現(xiàn)代化,2014(09):6-9+14.

[3]杜曉靜.引入情感分析的推薦模型[D].東南大學(xué),2017.

[4]劉培玉,茍靜,費紹棟,朱振方.基于隱馬爾可夫模型的主觀句識別[J].中文信息學(xué)報,2016,30(04):206-212.

[5]李向前,李軍偉.利用三層條件隨機(jī)場模型進(jìn)行情感極性分類及強度分析[J].計算機(jī)應(yīng)用研究,2017,34(04):986-990.

[6]王建芳,劉峰.基于隱狄利克雷分配的情感分析[J],計算機(jī)工程與設(shè)計,2014,35(06):2179-2182+2213.

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優(yōu)化
商情(2016年32期)2017-03-04 00:27:28
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點業(yè)務(wù)工單挖掘分析
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
基于文獻(xiàn)的中西醫(yī)結(jié)合治療腦梗死藥物使用情況分析
基于改進(jìn)Hadoop云平臺的海量文本數(shù)據(jù)挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 久久不卡精品| 免费一级无码在线网站| 亚洲视频四区| 国产精品香蕉在线观看不卡| 亚洲国产欧美国产综合久久 | 免费观看国产小粉嫩喷水| 中文字幕中文字字幕码一二区| 欧美一级专区免费大片| a在线观看免费| 伦精品一区二区三区视频| 欧美一区中文字幕| 欧美综合区自拍亚洲综合天堂 | 欧美日韩中文国产| 亚洲美女操| 狠狠ⅴ日韩v欧美v天堂| 免费A级毛片无码无遮挡| 国产门事件在线| 国产欧美日韩精品综合在线| 夜夜操天天摸| 国产偷国产偷在线高清| 欧美A级V片在线观看| 国产精品久久自在自2021| A级毛片无码久久精品免费| 中文字幕不卡免费高清视频| 国产又粗又猛又爽视频| 久久福利片| 日韩国产黄色网站| 国产v欧美v日韩v综合精品| 日韩国产黄色网站| 午夜免费视频网站| 亚洲国产综合第一精品小说| AV色爱天堂网| 99热免费在线| 亚洲自拍另类| 91在线视频福利| 美女免费精品高清毛片在线视| 波多野吉衣一区二区三区av| 久久女人网| 国产一区二区三区日韩精品| 99精品视频在线观看免费播放| AV在线天堂进入| 精品亚洲麻豆1区2区3区| 中文字幕在线一区二区在线| 久久精品国产91久久综合麻豆自制| 久久无码免费束人妻| 波多野结衣在线se| 永久免费精品视频| 91久久偷偷做嫩草影院免费看| 欧美日韩在线第一页| 全部免费特黄特色大片视频| 亚洲欧美不卡| 97视频在线观看免费视频| 国产va在线观看免费| 久久久噜噜噜| 亚洲日韩Av中文字幕无码| 久久精品日日躁夜夜躁欧美| 成人在线不卡| 99精品视频九九精品| 国产精品视频第一专区| 亚洲av无码专区久久蜜芽| 欧美激情伊人| 91色爱欧美精品www| 国产欧美精品专区一区二区| 国产超碰一区二区三区| a在线观看免费| 国产色婷婷| 日韩区欧美国产区在线观看| 熟妇丰满人妻| 国产精品天干天干在线观看| 欧美、日韩、国产综合一区| 国产AV无码专区亚洲精品网站| 亚洲精品成人7777在线观看| 青青青国产视频手机| 精品国产乱码久久久久久一区二区| 性色生活片在线观看| 亚洲成人网在线观看| 久久精品这里只有国产中文精品| 欧美国产日韩另类| 亚洲精品中文字幕午夜| 国产凹凸一区在线观看视频| 这里只有精品在线| 日韩大乳视频中文字幕|