999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線評(píng)論文本挖掘?qū)﹄娚痰挠绊懷芯?/h1>
2018-09-10 07:06:35崔永生
中國商論 2018年33期
關(guān)鍵詞:文本挖掘

崔永生

摘 要:目前各大電子商務(wù)網(wǎng)站每天都產(chǎn)生大量的在線評(píng)論,電商企業(yè)面對(duì)數(shù)量巨大的在線評(píng)論,能夠快速地找到消費(fèi)者所關(guān)注商品或服務(wù)的評(píng)價(jià)信息,了解消費(fèi)者真正的購物需求,存在一定的難度。在線評(píng)論文本內(nèi)容是能夠表達(dá)買家對(duì)所購商品質(zhì)量、電商企業(yè)服務(wù)、快遞物流服務(wù)等詳實(shí)的感受或體驗(yàn)的部分,反映出消費(fèi)者對(duì)購買全過程的滿意度。本文通過對(duì)在線評(píng)論文本挖掘的研究,設(shè)計(jì)基于語義詞典的評(píng)論商品屬性<特征詞、觀點(diǎn)詞>對(duì)抽取方法和在線評(píng)論情感極性及強(qiáng)度計(jì)算方法,可以幫助電商企業(yè)準(zhǔn)確而快速地挖掘出在線評(píng)論文本中消費(fèi)者感知有用性商品評(píng)價(jià)信息,進(jìn)而改進(jìn)企業(yè)產(chǎn)品或服務(wù)質(zhì)量,幫助商家有效地制定精準(zhǔn)營銷服務(wù)策略。

關(guān)鍵詞:在線評(píng)論 文本挖掘 情感分析 語義詞典

中圖分類號(hào):F724.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-0298(2018)11(c)-017-07

1 引言

在線評(píng)論文本數(shù)據(jù)是一種非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)中蘊(yùn)藏著豐富的價(jià)值。在線評(píng)論文本數(shù)據(jù)中的高價(jià)值信息,對(duì)潛在消費(fèi)者的感知、購買決策行為具有重要影響,進(jìn)而對(duì)電商平臺(tái)和生產(chǎn)企業(yè)產(chǎn)品銷量產(chǎn)生重要影響。在線評(píng)論文本挖掘目前受到了學(xué)術(shù)界專家學(xué)者普遍關(guān)注,已經(jīng)成為研究和企業(yè)實(shí)踐的一大熱點(diǎn)。

針對(duì)在線評(píng)論文本數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)特征,在線評(píng)論文本挖掘目前普遍采用文本數(shù)據(jù)挖掘技術(shù)和自然語言處理等技術(shù),對(duì)在線評(píng)論文本半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘。主要任務(wù)包括評(píng)論產(chǎn)品屬性特征提取、在線評(píng)論情感分析及在線評(píng)論文本分類。所以目前在線評(píng)論文本挖掘的研究也主要集中在這三個(gè)方面的實(shí)現(xiàn)技術(shù)手段和實(shí)際商業(yè)應(yīng)用研究。

基于在線評(píng)論的客戶細(xì)分應(yīng)用研究。蔡淑琴等(2015)[1]構(gòu)建了在線評(píng)論文本挖掘客戶偏好模型,使用數(shù)據(jù)挖掘中的兩階段聚類方法展開客戶細(xì)分的實(shí)證研究。首先,通過在線評(píng)論文本中的同義詞特征識(shí)別和抽取方法提取客戶偏好特征向量,然后基于產(chǎn)品屬性結(jié)構(gòu)細(xì)粒度的客戶偏好向量計(jì)算客戶偏好,最后利用C均值聚類方法對(duì)客戶依據(jù)偏好值進(jìn)行細(xì)分。

在線評(píng)論文本挖掘也常用于企業(yè)產(chǎn)品定價(jià)的研究。郭愷強(qiáng)等(2014)[2]基于消費(fèi)者效用理論,構(gòu)建了在線評(píng)論文本挖掘的產(chǎn)品銷售兩階段定價(jià)模型。劉洋等(2014)[3]通過在線評(píng)論文本挖掘,選擇用戶風(fēng)險(xiǎn)規(guī)避程度與在線評(píng)論數(shù)量作為關(guān)鍵指標(biāo),研究了在線評(píng)論對(duì)應(yīng)用軟件產(chǎn)品及基于平臺(tái)的軟件開發(fā)者定價(jià)策略的影響。

在線評(píng)論文本挖掘用于電商企業(yè)網(wǎng)絡(luò)口碑預(yù)警系統(tǒng)研發(fā)的研究。李金海等(2015)[4]運(yùn)用在線評(píng)論文本挖掘方法,針對(duì)電商企業(yè)目前所面臨的網(wǎng)絡(luò)口碑危害問題,提出并構(gòu)建了基于在線評(píng)論文本挖掘的網(wǎng)絡(luò)口碑危機(jī)預(yù)警模型。該模型使用了大數(shù)據(jù)并行處理技術(shù)MapReduce來完成在線評(píng)論產(chǎn)品屬性挖掘,并使用情感模糊隸屬函數(shù)進(jìn)行在線評(píng)論情感分析,進(jìn)而獲得企業(yè)網(wǎng)絡(luò)口碑目前現(xiàn)狀及未來走勢,最后采用人工智能信息處理方法完成企業(yè)網(wǎng)絡(luò)口碑的評(píng)估以達(dá)到系統(tǒng)預(yù)警目標(biāo)。

在線評(píng)論文本內(nèi)容不僅包含了消費(fèi)者購物滿意度信息,而且還包含其對(duì)新產(chǎn)品或服務(wù)的接納度和期望信息,所以通過在線評(píng)論文本挖掘可以分析確定新產(chǎn)品升級(jí)策略。龔艷萍和梁樹霖(2014)[5]基于精確似然ELM理論構(gòu)建了在線評(píng)論雙重選擇路徑模型,通過產(chǎn)品特征提取來考察消費(fèi)者對(duì)新產(chǎn)品接納度。實(shí)證結(jié)果表明,正向在線評(píng)論、客觀事實(shí)在線評(píng)論、在線評(píng)論內(nèi)容質(zhì)量對(duì)消費(fèi)者的新產(chǎn)品感知有用性具有正向影響,進(jìn)而顯著影響新產(chǎn)品的接納度。Lee和Yang(2015)[6]以亞馬遜網(wǎng)站為實(shí)例,采集143條產(chǎn)品在線評(píng)論。通過在線評(píng)論文本挖掘后發(fā)現(xiàn),在線評(píng)論感知有用性對(duì)新產(chǎn)品接納度具有積極影響,在線評(píng)論的情感極性對(duì)新產(chǎn)品接納度具有負(fù)向影響,標(biāo)題吸引力在在線評(píng)論情感極性對(duì)新產(chǎn)品接納度的影響上具有顯著調(diào)節(jié)作用。張璐等(2015)[7]采集小米品牌手機(jī)在線評(píng)論樣本數(shù)據(jù),通過產(chǎn)品屬性特征提取,分析在線評(píng)論內(nèi)容中產(chǎn)品屬性特征與產(chǎn)品升級(jí)和質(zhì)量改進(jìn)的關(guān)系。實(shí)證研究發(fā)現(xiàn),在線評(píng)論中消費(fèi)者對(duì)產(chǎn)品的客觀評(píng)價(jià)變化與產(chǎn)品改進(jìn)方向和改進(jìn)程度具有強(qiáng)關(guān)聯(lián)性,電商企業(yè)可以依據(jù)消費(fèi)者對(duì)產(chǎn)品的客觀評(píng)價(jià)決定新產(chǎn)品升級(jí)和改進(jìn)的內(nèi)容和方向。

通過在線評(píng)論文本挖掘可以分析消費(fèi)者對(duì)在線評(píng)論的響應(yīng)程度并進(jìn)行管理。Gu和Ye(2013)[8]以攜程網(wǎng)酒店在線評(píng)論樣本數(shù)據(jù)進(jìn)行在線評(píng)論挖掘管理響應(yīng)實(shí)證研究,結(jié)果發(fā)現(xiàn)管理響應(yīng)對(duì)低滿意度客戶具有顯著影響而對(duì)其他類型客戶作用不顯著。低滿意度客戶如果收到管理響應(yīng),其將來滿意度會(huì)隨之增加;如果沒收到管理響應(yīng),會(huì)降低其對(duì)酒店將來的預(yù)期。Liu等(2014)[9]通過在線評(píng)論文本挖掘的實(shí)證研究發(fā)現(xiàn)高星級(jí)酒店更樂于接受響應(yīng)管理;通過在線評(píng)論文本挖掘酒店響應(yīng)率指標(biāo),發(fā)現(xiàn)星級(jí)不同的酒店響應(yīng)管理并沒有表現(xiàn)出顯著的不同;具有針對(duì)性的響應(yīng)管理對(duì)酒店評(píng)級(jí)具有正向影響作用。Xie等(2014)[10]采集843家酒店在線評(píng)論和管理響應(yīng)面板數(shù)據(jù),通過在線評(píng)論文本挖掘發(fā)現(xiàn),評(píng)論效價(jià)、購買價(jià)值和位置及清潔度評(píng)分、在線評(píng)論方差及在線評(píng)論數(shù)量、管理響應(yīng)數(shù)量與酒店業(yè)績具有顯著相關(guān)性,管理響應(yīng)及在線評(píng)論方差在評(píng)論效價(jià)對(duì)酒店業(yè)績的影響作用上具有調(diào)節(jié)效應(yīng)。

就目前已有在線評(píng)論文本挖掘研究成果來看,在線評(píng)論文本挖掘所用語料大部分是英語,所以針對(duì)中文在線評(píng)論文本挖掘的研究還不多見。Fong和Burton[11]在對(duì)比中國和美國的消費(fèi)者在線口碑傳播行為的研究發(fā)現(xiàn),由于中國消費(fèi)者和美國消費(fèi)者在個(gè)人文化背景、網(wǎng)購自信程度及消費(fèi)市場特征方面的差異,在線評(píng)論對(duì)中國消費(fèi)者的影響程度遠(yuǎn)遠(yuǎn)高于美國的消費(fèi)者,而且中國在線消費(fèi)市場規(guī)模巨大。因此,有針對(duì)性的研究中國消費(fèi)者在線評(píng)論對(duì)企業(yè)產(chǎn)品績效影響作用,將具有重要的理論和實(shí)踐意義。

在線評(píng)論文本挖掘研究目前存在的不足表現(xiàn)在以下幾個(gè)方面。

首先,中文在線評(píng)論語言特征不規(guī)范,采用主題分類法會(huì)導(dǎo)致分詞錯(cuò)誤,嚴(yán)重影響情感分類效果。

其次,使用監(jiān)督學(xué)習(xí)方法進(jìn)行在線評(píng)論文本情感分類,需要人工建立大規(guī)模的訓(xùn)練語料集,才能獲得較好的分類效果,而這對(duì)中文在線評(píng)論語料顯然不現(xiàn)實(shí)。因此,從語義角度來研究中文在線評(píng)論情感分類才具有現(xiàn)實(shí)意義。

最后,在線評(píng)論情感分類處理最重要的處理環(huán)節(jié)是能夠自動(dòng)處理并區(qū)分主、客觀文本信息,就目前已有研究成果來看,這方面研究還比較缺乏,需要進(jìn)一步的理論探索和研究。

綜上所述,目前國內(nèi)外學(xué)者對(duì)中文在線評(píng)論文本挖掘研究并不多見,特別是對(duì)基于語義詞典的在線評(píng)論文本挖掘方法還沒有形成一個(gè)系統(tǒng)的研究體系。

2 研究框架和設(shè)計(jì)思路

在線評(píng)論文本挖掘就是對(duì)在線評(píng)論的文本內(nèi)容進(jìn)行特征分類挖掘,它的過程遵循文本挖掘通用的幾個(gè)步驟。本文借鑒文獻(xiàn)[12]將在線評(píng)論句的結(jié)構(gòu)化單元?jiǎng)澐殖扇齻€(gè)層次:最上層為在線評(píng)論對(duì)象;中間層為在線評(píng)論對(duì)象的屬性特征;最底層為屬性特征的情感表示。在線評(píng)論的商品屬性特征詞的抽取和與情感分析的具體流程如下。

(1)收集在線評(píng)論語料集,對(duì)語料數(shù)據(jù)集預(yù)處理。過程通常包括文本挖掘技術(shù)中的分詞、刪除停用詞、詞性標(biāo)注等步驟,對(duì)語句中使用頻率高的單詞還需進(jìn)行詞頻統(tǒng)計(jì)。

(2)篩選在線評(píng)論主題句,屬性特征詞集和<特征詞,觀點(diǎn)詞>對(duì)抽取,這一步驟對(duì)應(yīng)的是文本挖掘的特征選擇和特征抽取部分,針對(duì)抽取的特征詞重要程度的差異,引入屬性特征詞權(quán)重因子。常見的權(quán)重因子計(jì)算法包括布爾權(quán)重法、基于熵的權(quán)重法、特征頻率法和TF-IDF法等,本文選擇TF-IDF方法來計(jì)算特征詞權(quán)重因子。

(3)基于情感詞典模型,依據(jù)抽取后的<特征詞,觀點(diǎn)詞>對(duì),對(duì)在線評(píng)論文本集情感極性量化計(jì)算。

(4)根據(jù)計(jì)算出的情感量化分值來確定每條在線評(píng)論的情感傾向,選擇準(zhǔn)確度(Accuracy)和F度量指標(biāo)來評(píng)價(jià)算法的性能。

本文基于語義詞典的在線評(píng)論文本挖掘流程,如圖1所示。

3 在線評(píng)論商品屬性的特征抽取

3.1 特征詞和觀點(diǎn)詞的范圍界定

本文依據(jù)本體論的原理,將表征商品內(nèi)部屬性和外部屬性的詞條統(tǒng)一定義為商品屬性特征詞。建立商品屬性特征本體機(jī)構(gòu),以手機(jī)商品為例,手機(jī)屬性特征本體結(jié)構(gòu)(部分)如圖2所示,圖中“手機(jī)”為商品屬性特征本體結(jié)構(gòu)根節(jié)點(diǎn),“顏色”“樣式”“價(jià)格”為手機(jī)屬性的特征詞,同時(shí)作為手機(jī)根節(jié)點(diǎn)的子節(jié)點(diǎn),“鮮艷”與“時(shí)尚”“便宜”為描述手機(jī)屬性特征的觀點(diǎn)詞,由手機(jī)屬性特征詞和觀點(diǎn)詞共同構(gòu)成本體結(jié)構(gòu)樹。

3.2 在線評(píng)論文本集的預(yù)處理

在篩選在線評(píng)論主題句,商品屬性<特征詞,觀點(diǎn)詞>對(duì)抽取之前,需要將在線評(píng)論語料集進(jìn)行特征表示并格式化為標(biāo)準(zhǔn)格式,剔除數(shù)據(jù)噪聲,為后續(xù)的特征選擇和<特征詞,觀點(diǎn)詞>對(duì)抽取作好準(zhǔn)備。對(duì)于在線評(píng)論語料中的數(shù)字及特殊符號(hào),可以采用統(tǒng)一轉(zhuǎn)換成易識(shí)別的符號(hào)或空格,然后依據(jù)停用詞詞典或詞匯表將停用詞或稀有詞從語料中清除,預(yù)處理具體包括以下步驟。

(1)分詞。

分詞即將在線評(píng)論中的句子按照特定的算法分成獨(dú)立的單詞的過程。針對(duì)中文的分詞,本文使用中科院的中文分詞軟件ICTCLAS,它不僅可以進(jìn)行詞性標(biāo)注,而且可以加入分詞詞典,所以對(duì)詞語糾錯(cuò)同時(shí)方便加入領(lǐng)域詞,進(jìn)而提高分詞準(zhǔn)確性。

(2)停用詞和稀有詞處理。

稀有詞是指在文本中使用頻率不高,對(duì)文本特征表示沒有價(jià)值而應(yīng)該刪除的詞條。對(duì)于這類詞的處理一般采用預(yù)先設(shè)置詞頻閥值,經(jīng)統(tǒng)計(jì)詞條使用頻后,如果低于閥值就刪除該詞條。停用詞是指目前在某一行業(yè)領(lǐng)域已經(jīng)不在使用的詞條。對(duì)于這類詞的刪除,可以基于已有的停用詞詞典,如果特殊需要可以手動(dòng)建立詞典。

(3)詞條歸并。

在文本中存在許多同義詞或近義詞,為了降低這些語義重復(fù)的詞條,需要將這類詞進(jìn)行合并處理,提高分類的準(zhǔn)確性。中文中“價(jià)位”“價(jià)錢”“價(jià)位”就是同義詞。

3.3 文本特征選擇與特征加權(quán)

在使用詞袋法表示文本特征時(shí),特征向量會(huì)膨脹達(dá)到幾萬維甚至于幾十萬維,即使經(jīng)過文本預(yù)處理,還會(huì)有很多的特征向量留下。所以在文本的特征抽取時(shí),對(duì)高維特征詞降維處理至關(guān)重要。文本特征抽取和特征選擇是文本高維特征降維的兩個(gè)常用方法,本文將運(yùn)用文本特征選擇的方法實(shí)現(xiàn)在線評(píng)論文本高維特征降維。

本文采用互信息(PMI)的方法抽取在線評(píng)論互信息高的名詞或名詞性短語來選取為選產(chǎn)品屬性特征,互信息的計(jì)算公式為式(1):

其中Wi表示該特征詞在文本集中的權(quán)重,等于特征詞詞頻TF與逆向文檔頻率IDF之積。

3.4 在線評(píng)論文本中<特征詞,觀點(diǎn)詞>對(duì)的抽取

在線評(píng)論語句中的商品屬性特征詞通常以名詞形式的形式出現(xiàn),例如“外觀”“性價(jià)比”“價(jià)位”等,所以一般將語料分詞后經(jīng)詞性標(biāo)注所得到名詞作為候選商品屬性特征詞。將抽取到在線評(píng)論語句中表達(dá)消費(fèi)者對(duì)商品屬性特征的評(píng)價(jià)和情緒的詞語,一般為形容詞和動(dòng)詞,本文統(tǒng)稱為觀點(diǎn)詞,并以<特征詞,觀點(diǎn)詞>對(duì)的形式進(jìn)行抽取,這主要是考慮觀點(diǎn)詞的傾向性主要依賴于商品的屬性特征,更能表達(dá)消費(fèi)者對(duì)商品屬性特征的感受。

<特征詞,觀點(diǎn)詞>對(duì)抽取的過程為以下幾點(diǎn)。

(1)對(duì)照商品屬性詞典里的特征詞,逐一搜索在線評(píng)論語句集中的每一語句,將匹配的特征詞從語句中抽取出來,保存在指定的特征詞文件里。

(2)累計(jì)每個(gè)在線評(píng)論句中所抽取出的特征詞數(shù)量,如果結(jié)果為1,則將該語句標(biāo)識(shí)為簡單在線評(píng)論句;如果結(jié)果大于1,則將該語句標(biāo)識(shí)為復(fù)雜在線評(píng)論句。

(3)對(duì)標(biāo)識(shí)為復(fù)雜在線評(píng)論句重復(fù)步驟1和步驟2的操作,直到所有復(fù)雜在線評(píng)論句都被切分成簡單在線評(píng)論句為止。

(4)將簡單評(píng)價(jià)句中的所有形容詞和動(dòng)詞抽取出來作為該在線評(píng)論句的候選觀點(diǎn)詞,并加入和保存到指定的<特征詞,觀點(diǎn)詞>對(duì)文件中。對(duì)抽取的特征詞和觀點(diǎn)詞的關(guān)聯(lián)度進(jìn)行評(píng)估,設(shè)定關(guān)聯(lián)度閥值,低于閥值的<特征詞,觀點(diǎn)詞>對(duì)將被從文件中刪除。對(duì)篩查后的<特征詞,觀點(diǎn)詞>對(duì)還需人工檢查,剔除無關(guān)聯(lián)或關(guān)聯(lián)不大的<特征詞,觀點(diǎn)詞>對(duì),最終保留在文件中的<特征詞,觀點(diǎn)詞>對(duì)集作為詞典為在線評(píng)論情感分析提供支持。

4 在線評(píng)論文本情感極性量化

基于語義詞典的在線評(píng)論情感極性量化分析是從語言學(xué)的角度來展開問題研究的方法,該方法的核心是語義詞匯的分類規(guī)則。它借助于詞匯間的同義關(guān)系或反義關(guān)系,通過一定的算法準(zhǔn)則計(jì)算出詞匯間的語義距離,得到詞匯語義間的情感極性及強(qiáng)度。目前已有研究普遍采用的語義詞典:英文常見有Word Net、Frame Net等,中文常見有 How Net(《知網(wǎng)》)《同義詞詞林》等。

本文利用Turney(2002)[13]提出的計(jì)算在線評(píng)論情感傾向的方法,計(jì)算情感詞和基準(zhǔn)情感詞的距離。PMI-IR算法計(jì)算公式如式(5):

對(duì)照連詞詞典進(jìn)行匹配標(biāo)注,具體規(guī)則如下。

轉(zhuǎn)折連詞:在線評(píng)論語句中出現(xiàn)轉(zhuǎn)折連詞,連詞后面的語句則發(fā)生語義轉(zhuǎn)折,“前面正向,后面負(fù)向,則在線評(píng)論句情感極性為負(fù)向”;“前面負(fù)向,后面正向,則在線評(píng)論句情感極性為正向”。

遞進(jìn)連詞:在線評(píng)論中出現(xiàn)遞進(jìn)連詞,如英文中的“even、more、also等”,中文為“況且、不如、并”等,連詞后面所表達(dá)的情感極性得到增強(qiáng)。

5 文本挖掘有效性實(shí)證分析

5.1 在線評(píng)論語料的來源

本文收集的在線評(píng)論主要來自亞馬遜網(wǎng)站、京東網(wǎng)站兩個(gè)大型知名的B2C電商網(wǎng)站的買家。采用網(wǎng)絡(luò)爬蟲軟件分別抓取亞馬遜中國、京東網(wǎng)站上的手機(jī)商品評(píng)論記錄。

5.2 數(shù)據(jù)的采集過程及數(shù)據(jù)清洗

本文選取亞馬遜中國、京東熱銷的12個(gè)知名品牌手機(jī)產(chǎn)品,采集在線用戶評(píng)論文本作為挖掘原始數(shù)據(jù),具體的步驟如下。

(1)對(duì)比研究兩大購物網(wǎng)站在線評(píng)論系統(tǒng)設(shè)置的異同,確定在線評(píng)論文本數(shù)據(jù)的采集格式、方法及工具的選用,本文將選用網(wǎng)絡(luò)爬蟲工具軟件八爪魚采集器V7.0作為評(píng)論數(shù)據(jù)采集工具。

(2)利用八爪魚工具軟件編輯器,采集數(shù)據(jù)范圍包括手機(jī)商品評(píng)價(jià)頁面信息(評(píng)論者用戶名、評(píng)論效價(jià)、評(píng)論題目、上傳圖片、評(píng)論發(fā)布時(shí)間等)及評(píng)論文本。

(3)數(shù)據(jù)收集的時(shí)間為2017年2月—2017年12月,共采集45892條評(píng)論記錄。

(4)對(duì)所得到的數(shù)據(jù)進(jìn)行清洗,刪除同一用戶的重復(fù)評(píng)論后,對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步篩選、整理和剔除沒有任何購物評(píng)價(jià)意義的在線評(píng)論,余下2842條在線評(píng)論,只保留評(píng)論標(biāo)識(shí)ID和評(píng)論內(nèi)容作為挖掘?qū)ο螅瑢⒈A粼u(píng)論信息合并保存為手機(jī)評(píng)論.xls。

5.3 在線評(píng)論樣本的統(tǒng)計(jì)描述

本文整理評(píng)論語料集如表2所示,其中京東網(wǎng)站采集各類品牌手機(jī)評(píng)論文本1542條,亞馬遜中國網(wǎng)站評(píng)論文本1300條。通過手工標(biāo)注整理京東正面評(píng)論871條,負(fù)面評(píng)論671條,亞馬遜正面評(píng)論500條,負(fù)面評(píng)論800條,作為后面的文本挖掘分類評(píng)價(jià)基準(zhǔn)。

本文依據(jù)TFIDF特征選擇算法抽取的手機(jī)評(píng)論屬性特征詞(部分)如表3所示。

5.4 評(píng)價(jià)指標(biāo)

本文采用通用的文本分類效果評(píng)價(jià)指標(biāo):全局查準(zhǔn)率(accuracy)、查準(zhǔn)率(precision)及查全率(recall)。文本分類效果評(píng)估通常使用二項(xiàng)分類列聯(lián)表(Contingency Table),表4為一個(gè)二項(xiàng)分類問題的列聯(lián)表。

5.5 <特征詞,觀點(diǎn)詞>對(duì)的抽取及情感強(qiáng)度計(jì)算結(jié)果

本文將程度副詞細(xì)分成6個(gè)級(jí)別,各級(jí)別權(quán)重系數(shù)依次設(shè)置為2、1.5、1.25、1.2、0.2、0.8、0.5,如果購物評(píng)價(jià)中不含程度副詞,則設(shè)置為1,否定詞、轉(zhuǎn)折連詞系數(shù)設(shè)置為-1。選擇知網(wǎng)(HowNet)和臺(tái)灣NTUSD情感詞典作為情感詞參照詞庫,如表5所示。

評(píng)論語料集經(jīng)過數(shù)據(jù)清洗,預(yù)處理和主觀句的對(duì)的抽取,經(jīng)情感極性量化及強(qiáng)度計(jì)算后,整理得到示例(部分)如表6所示。

采用3折交叉驗(yàn)證方式,本文研究方法對(duì)比傳統(tǒng)的分類方法(決策樹、貝葉斯、SVM)進(jìn)行了評(píng)價(jià)效果實(shí)驗(yàn),分別取評(píng)論句500條、1000條、1500條、2000條進(jìn)行4次測試,準(zhǔn)確率(accuracy)如表7所示,F(xiàn)-measure如表8所示。

依據(jù)全部輸入評(píng)論句集及在表3中整理出的手機(jī)屬性特征類,對(duì)消費(fèi)者購物評(píng)價(jià)的情感極性分類計(jì)算,所得產(chǎn)品特征屬性類的抽取結(jié)果,如圖3所示。

由表7和表8可以看見,相比于傳統(tǒng)的機(jī)器學(xué)習(xí)的分類方法,本文研究方法分類效果良好。以評(píng)論句2000條為例,決策樹全局查準(zhǔn)率(accuracy)和F1分別為91.28%、87.18%,貝葉斯為93.34%、87.23%、SVM為95.67%、91.34%、而本文研究方法達(dá)到97.21%、95.32%,明顯高于其他3種方法,這與各種詞典的詞匯準(zhǔn)確性相關(guān)。

由圖3看出,消費(fèi)者關(guān)注手機(jī)產(chǎn)品的性能情感程度明顯高于其他方面,其次是手機(jī)的配件,外觀和功效,通過特征類的情感對(duì)比,可以清楚地了解消費(fèi)者的購物感受。

6 結(jié)語

本文設(shè)計(jì)了基于語義詞典的在線評(píng)論文本挖掘方法,對(duì)在線評(píng)論文本內(nèi)容進(jìn)行特征分類挖掘。在線評(píng)論文本挖掘有效性實(shí)證分析結(jié)果發(fā)現(xiàn),基于語義詞典,運(yùn)用細(xì)粒度的<特征詞,觀點(diǎn)詞>對(duì)抽取方法,可以理想地挖掘出在線評(píng)論文本中消費(fèi)者購物評(píng)價(jià)信息,并實(shí)現(xiàn)情感極性量化和強(qiáng)度計(jì)算。采用此方法比其他的傳統(tǒng)的方法具有優(yōu)良的分類準(zhǔn)確率。通過本文設(shè)計(jì)的在線評(píng)論文本挖掘方法,可以抽取在線評(píng)論文本內(nèi)容中的商品屬性特征好評(píng)度指標(biāo),提高了在線評(píng)論文本特征詞分類準(zhǔn)確性。基于語義詞典的在線評(píng)論文本挖掘方法的研究,為從語義角度來研究中文在線評(píng)論情感分類相關(guān)研究提供了一個(gè)全新的視角。

參考文獻(xiàn)

[1] 蔡淑琴,蔣士淼,G D OLLE OLLE,等.基于在線客戶在線評(píng)論的客戶細(xì)分研究[J].管理學(xué)報(bào),2015(7).

[2] 郭愷強(qiáng),王洪偉,鄭晗.基于在線評(píng)論的網(wǎng)絡(luò)零售定價(jià)模型研究[J].商業(yè)經(jīng)濟(jì)與管理,2014(4).

[3] 劉洋,廖貅武,劉瑩.在線評(píng)論對(duì)應(yīng)用軟件及平臺(tái)定價(jià)策略的影響[J].系統(tǒng)工程學(xué)報(bào),2014(4).

[4] 李金海,何有世,馬云蕾,等.大數(shù)據(jù)時(shí)代基于在線評(píng)論挖掘的企業(yè)網(wǎng)絡(luò)口碑危機(jī)預(yù)警研究[J].情報(bào)雜志,2015(2).

[5] 龔艷萍,梁樹霖.在線評(píng)論對(duì)新技術(shù)產(chǎn)品消費(fèi)者采用意愿的影響研究——基于ELM視角[J].軟科學(xué),2014(2).

[6] Lee K Y,Yang S B.The role of online product reviews on information adoption of new product development professionals[J].Internet Research,2015,25(3).

[7] 張璐,吳菲菲,黃魯成.基于用戶網(wǎng)絡(luò)在線評(píng)論信息的產(chǎn)品創(chuàng)新研究[J].軟科學(xué),2015(5).

[8] Gu B.,Ye Q.First Step in Social Media:Measuring the Influence of Online Management Responses on Customer Satisfaction[J].Production and Operations Management Society,2013.

[9] Liu X W,Schuckert M,Law R.Can Response Management Benefit Hotels?Evidence from Hong Kong Hotels[J].Journal of Travel & Tourism Marketing,2014,32(8).

[10] Xie K L,Zhang Z,Zhang Z.The business value of online consumer reviews and management response to hotel performance[J].International Journal of Hospitality Management,2014(43).

[11] J.Fong,S.Burton. Electronic Word of Mouth:A Comparison of Stated and Revealed Behavior on Electronic Discussion Boards[J].Journal of Interactive Advertising,2006,6(2).

[12] 李慧,柴亞青.基于屬性特征的在線評(píng)論文本情感極性量化分析[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(10).

[13] Turney P D.Thumbs up or thumbs down?:semantic orientation applied to unsupervised classification of reviews[C].Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2002.

[14] 藺璜,郭姝慧.程度副詞的特點(diǎn)范圍與分類[J].山西大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2003,26(2).

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識(shí)
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評(píng)論要素挖掘
基于評(píng)論信息的淘寶服裝類評(píng)分體系優(yōu)化
商情(2016年32期)2017-03-04 00:27:28
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
基于文獻(xiàn)的中西醫(yī)結(jié)合治療腦梗死藥物使用情況分析
基于改進(jìn)Hadoop云平臺(tái)的海量文本數(shù)據(jù)挖掘
慧眼識(shí)璞玉,妙手煉渾金

主站蜘蛛池模板: 欧美国产菊爆免费观看| 亚洲爱婷婷色69堂| 日韩精品亚洲人旧成在线| 国产日韩欧美在线播放| 亚洲国产精品久久久久秋霞影院| 久久国产精品嫖妓| 国产精品自拍露脸视频| 高清无码一本到东京热| 中国国产高清免费AV片| 欧美性爱精品一区二区三区| 99这里精品| 日本爱爱精品一区二区| 青青青伊人色综合久久| 伊人91在线| www欧美在线观看| 天天操天天噜| 国产一区二区影院| 国产91导航| 天天干伊人| 米奇精品一区二区三区| 亚洲欧美综合另类图片小说区| 国产主播福利在线观看| 亚洲色图在线观看| 亚洲人在线| 成年片色大黄全免费网站久久| 91视频青青草| 精品人妻无码中字系列| 热re99久久精品国99热| 亚洲综合香蕉| 欧美成人在线免费| 精品無碼一區在線觀看 | 99精品伊人久久久大香线蕉| 色综合五月| 日日噜噜夜夜狠狠视频| 99久久99这里只有免费的精品| av在线手机播放| 狠狠色综合久久狠狠色综合| 欧美国产日韩在线播放| 青青草国产一区二区三区| 亚洲欧美日韩高清综合678| 欧美日韩国产在线人成app| 亚洲国产成熟视频在线多多| 久久频这里精品99香蕉久网址| 成人亚洲国产| 四虎影视库国产精品一区| 999国内精品视频免费| 久久公开视频| 亚洲无码日韩一区| 久久成人免费| 免费毛片a| 国产三级成人| 国产打屁股免费区网站| 国产激情第一页| 欧美日韩一区二区三区在线视频| 国产女人水多毛片18| 在线人成精品免费视频| 国产精品浪潮Av| 久热精品免费| 亚洲精品图区| 国产第一页亚洲| 久久国产亚洲欧美日韩精品| 欧美午夜网站| 欧美日韩亚洲综合在线观看 | 99久久精品久久久久久婷婷| 九九这里只有精品视频| 亚洲成人网在线播放| www精品久久| 小说区 亚洲 自拍 另类| 2020精品极品国产色在线观看 | 国产一区二区三区精品久久呦| 久操线在视频在线观看| 亚洲日本精品一区二区| 日本不卡视频在线| 久操线在视频在线观看| 色香蕉影院| 91精品免费高清在线| 国产无遮挡猛进猛出免费软件| 青青草国产免费国产| 亚洲无码A视频在线| 麻豆AV网站免费进入| 成人91在线| 久久人搡人人玩人妻精品|