999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost算法的電商評(píng)論文本情感識(shí)別模型

2018-01-25 10:52:38蘇兵杰周亦鵬梁勛鴿
物聯(lián)網(wǎng)技術(shù) 2018年1期

蘇兵杰 周亦鵬 梁勛鴿

摘 要:由于電子商務(wù)網(wǎng)站上商品評(píng)論數(shù)量激增,對(duì)商品評(píng)論信息進(jìn)行數(shù)據(jù)挖掘和情感分析顯得尤為重要。文中立足于電子商務(wù)平臺(tái)上生鮮產(chǎn)品的評(píng)論文本,將情感識(shí)別問題抽象為分類問題,結(jié)合TF-IDF和卡方檢驗(yàn)方法提取文本特征,利用XGBoost算法訓(xùn)練分類器建立商品評(píng)論文本的情感識(shí)別模型,將海量的商品評(píng)論數(shù)據(jù)轉(zhuǎn)換為人們需要的信息。

關(guān)鍵詞:電子商務(wù);用戶評(píng)論;XGBoost算法;情感識(shí)別

中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2018)01-00-04

0 引 言

互聯(lián)網(wǎng)和電子商務(wù)的發(fā)展,使網(wǎng)絡(luò)上的商品評(píng)論文本數(shù)量激增,這些商品評(píng)論對(duì)購買同種商品的買家具有指導(dǎo)作用。然而面對(duì)數(shù)量龐大的商品評(píng)論,買家若通過逐個(gè)查看的方式獲取信息必將耗費(fèi)大量精力,效果也不好。同時(shí)電子商務(wù)平臺(tái)上的評(píng)論分類并不能準(zhǔn)確表達(dá)已購買用戶真正的情感傾向。在eBay信譽(yù)機(jī)制研究中Resnick等曾指出,買家由于擔(dān)心差評(píng)會(huì)遭到賣家的報(bào)復(fù)會(huì)在評(píng)論時(shí)選擇給出好評(píng)[1],比如2012年轟動(dòng)一時(shí)的“壽衣門”事件。因此,大量消費(fèi)者在評(píng)論時(shí)會(huì)再三思慮,造成了許多負(fù)面評(píng)價(jià)隱藏在好評(píng)之下。面對(duì)這些問題,迫切需要對(duì)評(píng)論文本進(jìn)行情感傾向識(shí)別。

文本情感分析實(shí)質(zhì)上是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、歸納和處理的過程[2],吸引著不同領(lǐng)域研究者的廣泛關(guān)注,比如人工智能、自然語言處理以及數(shù)據(jù)挖掘等[3-6],涌現(xiàn)出大量相關(guān)的研究工作。目前在文本情感分析方面最常用的兩種方法是基于語義詞典和基于機(jī)器學(xué)習(xí)的分類算法 [7]。

基于語義詞典的情感計(jì)算方法利用通用情感詞典或編纂情感詞表來進(jìn)行情感分析。文獻(xiàn)[8]提出合并通用情感詞典并利用word2vec工具擴(kuò)充詞典構(gòu)建酒店領(lǐng)域情感詞典,可有效對(duì)酒店領(lǐng)域的評(píng)論進(jìn)行情感分析。文獻(xiàn)[9]針對(duì)網(wǎng)絡(luò)在線中文評(píng)論的特點(diǎn),將領(lǐng)域本體和情感詞典相結(jié)合進(jìn)行商品評(píng)論傾向性分析。文獻(xiàn)[10]基于HowNet情感詞典和自建的形容詞配價(jià)詞典,在HNC語境框架下進(jìn)行文本的情感傾向性判斷,并通過實(shí)驗(yàn)驗(yàn)證了該方法具有較高的識(shí)別率。

基于機(jī)器學(xué)習(xí)的分類算法是將情感分析作為分類問題來解決,通過機(jī)器學(xué)習(xí)的方法對(duì)大量標(biāo)注文本進(jìn)分類訓(xùn)練,使用訓(xùn)練的分類模型來預(yù)測待分類文本的類別。文獻(xiàn)[11]中分別用最大熵模型、樸素貝葉斯算法和支持向量機(jī)三種機(jī)器學(xué)習(xí)的方法進(jìn)行情感分類研究。此后,研究者通過改變分類器策略、合并分類器、訓(xùn)練集變形等方法來提高分類效果,文獻(xiàn)[12]中比較了樸素貝葉斯和支持向量機(jī)兩種分類算法的優(yōu)缺點(diǎn),提出兩者的綜合體NBSVM模型。文獻(xiàn)[13]綜合了多個(gè)半監(jiān)督分類器的結(jié)果,發(fā)現(xiàn)綜合后的結(jié)果均高于原本單個(gè)分類器。

但是傳統(tǒng)的情感分析方法并不足以滿足高準(zhǔn)確率的要求,文本情感分類的準(zhǔn)確率仍然有待提高。XGBoost算法是在2014年實(shí)現(xiàn)的一種算法,在工業(yè)中有大量應(yīng)用,但鮮有研究者將其應(yīng)用在情感分析中,為此本文采用XGBoost算法對(duì)網(wǎng)絡(luò)上的商品評(píng)論文本進(jìn)行情感分析,并將其與樸素貝葉斯和支持向量機(jī)分類器進(jìn)行比較。

1 評(píng)論文本情感識(shí)別模型

本文提出的模型將商品評(píng)論文本情感識(shí)別抽象為一個(gè)分類問題,采用機(jī)器學(xué)習(xí)的方法對(duì)人工標(biāo)注的文本數(shù)據(jù)及其特征進(jìn)行學(xué)習(xí),得出預(yù)測模型,從而在輸入評(píng)論文本數(shù)據(jù)后自動(dòng)預(yù)測該文本數(shù)據(jù)的情感傾向。模型的流程如圖1所示。

由圖1可以看出,商品評(píng)論文本情感識(shí)別模型的完整流程主要包括以下3個(gè)階段:

(1)模型訓(xùn)練階段

該階段主要是對(duì)數(shù)據(jù)集中的訓(xùn)練集進(jìn)行相關(guān)處理并提取特征,利用XGBoost算法訓(xùn)練分類器獲得情感分類模型。

(2)模型測試階段

該階段主要根據(jù)相關(guān)評(píng)價(jià)指標(biāo),利用數(shù)據(jù)集中的測試集對(duì)模型訓(xùn)練階段獲得的情感分類模型進(jìn)行性能評(píng)測。

(3)情感識(shí)別階段

該階段主要利用通過性能評(píng)價(jià)的情感分類模型對(duì)待處理的文本進(jìn)行情感分析,得到情感分析結(jié)果,完成整個(gè)情感分析的過程。

1.1 數(shù)據(jù)集建立

文中所使用的數(shù)據(jù)集是利用八爪魚采集器在京東商城生鮮區(qū)采集的火龍果評(píng)論文本,隨機(jī)選取其中11 098條數(shù)據(jù)作為本文的實(shí)驗(yàn)數(shù)據(jù),數(shù)據(jù)中包含部分無效數(shù)據(jù),比如“聽說評(píng)價(jià)可以獲取京東豆” “展卉越南進(jìn)口紅心火龍果2個(gè)裝,單果約500g”等,去除320條無效評(píng)價(jià),選取余下的10 778條有效評(píng)論文本作為本實(shí)驗(yàn)的數(shù)據(jù)集并進(jìn)行人工標(biāo)注。

實(shí)驗(yàn)中的情感識(shí)別是指對(duì)評(píng)論文本的情感極性(正向、中性和負(fù)向)進(jìn)行判斷,因此,在人工標(biāo)注時(shí)將數(shù)據(jù)集標(biāo)注為三個(gè)類別標(biāo)簽“1”“2”“3”,分別代表“正向評(píng)價(jià)”“中性評(píng)價(jià)”“負(fù)向評(píng)價(jià)”,標(biāo)注完成后的數(shù)據(jù)集類別分布見表1所列,其中數(shù)據(jù)集中包括4 191條正向評(píng)價(jià),3 171條中性評(píng)價(jià)和3 416條負(fù)向評(píng)價(jià)。

1.2 文本預(yù)處理

文本預(yù)處理是對(duì)文本進(jìn)行分詞、去除情感色彩不明顯或沒有實(shí)際意義的詞語,便于計(jì)算機(jī)快速、準(zhǔn)確地處理文本。

1.2.1 中文分詞

文中的實(shí)驗(yàn)數(shù)據(jù)是中文文本,中文文本在分詞方面比英文文本復(fù)雜,英文文本只需根據(jù)空格或者標(biāo)點(diǎn)符號(hào)便可完成分詞任務(wù),但是中文詞語之間沒有空格分隔,并且單個(gè)漢字所表達(dá)的信息量太少,無法準(zhǔn)確表示出句子的含義。為此,中文分詞是數(shù)據(jù)預(yù)處理階段必不可少的一步,文中采用的結(jié)巴分詞目前在python語言中應(yīng)用比較廣泛,可獲得較高的分詞準(zhǔn)確率。

1.2.2 停用詞處理

本文使用的是哈工大停用詞表,包含助詞、虛詞、介詞、符號(hào)等停用詞767個(gè)。在停用詞表中的個(gè)別詞語,比如“一般”“可以”等,在商品評(píng)價(jià)中含有情感色彩,因此,需要去掉停頓詞表中的此類詞語,同時(shí)加入一些商品評(píng)論領(lǐng)域的停頓詞。經(jīng)過整理,最終得到包含790個(gè)詞語的停頓詞表。

1.3 文本表示

向量空間模型(VSM)是比較常用的文本表示方法,在這個(gè)模型中,將文本中出現(xiàn)的詞匯作為文本的特征。例如,文本包含詞語w1,w2,…,wm,則文本T可以表示為向量T=(v1,v2,…,vm),其中vi(i=1,2,…,m)是特征wi在T中的取值,根據(jù)vi的取值不同,向量空間模型可以分為三類:

(1)布爾型(Boolean),即vi取值為0或1,若T包含詞匯wi,則vi=1,反之vi=0。

(2)詞頻形式(Term frequency,TF),假設(shè)ni表示wi在文本T中出現(xiàn)的次數(shù),則vi是ni的函數(shù),通常TF可以簡單地取值為ni,也可以定義為如下形式:

(3)詞頻-逆向文本頻率形式(Term Frequency-Inverse Document Frequency,TF-IDF),實(shí)際上就是TF×IDF。詞頻(Term Frequency,TF)表示詞匯在文檔T中出現(xiàn)的頻率,逆向文件頻率(Inverse Document Frequency,IDF)的主要思想是:如果包含詞匯wi的文檔越少,即ni值越小,那么IDF的權(quán)值越大,說明詞匯wi具有很好的類別區(qū)分能力。

也可以將IDF簡單地定義為|D|?|Dwi|,其中D表示文本集,Dwi表示包含詞匯wi的文本集,|D|表示集合的元素個(gè)數(shù)。

在上述三種表示方法中,TF-IDF具有較好的類別區(qū)分能力,因此,本文在文本表示方面采用了TF-IDF方法。

1.4 文本特征選取

商品評(píng)論雖然內(nèi)容短小,但包含了大量詞匯,向量空間維度勢(shì)必相當(dāng)龐大。同時(shí)類別不同的文本中也包含了大量相同詞匯,對(duì)文本分類起不到任何作用。因此,進(jìn)行文本特征選取是至關(guān)重要的一步。

特征選取方法較多,比如信息增益、卡方檢驗(yàn)、互信息和粗糙集等。文中使用的是卡方檢驗(yàn)方法,通過檢驗(yàn)特征與類別間的相關(guān)性,選取與類別相關(guān)性最大的特征集合,在這種多分類的情況下,計(jì)算特征項(xiàng)與每個(gè)類別的卡方檢驗(yàn)值,選取其中的最大值作為特征值進(jìn)行計(jì)算。卡方檢驗(yàn)統(tǒng)計(jì)量的計(jì)算公式如下所示:

其中,公式中各個(gè)參數(shù)的含義如下:

N:訓(xùn)練集文本總數(shù);

A:包含詞匯w,且屬于類別c的文本數(shù)量;

B: 包含詞匯w,但不屬于類別c的文本數(shù)量;

C:屬于類別c,但是不包含詞匯w的文本數(shù)量;

D:不屬于類別c,也不包含詞匯w的文本數(shù)量。

卡方檢驗(yàn)的不足之處在于夸大了低頻詞的作用,因?yàn)锳,B,C,D只標(biāo)記了某詞在文本中是否出現(xiàn),但不標(biāo)記該詞在文本中出現(xiàn)的頻率,所以它不能表征詞匯在文本中的重要性。而TF-IDF傾向于選擇有區(qū)分度的詞匯,可以明確表達(dá)出詞匯的重要程度,能夠彌補(bǔ)卡方檢驗(yàn)的不足。因此,文中在特征提取方面,結(jié)合了卡方檢驗(yàn)和TF-IDF兩種方法,由此選取一個(gè)174維的特征空間。對(duì)特征情感詞進(jìn)行總結(jié)分析,可以分為正向、中性和負(fù)向三類,該特征空間的部分特征詞如表2所示。

1.5 XGBoost算法

Boosting分類器是一種優(yōu)秀的集成學(xué)習(xí)模型,其主要思想是將多個(gè)準(zhǔn)確率較低的決策樹模型組合成一個(gè)準(zhǔn)確率較高的模型。Gradient Boosting 是 Boosting 的改進(jìn)版本,該算法可通過分步方式建立模型,在不斷更新迭代中選擇梯度下降的方向來保證最終預(yù)測結(jié)果最優(yōu)。在梯度提升算法中本文主要參考了文獻(xiàn)[14],其算法流程如下所示 :

(7)end for

實(shí)驗(yàn)采用XGBoost工具包來訓(xùn)練模型,XGBoost全名為Extreme Gradient Boosting,是由陳天奇在2014年實(shí)現(xiàn)的,該算法可自動(dòng)并行運(yùn)行CPU多個(gè)線程,運(yùn)行速度快,分類效果較好。本文采用Python語言調(diào)用XGBoost工具包實(shí)現(xiàn)了模型。

1.6 模型評(píng)價(jià)

本文采用常用的準(zhǔn)確率(precision)、召回率(recall)、F1值評(píng)價(jià)模型,同時(shí)在模型訓(xùn)練過程中使用K折交叉運(yùn)算,通過多次運(yùn)算求取平均值作為各評(píng)價(jià)指標(biāo)的最終值,以減少運(yùn)行誤差。

(1)情感識(shí)別召回率

召回率R=算法正確判斷文本情感傾向數(shù)量/文本總數(shù)量

(2)情感識(shí)別準(zhǔn)確率

準(zhǔn)確率P=算法正確判斷文本情感傾向數(shù)量/所有被算法召回的文本總數(shù)量

(3)F1-指數(shù)

2 實(shí)驗(yàn)及結(jié)果分析

實(shí)驗(yàn)在模型訓(xùn)練過程中使用7折交叉運(yùn)算,將數(shù)據(jù)集中的三個(gè)類別分別劃分成7等份,每次運(yùn)算在三個(gè)類別中按比例選取9 234個(gè)數(shù)據(jù)作為訓(xùn)練集,1 539個(gè)數(shù)據(jù)作為測試集,通過XGBoost算法訓(xùn)練情感識(shí)別模型,利用1 539個(gè)測試集對(duì)模型進(jìn)行測試,輸出模型的準(zhǔn)確率。

模型中需要不斷調(diào)整以下三個(gè)參數(shù):訓(xùn)練的最大深度max_depth,訓(xùn)練的步長(學(xué)習(xí)率)eta,循環(huán)的次數(shù)num_round。通過不斷測試,當(dāng)訓(xùn)練的最大深度max_depth為8,訓(xùn)練的步長為eta為0.8,循環(huán)的次數(shù)num_round為100時(shí),模型的性能達(dá)到最優(yōu)。

文獻(xiàn)[11]采用最大熵模型、樸素貝葉斯算法和支持向量機(jī)三種方法進(jìn)行了情感分類研究,通過實(shí)驗(yàn)證明了支持向量機(jī)分類效果最好,但樸素貝葉斯是最簡單、最常見的一種分類算法。為此,為檢驗(yàn)XGBoost算法的優(yōu)勢(shì),文中將其與樸素貝葉斯算法和支持向量機(jī)算法進(jìn)行比較,輸出7次交叉運(yùn)算的準(zhǔn)確率、召回率、F1值以及每個(gè)指標(biāo)的均值,用以評(píng)判算法的優(yōu)劣。三種算法對(duì)比結(jié)果如圖2所示。

由圖2可以很明顯地看出,在商品評(píng)論文本情感識(shí)別中,樸素貝葉斯算法的表現(xiàn)是最差的,其次是支持向量機(jī)算法,表現(xiàn)最好的是XGBoost算法,在7次交叉運(yùn)算結(jié)果及最終的平均值、準(zhǔn)確率、召回率和F1-指數(shù)方面,XGBoost算法都遠(yuǎn)優(yōu)于樸素貝葉斯和支持向量機(jī)算法。由此可知,將XGBoost算法應(yīng)用于商品評(píng)論文本情感識(shí)別是可行的,并能取得不錯(cuò)的效果,其分類結(jié)果優(yōu)于傳統(tǒng)的分類算法。

3 結(jié) 語

本文使用XGBoost算法實(shí)現(xiàn)了電子商務(wù)平臺(tái)上商品評(píng)論文本的情感識(shí)別。實(shí)驗(yàn)中,建立一個(gè)包含10 778條評(píng)論文本的數(shù)據(jù)集并進(jìn)行了人工標(biāo)注,結(jié)合TF-IDF和卡方檢驗(yàn)進(jìn)行文本特征選取,驗(yàn)證了XGBoost算法的可行性和優(yōu)勢(shì),通過與樸素貝葉斯算法和支持向量機(jī)算法進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,XGBoost算法在評(píng)論文本情感識(shí)別方面具有很大的優(yōu)勢(shì),其識(shí)別情感傾向的準(zhǔn)確率為94.82%,遠(yuǎn)遠(yuǎn)高于樸素貝葉斯算法的85.81%和支持向量機(jī)算法的89.90%,具有很好的應(yīng)用前景。

參考文獻(xiàn)

[1] Resnick P,Zeckhauser R.Trust among strangers in Internet transactions: Empirical analysis of eBays reputation system [A].The Economics of the Internet and E-Commerce[C].New York:Elservier Science,2002.

[2] 黃發(fā)良,馮時(shí),王大玲,等. 基于多特征融合的微博主題情感挖掘[J]. 計(jì)算機(jī)學(xué)報(bào),2017,40(4):872-888.

[3] Tang H F,Tan S B,Cheng X Q. A survey on sentiment detection of reviews [J]. Expert Systems with Applications,2009, 36(7):10760-10773.

[4] Liu B. Sentiment analysis and opinion mining [J]. Synthesis Lectures on Human Language Technologies,2012, 5(1):1-167.

[5] Tsytsarau M, Palpanas T. Survey on mining subjective data on the web [J]. Data Mining and Knowledge Discovery,2012, 24(3):478-514.

[6] Li Y, Gao H, Yang M, et al. What are Chinese talking about in hot weibos? [J]. Physica A Statistical Mechanics & Its Applications,2013 (419):546-557.

[7] 劉志明,劉魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,2012, 48(1):1-4.

[8] 陳柯宇,何中市. 基于情感詞典的酒店評(píng)論情感分類研究[J].現(xiàn)代計(jì)算機(jī)(上下旬),2017 (6):3-6.

[9] 董麗麗,趙繁榮,張翔. 基于領(lǐng)域本體、情感詞典的商品評(píng)論傾向性分析[J]. 計(jì)算機(jī)應(yīng)用與軟件,2014,31(12):104-108,194.

[10] 張克亮,黃金柱,曹蓉,等.基于HNC語境框架和情感詞典的文本情感傾向分析[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2016,51(7):51-58,73.

[11] Pang B, Lee L, Vaithyanathan S. Thumbs up Sentiment classification using mechine learning techniques[C].EMNLP,2002(10):79-86.

[12] Wang S, Maiming C D. Baselines and bigrams:Simple, good sentiment and topic classification[C].ACL,2012(2):90-94.

[13] Li S, Huang L, Wang J, et al. Semi-Stacking for Semi-supervised Sentiment Classification[C].ACL,2015(2):27-31.

[14] 鄧永莉, 呂愿愿, 劉明亮, 等.基于中高層特征的音樂情感識(shí)別模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2017,38(4):1029-1034.

主站蜘蛛池模板: 88av在线| 国产精品无码影视久久久久久久| 最新日本中文字幕| 激情国产精品一区| 国产精品综合色区在线观看| 毛片基地视频| 国产高清在线观看| 欧美午夜久久| 日韩小视频网站hq| 亚洲午夜18| 色综合天天综合| 熟妇丰满人妻| 在线国产91| 国产成年女人特黄特色毛片免| 国产精品九九视频| 欧美人与动牲交a欧美精品| 99精品免费欧美成人小视频 | 亚洲国产天堂在线观看| 亚洲啪啪网| 亚洲中文字幕国产av| 国产黄色免费看| 国产免费人成视频网| 久久99精品久久久大学生| 99久视频| 国产在线一区二区视频| …亚洲 欧洲 另类 春色| 一本大道东京热无码av| 亚洲娇小与黑人巨大交| 欧美三级不卡在线观看视频| 91精品国产综合久久香蕉922| 亚洲国产成人久久精品软件| 美女潮喷出白浆在线观看视频| 日韩无码精品人妻| 国产成人精品男人的天堂下载| 999国产精品永久免费视频精品久久| 无码又爽又刺激的高潮视频| 亚洲精品视频免费| 国产欧美中文字幕| 成人日韩欧美| 日韩高清在线观看不卡一区二区| 乱人伦中文视频在线观看免费| 国产成人一区| 亚洲综合激情另类专区| 成年av福利永久免费观看| 欧美97色| 人妻免费无码不卡视频| 亚洲午夜福利精品无码| 国内精品久久久久鸭| 国产微拍一区二区三区四区| 日韩在线播放中文字幕| 亚洲综合精品香蕉久久网| 成年A级毛片| 国产打屁股免费区网站| 美女被狂躁www在线观看| 青青青草国产| 日韩高清中文字幕| 久久综合结合久久狠狠狠97色 | 91精品啪在线观看国产60岁| 色网站免费在线观看| 一区二区欧美日韩高清免费| 国产黄色片在线看| 欧美国产精品不卡在线观看| 国产二级毛片| 久久久久亚洲精品成人网| 美女潮喷出白浆在线观看视频| 91网址在线播放| 色悠久久综合| 黄色网在线| 免费在线国产一区二区三区精品| 日本高清免费不卡视频| 国产91线观看| 日韩一级二级三级| 92精品国产自产在线观看| 国产剧情一区二区| 综合天天色| 亚洲天堂久久| 免费看久久精品99| 国产成人1024精品下载| 97亚洲色综久久精品| 午夜福利在线观看成人| 中文天堂在线视频| 亚洲AV成人一区二区三区AV|