999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向產(chǎn)品開發(fā)的評論挖掘方法研究

2018-02-09 17:54:40許祥軍魏紅芹
現(xiàn)代計算機 2018年1期
關(guān)鍵詞:特征情感用戶

許祥軍,魏紅芹

(東華大學旭日工商管理學院,上海 200051)

0 引言

近年來,互聯(lián)網(wǎng)的興起與快速發(fā)展拓寬了傳統(tǒng)的的商品銷售渠道,越來越多的消費者選擇通過網(wǎng)絡(luò)來購買日常用品,甚至一些貴重物品。大量購物行為的產(chǎn)生在網(wǎng)上留下了成千上萬的評論數(shù)據(jù),并且這些評論信息在影響消費者購買決定中占有很重要作用[1]。主要原因是評論數(shù)據(jù)中,蘊含有大量的用戶對產(chǎn)品的體驗和需求信息,這些信息對于生產(chǎn)商來說具有很大的利用價值。但由于評論信息數(shù)據(jù)量大,并且雜亂無章,生產(chǎn)商很難獲得消費者對于該產(chǎn)品較為系統(tǒng)的評價以及用戶需求。如何行之有效的從評論中挖掘信息,成為近年來的研究熱點。

產(chǎn)品評論挖掘的應(yīng)用能夠快速有效地從大量網(wǎng)絡(luò)評論中,獲取有效的信息。產(chǎn)品評論挖掘主要涉及產(chǎn)品特征的提取,情感傾向判斷,評論挖掘結(jié)果匯總以及按用戶觀點排序等[2]。

產(chǎn)品特征提取與情感傾向判斷,既是評論挖掘的重點又是其難點。由于,本文研究目的是從評論中挖掘出產(chǎn)品開發(fā)所需信息,包括兩個方面:一是產(chǎn)品本身信息,主要是產(chǎn)品現(xiàn)有各特征的優(yōu)點和缺點等;二是顧客相關(guān)信息,主要是顧客需求和顧客喜好等。因此,準確而全面的產(chǎn)品特征提取以及情感傾向判斷是產(chǎn)品開發(fā)成敗的決定性因素。

1 相關(guān)研究介紹

Hu和Liu[3]首先采用關(guān)聯(lián)規(guī)則算法抽取英文評論產(chǎn)品特征,并對手機、數(shù)碼相機等產(chǎn)品評論進行特征提取,查準率與查全率分別達到72%,80%;隨后,對情感詞進行抽取與分析,判斷用戶的情感傾向[4]。

李實等[5]針對中文的特點,提出了面向中文的客戶評論挖掘方法,該方法是基于改進的關(guān)聯(lián)規(guī)則算法,通過對5種產(chǎn)品的評論語料為例,實現(xiàn)了針對中文產(chǎn)品評論的產(chǎn)品特征信息挖掘。

林欽和等[6]基于關(guān)聯(lián)規(guī)則算法與依存關(guān)系提取產(chǎn)品特征,采用HowNet情感詞語庫和依存關(guān)系來挖掘極性詞與產(chǎn)品特征的關(guān)系,并結(jié)合詞匯相似度計算和同義詞詞林識別未收錄詞的情感極性,最后,考慮程度詞強度差距、以及程度詞和否定詞共現(xiàn)語序引起的語義差異,逐級計算情感傾向程度。

杜嘉忠等[7]提出一種基于領(lǐng)域?qū)S们楦性~的情感分析方法,通過計算機輔助與手工結(jié)合的方式獲取特征;通過使用改進的TF-IDF算法來區(qū)分通用情感詞與專用情感詞,構(gòu)建帶有情感的本體,然后構(gòu)建特征-情感詞本體,利用本體對評論進行情感分析。

前者研究[3,5-6]在產(chǎn)品特征提取時,并未考慮低頻詞,隨著評論數(shù)據(jù)的增長,低頻詞數(shù)量也會增大;文獻[6]在情感分析時,未考慮了情感詞描述不同產(chǎn)品特征表達不同傾向的問題;文獻[7]解決了此問題,但依賴人工方式工作量大且可移植性差。本文將主要通過對產(chǎn)品開發(fā)中的技術(shù)特征需求以及這些需求對應(yīng)的用戶需求進行分析,對常規(guī)的評論挖掘算法進行優(yōu)化,提出了一套可幫助產(chǎn)品研發(fā)人員從海量網(wǎng)絡(luò)評論中有效獲取有價值信息的方法。

2 面向產(chǎn)品開發(fā)的評論挖掘方法

由于本文主要面向產(chǎn)品開發(fā),故只考慮產(chǎn)品本身特征,不考慮網(wǎng)店服務(wù)質(zhì)量,快遞服務(wù)質(zhì)量等與產(chǎn)品開發(fā)無關(guān)信息;此外,在結(jié)果分析上,主要是進行產(chǎn)品優(yōu)缺點分析,尤其是注重缺點分析,同時包括對用戶需求的分析。

基于評論挖掘的產(chǎn)品開發(fā)內(nèi)容包括:評論文本預(yù)處理、面向產(chǎn)品開發(fā)的特征提取、基于產(chǎn)品特征的情感傾向和強度分析。

2.1 產(chǎn)品評論文本預(yù)處理

首先對用戶評論進行文本預(yù)處理,其主要作用是為了分詞與詞性標注的準確,便于下一步工作的順利進行。

(1)評論處理

為了便于情感分析與數(shù)據(jù)的挖掘,首先將用戶評論按照句子為單位進行分割,得到句子級的客戶評論。

(2)面向產(chǎn)品開發(fā)的用戶自定義字典處理

自定義字典的作用是為了提高分詞,從而促進產(chǎn)品特征提取的準確性,因而本文針對產(chǎn)品開發(fā)評論挖掘,從以下兩方面進行用戶自定義詞典設(shè)計:

(1)生產(chǎn)商的說明書中包含大量的規(guī)范化產(chǎn)品特征名詞;

(2)評論文本中單詞長度大于等于3的英文詞匯,例如“cpu”、“wifi”等。

將兩部分詞匯放入用戶自定義字典中,并將詞性標注為“n”。

2.2 面向產(chǎn)品開發(fā)的特征提取

由于產(chǎn)品特征是開發(fā)時所針對的主要決策對象,故應(yīng)盡可能準確而全面的覆蓋用戶評論,將其提取出來。因此,在文本預(yù)處理之后,需要提取產(chǎn)品特征。

產(chǎn)品特征主要是以大量的名詞形式存在的,首先,依據(jù)詞性標注提取名詞,根據(jù)詞頻來過濾掉低頻詞,得到非低頻詞,再利用點互信息算法(Pointwise Mutual In?formation,PMI)進行詞語關(guān)聯(lián)度分析,對非低頻詞中與手機和手機屬性信息關(guān)聯(lián)度低的名詞進行刪除。PMI算法公式如下:

其中word1表示手機以及手機屬性信息,word2表示產(chǎn)品特征,P(word1word2)表示 word1與 word2共同出現(xiàn)的概率,P(word1)、P(word2)分別表示 word1,word2單獨出現(xiàn)的概率。

低頻詞,大部分是描述形式不規(guī)范的詞,部分詞是因為在文檔中很少被使用。針對低頻詞,可以使用TF-IDF(Term Frequency-Inverse Document Frequency)算法,其中逆向文件頻率IDF是一個詞語普遍重要性的度量,包含詞條的文檔越少,IDF越大。因此,對于低頻詞有著較好的區(qū)分。但TF-IDF算法依然有著明顯的不足之處:處理低頻詞時,該方法沒有考慮低頻詞在整個文本中分布情況,部分含有大量信息的低頻詞由于權(quán)重低于閾值而被刪除[8]。因此,本文對TF-IDF算法做出改進,使之能夠通過改進將低頻詞中產(chǎn)品特征的權(quán)重提升。改進有如下幾點:

(1)在原基礎(chǔ)上考慮產(chǎn)品特征的在句中位置,分布在句首以及句尾的名詞權(quán)重增加;

(2)長度越長的名詞包含的信息越多,權(quán)重同樣需要增加;

(3)組合名詞(例:數(shù)字與英文、中文與數(shù)字等)大多數(shù)往往表示產(chǎn)品特征,對此也相應(yīng)的增加權(quán)重。

綜上,形成新的改進TF-IDF算法公式為:

其中tfi表示名詞i在文檔中頻率,idfi表示名詞i逆向文件頻率,pi表示表示名詞i在評論句中的位置權(quán)重表示名詞i的長度,N表示名詞集合,以名詞長度除以最長名詞長度作為長度權(quán)重,g表示組合名詞權(quán)重,當名詞不為組合名詞時g為1。

最后將經(jīng)詞頻以及PMI算法過濾提取出的產(chǎn)品特征與用改進TF-IDF算法提取結(jié)果合并,得到最終產(chǎn)品特征集合。

2.3 基于產(chǎn)品特征的情感傾向與強度分析

網(wǎng)絡(luò)評論中的語句,其中短評論語句占多數(shù),如:“1600像素絕對夠勁”、“音質(zhì)非常清晰,聽的很清楚”等。但其中仍有數(shù)量可觀的長評論語句,如:“外觀挺漂亮,物流超快,手機功能也挺多,充電挺快,目前感覺還不錯!”等。長評論語句中的特征屬性有2個及以上,單純的進行產(chǎn)品特征的情感傾向與強度分析是不適合的,從評論語句可以看出,對含有產(chǎn)品特征的語句按“,”分割,可以將長評論分成若干有效的短評論,本文依據(jù)短評論首先基于判斷產(chǎn)品特征的情感傾向,然后進行情感強度計算。

Turney[9]在PMI算法的基礎(chǔ)上提出情感傾向點互信息算法(Semantic Orientation Pointwise Mutual Infor?mation,SOPMI),通過計算評論文本中情感詞組的語義傾向來區(qū)分情感傾向。公示如下:

其中word為情感詞,pword為正向基準詞,nword為負向基準詞,Pset為正向基準詞集合,Nset為負向基準詞集合。

但SOPMI算法并不能區(qū)分情感詞描述對象,如:單獨的情感詞“高”與“價格”、“像素”一起出現(xiàn),情感傾向相反;此外,否定詞的數(shù)量也會進一步影響情感傾向。因此,本文在SOPMI算法基礎(chǔ)上增加產(chǎn)品特征與否定詞,計算<產(chǎn)品特征,情感詞,否定詞數(shù)量>與基準詞詞組PMI值,輸出結(jié)果<產(chǎn)品特征,情感傾向>。新的SOPMI算法公式如下:

其中f表示產(chǎn)品特征,N表示否定詞數(shù)量,(N%2)表示取余數(shù),其他符號同公式(3)。

獲取<產(chǎn)品特征,情感傾向>之后,進行產(chǎn)品特征的情感強度計算。情感強度需要引入程度詞,并且程度詞與否定詞的位置關(guān)系會對情感強度產(chǎn)生影響,例如:“手機屏幕不是很清晰”,“手機屏幕很不清晰”,前者在強度上明顯小于后者。因此,在情感強度計算時,構(gòu)建<產(chǎn)品特征,情感傾向,程度詞,程度詞位置>,輸出結(jié)果<產(chǎn)品特征,情感強度>。

基于產(chǎn)品特征的情感傾向與強度分析步驟為:

步驟1:提取情感詞,構(gòu)建<產(chǎn)品特征,情感詞>;

步驟2:天貓購物平臺獲取11萬條產(chǎn)品評論,經(jīng)過文本預(yù)處理后,提取形容詞,選取詞頻較高且觀點鮮明的正向基準詞與負向基準詞各5個;

步驟3:從網(wǎng)絡(luò)與文獻中獲取否定詞,構(gòu)建否定詞詞典;

步驟4:依據(jù)用戶評論構(gòu)建<產(chǎn)品特征,情感詞,否定詞>;

步驟5:運用改進SOPMI算法進行情感傾向判斷,輸出<產(chǎn)品特征,情感傾向>;

步驟6:利用知網(wǎng)中的程度詞,并按照程度不同分為5類,構(gòu)建程度詞詞典;

步驟7:依據(jù)用戶評論構(gòu)建<產(chǎn)品特征,情感傾向,程度詞,程度詞位置>;

步驟8:情感詞傾向為正,則情感值+1;反之,則情感值-1,初始值為0;

步驟9:程度詞在否定詞與產(chǎn)品特征中間,則情感強度值*0.5;其他位置,則情感強度值乘以相應(yīng)的程度詞權(quán)重;

步驟10:若短評論末尾標點符號為“!”,則情感值*1.5;

步驟11:輸出結(jié)果<產(chǎn)品特征,情感強度值>;

步驟12:將相同屬性的產(chǎn)品特征合并,得到其正向總值,負向總值以及零分結(jié)果數(shù)量。

3 實驗數(shù)據(jù)分析

3.1 原始實驗數(shù)據(jù)獲取

運用爬蟲技術(shù)從購物平臺上獲取用戶評論,實驗數(shù)據(jù)來源包含兩部分:

(1)天貓商城關(guān)于小米5手機的評論,共1000條評論;

(2)天貓商城各品牌智能手機評論語句,共約11萬條評論。

3.2 性能評價指標

在評論挖掘中,常用的性能評價指標為查準率P(Precision)、查全率 R(Recall)以及綜合值 F-score。

其中在產(chǎn)品特征提取與情感分析中,A表示識別正確(產(chǎn)品特征或情感句)的數(shù)量,B表示識別錯誤(產(chǎn)品特征或情感句)的數(shù)量,C表示未識別(產(chǎn)品特征或情感句)的數(shù)量。

3.3 產(chǎn)品特征抽取結(jié)果分析

根據(jù)詞頻過濾(閾值>=3)以及詞語關(guān)聯(lián)度過濾,得到產(chǎn)品特征118個;采用改進TF-IDF方法抽取特征詞得到17個,最后得到產(chǎn)品特征集135個,查準率、查全率以及F-值分別為:84%,82%,83%。表1為手機產(chǎn)品特征集合(選取用戶關(guān)注度前15的屬性)。

表1 手機產(chǎn)品特征集合

3.4 觀點句傾向及強度結(jié)果分析

對于基于產(chǎn)品特征的情感傾向判斷結(jié)果。本文對前200條觀點短評論進行人工分析,查準率、查全率以及F-值分別為:80%,85%,82%。

3.5 面向產(chǎn)品開發(fā)的評論挖掘結(jié)果分析

將觀點句結(jié)果按照手機屬性進行匯總,可得各屬性的情感得分情況。本文選取具有代表性6個產(chǎn)品屬性進行分析,如圖1所示。

圖1 手機屬性情感得分

根據(jù)用戶評論,統(tǒng)計各手機屬性中產(chǎn)品特征被提及次數(shù),再除以不同屬性下產(chǎn)品特征名詞數(shù)量,獲得手機屬性平均提及次數(shù),將均值定義為用戶對該手機屬性的平均關(guān)注度,從中可以發(fā)現(xiàn)受用戶關(guān)注的手機屬性。圖1中6個產(chǎn)品特征,消費者關(guān)注度依次降低。從圖中可以看出;質(zhì)量、系統(tǒng)和性能不僅關(guān)注度高,正面評價得分依舊很高,處理器、內(nèi)存和屏幕的負向評價得分超過或接近正向得分。同時,系統(tǒng)的負向得分和零分數(shù)量很高。為了進一步了解處理器、內(nèi)存、屏幕和系統(tǒng)缺陷在何處,本文對其的評價詞進行提取并按詞頻排序,發(fā)現(xiàn)消費者對于處理器、內(nèi)存、屏幕、系統(tǒng)主要評價分別為:卡頓、占用、失靈、發(fā)熱。

從消費者評論中不僅能夠發(fā)現(xiàn)產(chǎn)品的缺點和消費者的關(guān)注點,更能發(fā)現(xiàn)不同消費者需求信息。例如:根據(jù)游戲類產(chǎn)品特征,提取用戶評論,可以發(fā)現(xiàn)用戶的需求主要是系統(tǒng)流暢、電池續(xù)航能力高等;針對照相機類,可以發(fā)現(xiàn)用戶需求主要是像素高、不發(fā)燙等。

因此,挖掘用戶評論時,可以發(fā)現(xiàn)產(chǎn)品優(yōu)缺點以及用戶線需求等信息,生產(chǎn)商可以進行針對性的產(chǎn)品開發(fā),從而設(shè)計出滿足客戶需求的產(chǎn)品,提高客戶滿意度,提升手機銷售量。

4 結(jié)語

本文針對生產(chǎn)商研發(fā)產(chǎn)品的特殊需求進行了網(wǎng)絡(luò)評論挖掘方法的研究,設(shè)計了完整的挖掘過程模型和各子任務(wù)的具體挖掘算法。首先采用考慮低頻詞的產(chǎn)品特征提取方法,取得了較理想的結(jié)果;然后根據(jù)情感詞描述不同產(chǎn)品特征表達不同傾向的問題,提出基于產(chǎn)品特征的情感傾向與情感強度分析的方法。最后,通過數(shù)據(jù)實驗表明本文方法的有效性,且本文所述方法對于完全創(chuàng)新型產(chǎn)品以及改進型產(chǎn)品的開發(fā)均有一定的參考意義。

[1]Utz S,Kerkhof P,van den Bos J.Consumers Rule:How Consumer Reviews Influence Perceived Trustworthiness of Online Stores[J].Electronic Commerce Research and Applications,2012,11(1):49-58.

[2]郗亞輝,張明,袁方,王煜.產(chǎn)品評論挖掘研究綜述[J].山東大學學報(理學版),2011,46(5):16-23+38.

[3]Hu M,Liu B.Mining and Summarizing Customer Reviews[C].Proceedings of the tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2004:168-177.

[4]Liu B,Hu M,Cheng J.Opinion Observer:Analyzing and Comparing Opinions on the Web[C].Proceedings of the 14th International Con?ference on World Wide Web.ACM,2005:342-351.

[5]李實,葉強,李一軍.中文網(wǎng)絡(luò)客戶評論的產(chǎn)品特征挖掘方法研究[J].管理科學學報,2009.

[6]林欽和,劉鋼,陳榮華.基于情感計算的商品評論分析系統(tǒng)[J].計算機應(yīng)用與軟件,2014,31(12):39-44.

[7]杜嘉忠,徐健,劉穎.網(wǎng)絡(luò)商品評論的特征-情感詞本體構(gòu)建與情感分析方法研究[J].現(xiàn)代圖書情報技術(shù),2014,30(5):74-82.

[8]Lewis D D.Feature Selection and Feature Extraction for Text Categorization[C].Proceedings of the Workshop on Speech and Natural Language.Association for Computational Linguistics,1992:212-217.

[9]Turney P D.Thumbs up or Thumbs down?:Semantic Orientation Applied to Unsupervised Classification of Reviews[C].Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2002:417-424.

猜你喜歡
特征情感用戶
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
如何在情感中自我成長,保持獨立
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 国产色婷婷| 国产剧情无码视频在线观看| 午夜精品久久久久久久99热下载| 欧美啪啪网| 手机精品福利在线观看| 亚洲AV无码乱码在线观看裸奔| 色综合久久久久8天国| 亚洲天堂777| 在线网站18禁| 色噜噜狠狠色综合网图区| 国产精品女同一区三区五区| 91久久天天躁狠狠躁夜夜| 青青青视频91在线 | 思思99热精品在线| 国产成年无码AⅤ片在线| 亚洲精品动漫| 亚洲人成影视在线观看| 一区二区欧美日韩高清免费| 亚洲免费福利视频| 国产在线视频二区| 欧美a在线看| 超清无码一区二区三区| 日本黄网在线观看| 久久亚洲国产视频| 人妻中文久热无码丝袜| 国产精品污污在线观看网站| 亚洲日本一本dvd高清| 欧美成人在线免费| 亚洲第一中文字幕| 婷婷综合亚洲| 青青久视频| 欧美日本在线观看| 亚洲精品无码av中文字幕| 无码丝袜人妻| 视频二区亚洲精品| 久久semm亚洲国产| 久久免费视频6| 四虎永久在线精品国产免费| 国产精品深爱在线| 国产日韩丝袜一二三区| 国产农村1级毛片| 亚洲精品成人7777在线观看| aa级毛片毛片免费观看久| 亚洲日韩AV无码一区二区三区人| 国产精品第| 久青草免费视频| 人人艹人人爽| 精品国产成人国产在线| 中文字幕 日韩 欧美| 一本久道久综合久久鬼色| 色综合久久久久8天国| 国产大全韩国亚洲一区二区三区| 国产成人亚洲无码淙合青草| 国产区91| 99偷拍视频精品一区二区| 在线亚洲小视频| 欧美日本一区二区三区免费| 久久久受www免费人成| 国产一区二区三区在线观看视频| 国产麻豆91网在线看| 精品人妻无码中字系列| 亚洲无线一二三四区男男| 日韩欧美中文字幕在线精品| 国产福利小视频在线播放观看| 色综合久久88色综合天天提莫 | 国产精品手机在线播放| 精品乱码久久久久久久| 女人毛片a级大学毛片免费| 久久精品无码一区二区国产区| 不卡国产视频第一页| 成人av手机在线观看| 91精品专区| 中文字幕欧美日韩| 亚洲三级成人| 久久国产黑丝袜视频| 国产精品真实对白精彩久久| 欧美在线视频不卡第一页| 日本成人在线不卡视频| 日韩精品一区二区三区swag| 亚洲最大福利视频网| 久久亚洲天堂| 国产日韩丝袜一二三区|