999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

產(chǎn)品評論情感傾向性分類系統(tǒng)的設(shè)計與實現(xiàn)

2015-02-17 01:32:36蔡玉霞孟佳娜
大連民族大學(xué)學(xué)報 2015年5期
關(guān)鍵詞:分類情感系統(tǒng)

蔡玉霞,孟佳娜

(大連民族大學(xué) 計算機科學(xué)與工程學(xué)院,遼寧 大連116605)

隨著淘寶、京東等購物網(wǎng)站的迅猛發(fā)展,網(wǎng)購人數(shù)也隨之快速增加,這讓消費者越來越不知道如何選擇產(chǎn)品。在這樣的背景下,客觀的產(chǎn)品評論傾向性分析顯得尤為必要。本系統(tǒng)通過對產(chǎn)品評論進行分詞、去停用詞、特征選擇、權(quán)重計算和LibSVM 分類,完成對評論文本的情感傾向性分類。除此之外,本文將以上研究內(nèi)容通過Java Web 技術(shù)實現(xiàn)可視化,使用者可以直觀、快速的獲得特定類型產(chǎn)品的客戶評價情況。

1 情感傾向性分類系統(tǒng)概述

目前比較典型的情感分類系統(tǒng)有上海交通大學(xué)針對汽車領(lǐng)域的用戶評論情感分類系統(tǒng)、哈爾濱工業(yè)大學(xué)的HIT_IR_OMS 系統(tǒng)以及日本富士通公司開發(fā)的情感分類系統(tǒng)。綜合來看,情感傾向性分類的主體方法分為有監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法。

在有監(jiān)督學(xué)習(xí)方法方面,Pang 等[1]利用有監(jiān)督學(xué)習(xí)的方法將電影評論分為正面和負面兩類。在無監(jiān)督學(xué)習(xí)方法方面;Turney[2]提出一種簡單的無監(jiān)督學(xué)習(xí)方法把文本信息分為褒義和貶義,分類過程中采用PMI-IR 方法。近年來,研究人員已經(jīng)開始考慮情感分析中的話題語境和話題因素。

目前,國內(nèi)孫建旺等[3]提出一種能夠有效地對中文微博進行情感分類的方法;張偉等[4]提出一種細粒度級別的情感分類方法對在線客戶評論進行情感分類;劉全超等[5]優(yōu)化了多特征的微博話題情感傾向性判定算法。隨著人們對情感分類領(lǐng)域的不斷投入,情感傾向性分類的研究正不斷的向前推進。

2 系統(tǒng)設(shè)計

2.1 系統(tǒng)概述

本文使用互聯(lián)網(wǎng)公開的評論文本作為語料集,對語料進行了預(yù)處理,進而計算特征項的權(quán)重,并將所得到的模型放在分類系統(tǒng)中進行傾向性分析,最后將整個過程設(shè)計成一個能夠?qū)Ξa(chǎn)品評論進行分類的系統(tǒng)。文本預(yù)處理階段主要包括中文自動分詞、去停用詞、特征選擇和構(gòu)建詞典四個步驟。在特征項的權(quán)重計算階段使用布爾權(quán)值計算法,最后在分類系統(tǒng)中進行情感分類的對比實驗。

2.2 系統(tǒng)功能設(shè)計

產(chǎn)品評論情感傾向性分類系統(tǒng)實現(xiàn)了對特定網(wǎng)購產(chǎn)品評論的情感分類,在上述算法的基礎(chǔ)上,通過Java Web 技術(shù)實現(xiàn)該系統(tǒng)的可視化。本系統(tǒng)登錄階段分為管理員登錄和用戶登錄,不同登錄者擁有的權(quán)限和可進行的操作如圖1:

圖1 系統(tǒng)設(shè)計功能模塊圖

2.3 系統(tǒng)詳細分類過程

產(chǎn)品評論情感傾向性分類,是指給定某個產(chǎn)品的評論,對該類評論分類成正面評論和負面評論。本文所設(shè)計的情感傾向性分類系統(tǒng)的具體步驟如下:

自動分詞技術(shù)[6]目前主要有機械分詞法、基于理解的分詞方法以及基于統(tǒng)計的分詞方法等,本系統(tǒng)通過調(diào)用張華平教授NLPIR 漢語分詞系統(tǒng)[7]的源碼進行環(huán)境配置,實現(xiàn)在產(chǎn)品評論分類系統(tǒng)的Web 界面調(diào)用分詞代碼,完成自動分詞功能。

由于產(chǎn)品評論經(jīng)過分詞之后變成一個一個詞條的集合,這樣造成了文本的維數(shù)較大,因此在本實驗中,采用哈工大擴展后的停用詞表[8],特征集經(jīng)過去停用詞處理之后維數(shù)大大縮減。

整個過程本系統(tǒng)采用向量空間模型(VSM)[9],產(chǎn)品評論文本經(jīng)過分詞、去停用詞之后,仍需要特征選擇降低維數(shù),本系統(tǒng)分別使用卡方公式、信息增益進行特征選擇實驗。在進行特征選擇之前需獲取訓(xùn)練集中的如下統(tǒng)計信息:

P(t):文檔中含特征t 的概率;

P(Ci):文檔屬于類別Ci的概率;

P(t,Ci):文檔含特征t 并又屬于類別Ci的聯(lián)合概率;

P(t|Ci):文檔含特征t 同時屬于類別Ci的概率;

特征選擇時的卡方公式的計算方法為:

通過Java 代碼運用信息增益和卡方公式分別進行特征選擇,進而構(gòu)建含有不同特征維數(shù)的Hashmap 詞典,分別通過不同特征維數(shù)百分比進行對比試驗,以獲得最佳產(chǎn)品評論情感傾向性分類結(jié)果。

系統(tǒng)權(quán)重的計算采用布爾權(quán)重計算法。根據(jù)特征項t 是否在文檔D 中出現(xiàn),出現(xiàn)賦值1,反之賦值0。支持向量機[10]的原理是將低維空間中的點一一映射到高維空間中去,使其成為線性可分的,再通過線性劃分原理判斷分類邊界。本系統(tǒng)使用70%的產(chǎn)品評論文本集進行訓(xùn)練,30%的相應(yīng)評論作為測試集,通過LibSVM 分類器[11]建立模型,并對測試集數(shù)據(jù)進行情感傾向性分類。

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

使用來自譚松波博士[12]分享的一個中文互聯(lián)網(wǎng)評論語料,該語料包括notebook、book 和hotel三種類型的產(chǎn)品評論文本,各類中正面評論2000個、負面評論2000 個。實驗中將每類語料中的70%文檔為訓(xùn)練集,30 %文檔為測試集。

3.2 不同特征選擇方法對分類結(jié)果的影響

該實驗分別采用卡方公式和信息增益對原本含有7 122 個特征詞的notebook 類、含有16 908個特征詞的book 類和含有13 718 個特征詞的hotel 類進行特征選擇,通過布爾權(quán)重計算法計算權(quán)重,并在LibSVM 中進行情感傾向性分類,三類產(chǎn)品評論分別經(jīng)過信息增益、卡方公式選擇一定百分比的特征在LibSVM 中進行情感傾向性分類的效果如圖2、圖3。

由圖2 可知,三類產(chǎn)品評論均采用信息增益進行特征選擇的情況下,notebook 類在特征總維數(shù)4 %時取得最佳分類效果,準確率達81.07 %;book 類在特征總維數(shù)2 %情況下兩種特征選擇方法對情感分類效果均取得最優(yōu)效果,最終情感分類準確率為86.5 %;hotel 類在特征總維數(shù)的5 %時取得最佳分類效果,準確率達83.42 %。

由圖3 可知,三類產(chǎn)品評論均采用卡方公式進行特征選擇的情況下,notebook 類在特征總維數(shù)2 %時取得最佳分類效果,準確率達80.73 %;book 類在特征總維數(shù)的2 %情況下與信息增益同時取得最佳分類效果,卡方公式最佳的情感分類準確率為86.75 %;hotel 類在特征總維數(shù)的4 %時取得最佳分類效果,準確率達83.5 %。

圖2 信息增益特征選擇下三類產(chǎn)品評論情感傾向性分類準確率

圖3 卡方公式特征選擇下三類產(chǎn)品評論情感傾向性分類準確率

實驗結(jié)果表明,信息增益和卡方公式可以在不損失情感分類效率的前提下顯著降低特征向量的維度并有效提高情感分類準確率,由此可知在產(chǎn)品評論情感傾向性分類的實驗過程中有必要考慮特征維數(shù)對情感分類結(jié)果的影響。

3.3 卡方公式和信息增益兩種特征選擇方法的比較

根據(jù)以上實驗結(jié)果,三類產(chǎn)品評論分別采用兩種不同的特征選擇方法最終情感分類效果的對比如圖4 -圖6。圖4 表明,notebook 類特征維數(shù)百分比在10 %以上的情況下卡方公式具有明顯優(yōu)勢;特征維數(shù)百分比在5 %以下時信息增益占優(yōu)勢;圖5 顯示,book 類特征維數(shù)百分比在0.5 %以上時卡方公式準確率高于信息增益,而在0.5 %以下時信息增益對分類效果影響更好,整體而言卡方公式對book 類產(chǎn)品評論的情感分類效果優(yōu)于信息增益;圖6 表明,hotel 類特征維數(shù)在5 %以上卡方公式和信息增益對情感分類效果的影響完全相同,而在4 %以下卡方公式具有明顯優(yōu)勢,僅在2 %時信息增益的分類效果略微高出一點。

通過實驗可知,兩種特征選擇方法各有利弊,信息增益方法的優(yōu)點是更全面的考慮了所有特征詞包括未出現(xiàn)詞對文本分類結(jié)果的影響,這樣可提高文本分類的效果,但統(tǒng)計量過大不利于推廣;卡方公式的優(yōu)點是得到的值是歸一化的值,但該方法只關(guān)心出現(xiàn)次數(shù)特別多的特征詞,很多情況下低頻詞對類別有很大的代表性,即卡方的“低頻詞缺陷”,因此開方經(jīng)常同其他因素綜合考慮。

綜合以上實驗結(jié)果和兩種特征選擇方法的特點可知,在特征維數(shù)不同的情況下卡方公式和信息增益兩個特征選擇方法的分類效果各具優(yōu)勢,此外特征選擇算法的效果也與文本分類的算法有關(guān),本實驗中整體而言卡方統(tǒng)計法表現(xiàn)更好。

圖4 信息增益和卡方公式分別對notebook 類情感分類效果對比

圖5 信息增益和卡方公式分別對book 類情感分類效果對比

圖6 信息增益和卡方公式分別對hotel 類情感分類效果對比

4 結(jié) 語

在自然語言處理的領(lǐng)域中,情感傾向性分類已然成為持續(xù)升溫的研究熱點,產(chǎn)品評論的情感傾向性分類隨著愈加火熱的網(wǎng)購的發(fā)展變得更加炙手可熱。本系統(tǒng)在文本預(yù)處理、特征選擇、權(quán)重計算、分類算法的基礎(chǔ)上,設(shè)計出產(chǎn)品評論情感傾向性分類系統(tǒng),實現(xiàn)了對產(chǎn)品評論進行情感分類的功能,方便網(wǎng)購消費者、廠家、商家更直觀、確切地把握該產(chǎn)品的客戶反饋結(jié)果。

[1]PANG B,LEE L,VAITHYANATHAN S. Thumbs up:sentiment classification using machine learning techniques[C]. In Proc. of the ACL-02 conference on Empirical methods in natural language processing - Volume 10,Stroudsburg,PA,USA:Association for Computational Linguistics,2002. 79 -86.

[2]TURNEY P.Thumbs Up or Thumbs Down Semantic Orientation Applied to Unsupervised Classification of Reviews[C]. In Proc. of the ACL’02.Philadelphia,USA:2002,417 -424.

[3]孫建旺,呂學(xué)強,張雷瀚.基于詞典與機器學(xué)習(xí)的中文微博情感分析研究[J]. 計算機應(yīng)用與軟件,2014,31(7):177 -181.

[4]張偉,李培峰,朱巧明.基于樹核函數(shù)的英文句子情感分類研究[J].計算機應(yīng)用與軟件,2011,28(4):30 -32,39.

[5]劉全超,黃海燕,馮沖.基于多特征微博話題情感傾向性判定算法研究[J].中文信息學(xué)報,2014,28(4):124-131.

[6]項煒,金彭.基于詞頻學(xué)習(xí)和動態(tài)詞頻更新的藏文自動分詞系統(tǒng)設(shè)計[J]. 計算機應(yīng)用與軟件,2014,31(5):106 -109.

[7]張華平. NLPIR 漢語分詞系統(tǒng)[EB/OL].[2013 -11-11]. http:∥ictclas.nlpir.org/.

[8]哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心. 哈工大停用詞表[EB /OL].[2013 -05 -30]. http:∥ir.hit.edu.cn/.

[9]郭鳳嬌,李長玲,王曉笛,等. 基于向量空間模型的學(xué)科交叉文獻發(fā)現(xiàn)研究——以情報學(xué)和計算機學(xué)科為例[J].情報雜志,2014,33(3):172 -175.

[10]LEWIS D D. Naive (Bayes)at forty:The independence assumption in information retrieval[C]. In Proc.of the 10th European Conf. on Machine Learning(ECML),1998,4 -15.

[11]CHANG C C,LIN C J. LIBSVM :a library for support vector machines[J] ACM Transactions on Intelligent Systems and Technology,2007,2(3):389 -396.

[12]譚松波. 中文情感挖掘語料——ChnSentiCorp[EB/OL].[2012 -08 -10]. http://www.searchforum.org.cn/tansongbo/corpus.htm.

猜你喜歡
分類情感系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
分類算一算
WJ-700無人機系統(tǒng)
如何在情感中自我成長,保持獨立
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
分類討論求坐標
如何在情感中自我成長,保持獨立
數(shù)據(jù)分析中的分類討論
主站蜘蛛池模板: 无码人妻免费| 乱码国产乱码精品精在线播放| 精品国产免费观看| 日韩在线播放中文字幕| 一级成人a毛片免费播放| 国产成本人片免费a∨短片| 毛片久久网站小视频| 免费一极毛片| a毛片在线| 色综合热无码热国产| 国内精品久久人妻无码大片高| 秋霞一区二区三区| 午夜高清国产拍精品| 国产男女免费完整版视频| 免费AV在线播放观看18禁强制| 亚洲码在线中文在线观看| 丰满人妻一区二区三区视频| 热re99久久精品国99热| 日韩无码一二三区| 美女潮喷出白浆在线观看视频| 成人伊人色一区二区三区| 青青极品在线| 午夜视频在线观看免费网站 | 在线播放国产99re| 国产屁屁影院| 一区二区三区成人| 香蕉伊思人视频| 久久久久国产精品熟女影院| 久久99精品久久久久纯品| 亚洲天堂久久| AV熟女乱| 色婷婷丁香| 99热亚洲精品6码| 亚洲国模精品一区| 欧美国产成人在线| 日本不卡在线| 久久综合伊人77777| 在线国产91| 国产午夜精品鲁丝片| a级毛片免费看| 91蜜芽尤物福利在线观看| 日韩大片免费观看视频播放| 人禽伦免费交视频网页播放| 人妻丝袜无码视频| 日韩a级片视频| 日韩在线网址| 午夜一级做a爰片久久毛片| 国产精品制服| 麻豆国产在线观看一区二区| 一本大道无码日韩精品影视| 亚洲第一精品福利| 国产区成人精品视频| 国产亚洲欧美日韩在线一区| 无码国内精品人妻少妇蜜桃视频| 成人午夜在线播放| 综合久久久久久久综合网| 毛片网站观看| 97se亚洲综合不卡| 综合色亚洲| 在线观看91香蕉国产免费| 亚洲av无码成人专区| 国产欧美亚洲精品第3页在线| 国产区在线观看视频| 91久久国产综合精品女同我| 亚洲国产日韩一区| 人妻一区二区三区无码精品一区| 中文字幕波多野不卡一区| 欧美综合一区二区三区| 国产97视频在线| 国内黄色精品| 欧美精品成人一区二区视频一| 2020最新国产精品视频| 波多野结衣在线一区二区| 露脸一二三区国语对白| 欧美日韩第二页| 青青草原国产精品啪啪视频| 99免费视频观看| 国产成人精品在线1区| 久久婷婷国产综合尤物精品| 激情乱人伦| 国产区网址| 九色在线观看视频|