999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線用戶評論的主題發現研究

2015-12-15 01:59:59王和勇崔蓉
現代情報 2015年9期
關鍵詞:分類文本用戶

王和勇+崔蓉

〔摘 要〕在線用戶評論是電子商務網站中的一個重要板塊,找出在線用戶評論的關注點有利于網站、商家及時有效地查看用戶的反饋信息。本文在對在線用戶評論進行分詞的基礎上,分別使用拉普拉斯評分(LS,Laplacian Score)及信息增益(IG,Information Gain)對所得到的分詞結果進行文本主題挖掘,并使用支持向量機(SVM,Support Vector Machine)進行分類精度的檢驗。實證結果表明,主題選擇的結果是有效的,分類的效果與選擇的關鍵詞個數和核函數有關。

〔關鍵詞〕中文分詞;主題發現;拉普拉斯評分;信息增益;支持向量機

DOI:10.3969/j.issn.1008-0821.2015.09.012

〔中圖分類號〕 〔文獻標識碼〕A 〔文章編號〕1008-0821(2015)09-0063-07

〔Abstract〕Online users reviews are important for e-business website,and finding the topic of these reviews can help both websites and businesses pay close attention to users feedbacks.Based on word segmentation,this paper separately used laplacian score(LS)and information gain(IG)to find text topic,and then support vector machine(SVM)method was used to verify the classification accuracy.The results showed that it is effective to select the text topic and the accuracy is related to the number of topic and the core function used.

〔Key words〕word segmentation;topic discovery;LS;IG;SVM

我國電子商務市場起步較晚但發展迅速。根據2014年5月由中國互聯網協會與中國互聯網絡信息信息中心(CNNIC)聯合編纂發布的《中國互聯網發展報告》(2014)顯示,2013年,我國互聯網用戶已達到618億,其中電子商務用戶達到302億,相比2012年增長5 987萬人,4890%的網民使用網絡渠道進行購物消費,電子商務的市場規模也達到了99萬億。蘊藏巨大潛力的市場使得各大網站不斷完善自身建設,而在線用戶評論模塊則是網站建設中不可忽視的一環。Double Click Inc研究了美國旅游業、計算機硬件業、運動健身行業以及服裝業的網絡用戶行為,發現將近一半的用戶會在購買前在網絡中搜索產品的相關信息及用戶評價等[1]。

目前學者們對在線用戶評論的研究主要集中在主題發現研究(商品或用戶的特征發現)[2-8]、評論質量檢測[9-12]、情感傾向識別[13-15]及相關內容推薦[16-17]等方面,其中,主題發現研究是后續研究中較基礎的部分,也引起了很多學者的關注。

APons-Pottata[2]利用將層次聚類和劃分聚類相結合的方式進行主題發現;Blei[3]對LDA(latent Dirichlet allocation)模型進行全面的解釋后,由于概率主題模型出色的文檔建模和維度削減能力,主題模型在文本挖掘領域得到了迅速的發展;阮光冊[4]針對網絡在線用戶評論信息內容短、信息量少的特征,提出了基于LDA主題發現模型,結合HowNet知識庫進行信息分析的方法,實現了對在線用戶評論信息主題的挖掘;李慧、張舒等[5]為準確挖掘用戶評論中的有用信息,提出了采用頁面分塊與信息熵的迭代計算技術的用戶評論抽取算法,實現了評論塊的自動發現與抽取;陳友、程學旗等[6]提出了一種利用特征抽取技術提取內容特征,利用結構特征去發現高質量主題的框架,并提出了一種基于遺傳算法、禁忌搜索與機器學習的特征選擇算法,用來評價被抽取特征的重要性;呂韶華、張亮等[7]主要針對餐館評論提出了一種基于LDA的排序方法,通過抽取、過濾、計算評分、回歸等步驟確定排序模型;羅輝停[8]為克服應用LDA模型挖掘在線用戶評論熱點方法不能自動確定熱點話題的數目的問題,提出了應用中餐館模型來挖掘在線用戶評論熱點。

以上學者對在線用戶評論主題挖掘的研究,主要集中在使用LDA及其改進模型以及針對評論特征的算法實現等方面的研究。本文利用圖像特征選擇的LS方法和IG方法,應用到在線用戶評論文本的主題發現上,并對主題發現結果通過SVM分類方法進行比較分析,發現IG對在線用戶評論效果比LS方法效果好。

1 相關理論

11 中文分詞

與英文天然分開的單詞不同,中文的詞語之間沒有明顯的分割標識,并且中文的語言環境更加復雜。所謂中文分詞是將中文序列分成一個個有意義的詞。現有的中文分詞算法可分為四大類:基于字符串匹配的分詞方法、基于理解的分詞方法、基于統計的分詞方法以及基于語義的分詞方法[18],也有不少學者提出了許多改進算法,如基于改進最大匹配算法的中文分詞粗分算法[19]、基于互信息的串掃描分詞方法[20]、基于字詞聯合解碼的分詞方法[21]等。

目前常用的開源中文分詞器有IKAnalyzer、Jieba、mmseg4j、Ansj、Paoding等。本文實驗采用了R語言環境下的Rwordseg作為分詞工具,它使用rJava調用Java分詞工具Ansj。

12 拉普拉斯評分

拉普拉斯評分是一種無監督的特征選擇算法,可以用于實現主題選擇。給定數據集X=[X1,X2,…,Xn]∈Rd×n,并假定fri(i=1,2,…,n)為第i個樣本Xi的第r個特征詞的詞頻(r=1,2,…,d),第i個樣本和第j個樣本Xj之間的相似系數為Wij=e|xi-xj|2t(t為一個適當的常數),第r個特征的方差為var(fr),則第r個特征的拉普拉斯評分可用公式(1)表示如下:endprint

LS(fr)=∑ij(fri-frj)2Wijvar(fr)

(1)

從定義中可以看出,Wij表示兩個向量之間的距離,Wij越小,則兩個樣本的差異越小,(fri-frj)2越小,表明主題對差異的貢獻小。LS要求∑ij(fri-frj)2Wij越小越好。var(fr)越大,表明特征包含的信息越多,特征詞越有效。因此,LS尋找的是得分比較低的那些特征詞,這些特征詞就是主題選擇要尋找的主題。

13 信息增益

信息增益是一種有監督的特征選擇算法,也是識別特征詞的一個重要方法。基于熵的概念,信息增益衡量了某特征詞出現與否對文本信息分類可提供的信息量,如公式(2)所示:

IG(w)=P(w)∑|c|i=1P(ciw)logP(ciw)P(ci)+P()∑|c|i=1 P(ci)logP(ci)P(ci)

(2)

其中,c表示類別總數,P(w)表示特征詞w在文本中出現的概率,P(ciw)為條件概率,表示文本包含w時屬于ci類的概率,P(ci)表示類別ci在文本集中出現的概率,P()表示文本中不包含特征詞w的概率,P(ci)也為條件概率,表示文本中不包含w時屬于ci類的概率。

文獻[22-23]具體分析了信息增益算法并在此基礎上進行了改進,并通過實驗驗證了改進算法的有效性。

14 支持向量機

支持向量機是一種有監督的分類算法,在文本分類中應用較為成熟。SVM通過搜索最佳分離超平面實現數據的分類,其具體的做法是使用一種映射,將原始的訓練數據映射到較高的維度,在新的維度上,搜索最佳分離超平面。對于非線性可分問題,可以利用高維映射使其轉化為線性可分,核函數可以用來對原始數據進行映射變化。常用的核函數主要有:線性核函數(K(x,y)=x·y)、多項式核函數(K(x,y)=[x·y+1]q)、RBF核函數(K(x,y)=exp{-rx-y2})以及Sigmoid核函數(K(x,y)=tankh{r(x·y)+c}),其中,RBF在不同的應用中取得的效果較均衡,在文本分類中線性核函數的效果較好[24]。

2 實證分析

21 研究思路

分別使用本文研究思路如圖1所示,首先采用R語言環境下的分詞工具Rwordseg進行中文分詞,具體步驟包括去掉數字、空白、去掉停用詞、文本分詞、篩選出名詞、建立語料庫、統計詞頻、建立文檔詞條矩陣X=[X1,X2,…,Xn]d×n,從而將在線用戶評論的文本信息轉化為結構化數據;接著,分別對該結構化數據使用LS和IG按照式(1)和式(2)的算法進行評分,根據公式選出m個特征詞,最后,對包含選取的特征詞及類標簽的矩陣X′=[X′1,X′2,…,X′m+1]d×(m+1)進行SVM分類,觀察分類精度得出結論。

22 實 驗

鑒于操作的便捷性,本次實驗數據樣本選取某電商網站隨機截取的1 000在線用戶評論數據集,剔除過短評論如

“還不錯”、“可以的”及重復評論如“不錯不錯不錯不錯”等。整理后數據樣例如圖2所示,pridid是在線商品的序列號,summary為在線用戶評論的文本數據,是非結構化數據,需要進行主題挖掘,score為在線用戶對商品的評分,是結構化數據,在本實驗中為分類的類標簽,本文主要用到了summary和score屬性。

221 中文分詞并得出文檔詞條矩陣

本文利用R語言中的Rwordseg包及tm包對文本數據進行分詞處理,Rwordseg使用rJava調用Java分詞工具Ansj實現對中文的分詞,tm包可以用來創建文檔詞條矩陣。先后進行去除數字和空白、去掉停用詞等操作,并利用函數選出具有代表性的名詞和形容詞,得到一個擁有691個關鍵詞的文檔詞條矩陣,由于矩陣稀疏度很高,剔除詞頻小于等于2的特征詞,最后得到208個特征詞,形成文檔詞條矩陣[X1,X2,…,X208]1000×208,部分結果如圖3所示。

222 選擇特征詞并進行分類

采用R語言對所得的208個候選主題詞進行信息增益

計算和拉普拉斯評分,通過對式(1)和式(2)的分析可知,在使用式(1)后,應選擇評分較低的詞語,而使用式(2)計算后,應選擇評分較高的詞語。利用LS和IG算法得出的部分關鍵詞排名分別如圖4和圖5所示。 圖4給出的是LS算法下部分關鍵詞的排名,實驗所用函數已經將關鍵詞按照所得評分由低到高排好。排在前10位的分別為精細、傳真、情況、寬度、好、插座、體重、不錯、一線、單薄。圖5給出的是IG算法下部分關鍵詞的排名,實驗所用函數已經將關鍵詞按照所得評分由高到低排好。排在前10位的分別為好、不錯、價格、質量、便宜、東西、性價比、產品、感覺、一般。這些關鍵詞在一定程度上表明了在線用戶對該電商網站商品的關注點。

223 實驗結果

實驗1:LS和IG下不同訓練集比例和特征詞的分類精度對比

表1所示為LS下不同訓練集和特征詞數的分類精度對比,圖6為其折線圖表示,從圖中可以直觀地看出,其分類精度都保持在62%以上,當訓練集比重為70%、80%時,分類精度是比較高的;不同的訓練集比重下,當選取100個關鍵詞時,分類的精度相對都比較高;整體折線圖成發散模式,在選擇較少的關鍵詞時,模型是穩健的。

表2所示為IG下不同訓練集和特征詞數的分類精度對比,圖7為其折線圖表示,從圖中可以直觀地看出,其分類精度都保持在61%以上,當訓練集比重為70%、80%時,分類精度是比較高的;不同的訓練集比重下,當選取100個關鍵詞時,分類的精度相對都比較高;整體折線圖成發散模式,在選擇較少的關鍵詞時,模型是穩健的。

表3所示為不進行關鍵詞的選擇時,不同訓練集比重下的分類精度,從圖8折線圖中可以看出在不進行關鍵詞選擇時,對208個特征詞都進行SVM分類,在不同的訓練集比重下,分類的精度都是比較高的,對比使用了特征選擇算法后的分類精度,都能達到6100%以上,說明進行特征選擇是有效的。endprint

圖9(a~d)綜合比較了不同訓練集、不同特征詞個數下,LS算法與IG算法的分類精度對比,總的來說,當所選關鍵詞個數小于60個左右時,使用LS算法選出的特征詞具有更好的分類效果,且隨著訓練及比例的增大,該效果表現出不明顯的趨勢;當所選關鍵詞個數大于60個左右時,使用IG算法選出的特征詞分類效果更好。在使用IG算法、80%訓練集下,選擇100個關鍵詞后進行分類,精度最高,分類效果最好。

圖10(a~d)給出了使用LS算法、不同訓練集比例、不同特征詞個數情況下,核函數對分類精度的影響。4幅圖各分類精度越來越發散的現象,多項式函數在各個方面取得了較好的分類效果,而線性核函數取得了較折中的分類效果,在各個函數中,比較具有代表性。

圖11(a~d)給出了使用IG算法、不同訓練集比例、不同特征詞個數情況下,核函數對分類精度的影響。4幅圖中各分類精度也呈現逐漸發散的現象,在該算法下,同樣是多項式函數在各個方面取得了較好的分類效果,而線性核

3 結束語

本文的主要工作有:對在線用戶評論進行中文文本分詞、分別使用拉普拉斯評分及信息增益對所得到的分詞結果進行主題詞的選擇、使用支持向量機進行分類精度的檢驗。實證結果表明,進行主題詞的選擇是有效的,所選關鍵詞個數及SVM核函數對分類結果有較大的影響。本文豐富了在線用戶評論文本主題發現的研究,將用于圖像特征選擇的LS算法和IG算法進行對比,LS算法也取得了較好的效果,在實踐中,可以將LS作為文本特征選擇算法來使用,商家可以借此了解用戶關注的領域,從而著重在該方面改善客戶關系。在線用戶評論中還存在著許多結構化的數據,如客戶等級、客戶地區等,將非結構化數據與結構化數據相結合分析是本文接下來要研究的內容。

參考文獻

[1]GodesD,Mayzlin D.Using online conversations to studyword-of-mouth communication[J].Marketing Science.2004,23(4):545-560.

[2]Pons-Porrata A,Berlanga-Llavori R,Ruiz-Shulcloper J.Topic discovery based on textmining techniques[J].Information Processing&Managemen,t 2007,43(3):752-768.

[3]David MBlei,Andrew YNg,and Michael IJordan.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.

[4]阮光冊.基于LDA的網絡評論主題發現研究[J].情報雜志,2014,(3):161-164.

[5]李慧,張舒,顧天竺,等.一種新穎的CRE用戶評論信息抽取技術[J].計算機應用,2006,(10):2509-2512.

[6]陳友,程學旗,楊森.面向網絡論壇的高質量主題發現[J].軟件學報,2011,(8):1785-1804.

[7]呂韶華,楊亮,林鴻飛.基于LDA模型的餐館評論排序[J].計算機工程,2011,19:62-64,67.

[8]羅輝停.基于CRP模型的評論熱點挖掘研究修正版[J].技術與創新管理,2012,(2):166-169.

[9]林煜明,王曉玲,朱濤,等.用戶評論的質量檢測與控制研究綜述[J].軟件學報,2014,(3):506-527.

[10]黃婷婷,曾國蓀,熊煥亮.基于商品特征關聯度的購物客戶評論可信排序方法[J].計算機應用,2014,(8):2322-2327,2341.

[11]聶卉.基于內容分析的用戶評論質量的評價與預測[J].圖書情報工作,2014,13:83-89.

[12]Mudambi SM,Schuff D.What makes a helpful online review?A study of customer reviews on amazon.com[J].MIS Quarterly,2010,34(1):185-200.

[13]SZhou,QChen,XWang.Active deep learning method for semi-supervised sentiment classification[J].Neurocomputing,2013,120:536-546.

[14]陳憶金,曹樹金,陳桂鴻.網絡輿情意見挖掘:用戶評論情感傾向分析研究[J].圖書情報知識,2013,(6):90-96.

[15]王剛,楊善林.基于RS-SVM的網絡商品評論情感分析研究[J].計算機科學,2013,(S2):274-277.

[16]唐曉波,房小可.基于隱含狄利克雷分配的微博推薦模型研究[J].情報科學,2015,(2):3-8.

[17]王偉,王洪偉,孟園.協同過濾推薦算法研究:考慮在線評論情感傾向[J].系統工程理論與實踐,2014,(12):3238-3249.

[18]張啟宇,朱玲,張雅萍.中文分詞算法研究綜述[J].情報探索,2008,(11):53-56.

[19]周俊,鄭中華,張煒.基于改進最大匹配算法的中文分詞粗分方法[J].計算機工程與應用,2014,(2):124-128.

[20]趙秦怡,王麗珍.一種基于互信息的串掃描中文文本分詞方法[J].情報雜志,2010,(7):161-162,172.

[21]宋彥,蔡東風,張桂平,等.一種基于字詞聯合解碼的中文分詞方法[J].軟件學報,2009,(9):2366-2375.

[22]郭亞維,劉曉霞.文本分類中信息增益特征選擇方法的研究[J].計算機工程與應用,2012,27:119-122,127.

[23]胡穎.基于信息增益的文本特征選擇方法[J].計算機與數字工程,2013,(3):460-462.

[24]張國梁,肖超鋒.基于SVM新聞文本分類的研究[J].電子技術,2011,(8):16-17.

(本文責任編輯:郭沫含)endprint

猜你喜歡
分類文本用戶
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 99视频精品在线观看| 亚洲精品动漫| 扒开粉嫩的小缝隙喷白浆视频| 成人夜夜嗨| 国产v欧美v日韩v综合精品| 亚洲欧州色色免费AV| 91破解版在线亚洲| 欧美性天天| 精品久久蜜桃| 91青青在线视频| 在线精品自拍| 国产美女自慰在线观看| 亚洲欧洲日韩国产综合在线二区| 国产91小视频| 国产乱子伦精品视频| 91免费国产高清观看| 一级做a爰片久久毛片毛片| 国产精品第| 亚洲啪啪网| 亚洲国产成人精品无码区性色| 亚洲欧美另类专区| 国产18在线| 中文字幕第4页| 欧美国产综合视频| 日韩免费成人| 九九视频免费看| 91久久青青草原精品国产| 91最新精品视频发布页| 91精品啪在线观看国产| 中文字幕乱码二三区免费| 亚洲精品自在线拍| 91在线精品免费免费播放| 超碰免费91| 国产在线日本| 国产精品片在线观看手机版 | 精品国产成人a在线观看| 欧美成a人片在线观看| 国产特级毛片aaaaaa| 精品伊人久久久久7777人| 福利在线不卡一区| 亚洲久悠悠色悠在线播放| av在线5g无码天天| www.狠狠| 成年人福利视频| 99热这里只有精品免费国产| 久久综合九色综合97网| 国产精品页| 欧美国产视频| 色AV色 综合网站| 国产久操视频| 999精品色在线观看| 亚洲大尺码专区影院| 欧美另类图片视频无弹跳第一页| 国产经典在线观看一区| 欧美啪啪网| 欧美天堂在线| 99久久精彩视频| 女人18一级毛片免费观看| 日韩乱码免费一区二区三区| 巨熟乳波霸若妻中文观看免费| 国产网友愉拍精品视频| 欧美在线一级片| 亚洲成在线观看 | 中文字幕久久亚洲一区| 亚洲欧美日韩成人高清在线一区| 97久久超碰极品视觉盛宴| 国产成人91精品免费网址在线| 久久综合一个色综合网| 亚洲成人网在线观看| 国产福利一区二区在线观看| 久久亚洲中文字幕精品一区| 久久综合九九亚洲一区| 国产91麻豆免费观看| 国产欧美一区二区三区视频在线观看| 午夜视频日本| 女人爽到高潮免费视频大全| 免费高清a毛片| 无码内射中文字幕岛国片| 亚洲中文字幕日产无码2021| 9cao视频精品| a在线亚洲男人的天堂试看| 日韩少妇激情一区二区|