耿曉利 陳淋

摘 要: 電子商務的迅速發展使得用戶滿意度分析的重要性日益凸顯,傳統的用戶滿意度分析大部分基于認知理論,且難以適應復雜的語言環境。針對此問題,提出一種基于情感分析及LDA模型的在線用戶購買滿意度影響因素挖掘方法。首先對在線用戶的評論文本進行情感極性分析確定用戶情緒極性,通過語義網分析提取評論數據中影響用戶滿意度的因素指標,利用詞頻分析以及LDA主題模型,確定及驗證用戶滿意度最重要的影響因素,最后,通過京東網蘋果手機商品的評論數據驗證方法的有效性。
關鍵詞: 用戶滿意度; 情感分析; LDA模型
中圖分類號: TP391.3
文獻標志碼: A
文章編號:1007-757X(2019)06-0038-04
Abstract: This study proposes a method of mining online users impact factors based on the LDA model and sentiment analysis. Firstly, the user's emotional polarity is determined by sentiment analysis. Secondly, the factors that influence the customer satisfaction are extracted by semantic network analysis, and then word frequency analysis and LDA topic model are used to verify and validate the most important factors affecting customer satisfaction. At last, the data of customers satisfaction in Jingdong Mall are used to check the validation.
Key words: Customers satisfaction; Sentiment analysis; LDA model
0?引言
電子商務的飛速展使得在線購物成為人們生活必不可少的一項,人們在網上挑選商品的同時也關注商品的評論信息,據調查,有近70%的用戶很在意商品的在線評論,且有近50%的人把在線評論當作影響其是否購買的重要決策因素。據悉,用戶的在線評論往往涵蓋其購買商品后的滿意情況以及不滿意的原因,因而可以通過挖掘在線評論文本中隱藏的用戶情感以及滿意情況,自動識別用戶的潛在需求。根據已有的文獻信息,關于“網上購買滿意度影響因素”的主題研究已有很多學者在研究,大部分學者從用戶使用體驗出發,基于顧客滿意度模型,采用結構方程模型[1]的方法進行研究,揭示觀測變量和潛變量的關系及各潛變量之間的相互關系等,評價顧客滿意度模型并對模型進行修正。也有少數學者利用文本挖掘中情感分析的方法,如劉甲學[2]利用微軟開發的商業智能軟件POWER BI對用戶評論文本進行數據挖掘,提取評論數據中影響用戶滿意度的因素,再利用情感分析法進行分值計算,從而識別出最重要的影響因素。但語言的復雜性仍處于探索階段,為增加分析結果的準確率,本文通過引入語義的概念,更深層次的挖掘用戶的滿意度影響因素。本文提出在線用戶滿意度影響因素挖掘框架主要包括四個部分如圖1所示。
(1) 采集樣本數據并對數據集進行預處理,從而得到“干凈”的文本數據;(2) 基于情感分析和語義網絡分析,進行用戶評論文本情感極性判斷(積極還是消極),并根據結果確定用戶的滿意度程度同時根據特征詞提取影響在線購物用戶滿意度的因素指標;(3) 根據詞頻分析,確定特征關鍵詞出現的頻次,總結出影響用戶滿意度最重要的幾項因素指標;(4) 基于LDA模型自動識別用戶的真正需求,并驗證前面得到的用戶滿意度影響因素指標是否正確。
1?相關研究綜述
1.1?情感分析
情感分析(sentiment analysis),是指分析人們對例如服務、產品、組織、問題、事件、主題等實體以及其屬性的評價、觀點、態度、情感的研究領域,也稱為情感挖掘、傾向性分析、意見挖掘、觀點抽取等。[3]文本情感分析就是判斷文本作者所反映的情感態度是正面或負面,褒義或貶義,積極或消極。[4]情感分析的主要目的是對結果挖掘有價值的信息進行預測,并以更直接的方式向用戶展示預測結果。例如挖掘某電商網上用戶對手機評論文本,分析用戶對“品牌,外觀,價格,功能,屏幕尺寸,配置,續航待機”等屬性的情感傾向。Turney[5]等指出,文本傾向性分析也稱為情感分類,通過對文本中的觀點態度的分析來判斷文本的情感傾向,并以類別形式來表示結果。情感分析的相關研究對自然語言處理領域產生重大影響,同時也影響著政治學,經濟學,社會科學等與人們的觀點相關的領域。本文將先對文本進行情感傾向分析,積極情緒表示滿意,消極情緒表示對產品不滿意,通過分析了解用戶對產品的滿意程度。
1.2?LDA模型
LDA全稱為潛在狄利克雷分配(Latent Dirichlet Allocation)是由Blei等人[6]在2003年提出的生成式主題模型。生成模型,即每個文本的每個詞都是通過一定概率選擇某個主題,并從這個主題中通過一定的概率選擇某個詞語。
LDA模型又稱為三層貝葉斯概率模型[7],包含文檔,主題,詞三種結構,因此將LDA模型應用于用戶評論挖掘領域,可以通過判斷文本的相似性,進行更深層次的語義挖掘,并將文本中隱含的主題挖掘出來,一個文本中如果包含多個主題,有些可以代表不同主題的詞語會頻繁出現,運用主題模型,能夠發現詞語出現的規律,利用這些規律將關聯詞語聯系起來,從而得到文本中潛在的有用信息。比如,手機的商品評論中,代表手機特征的詞語如“速度快”“屏幕”“性價比”等會反復出現在評論里,此時運用主題模型,將手機代表性特征相關的情感詞語同相關特征詞聯系起來,從而深入了解用戶評價的聚焦點以及用戶的潛在需求。
2?實驗設計與分析
2.1?數據來源及預處理
為了更好的分析在線用戶購買商品的滿意度,本文選取京東商城中的蘋果手機作為研究實驗樣本,利用數據采集軟件(八爪魚爬蟲軟件)對蘋果手機的用戶評論數據進行采集,采用基于商品編碼的爬取方式,由于iphone手機有多個商家在售賣,并呈現多頁顯示,因而在采集數據時制定一個翻頁循環列表,設定規則點擊每個產品抽取每一條評論。抽取的字段:主要有:價格、顏色、用戶名、用戶購買信息、用戶評論內容、評論時間等,最終爬取了67 840條用戶評論文本。
觀測采集后的文本發現其中存在很多對分析無用的數據,例如重復數據、異常數據等。如果將這些數據一起進行分析,會嚴重影響到建模的成果,最后導致分析結果的偏差,因此在分析前需要對其進行數據清洗,本研究利用武漢大學研發的ROCTCM6軟件進行文本數據的預處理,對評論文本進行文本去重、機械壓縮去詞以及短句刪除。
1) 文本去重就是刪除評論數據中重復的部分。為避免去掉重復數據中的有用數據,本文采用相對簡單的思路對文本去重——兩兩對比法,完全相同內容的就去除一條,保證所有的有用數據保留下來。
2) 機械壓縮去詞就是比如“哈哈哈哈哈哈”“好評好評好評”,這樣存在連續重復的語料,也是較長又無意義評論。因此需要對其進行機械壓縮去詞,即是將其機械壓縮為“哈”“好評”,把重復累贅的表達去掉,而短而無意義的文本會在后邊進行的短句去除中處理掉。
3) 短句刪除,由語言的特點可知,字數越少能夠表達的意思越少,所以要表達相關意思是一定要有相應數量的字數,過少字數的評論必然是沒有意義的,為此,需要將保留評論字數下限外的短句去除。一般4-8個國際字符都是較為合理的下限。
2.2?基于情感分析用戶滿意度情況
情感極性分析是對帶有主觀情感成分的文本進行語義分析,識別該文本的情感傾向是正面、負面還是中立。從技術上情感分析可分為基于情感詞匯語義特性分析和統計自然語言處理分析,本文將使用基于情感詞匯語義特性進行分析文本情感的方法,借助情感詞典判斷該文本整體情感傾向。[8]本文借助ROSTCM6軟件將評論數據分割為三大組,積極,消極,中性。評論前帶有前綴評分代碼,從數字可以看出各個評論的情感強度,如圖2所示。
根據圖3數據顯示,關于京東上蘋果手機產品的用戶評論,有71.74%的用戶評論帶有積極情緒的較多,表示大多數的用戶對該產品很滿意,中級情緒的占15.17%,則表明有15%左右的客戶對該產品無感,不是很滿意,13%的用戶帶有消極情緒,說明還是有13%的用戶是非常不滿意的。且在情緒強度方面,大部分的用戶帶有積極情緒的強度普遍比帶有消極情緒高,不過也不能排除哪些消極情緒的用戶,有接近3%的用戶消極情緒達到中度以上,對該產品也在評論中反應出極其的不滿意。因而針對這些消極情緒的評論,商家要認真對待,并反思原因,爭取在最短的時間改善,從而換取用戶消極情緒的降低。
2.3?基于語義分析提取影響用戶滿意度的因素指標
根據前面收集到的文本數據,并對其進行情感分析,標注出哪些是屬于積極情感,哪些歸屬于負面情感,利用這些文本進行語義網絡的構建。在ROSTCM6界面,分別把積極情感詞匯與消極情感詞匯導入軟件中,點擊功能性分析,再點擊語義網絡與語義網絡分析,分別得到積極詞匯語義網絡圖與消極詞匯語義網絡圖,如圖4和圖5所示。
根據語義網絡可以直觀的看到用戶關注的點,而且語義網絡圖的有向性能夠看到詞語的關聯性。圖4可以看到用戶所反映的狀況:手機漂亮,蘋果系統流暢速度快,屏幕好質量好,包裝好是全新正品。京東值得信賴,物流速度快,服務好,購物體驗好等。圖5可以看到用戶所反映的狀況:手機發熱,不夠流暢反應慢,鋼化、電池有毛病,質量不夠好,聲音小,屏幕不合適,缺少發票,降價速度快。京東送貨速度慢,銷售的不是新機,售后賣家態度不好,不夠讓消費者放心等。
根據上文分析,本文提取影響用戶滿意度的主要因素有產品的質量、價格、物流、服務以及京東自營影響力,具體指標如表1所示。
2.4?基于詞頻分析影響用戶滿意度的因素權重
為了進一步了解用戶更重視哪些影響因素,本研究將利用高頻詞云圖來直接觀察用戶當時熱點關注的話題,詞云可以把在評論文本數據中出現頻率較高的詞匯突顯出來,詞匯出現次數越多,字體越大,視覺沖擊越強。且能根據詞云中字體大小不同的特點,形成詞云層。從而過濾了大量的文本信息,人們不用去查看更多的信息,只需瀏覽便能了解大概主旨信息。
本文借助R軟件分別對積極情緒的文本及消極情緒的文本制作高頻詞云,可以得到積極情緒高頻詞云以及消極情緒高頻詞云,如圖6和圖7所示。
由于分詞軟件的局限性,有些詞匯因不在詞典里而被分開,如“不好”、“不是正品”、“不快”等,因此本文根據圖6和圖7的分詞結果,并結合原有的基礎數據進行結果分析。
據圖6可以看到“不錯”“流暢”“屏幕”“質量”“服務”“態度”“速度”“系統”“京東”“正品”“價格”等等關鍵詞出現的頻率較高,從而可以反映出:手機運行流暢、速度快、系統體驗好、屏幕好、價格實惠、京東銷售正品、售后服務態度好等是用戶更注重的影響因素。
據圖7可以看到“不”“聲音”“小”“問題”“垃圾”“價格”“屏幕”“翻新”“包裝”“速度”“時間”“換貨”“態度”“差”“慢”等關鍵詞出現的頻率較高,從而可以反映出:手機聲音比較小、質量有問題、屏幕不合適、手機價格貴、商品出現翻新、包裝不夠好、物流時間長速度慢、售后態度不夠好等是用戶不滿意的重要原因。
綜合可知,手機的質量,價格和服務態度、物流,這四個指標都是用戶很關心的指標,其中“質量”指標中,“系統是否流暢、是否正品新機”這兩個二級指標是用戶更看中的;在一級指標“價格”中,“性價比是否值得購買”是用戶更看中的;在“服務態度”指標中,“售后服務態度”是用戶更看中的;“物流”指標中,“送貨速度、包裝質量”是用戶更看中的。
2.5?構建LDA模型挖掘用戶潛在需求
通過之前的步驟,本文用ROSTCM6進行情感分析機器分類,生成得到三種情感結果文本,抽取“積極情感結果”和“消極情感結果”進行分析,并且對兩個文本進行分詞。
筆者通過利用R軟件構建在線用戶的LDA模型,首先利用該軟件對兩個文本分別進行分詞處理,再通過刪除停用詞處理,將一些如“的”“了”“吧”等無用的詞刪除。然后借助R軟件中的主題模型函數包,進行建模探究,最后積極情感文檔與消極情感文檔的主題各得到3個,如圖8與圖9所示。
根據該產品積極情緒的3個潛在主題的特征詞提取,主題1中的高頻特征詞,京東,價格,客服,滿意,好用,流暢,速度快,主要反映京東客服態度令人滿意,手機好用速度快,價格好。主題2中的高頻特征詞,物流,快遞,發貨,送貨,滿意,服務,包裝,屏幕,主要反映物流發貨送貨速度快,服務好,包裝的好,屏幕完好。主題3中的高頻特征詞,正品,速度,很快,質量,系統,值得,主要反映手機是正品質量好,系統好速度快,值得購買。根據該產品的消極情緒的3個潛在主題的特征詞提取,主題1中的高頻特征詞,問題,屏幕,小,不好,發票,系統,卡,發貨,主要反映手機屏幕小,質量不好,缺少發票,系統卡,發貨慢。主題2中的高頻特征詞京東,快遞,速度,包裝,聲音,打電話,死機,流暢,主要反映京東快遞速度慢,包裝不夠好,手機打電話聲音小,容易死機不夠流暢。主題3中的高頻特征詞,物流,問題,客服,降價,送貨,主要反映物流送貨慢,提問客服回答不滿意,手機降價快。根據LDA構建產品在線評論文本的主題模型可知,用戶的需求主要還是傾向于產品的質量、價格、服務態度、物流速度。同時也驗證了這幾個因素是影響用戶滿意度的主要指標。
3?總結
本文在考慮文本的語義關聯的基礎上,引入的語義網絡和主題模型的方法,通過分析商品評論文本的情感極性,確定用戶購買商品的滿意度情況。實驗結果表明,通過該研究方法,可以有效的了解用戶滿意度情況,同時也很方便的提取出用戶對產品滿意或不滿意的因素指標。對商家改進服務和促進銷售具有積極的意義。但因評論文本的非正式化,口語化偏多,筆者使用的情感詞表語料庫不完整,有些詞匯不能完全匹配出,導致在分析的準確性上有一定的局限性。目前有很多的語言學專家專門研究情感詞詞典,在后續的工作中可以研究這些情感詞詞典的應用場景,以更好的實現用戶與專家研究的有效結合。
參考文獻
[1]?向堅持,陳曉紅.基于結構方程模型的客戶滿意度建模及參數估計方法[J].湖南師范大學自然科學學報,2009,32(2):31-36.
[2]?劉甲學,陶易. 基于情感分析的評論數據用戶滿意度影響因素研究[J]. 現代情報,2017,37(7):66-69.
[3]?楊佳能. 基于語義分析的中文微博情感分類研究[D]. 廣州:廣東外語外貿大學, 2015.
[4]?羅芳. 意見挖掘中若干關鍵問題研究[D]. 武漢:武漢理工大學, 2012.
[5]?Turney P D. Littman M L. Measuring praise and criticism:inference of semantic orientation from association [J]. ACM Transactions on Information Systems,2003,21(4):315-346.
[6]?Blei D M,Ng A Y, Jordan M I. ?Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, (3): 993-1002.
[7]?David M. Blei,John D. Lafferty. Dynamic topic models. In: Proc. of the ACM SIGKDD, Pittsburgh, Pennsylvania, USA, June 25-29, 2006:424-433.
[8]?趙鵬,何留進,孫凱,等. 基于情感計算的網絡中文信息分析技術[J]. 計算機技術與發展, 2010(11):152-155.
(收稿日期: 2018.05.16)