黃秋義 丁婷婷 楊 帆 浙江傳媒學院信息管理與信息系統 310018
?
基于商品評論信息的情感傾向性分析模型
黃秋義 丁婷婷 楊 帆 浙江傳媒學院信息管理與信息系統 310018
【文章摘要】
為了獲取評論信息中的客戶隱藏情感傾向信息,基于網絡爬蟲技術對商品評論信息進行抓取,通過基于語義分解利用數學向量空間模型對信息進行情感傾向性分析,構建一款針對電商平臺中商品和服務評論信息的客戶意見挖掘以及情感傾向性分析的系統模型。
【關鍵詞】
網絡爬蟲;情感傾向性分析;商品評論;電子商務
在這個以互聯網為代表的新興媒體時代,電子商務在其中也迅速崛起,各大電商平臺如京東、天貓等。平臺上推出的商品類種琳瑯滿目,商品數量也在層層累積,作為顧客難以抉擇品質優良的商品,同時作為電商企業也無法準確捕捉到顧客的興趣。然而在電商交易產生的評論信息中,往往隱含著顧客的情感傾向。合理有效地分析這些信息,有助于電商企業及時地改善產品,并指定恰當的營銷方式,優化服務態度,從而收益用戶量。
鑒此,本文將針對京東、天貓等電子商務平臺中的商品評論信息以及其服務的態度和評價進行情感傾向性分析,研究開發一款針對電商平臺中商品及服務評價信息的客戶意見挖掘并對其進行情感傾向性分析的程序,系統主要功能模塊包括評論信息采集、情感詞典管理、情感傾向性分析等功能模塊。圍繞系統開發,本文將對面向商品評論信息的采集技術、情感傾向性分析模型、面向手機等商品評價情感詞典構建等相關技術進行研究。
1.1京東、天貓等電商平臺中商品及服務評論信息的采集技術
通過網頁的結構特性分析,對現有的網絡爬蟲程序進行合理性的調整,并加以運用,從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件,從而獲得評論頁面的內容。
1.2情感詞典構建與評價短語分析
基于前期已研究過的情感詞典構建技術,構建一個包含基礎情感詞的情感詞典,并對其進行專有情感詞典、情感符號模塊的擴展,從而構建一個針對手機等商品及服務評價信息的情感詞典。
由于評價短語由情感詞和副詞主導其情感,語句由句子主要的短語以及句子整體主導其情感,通過情感詞的匹配,對評論短語和評論句子進行傾向性分析,并得出文本的情感傾向性分析結果。
1.3基于情感分析的評論挖掘
系統將采集的眾多評論信息文本劃分為句子的集合作為傾向性分析的對象,并保存在數據庫中,將句子集合中的每個句子按照句式分類并進行切詞,抽取句子中的評價對象,依次對評價對象、短語、句子進行情感分析計算并得出結果。
1.4情感分析過程
1.4.1文本特征的分類
在中文文本中,一個詞語往往是包含多重意思的“集合”,多義詞在語言學中是重要的特征。辨別多義詞詞義并對其進行消除歧義,是眾多情感分析和觀點挖掘的基本研究對象。在眾多詞匯中,依照詞性可分為名詞、動詞、形容詞、副詞、代詞六大基本詞類,以及具有漢語特色的成語和方言文化形成的慣用詞。較之中文的語法特征,以“主謂賓”的句式為眾,以名詞、動詞、形容詞、副詞的組合為首,其中“名詞+副詞+形容詞”、“副詞+形容詞”、“名詞+形容詞”在實際應用中較為廣泛,例如“手機很好用”、“十分優秀”、“性能好”等。

圖1 商品評論挖掘與情感傾向性分析模型
1.4.2文本預處理
首先對評論文本進行基本的情感分析過程:
(1)對評論文本進行分句,把長文本分割成短文本形式的觀點句;
(2)對觀點句進行切詞,并作詞性標注;
(3)抽取文本中的評價對象和評價短語;
1.4.3向量空間模型
利用數學里的向量空間作為基本模型框架,將文本中的每一個特征項與向量空間中的維度一一對應,其特征項的權重即就是向量空間中坐標值,記為wij,如此就能用坐標點的方式把文本的各項權重以“圖形化”,從而實現文本的數據化模型。
1.4.4量化分布結果
商品特征值以及評論傾向性的基礎是商品評論集的獲取,通過爬蟲技術將一個頁面的商品評論信息集合為數集Ti,其中一共有N條評論信息,通過仿向量空間模型,Ti=(w1,i,w2,i,…,Wn,i),i=1,…,N,其中wij表示特征詞的權重,由此可推出商品評論信息集的中心向量坐標為d(c)=(d1,i,d2,i,…,dn,i),c=1,…,K,其中djr=,r=1,…,s,表某前特征中所有評論信息中出現詞wj的平均權重,s表示某特征中信息評論集的數目。
通過向量空間模型對觀點句進行不同情感傾向量化分布的具體步驟為:
(1)依次獲取各個評論信息集的中心向量坐標;
(2)將特征詞兩兩構成二維平面獲得若干個權重值點分布圖;
(3)選取實驗目標所需要的特征詞二維權重分布圖;
(4)通過離散性隨機變量算法得出對某特征和某特征的情感分布。若值越大,則表示該特征的評論信息的情感傾向為肯定。
商品評論挖掘與情感傾向性分析模型見圖,模型共分為五個部分:文本輸入、信息基本處理、詞表構建、情感傾向性分析和結果可視化。
系統主要模塊包括:
(1)文本輸入模塊:自動將所需要進行情感傾向性分析的文本導入程序。使用中文自動分詞與詞性標注工具對文本進行分詞和詞性標注。
(2)信息基本處理模塊:對獲取的句子文本進行分句、切詞、抽取評價短語,抽取評價對象等操作。
(3)情感詞典管理模塊:對情感詞典的詞條進行管理,包括添加、刪除、修改等
(4)情感傾向性分析模塊:通過在情感詞典中查找該詞語,如果匹配則確定極性,如果不匹配則默認其極性為中性。計算詞語極性強度,根據已經確定的極性和修飾程度進行計算。最終得出每個單句的傾向性并求和作為該文本的傾向性。
(5)分析結果輸出模塊:輸出該文本的傾向性分析結果。
將開源的句法分析代碼導入Java運行環境中,進行評論的句法分析。將分析結果按上述的步驟進行極性值計算,主題詞分為三類進行極性值累加,將結果用可視化的形式表示出來。
3.1基于爬蟲的信息獲取
所選數據來自京東商城,利用爬蟲采集技術,對京東平臺中電子產品的URL的網頁進行信息獲取,篩選并識別出“華為榮耀7 PLKAL10/全網通”手機評論信息網頁的URL,處理HTML的文本信息,最終抽取獲得網頁中顧客的評價內容,在所有評論中隨機抓取1500條評論作為試驗基礎數據。
3.2情感分析過程
(1)商品特征詞提取。基于關聯規則算法從這1500條評論信息中提取商品特征,人工剔除無用詞,最終得到的商品特征為外觀、鍵盤、觸摸屏、電池、價格、功能、靈敏度、相機、分辨率、系統、內存。
(2)觀點句子提取與情感得分計算。本次實驗基于“手機系統”這一特征進行評論文本篩選,共提取到與系統特征有關的200 個觀點句子,并計算出其情感得分。
(3)不同情感傾向的量化分布。基于這200 個觀點句子的情感得分,構建得分值得向量空間模型,選取特征詞為功能和靈敏度的二維分布圖,利用離散性隨機變量算法確定關于功能和靈敏度的情感得分,最終得到這 200個觀點句子的情感量化分布結果

同時,對本文給出的計算情感傾向量化分布的方法進行了驗證

從實驗結果發現,中立傾向情感分布的計算準確率偏低,主要原因是肯定傾向和中立傾向往往相輔相成,其觀點句也具有很大的相似性,即使是人工判斷都不可避免有所偏差。由此可見數據的區分程度對實驗結果也有一定的影響。
事后對200條觀點句進行了人工判斷實驗驗證,從實驗結果分析得知顧客對于京東平臺的服務認可度較高,但對于手機性能和外觀有較多意見。該結果與實驗選取的數據文本有密切的關系,本次實驗爬取的是京東平臺中顧客在購買了手機后的評論信息文本,評論中大多是提及手機產品的不足之處,而對手機產品有認可態度的顧客僅選用五星來評價,省略了具體描述。而對服務的評論大多針對的是該購物網站本身的服務,比如物流,而較少涉及手機產品的售后服務。從結果來看,顧客對于京東平臺的物流速度廣泛比較認可,但對于退換貨這一服務,大多數認為“處理得不及時、不主動“。
隨著網絡社會化趨勢日益明顯,由用戶發布的對所購產品的評論信息成為企業競爭情報分析的重要數據來源。該類信息有篇幅短小、信息密度大及表達情感明顯等特點,傳統數據挖掘方法作用有限,對其進行情感分析能取得較好的分析效果。考慮到一般情感分析方法的不足,本文采用共詞聚類和基于句法分析的情感詞極性傳遞法進行分析。首先,對收集的評論數據分詞處理,構建語義共詞矩陣。其次,應用分析軟件對其進行共詞聚類,定量分析用戶關注的產品維度。再根據聚類結果人工構建分類詞表、情感詞表和情感強度詞表。最后,將評論進行句法分析,按照句法結構進行主題詞極性值計算,最終得到產品各維度情感分析的結果。本文提出的方法在一定程度上實現了對評論信息的處理,但還存在不足。比如,分類詞表的構建需人工參與,且僅從聚類分析中提取主題詞遠遠不夠;網絡上評論語句的用詞和結構不規范,中文表達方式較含蓄,文中總結的句子結構特征不完全,主題詞極性值計算規則有待完善。
【參考文獻】
[1]楊玉珍.基于Web評論信息的傾向性分析關鍵技術研究[D].山東,山東師范大學博士論文,2014.
[2]唐曉波.基于情感分析的評論挖掘模型研究[J].中文信息學報.2013.36(7):100-105.
[3]王祖輝,姜維,李一軍.在線評論情感分析中固定搭配特征提取方法研究[J].管理工程學報.2014.28(4)∶180-186.
[4]余文喆.電子商務中的商品推薦系統[J].華東師范大學學報(自然科學版).2013.(3)∶46-53.
[5]龐海杰.面向文本情感分析的商品評價信息檢測[J].計算機應用.2012.32(7)∶2038-2040.
[6]周民.基于商品特征的商品評論信息挖掘方法[J].計算機與現代化.2014(6)∶98-105
黃秋義,女,本科,信息管理與信息系統專業;
丁婷婷,女,本科,信息管理與信息系統專業;
楊帆,女,實驗師,碩士研究生,研究方向:數據挖掘。
基金項目:浙江傳媒學院創新基金立項項目。
【作者簡介】