王 越,支鑫榮,趙 萌,童新安
(洛陽理工學院,河南 洛陽 471023)
近年來,線上購物已成為人們生活中不可或缺的部分,但是線上購物平臺產品的質量參差不齊,而客戶的反饋評價是最能直接反映產品優劣程度的指標。通過產品銷售數據,分析其在評價結果中的最優產品系列,并重點通過PMI算法[1]將評論文本量化過程及運用TOPSIS算法進行數據分析。以亞馬遜平臺某微波爐產品2004---2015年的銷售數據為研究對象,其部分數據樣本如表1所示。其中,Product title表示產品名稱,Star rating表示星級評價,Helpful vote與Total votes分別表示幫助投票數與總投票數,VINE與Verified purchase分別表示不同類型客戶,Review date表示評論時間,Review body表示評論文本內容。

表1 預處理前的銷售數據(部分)
PMI算法原理是統計兩個詞匯在文本中同時出現的概率,其概率越大,則相關性越緊密,關聯度越高[2]。該算法常用于解決文本感情分析問題。采用PMI算法對評論進行量化處理,其主要步驟如圖1所示[3]。

圖1 PMI算法流程圖
步驟1:搜索句子中的情感關鍵詞并計數。
WordNet詞典被廣泛使用在英語感情分析中,對一個句子中的單詞進行情感分析時,首先應確定該單詞是否包括在情感詞典中,如果情感詞典中存在該單詞,則將情感詞典中該單詞的情感信息作為情感分析結果,如果情感詞典中不存在該單詞,則選擇與該單詞意思較為接近的基準單詞,根據基準單詞在情感詞典中的信息判斷該單詞的情感意思。
步驟2:搜索情感單詞的相關性。
為了計算兩個單詞相互關聯程度,采用PMI算法,即點互信息,其計算公式如下:
PMI=(word1,word2)
(1)
其中:p(word1&word2)表示兩個單詞同時出現的概率;p(word1)表示word1出現的概率;p(word2)表示word2出現的概率。
如果PMI大于0,則意味著兩個單詞同時出現的概率將大于兩者單獨出現概率的乘積,也可以表示為兩者有一定的相關性,且PMI的絕對值與詞語共現頻率呈正相關關系。
如果PMI為0,表示兩個單詞相互獨立。如果PMI小于0,表示兩個單詞的共現頻率較低,兩者是互斥的。如果需要判斷的單詞與作為參考的單詞相關性較大,意思比較接近,那么兩者的共現概率較高,在研究中則認為兩者的情感傾向是一致的,但情感傾向程度是不同的。
單詞情感傾向值公式如下:
(2)
其中:Pword是褒義基準單詞,Nword是貶義基準單詞。
步驟3:根據相互關聯的程度賦予不同權值。
判斷一個單詞的情感傾向方向,簡化為計算該單詞和情感基準單詞excellent(褒義)與poor(貶義)的SO-PMI值,如下:
SO-PMI(word)=PMI(word,“excellent”)
-PMI(word,“poor”)
(3)
其中:如果SO-PMI大于0,則表示該單詞與excellent相關程度更高,其情感傾向為褒義。如果SO-PMI小于0,則表示該單詞與poor的相關程度更高,其情感傾向為貶義[4]。
步驟4:計算句子的情感得分。
根據所得的情感傾向程度將不同評論分為五個等級,從而將評論文本內容量化,如表2所示。

表2 評論等級
指標一:評論文本。
根據PMI算法得到各個評論文本量化后的數值結果,如表3所示。

表3 評論文本等級結果
指標二:評級。
將該產品統計數據中的評級分為五類(1~5),5級為最高級,表示客戶對其滿意度最高,相反,1級為客戶滿意度最低。將評級進行量化分析,如公式(4)所示:
(4)
其中:w1′表示其原始評級等級,若評級度量值w1越接近1,則表示顧客非常樂意購買該產品,其產品價值也越高。
指標三:幫助評級。
幫助評級是指顧客購買產品后的評價對后來客戶購買該產品的幫助程度。為表示幫助評級的不同影響程度,將幫助評級用w2表示。
(5)
其中:w2′表示幫助投票數量,若w2越接近于1,則表示該評論對顧客的購買影響越大。w2″表示總投票數量。
根據該產品的銷售數據處理后結果,其產品評級、幫助評級與評論文本這三項作為評價模型的三個指標,以熵值法[5]求解三個指標的權重,具體步驟如下:
步驟1:算法實現過程。
構建數據矩陣:
(6)
其中:Xij為第i種產品、第j個指標的數值。當j=1時,表示為評級指標,當j=2時,表示為幫助評級指標,當j=3時,表示為評論等級指標。
步驟2:計算第j項指標在第i個評價對象的特征比重。
(7)
步驟3:計算第j項指標的熵值。
(8)
其中:k=1/lnm。
若0 步驟4:求權重。 (9) 其中:Wj為指標的客觀權重[3]。 步驟5:根據“加法”集成法分析得出三項指標所占的實際權重。 為了更合理地建立產品價值評估模型,將客戶群體按照是否成功付款、是否為vine,分為三類:普通客戶、vine客戶以及未付款客戶,區別如表4所示。 表4 客戶類型分類 根據“加法”集成法,記: Wi=αWj+(1-α)bi (10) 其中,Wj表示第i個指標的組合權重;Wj,bj分別為第j個指標的客觀權重和主觀權重。又由于客觀權重Wj已經求出,再考慮實際情況,得出主觀權重bj=[0.4 0.2 0.4],再通過實際情況分析,令α=0.4,并通過線性加權代入上式得出第一類客戶權重為W1=[0.67,0.13,0.2]。 根據(10)分別求出其余兩類不同顧客所對應的不同權重: 其中:W1代表普通客戶的權重分配,W2表示未付款顧客的權重分配,W3代表vine顧客的權重分配。 以Topsis綜合評價法[6]為基礎,建立優秀產品模型,根據以上計算所得的各個權重與數據集得出所評價對象中最優的綜合評價結果,其具體步驟如下: 步驟1:求出加權距離。 (11) 步驟2:列出綜合評價函數。 (12) 即反映出第i個指標與理想點的差異程度。經過計算,按照yi(i=1,2,…,n)值的大小對各被評價對象進行排序選優。顯然,其值越小,則相應的對象就越好。當某個yi=0時,即達到了理想點,則對應的被評價對象是最好的。由于本模型在同一個產品中區分了三個不同客戶群體,所以同一產品進行三組數據計算。 步驟3:求得最優解。 根據產品ID與產品名對應關系,選取微波爐產品中評價結果為前25個的產品名稱,其中danby 0.7 cu.ft.countertop microwave這款產品名稱的占比最高,達到20%,故選擇其為微波爐產品中的優秀產品名稱,具體結果如表5所示。 表5 前25個優秀產品名稱比例分配情況 選用亞馬遜平臺微波爐產品的在線評論數據,通過PMI算法對文本情感傾向進行自然語言處理,將評論情感劃分等級,從而將其量化。采用TOPSIS綜合評價得到該微波爐的最優產品系列,其結果作為度量值能較為精確地反映產品口碑。主要得到了以下結論: 通過PMI算法對文本感情進行分析可以實現對評論文本的量化過程。根據客戶購買時的不同情況,將客戶分為三類群體計算評價模型的權重,有利于評價模型的真實性。建立優秀產品名稱模型,利用topsis的綜合評價方法選出danby 0.7 cu.ft.countertop microwave,該產品為Amazon平臺中微波爐評價最好的微波爐產品系列名稱之一。 該模型針對于線上產品銷售數據分析,對選擇優秀產品系列有較好的應用與推廣意義。
3 建立優秀產品評價模型



4 結語