李 想
(寧波大學 機械工程與力學學院,寧波 315211)
在線客戶評論是消費者在網絡消費平臺上發表的,對某種產品或服務的使用體驗和質量評價,通過在線評論,消費者可以更好地獲取產品質量信息、評估商家信譽[1].一方面,對在線評論的研究有助于幫助電商平臺挖掘顧客消費行為與消費特征[2,3],并根據消費者的差異性為不同類別的消費者提供專屬服務;另一方面,以顧客需求為主導的消費模式以深入人心,在線評論包含大量的顧客意見[4],對產品的優化改進有重要的參考意義.
目前,對于在線評論的研究已經取得很多的成果.苗蕊等從歸因理論的視角,對真實評分和平均評分的差異性所產生的有用性影響進行解讀,為評論數據的研究提供新的理論支撐[5];Alaei AR 等從數據集的使用和關鍵評價指標的表現兩個方面對旅游業應用的不同情緒分析方法進行了評價,并對情感分析在旅游業中未來的研究趨勢進行了總結[6];修國義等引入信源和信宿對在線評論信息傳遞效率進行測量,輔助讀者對重要的在線信息進行篩選[7];Cheng XS 等通過實證研究了網上評論內容對潛在顧客信任認知的影響,并對信任感知的相關關系進行了研究,發現評論內容正向影響消費者對酒店的信任[8];于超等提出一種基于在線評論的服務要素的優化配置方法,提取出滿足顧客需求程度最大的服務要素[9].
不難看出,對在線評論的研究多集中在對消費者的影響上[10],在企業的產品優化決策方面的應用較少.在線評論中包含了大量的顧客對產品的意見信息,研究如何從非結構化的評論數據中提取出重要的意見信息,對產品的優化有著重要的指導意義.文章把產品評論數據應用于產品的更新優化中,對產品優化輔助信息獲取的技術和方法進行研究,第1 節介紹了基于在線評論的產品優化決策信息的獲取的分析流程,第2 節計算了顧客意見的權值計算方法,第3 節介紹了產品優化信息的提取流程,第4 節通過實例驗證了方法的可行性.
基于在線評論的產品優化決策信息的獲取的分析流程分為幾個步驟:評論數據采集,對數據的進行預處理,對評論數據進行挖掘,數據的應用和展示,如圖1所示.

圖1 基于在線評論的產品優化決策信息獲取的挖掘流程
文章采用scrapy 爬蟲框架從電商網站爬取在線評論數據,并保存到語料庫中;然后對語料庫中的數據進行清洗和預處理,如去重、分詞、分句等;在線評論挖掘是對預處理后的數據進行產品特征抽取和顧客意見抽取,評論數據的情感分類計算,產品特征意見詞對的抽取;評論的應用主要是通過特征意見權重計算對特征意見詞對進行重要性排序,構建從評論到產品優化的關聯矩陣,獲取優化信息.
詞頻統計指統計某詞在文件中出現的次數,主要方法有IDF、TF-IDF 等[11],對評論數據進行詞頻統計一定程度上可以反映顧客對產品各維度的關注情況.詞頻統計的基本思想是根據詞頻找到重要性較高的詞,而通過加權的方式過濾掉重要性低的詞,由于是對評論數據進行統計,一個詞出現在多條評論中時,其重要性并不需要被降低,所以文章采用基于詞頻的方式直接進行統計,并通過詞頻占比的方式計算詞的關注度,如式(1)所示.

情感分類是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程[12-15].文章通過對評論數據的情感分析,探究顧客對產品各特征(外觀、功能等)的看法,確定產品在客戶心中的滿意程度,根據顧客的滿意情況求出產品各特征在優化過程中的情感權重,即滿意度和重要性呈負相關,基本步驟如下:
(1)預處理 通過編寫代碼自動實現評論數據的去重、清洗、分詞、去停用詞的工作.
(2)特征提取 由于機器學習只能對數值或類別數據進行訓練,所以需要轉化成向量的形式,文章通過Doc2Vec 詞向量模型[16]對處理好的數據進行特征向量提取.
(3)情感分類 通過邏輯回歸分類器對提取的特征向量進行訓練,生成情感分類模型,實現對評論數據的情感分類.
文章選取已標記的消極評論和積極評論各5000 條作為訓練集,通過對訓練集預處理、特征提取、分類器訓練3 個步驟,構建分類模型,隨機抽取消極評論和積極評論各1000 條作為測試集,分類準確率88.6%,召回率87.7%,通過訓練好的模型對數據進行情感分類,然后按照式(2)進行顧客的滿意度在產品優化中的權重計算.

一般顧客的產品某一特征滿意程度越低其在產品優化中的重要性越高,即其重要性和滿意度成負相關,式(2)主要用于計算產品各特征的情感權值,表征產品各維度在產品優化中的重要程度.ti為產品的某一特征,Q(ti)表示ti特征的情感權值,qi為情感占比,λ為權重系數,qk表示情感閾值,當產品某一維度情感占比低于閾值時,可以根據優化的需要適當提高情感權重,情感閾值體現對滿意度低于某值的特征的容忍程度.
顧客對產品某一特征可能會有多個意見,為表征各意見的重要程度,文章把在某一產品特征中的某一顧客意見的重要性用內權值表示,并通過式(3)計算某一產品特征的各意見內權值.由于顧客的表達的多數為非專業術語,同一意見可能適用于多個產品特征,這時需要降低其權重,文章提出了外權值的概念,表示某一意見對各產品維度的重要程度,使用式(4)進行計算.


式中,ti表示產品某一維度,oj表示ti的某一顧客意見,oji為權重,In(ti)為指向ti的 意見權重集合,out(ti)為oj指向的產品維度的意見權重集時合.
產品特征ti的 某一顧客意見oj的重要性由ti的關注度、滿意度、內權重、外權重共同決定,所以由式(1)-式(4)得出產品特征ti的 某一顧客意見oj的總的權值為:

通過式(5)即可分別求得各客戶意見總體權重,權值越大其特征-意見詞對tioj的重要程度越高,其中 β是為了平衡值得大小便于展示,當qi≥qk時 λ的值為1.
文章為了能從評論數據中提取出用于產品優化的輔助信息,需要先提取出在線評論中的顧客的具體意見,基本流程如圖2所示.

圖2 顧客意見提取流程
文章通過詞頻抽取出來客戶關注的產品特征和顧客意見構建特征詞庫T和意見詞庫O,假設每個產品特征都指向所有的客戶意見,形成特征-意見詞對tioj,再通過權重計算式(5)計算出評論中的特征-意見詞對tioj的權重矩陣,最后根據權重矩陣提取出重要的顧客意見.
評論中的顧客意見一般為顧客對產品某些特征的情感表達或問題現象的描述,表達較為模糊,需要構建客戶意見tioj與具體優化信息optr的映射關系,映射關系及其權重w每個企業都有所偏重,一般由專業人士確定,其映射關系如表1所示,其optr的重要性由tioj-optr映射關系表中的權重w和顧客意見的重要性共同決定.

表1 顧客意見和優化輔助信息的映射關系
假設任何一個的tioj都指向所有opt,通過w表示其相關性程度,如表1所示.映射關系組成的矩陣中,一般一個tioj對應一個或幾個optr,所以映射關系矩陣是一個多數值為零的矩陣.通過權重矩陣提取出重要的tioj,再由映射關系表提取出對應的optr,實現由顧客模糊的情感表達到產品優化所需要的決策信息的映射.
通過scrapy 框架爬取vivo X20 手機在天貓網站上的產品評論信息,構建分析模型對這些評論語句進行分詞等預處理操作,計算顧客關注的詞頻占比F(ti),詞頻統計的結果可視化展示如圖3所示.

圖3 評論數據的詞云圖
根據詞頻統計提取出的客戶關注度較高的產品特征,更新特征詞庫,對特征詞進行情感分類,并計算客戶滿意度Q(ti),情感閾值設置為0.5,情感權重系數設置為2,情感分類結果的可視化展示如圖4所示.
在圖4中,x軸以上的為正面評論數,x軸以下的為負面的評論數.通過情感分類結果可以直觀的了解顧客對產品和服務屬性的滿意情況.

圖4 在線評論的情感分類結果
更新顧客意見詞庫,構建產品特征和顧客意見的映射關系,根據權重計算式(5)把評論中的特征-意見詞對tioj轉化為權重矩陣,對重要的客戶意見進行降序排列,提取前5 個特征-意見詞對,如表2所示.

表2 顧客意見及其權重表
根據tioj-optr映射關系,提取出產品優化所需要的輔助參考信息optr,文章設置信息映射關系表中的權重都為1,其optr重要性全由tioj的重要性決定,optr的提取 如表3所示.

表3 顧客意見和優化輔助信息的相關矩陣
通過分析可知,這款產品在服務質量、電池、內存等方面需要優化提升,具體優化方案如上表所示,優化信息中的列權重之和表征優化信息的重要性,在實際應用中,每個企業的優化方法有所側重,這時專家可以適當的調整映射關系矩陣中的權重系數,提高本方法的適用性.
最終根據相關矩陣中權重的列和,對產品優化信息進行降序排列,本章節僅取top4 進行展示,如表4所示.

表4 產品優化方案
文章對產品優化輔助信息獲取的技術和方法進行了研究,通過構建的客戶意見的權重算法模型,實現了產品優化輔助信息提取,為企業中產品的優化提供參考.通過實例分析提取出產品優化所需要的顧客反饋信息,在節省的大量的人力成本的情況下為產品的優化提供數據支持,提高了產品優化的科學性.