
摘要:為了更好地理解評論和星級評價對在線產品銷售的影響,本文綜合運用數據科學方法建立了相應的模型,進一步完善了在線產品銷售策略。
首先,我們處理數據,然后簡化條件。缺失的值,重復的和無用的評論將在數據處理開始時刪除。第二,我們將諸如vine和verify_purchase之類的數據轉換為定量數字,并計算幫助等級。最后,使用自然語言處理(NLP)技術和情感分析將評論內容轉換為介于[0,1]之間的定量數字。總和是文本的最終分數。對于問題1,將其分解為子問題,并逐步回答問題2,其解決方案如下:
制定規則:當評估得分排在前25%,而詞云的重疊率排在最后25%(詞云:三種詞及其在評論中的出現頻率;由NLP處理)時,可以判斷該產品具有成功的可能性很高。相反,可以判斷該產品有較大的故障概率。
關鍵詞:審查數據挖掘;層次分析法;情緒分析;方差分析
一、假設
我們做一些假設來簡化我們的模型。詳情如下:
(一)沒有零售商通過不誠實的手段來提高其產品數據的可信度。
(二)采用隨機抽樣以確保可以減少主觀影響。
(三)所選樣本可以代表總體特征,以確保更準確地描述種群。
二、內容
(一)定義
詞云:一組單詞及其出現的頻率。成功詞云:一組肯定詞及其出現頻率。失敗詞云:一組否定詞及其出現頻率。 SC的重疊率:ORSC =當前詞云和SCC的重疊部分,當前詞云FC:ORFC的重疊率:當前詞云與FCC的重疊部分,當前詞云
(二)評估模型
當產品符合以下任一條件時,我們將其視為成功或失敗的可能性很高。 (1)成功條件:如果產品平均綜合得分排名前25%,而評論內容與SC的重疊率則超過75%。 (2)故障情況:如果產品平均綜合得分排名不低于25%,而同時評論內容與FC的重疊率超過75%。
嬰兒奶嘴的SC和FC部分如下:
(三)結果分析
我們發現,評估標準與復審文本的詞匯特性相結合比單個評估標準更加穩定和準確。
三、結論
在線評論,星級,有用度和產品銷售之間的關系被綜合分析如下:
(一)為了定義最大信息的度量,使用層次分析法(AHP)來研究綜合產品評分,評論,星級評分和幫助評分之間的關??系。
(二)時間序列模型用于建立綜合的時間得分模型,該模型可用于預測聲譽的變化趨勢。
我們已經獲得了基于文本的度量和基于費率的度量的組合,以指示潛在的成功或失敗產品。
(三)我們計算了特定星級評價的情感傾向與評價內容之間的關系。
(四)我們進行了特征詞與星級評價之間的相關性分析。
參考文獻:
[1] Saaty T L.層次分析法決策[J]。國際服務科學雜志,2008,1(1):83-98。
[2] Vincent T,Risser L,Ciuciu P.空間自適應混合建模用于fMRI時間序列分析[J]。 IEEE醫學影像交易,2010,29(4):1059-1074。
[3] Pang B,Lee L.觀點挖掘與情感分析[J]。信息檢索的基礎與趨勢,2008,2(12):1-135。
[4] Feldstein M S.流動性偏好和投資組合選擇理論中的均值方差分析[J]。經濟研究評論,1969,36(1):5-12。
作者簡介:
王彤(1999-04-),男,天津人,本科學歷,研究方向:自動化專業。