張美頎
(沈陽化工大學 遼寧省沈陽市 110142)
互聯網行業的高速發展,帶來的是人們越來越喜歡在網絡上公開分享自己對某一事物的看法或情緒,因此微博、商品評論、電影評論等文本信息大量出現。利用信息,并深入的挖掘和分析,可以為消費者和企業提供相關的參照依據,為提高產品的服務與質量提供了數據依據,也可以為政府提供輿情監測和分析。由于網絡上的文本信息量過于龐大,光靠人力是不能夠解決問題的,這時就需要運用當今的信息技術。利用數據挖掘、機器學習等技術對網絡上大量的文本評論進行處理,然后分析其表達的情感傾向,這就是情感分析。主要的工作有抽取評價對象與短語以及搭配關系。
首先通過爬蟲技術從京東商城上爬取了“西門子”品牌冰箱的用戶評論數據,并根據評論數據集建立基于商品評論數據的情感分析數據挖掘模型,需要進行數據挖掘建模的目標如下:
(1)根據評論數據分析出“西門子”冰箱用戶使用后的情感傾向;
(2)根據所爬取的評論數據挖掘出“西門子”冰箱所具有的優缺點;
(3)根據對“西門子”品牌冰箱的評論分析,提煉出其它品牌冰箱的賣點。
本文結合從京東商城上以爬蟲技術爬取的“西門子”冰箱的用戶評論數據為基礎建立模型,分別從數據抽取、數據探索與預處理、建模&診斷、結果&反饋等幾個方面對商品評論數據進行分析,然后通過建立以為語義網絡或LDA算法為基礎的數據挖掘模型[3],分析出評論數據情感傾向的分類問題以及其深層次的隱藏含義。分析的流程圖如圖1 所示。
根據圖1 中商品評論數據挖掘分析流程圖可知,數據預處理可分為以下3 個部分,分別為:文本去重復、壓縮去詞、刪除短句。
此步驟的目的主要是為了去除商品評論數據中的重復部分,這樣可以起到去除無用評論和重復評論的目的。一般的文本去重算法的主要思想是利用算法分析文本之間的相似程度,然后根據相似程度的深淺進行文本去重。這類算法包括Simhash 算法、距離去重等。其中距離去重算法是通過計算兩條不同語句間的編輯距離,然后分別對其計算得到的距離閾值進行判斷,如果計算得到的編輯距離與閾值之差為負數,那么將進行去重處理。但是當遇到所要表達意思相近的語句時,該語句也可能因為去重算法而被刪點,這樣就會導致錯刪的情況出現。為了避免錯刪,這里我們采用較為簡單的去重思路,那就是只對完全重復的語句進行去重。

圖1:商品評論數據挖掘分析流程圖

圖2:CBOW 模型

圖3:Skip-gram 模型

圖4:LDA 生成模型

表1:數據集描述
雖然進行了文本去重,但是遠未達到數據清洗的目的,因為現實中有一些評論數據中含有一些連續重復的語句,而這些語句并沒有什么實際的意義,所以需要對其進行壓縮,以去掉一些不必要的表達,東西好用好用好用,只需要壓縮為東西好用即可。短句刪除的思想來自于,當機械壓縮完成去詞處理后,應該將過短的句子進行刪除。
3.2.1 壓縮去重復詞
機械壓縮可以去除語句中重復的詞語,在一般的評論中時常會出現一些連續重復的開頭和結尾,因此我們只需要對文本的開頭和結尾進行處理即可。例如:“安裝費怎么這么這么這么貴”。壓縮去重也有其規則,我們可以通過建立兩個字符列表來完成,當讀取到重復詞后,先將重復詞放置在第一個列表中,再將下一個重復詞放置到第二個列表中,以此類推讀取重復字符,當情況不同時觸發相應的詞語壓縮準則,如果再次出現與列表1 和列表2 完全相同的次則對其進行壓縮。根據以上詞語壓縮規則,既可以對開頭或結尾重復的語句進行壓縮處理,這樣即可得到較為精煉的語句。
3.2.2 刪除較短的評論
對短句進行刪除就是通過設置評論字數的最小限制,當評論語句字數小于此最低門限字數限制時即對其進行刪除。
首先對現有文本進行訓練,得到相應的詞向量,這樣就可以將文本符號數學化[4],使文本情感分析的問題轉化成了一個深度學習的問題。通常用獨熱編碼、分布式表示來表示詞向量,例如word2vec 模型就是一個分布式表示方法[5]。Word2vec 的核心思想是通過詞的上下文得到詞的向量化表示,利用深度學習的思想,將對文本內容的處理,用向量運算表示,即文本語義上的相似度可以用得到的向量空間上的相似度來表示。Word2vec 包含兩種框架:
(1)CBOW(通過附近詞預測中心詞),本文使用CBOW 框架,結構如圖2 所示。
(2)Skip-gram(通過中心詞預測附近詞)結構如圖3 所示。
在通過詞向量構建得到相應結果后,還需對商品評論文本數據的子集進行人工標注,如果是對商品進行正面積極的評論,那么此評論被標記為1,反之,若此評論語句是對商品進行反面消極的評論,那么此評論則會被標記為-1。評論與向量是一一映射的關系,將語句中所有分詞的詞向量相加之后取平均值,最終得到的詞向量的情感傾向值可以判定為評論的情感傾向[6]。
如果從統計學的觀點出發,我們將文本中的主題詞和特征詞進行統計,并對其出現的頻率進行量化。在本文中,運用LDA 算法模型,可以挖掘到更多不同品牌評論中的深層信息。在機器學習和自然語言處理中,LDA算法模型常被用來統計一些抽象的統計模型。LDA 算法是一種無監督深度學習算法。LDA 模型是一種生成模型,如圖4 所示。
LDA 算法模型也叫層貝葉斯概率模型,將文本分為了文檔、語句、詞語的層次結構,可以有效的建立起相應的文本概率分析模型。根據LDA 算法模型[7]的分析,能夠從文本中挖掘到其潛在的主題,進而能夠重點關注文本中的特征詞,精確的把控住文本的大概含義。LDA 模型的生成過程是:先確定一篇文檔D,文檔和主題、主題和詞匯表中的詞分別滿足兩個帶有超參數α 和β 的多項式分布。θ 代表文檔的主題分布,ψ 代表詞分布,其過程就是從θ 中抽取主題,再從其對應的ψ 中抽取一個詞,進行N 次上述操作后得到文檔。這樣,就可以把抽象的文本信息轉化成能夠建立相關數學模型的數字信息[8]。其概率模型公式如公式(1)所示。

本文采用的數據是從京東商城上爬取下來的用戶購買使用后對于西門子冰箱的評論數據,約15000 條,主要信息包括用戶信息,冰箱信息以及文字信息。其中用戶信息包括用戶的名稱、等級;冰箱信息包括外觀外形、制冷效果、保鮮效果、容量大小、噪音大小等;文字信息包括評論者、使用反饋、物品評分、純文字等,表1 是數據的描述。
在數據挖掘、文本聚類等方面,LDA 算法模型被廣泛的應用[9]。相比于其它的文本情感分析神經網絡模型,它引入了狄利克萊函數的先驗概率信息,因此在文本情感分析過程中,該模型有較強的泛化能力,很少產生過擬合。并且該方法是一種無監督的深度學習方法,在只要提供預料數據集的情況下,就可以自動分析并訓練出情感文本[10]的各種情感傾向概率。此算法對于電商評論的情感分析能起到較好的作用。