高風蕊 張志剛 西安財經大學 信息學院
基于文本的情感分類挖掘是近年來的熱點研究方向之一,對資源搜索、信息過濾、垃圾郵件分類等具有重要的意義。CNN 采用前饋神經網絡,利用卷積層和采樣層應用于文本分類。文獻[3]使用雙向RNN 來學習原始文本數據的關系模式,文獻[4]提出了長短期記憶(LSTM)模型,進一步,文獻[5]將LSTM 模型進行了擴展:使用雙向LSTM 從左到右對句子進行建模,從而將句子表現得更加的全面。
在上述研究基礎上,本文提出了BLSTM-2DCP 體系結構,基于LSTM 進行優化,采用了BLSTM,BLSTM 將句子文本轉換為擁有時間步長維和特征向量維的矩陣,結合CNN 中卷積和池化操作來給對時間步長維和特征向量維上采樣。即利用BLSTM 并通過2D卷積和2D 最大池操作提取特征進行文本分類建模任務。
整個模型由四部分組成:BLSTM 層,二維卷積層,二維最大池化層和輸出層。
(1)BLSTM 層
LSTM(長短時記憶網絡)是一種RNN 的一個變種,它和普通的循環神經網絡相比,LSTM 通過門機制對通過信息的控制來緩解梯度消失問題。該機制包括輸入門i、輸出門o、遺忘門f、控制器c(他們的輸出有一個和逐點乘積操作,用和⊙表示)。LSTM 輸入單元輸入數據xt,隱藏層輸出ht。設輸入序列,其中l 是輸入文本的長度,使用當前輸入xt,前一步產生的狀態ht-1,以及該單元的當前狀態ct-1,通過門機制來判斷要拋棄哪種信息和要存儲何種信息,并決定輸出更新的狀態ht,正如以下方程式所示:

對于序列建模任務,訪問過去和的未來上下文是有益的。Schuster 提出的BLSTM 通過引入第二個隱藏層來擴展單向LSTM,其隱藏層到隱藏層的連接以相反的時間順序流動,這樣就不僅輸入了過去的信息還有未來的信息,則第t 個字的輸出如下式所示:

(2)卷積操作

(3)二維最大池化層
在卷積后產生的特征圖O上應用最大池化操作,為卷積后的特征捕獲一個最高值的特征作為最重要的特征。對于2D 最大池,它應用于矩陣的每個可能的窗口以提取最大值:


(4)輸出層
本文基于京東的用戶評價建立數據集,作為訓練樣本。我們隨機選擇90%的訓練集,10%的測試集。該樣本分為好評評論和差評評論,對于本文的文本褒貶分類,將訓練樣本比例按分類規劃為1:1,以此更好的訓練模型。將本文方法與廣泛使用的文本分類方法在數據集的測試準確率進行比較,同時進行了CNN_model、LSTM_model、GRU_model,BLSTM-2DCP_model 的訓練和測試,數據的迭代次數均為20 次。我們將BLSTM-2DCP與比其他模型進行較,顯 示CNN_model、LSTM_mode1、 GRU_model、BLSTM-2DCP_model 的準確率分別為65.97%、71.52%、72.22%、75.63%,實驗表明,我們的模型在京東用戶評論數據集上優于CNN_model、LSTM_model、GRU_model 模型。
本文中的模型只是基于抓取到的京東用戶評價作為數據集,只覆蓋了購物商品評論語料范圍之內的詞,超出語料之外的分類可能會降低。通用型比較低,并不是一個可以識別任意文本進行文本情感分類的通用模型。該模型與比較簡單的模型相比,將多占用更多的存儲空間并消耗更長的時間運行。