基于語義分析的文本相似檢索模型研究

2020-02-02 03:25:28黃麗娟

電子技術與軟件工程 2020年17期

黃麗娟

（北海職業學院電子信息工程系廣西壯族自治區北海市 536100）

1 研究內容及研究方法

研究內容：深度神經網絡的損失函數對模型訓練的過度擬合有顯著影響。為了使情感二元分類模型更有效地擬合預測誤差樣本，本文借鑒了合頁損失函數和三元損失函數的思想，優化了BILSTM 和CNN 模型中的交叉熵損失函數，設計了BO-BI-LSTM 和BO-CNN 模型。

研究方法：優化損失函數，損失函數進行優化用交叉熵損失函數。公式如下所示：

其中ytrue 是實際輸出，ypred 是期望值。選擇閾值M 并引入單位階躍函數θ(χ)：所以，考慮新的損失函數：

如果正樣本的輸出大于M，則不更新模型，反之則更新；負樣本小于1-M，則不更新模型，反之則更新。得出結論：如果負樣本的輸出小于1-M，則不更新模型。據此，基于新的損失函數Lnew的基礎上，對BI-LSTM 模型和CNN 模型的損失函數進行了優化，設計了BO-BI-LSTM 和BO-CNN 模型。

2 主要研究結果

2.1 實驗裝置

2.1.1 實行環境

環境配置：操作系統：Windows 10（64 位）；

CPU：Intel? Core(TM) i5-8250u,1.8GHz；

內存：8G；

硬盤：2T；

編程語言：Java11.02；

深層神經網絡框架：keras2.0；

詞矢量訓練工具：word2vec；

分詞工具：Jieba。

2.1.2 英語知識庫

包含5 萬條劇評數據，其中正評數據2.5 萬條，負評數據2.5萬條。中文知識庫：包括產品評論數據信息，如圖2-1所示，包括六個方面的評論數據，其中文字數據2 萬多條，其中正評數據1 萬多條，負評數據1 萬多條。

2.1.3 文本預處理

文本預處理包括文本分割、去死字、詞頻統計、文本矢量化等操作。本實驗選用word2vec 框架來構造詞矢量。

2.1.4 超級參數配置

圖1

圖2

圖3

在神經網絡模型訓練過程中，超級參數要進行調整，模型的超級參數配置如下：Batchsize：批量訓練樣本數；Hiddendam：隱藏層節點；Embeddingdam：詞矢量維數；Filters：過濾器尺寸；Kernelsize：卷積核數；Maxfeatures：最大特征數；Epoch：模型迭代。

2.2 BO-BI-LSTM和BO-CNN模型的結果分析

2.2.1 優化參數

設計了四組參數優化實驗。

（1）閾值M 的選擇；選取閾值M 分別為0.5 到1.0，依次遞增0.1。精度先增大后減小。當M=0.6 時，均為最大值。當M 值由0.5 變為0.6 時，兩個模型的精度變化最大；丟失率先減小后增大。當M=0.6 時，兩者均為最小值。基于上述實驗結果，兩種模型的閾值M 為0.6。

（2）損失函數對模型的影響：使用Binary-Optimize 損失函數后的BO-BI-LSTM 模型的精度最高。使用標準交叉熵損失函數的BI-LSTM 模型精度高于其他函數。基于以上實驗結果證明了本文優化損失函數的有效性。

（3）詞矢量維數選擇：當字向量維數為100 時，BO-BI-LSTM模型的精度最高，丟失率最低。當BO-CNN 模型的詞矢量維數為50 維時，精度最高，丟失率最小。

（4）Dropout 選擇：本實驗將Dropout 值從0.1 增加到0.5，當Dropout 設為0.2 時，BO-BI-LSTM 模型的精度最高，丟失率最低，耗時最少。當Dropout為0.2時，CNN-BO模型的精度最高，耗時最少。當Dropout 為0.3 時，丟失率最低。

通過對上述參數優化實驗的分析和討論，得出本模型的超級參數選擇。

2.2.2 結果分析

為了驗證兩個模型的有效性，在中英文兩種知識庫和基準模型上進行了實驗。

2.2.2.1 精度分析

從圖1 得實驗結果：

（1）不同知識庫的實驗結果存在一定差異。中文中BI-LSTM和BO-BI-LSTM 模型的精度分別比英文高5.98%和5.70%；中文中CNN 和CNN-BO 模型的精度分別比英文高0.36%和0.12%。

（2）從圖2-6 可以看出，BO-CNN 模型在中英文知識庫中的精度最高；BO-BI-LSTM 模型在中英文知識庫中的精度分別比BILSTM 模型高1.41%和1.13%；BO-CNN 模型在中英文知識庫中的精度分別比CNN 模型高0.52%和0.28%。

（3）訓練集中的四個模型的精度隨著迭代次數的增加而增加，最終趨于穩定。然而，在測試集中，隨著迭代次數的增加，精度的變化趨勢相對平緩且波動較大，特別是在BI-LSTM 和CNN 模型中。本研究結果表明，BO-BI-LSTM 和BO-CNN 模型能夠更有效地擬合錯誤的預測樣本，有助于防止過度擬合現象，提高情感傾向分析任務的精度。

2.2.2.2 丟失率分析

從圖2 得實驗結果：

（1）四種模型的丟失率隨迭代次數的增加而降低，經過10 次迭代后趨于平穩。但是，每個模型在測試集中的丟失率變化很大，BI-LSTM 和CNN 模型在測試集中波動較大，總體丟失率呈上升趨勢；BO-BI-LSTM 和CNN-BO 模型在測試集中隨著迭代次數的增加而緩慢下降，最終趨于平穩。

（2）可以看出，在英語知識庫中，每個模型的丟失率在第二次迭代后都有很大的變化，經過10 次迭代后，BO-BI-LSTM 和BO-CNN 模型的丟失率分別比BI-LSTM 和CNN 模型低。分析結果表明，優化后的損失函數使模型在多次迭代后具有更好的泛化能力和更低的丟失率。

2.2.2.3 時間性能分析

從圖3 中可以看出，當正樣本的預測值大于M，或負樣本的預測值小于1-M 時，BO-BI-LSTM 和BO-CNN 模型不更新，而將重點放在預測不準確的樣本上，以減少時間消耗。

3 此項研究的科學意義和應用前景；學術界的反映和引用

3.1 科學意義

情感檢索分析在主題推理、輿情監控、評論分析和決策等領域得到了廣泛的應用，具有很高的商業和社會價值。情感分析還應用于其他自然語言處理任務，如機器翻譯，以判斷輸入文本的情感，選擇更準確的情感表達進行翻譯，提高系統的準確性。有利于各行各業的蓬勃發展。為人工智能領域的研究提供了堅實的基礎，為全球智能化建設提供了強有力的理論和實踐支持。

3.2 應用前景

隨著人工智能的飛速發展，基于語義的文本情感檢索模型得到了越來越廣泛的應用，主要表現在以下幾個方面。

（1）金融行業應用：金融交易和金融分析決策，進行后臺風險防控和監管。

（2）政府行業應用：信息全程跟蹤分析，形成對形勢影響范圍、公眾反應、負面影響和理論內容等的分析報告。

（3）客戶服務行業應用：解決簡單重復的工作，支持業務類別的自動分類和語義處理，提供了更加智能化的高效的新人工智能體驗。

（4）商業應用：為生產者和消費者提供網絡評價報告。

3.3 學術界的反映和引用

情感檢索模型的研究一直是學術界和工業界研究的熱點。目前，國內外在該領域的探索性的研究較多。例如，斯坦福大學的基于智能概念的信息檢索引擎；利用醫學語料庫和雙語詞典建立概念網絡；中國科學院生成概念空間，實現基于概念空間的擴展檢索；北京郵電大學手工創建了一個語義網絡；中國科學技術大學和中國科學院計算技術研究所聯合研究開發的基于概念語義空間的聯想檢索系統；微軟新一代人工智能開放最新的人工智能技術和知識庫，如微軟機器閱讀理解，微軟研究院社交媒體對話語料庫、18K 數學文本測試集等。微軟亞洲研究院的語義分析知識庫。

4 完成情況及存在問題

4.1 完成情況

（1）總結了相關理論。

（2）對BI-LSTM 和CNN 模型的交叉熵損失函數進行了優化，提出了BO-BI-LSTM 和BO-CNN 模型。通過中英文知識庫參數優化實驗和對比分析實驗，驗證了BO-BI-LSTM 和BO-CNN 模型在一定程度上提高了情感分析的精度，大大降低了丟失率，防止了過度擬合現象。

4.2 存在問題

在實驗過程中，我們仍然發現了一些問題和許多不足：

（1）在文本預處理技術可以增加短語矢量或句子矢量的表達。

（2）本文采用正負兩種情緒分類方法來比較，情緒強度的不足。后期可以對細粒度問題進行深入研究。

（3）提出的兩個模型的性能有了很大的提高，但由于時間的限制，只對一些參數進行了優化實驗，今后可對其他參數進一步優化，提高模型的性能。