祖月芳,凌海風
(1.陸軍工程大學野戰工程學院,南京 210004;2.解放軍96761 部隊,河南 三門峽 472100)
分布式語義表示方法之所以受到青睞,是源于2013 年Tomas Mikolov 等推出了一款用于獲取word vector 的工具包Word2vec,它是在深度學習的基礎上獲取的一種詞向量的分布式表達。騰訊AI Lab 開源了包含800 多萬中文詞匯的公開詞向量,其在覆蓋率、新鮮度及準確性上大幅提高,在自然語言處理領域帶來了顯著的效能提升。雖然騰訊詞向量廣受大眾追捧,但在裝備領域其對一些專業術語涵蓋不是很全面,這導致在運用騰訊詞向量表示一些特定專業領域的文本時受限。基于這樣的情況,本文結合騰訊詞向量的優勢,基于遷移學習的思想以騰訊詞向量作為初始向量進行了訓練,獲得了裝備領域的詞向量。
隨著自然語言處理技術的發展,可以進行詞向量訓練的模型有很多種,比如目前使用較多的Word2vec 模型和Bert 模型。本文在進行裝備領域詞向量訓練時選擇了Word2vec 模型,舍棄了現在更火的Bert 模型;原因是在訓練詞向量是Bert 模型的基本單位是字,而Word2vec 模型的基本單位是詞語,結合裝備領域相關專業術語的特點,使用以詞為基本單位的Word2vec 模型更符合本文的需求。其中,gensim 包提供了Word2vec 的python 接口。
Word2vec 主要有CBOW 模型(Continuous Bagof-Words Model) 和Skip-gram 模 型(Continuous Skip-gram Model)兩個詞嵌入模型。兩個模型都包含3 層:輸入層、投影層和輸出層。如圖1 所示,CBOW 模型是在已知當前詞ω的上下文ω,ω,ω,ω的前提下預測當前詞ω,訓練完成后,每個詞都會作為中心詞把周圍詞的詞向量進行調整來獲得所有詞的詞向量。……