徐菲菲, 馮東升
(上海電力大學 計算機科學與技術學院, 上海 200090)
自然語言是經人類抽象發展而來的數據,含有豐富的語義信息,計算機無法直接識別。因此,自然語言處理的首要步驟就是將文本等非結構化的字符數據進行字詞編碼,轉換為可計算的數值數據,從而確定文本和數字空間的對應關系。
文本向量化應當盡可能地包含原空間信息,若在空間映射時丟失部分信息,那么后續的處理任務中也不可能再重新獲取。最早的研究方法是將文本劃分為獨立的單詞,每個單詞被表示為詞匯表中的一個索引,或單詞對應的索引位置為1,其余為0的獨熱編碼向量。該方法雖然簡單,但單詞間無相似性,且沒有聯系,也不包含任何語義信息。另外,獨熱編碼是稀疏向量,易造成維數災難。針對以上問題,有人提出了詞的分布式表示法——詞向量。詞向量是一個維度較低且稠密的向量,每個維度上都有實數。在詞向量與神經網絡結合后,便廣泛地應用于自然語言處理中,例如命名實體識別、實體抽取、閱讀理解和機器問答等。
在利用詞向量解決了數據稀疏和計算復雜的問題后,研究人員開始運用詞向量進行自然語言處理的預訓練。自然語言處理領域的預訓練是受到圖像處理領域預訓練的啟發,目前已成為自然語言處理領域的熱門研究方向。一般在開始訓練模型時需要隨機初始化參數,但是存在兩個方面的問題:一是如果訓練的數據集不夠大,則有可能不足以訓練復雜的網絡;二是模型隨機初始化參數會使訓練速度變慢,即收斂速度變慢。……