蘇海波 劉譯璟
諸如BERT和Open-GPT等預訓練語言模型的引入,為NLP研究和工業界帶來了巨大的進步,這些模型的貢獻可以分為兩個方面。首先,經過預訓練的語言模型使建模人員可以利用少量數據獲得合理的準確性,這種策略與經典的深度學習方法相反,經典的深度學習方法需要大量的數據才能達到可比的結果。其次,對于許多NLP任務,例如SQuAD,CoQA,命名實體識別,Glue,機器翻譯,預訓練的模型如果給定合理數量的標記數據,可以創造新的State-of-the-art記錄。
在預訓練語言模型時代,新的技術會遵循兩個方向發展,第一個方向是改進預訓練過程,例如ERNIE和GPT2.0。第二個方向是在預先訓練的語言模型之上構建新的神經網絡結構。
目前有三種算法可以在預訓練的語言模型之上訓練帶有上層神經網絡的網絡結構,如表1所示,其中,算法NFT-TM是指在BERT模型的上層添加復雜的網絡結構,在訓練時,固定BERT的參數,僅單獨訓練上層任務模型網絡。算法FT-NTM是指在在BERT模型后接一個簡單的特定任務層(如全連接網絡),在訓練時,根據任務的訓練樣本集對BERT進行fine-tune即可。Peter等比較了算法FT-NTM和NFT-TM的可能性,并得出結論,算法FT-NTM比NFT-TM的效果更好。然而,Peter等沒有比較算法FT-TM和FT-NTM。另一方面,在預訓練語言模型流行之前,研究人員經常使用與方法FT-TM類似的策略,也就是說,建模人員首先對模型進行訓練,直到收斂為止,然后在幾個訓練周期內對詞嵌入進行微調。由于預訓練的語言模型類似于詞嵌入,那么不考慮算法FT-TM將是不明智的。……