王 澤 陳世友
(中國船舶集團有限公司第七〇九研究所 武漢 430205)
當前,無人作戰平臺已經普遍使用,無人化作戰形式正在成型。無人平臺首先需要接收作戰命令,然后理解作戰命令要傳達的作戰意圖,最后根據作戰意圖執行行動。其中無人平臺接收的作戰命令是一個中文文本,是一個字的序列,中文的書寫不像英文的書寫,詞與詞之間沒有空格間隔,又因為詞是承載語義的基本單位,因此理解作戰命令的第一步就是中文分詞,中文分詞的好壞直接影響作戰命令的理解。
目前,中文分詞普遍使用的方法有基于規則的方法、基于機器學習的方法和基于深度學習的方法。基于規則的方法準確率高,但是移植性、泛化性差,以及成本昂貴等不足;基于機器學習的具有準確率高,泛化性強,移植性弱等特點,依然需要許多人工特征;基于深度學習的方法不但具有高準確率,而且具有良好的泛化性,最重要的是深度網絡具有提取深度特征的優勢,減輕了手工構建特征等方面帶來的壓力。特別是預訓練模型使用,使得模型具有較好的移植性,在具體領域的少量有監督語料上微調即可獲取優秀的分詞結果。
自從C&W提出關于基于序列標注的統一框架[1],將中文分詞作為基于字符的序列標注任務并使用基于C&W提出深度學習框架進行中文分詞的相關研究越來越多[2~6],通過不斷優化編碼器,優化表示學習,融入更多特征,使得模型的效率不斷提高。……