黃哲瑩 劉作楨 徐及 趙慶衛
(1.中國科學院大學,北京 100049;2.中國科學院聲學研究所語音與智能信息處理實驗室,北京 100190)
“語碼轉換”(Code-Switching,CS)是指在一句話中出現語言切換的現象[1-3]。隨著全球化的發展,越來越多的人掌握了兩種或者兩種以上的語言,CS在人們的日常交流中非常普遍,由此催生了人們對CS自然語言處理(Natural Language Processing,NLP)技術的需求[4]。語言模型建模是多個NLP任務的上游工作,雖然單語種語言模型已經能非常成功地被應用到多個自然語言處理任務中[5-7],但是CS語言建模仍舊是一項非常艱巨的挑戰,CS文本數據的稀缺問題就是其主要挑戰之一。CS文本數據的稀缺,會大大降低語言模型的性能。當前主流的研究思路有3種,(1)構建跨語言詞向量,將不同語種的單詞映射到一個共享的向量空間[5,8-9],這種方法不受CS 文本數量的限制,但是它卻沒有對跨語種的詞序列依賴關系進行建模。(2)使用基于矩陣語言框架理論、等價約束理論、功能頭約束理論等主要語言學理論來合成CS 文本數據[10-11],但是這類方法需要額外的對齊器、句法分析器來處理兩個單語種句子,而現存的研究中利用到詞對齊器和詞性標注器性能都不容樂觀,并且對于語法結構、句法結構差別巨大的兩種語言而言,反而會加劇問題,比如漢語與英語在語法結構、句法結構上迥然不同,由此這個方法會導致后續雙語CS 文本的生成自然度比較差。(3)將基于神經網絡的單語種語言模型擴展為基于神經網絡的CS語言模型,輸入與輸出采用共通的跨語種詞向量[12],并將類合并到神經網絡語言模型中,但是這種方法仍然受CS文本數據稀缺問題的限制。……