





關鍵詞:松弛平方交疊率,平方交疊率,分詞詞典,無監督優選,越南語
從自然語言文本到語匯(Token)序列的處理過程是傳統自然語言處理和深度學習自然語言處理都需要的基礎步驟.像緬甸語[1]、泰語[2]和老撾語[3]一樣,越南語文本中詞與詞之間也沒有明顯的分隔符,但得到詞序列往往是各種自然語言處理任務的第一步.因此,在上述低資源亞洲語言信息處理中,詞邊界自動識別成為了具有一定挑戰的關鍵科學問題,相應算法在各種自然語言處理應用中具有廣泛的需求[4].
越南語是一種基于音節的語言,越南語文本的基本形式單位是Ting,而基本語義單位是詞,也就是最小能獨立表義的語言單元.正是由于基本形式單位與基本語義單位不是完全一一映射,因此在采用計算機處理越南語文本的意義時,需要為每個基本語義單位識別形式上的邊界,也就是越南語分詞.
越南語文本可視為一個連續的音節序列,并且每兩個音節之間都由一個空格符分隔.在原始文本中,空格符屬于一種重載標識符,即在詞內作為連接符,而在詞間作為分隔符.因此將越南語分詞任務定義為針對每個空格符的二值分類問題.在分詞結果中,若某個空格符是詞內連接符,就替換輸出一個下劃線('_');若某個空格符是詞間分隔符,就將其作為空格符('')保留.
1相關研究
越南語分詞結果的優劣制約著各層次信息處理應用的性能.例如,對于傳統自然語言處理……