基于松弛平方交疊率的分詞詞典無監督優選方法

2025-04-13 00:00:00王琳劉伍穎

南京大學學報(自然科學版) 2025年2期

關鍵詞：松弛平方交疊率，平方交疊率，分詞詞典，無監督優選，越南語

從自然語言文本到語匯（Token）序列的處理過程是傳統自然語言處理和深度學習自然語言處理都需要的基礎步驟.像緬甸語［1］、泰語［2］和老撾語［3］一樣，越南語文本中詞與詞之間也沒有明顯的分隔符，但得到詞序列往往是各種自然語言處理任務的第一步.因此，在上述低資源亞洲語言信息處理中，詞邊界自動識別成為了具有一定挑戰的關鍵科學問題，相應算法在各種自然語言處理應用中具有廣泛的需求［4］.

越南語是一種基于音節的語言，越南語文本的基本形式單位是Ting，而基本語義單位是詞，也就是最小能獨立表義的語言單元.正是由于基本形式單位與基本語義單位不是完全一一映射，因此在采用計算機處理越南語文本的意義時，需要為每個基本語義單位識別形式上的邊界，也就是越南語分詞.

越南語文本可視為一個連續的音節序列，并且每兩個音節之間都由一個空格符分隔.在原始文本中，空格符屬于一種重載標識符，即在詞內作為連接符，而在詞間作為分隔符.因此將越南語分詞任務定義為針對每個空格符的二值分類問題.在分詞結果中，若某個空格符是詞內連接符，就替換輸出一個下劃線（'_'）；若某個空格符是詞間分隔符，就將其作為空格符（''）保留.

1相關研究

越南語分詞結果的優劣制約著各層次信息處理應用的性能.例如，對于傳統自然語言處理……

登錄APP查看全文

南京大學學報(自然科學版) 2025年2期

南京大學學報(自然科學版)的其它文章: 高分子表面改性處理及其增強界面粘接研究進展; 鋼渣礦化二氧化碳體系下的Cl-吸附機制研究及應用; 腔?磁子系統EP附近超低閾值的聲子激光; 利用連續參數的變分量子算法實現超導量子門; 位置k?匿名下的隱私泄露度量方法研究; 基于灰狼算法優化DBN?SVM的入侵檢測方法