◆林游龍
(福州數據技術研究院有限公司 福建 350019)
漢語的自動分詞問題是計算機處理漢語時面臨的基礎性工作,是諸多應用系統不可或缺的重要環節[1-3]?;谝巹t的切分算法[4-5]又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串。常用方法:最小匹配算法,正向(逆向)最大匹配法,逐字匹配算法,神經網絡法、聯想回溯法,基于N-最短路徑分詞算法。目前機械式分詞占主流地位的是正向最大匹配法和逆向最大匹配法。基于理解的分詞方法[6-7]又稱之為知識分詞,知識分詞是一種理想的分詞方法。不管是基于理解的切分方法,還是基于統計的或基于規則的切分方法,每一種方法都有各自的優點和一定的局限性[8-9]。
目前基于統計的分詞方法是研究的熱點,主要包括,最大熵模型,條件隨機場,隱馬模型,最大熵隱馬模型。為了彌補條件隨機場與最大熵模型的缺點,出現了基于多層次混合模型,如最大熵隱馬爾可夫模型,其原理是通過一種模型進行粗切分,然后用另一種模型進行細切分[10-12]。目前的基于隱馬爾可夫模型的分詞工具很少,復雜的代碼結構限制了它的普及。本文針對隱馬爾可夫模型的特點與中文分詞相結合,設計并實現了基于隱馬爾可夫模型的分詞算法,總代碼不超過70行,而且簡單易理解,對以后基于此模型的詞法分析研究有很大的參考價值。……