摘要:提出一種基于后綴數組的無詞典分詞算法。該算法通過后綴數組和利用散列表獲得漢字的結合模式,通過置信度篩選詞。實驗表明,在無需詞典和語料庫的前提下,該算法能夠快速準確地抽取文檔中的中、高叔詞。適用于對詞條頻度敏感、對計算速度要求高的中文信息處理。
關鍵詞:中文信息處理;中文自動分詞;后綴數組;散列表
中圖分類號:TP391.12文獻標識碼:A
吉林大學學報(理學版)2004年4期
1《師道·教研》2024年10期
2《思維與智慧·上半月》2024年11期
3《現代工業經濟和信息化》2024年2期
4《微型小說月報》2024年10期
5《工業微生物》2024年1期
6《雪蓮》2024年9期
7《世界博覽》2024年21期
8《中小企業管理與科技》2024年6期
9《現代食品》2024年4期
10《衛生職業教育》2024年10期
關于參考網