摘 要:在沒有建立起完善的中文停用詞表的情況下,運用程序流程控制剔除中文分詞器切分出來的單個獨立字、英文字符、數字和一系列數學符號以及含有這些符號的中文詞,從而使得兩個字以上的純中文詞成為代表文本信息的特征項。這不僅明顯降低了初始文本向量的維度,而且大大提高了文本向量中的特征信息含量。
關鍵詞:文本分類;文本預處理;停用詞;中文分詞
中圖法分類號:TP319
文獻標識碼:A
文章編號:1001—3695(2005)02—0085—02
計算機應用研究2005年2期
1《師道·教研》2024年10期
2《思維與智慧·上半月》2024年11期
3《現代工業經濟和信息化》2024年2期
4《微型小說月報》2024年10期
5《工業微生物》2024年1期
6《雪蓮》2024年9期
7《世界博覽》2024年21期
8《中小企業管理與科技》2024年6期
9《現代食品》2024年4期
10《衛生職業教育》2024年10期
關于參考網