古麗尼格爾·阿不都外力 買合木提·買買提 吐爾根·依布拉音 早克熱·卡德爾 西熱艾力·海如拉 王路路



摘 ?要: 詞干提取是形態豐富語言信息處理中的基礎任務,對其他自然語言處理任務有著重要的影響。該文將詞干提取任務看作序列標注問題,以字符為切分粒度來表征維吾爾語單詞的構成機制,結合條件隨機場模型,實現基于字符序列標注的維吾爾語詞干提取方法。首先使用詞典查詢方法進行詞干提取,然后結合字符的弱化發音特征、音類特征以及語音特征,針對受限數據和非受限數據采用條件隨機場訓練模型及預測結果。實驗結果表明,該方法在非受限數據集上效果較佳,且能廣泛應用到其他語言。
關鍵詞: 詞干提取; 序列標注; 條件隨機場; 特征提取; 模型訓練; 預測結果
中圖分類號: TN912.34?34; TP391 ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)12?0151?04
Abstract: Stemming is a fundamental task in the morphologically rich language information processing and has an important influence on other natural language processing (NLP) tasks. Taking the task for stemming as the process of character sequence labeling in this paper, and using the character as the segmentation unit to represent the formation mechanism of Uyghur word, the method of Uyghur stemming based on character sequence labeling is realized in combination with the conditional random field model. The dictionary query method is used to stemming, and then the model training with the conditional random field and the results′prediction are performed for the restricted data and unrestricted data by combining with the weak pronunciation features, sound class features and speech features of characters. The experimental results this method has well effect on unrestricted datasets and can be widely used in other languages.
Keywords: stemming; sequence labeling; conditional random field; feature extraction; model training; prediction results
0 ?引 ?言
維吾爾語是典型的形態復雜的黏著性語言。黏著性語言的主要特點是沒有詞內部的屈折,每個語法范疇都由一類詞綴來表示?[1]。由于詞干連接的詞綴不同,因此會構成不同的單詞,將造成嚴重的數據稀疏問題。如“Biz(我們)”與“ni?(的)”相連接會構成“Bizni?(我們的)”,與“ni(把)”相連接會構成“Bizni(把我們)”,而詞干提取是去除詞綴獲取詞干的過程,使單詞的不同形態變體還原成一種統一形式,從而有效地提高自然語言處理?[2]以及信息檢索??[3]等任務的性能。
由于維吾爾語構詞方法較為豐富,因此,利用相關技術深入研究詞干提取才能有效解決維吾爾語形態復雜問題。……