王連喜 ,鐘 準,丁曾強,鄧致妍 ,李 霞
(1.廣東外語外貿大學 廣州市非通用語種智能處理重點實驗室,廣東 廣州 510006;2.廣東外語外貿大學 信息科學與技術學院,廣東 廣州 510006;3.廣東外語外貿大學 日語語言文化學院,廣東 廣州 510006)
詞性標注(part-of-speech tagging),又稱詞類標注,是指以上下文關系為前提,給句子中的每個詞標注出合理詞性的過程[1]。詞性標注是自然語言處理任務的重要預處理工作之一,也是信息抽取、詞法分析、語法分析、語義分析等研究的基礎。詞性標注的準確率將直接影響文本檢索、文本分類、機器翻譯等研究的效果。詞性標注本身是一個難度比較大的問題,因為很多詞語通常有多種詞性,但是在考慮詞語所處上下文語境的情況下,這些詞語的詞性是唯一的,可以明確附以名詞、動詞、形容詞等具體詞性標簽。
印地語是印歐語系-印度語族下的一種語言,是南亞次大陸上使用人口最多的語言,也是印度的官方語言之一。以使用人口數量和使用國家數量來計算,印地語是世界排名第8的語言,但由于印度曾被殖民的緣故,印地語的使用地位比英語要低得多,并未成為眾多使用人口的第一語言。因此,印地語與其他低資源語言一樣,存在標注語料稀缺、標注難度及代價較高、規范性較差等問題,導致大規模的標注資源不易獲取。
許多研究表明[1-2],目前對于通用語種的詞性標注方法已較為成熟,但由于資源稀缺問題和語言的特殊性,無法直接應用于印地語詞性標注上。……