俄果措 安見才讓



摘 要藏語自動分詞和藏語動詞形態自動識別過程中的一個重要部分,使藏語分詞過程中字串的匹配對象。電子詞庫中每一個詞條的準確性直接影響著藏語自動分詞結果和藏語動詞形態自動識別結果。因此,電子詞典中主要收錄了所選藏語語料庫中的18本藏語(翻譯版)教材的5000個詞條。
【關鍵詞】自動分詞 動詞形態自動識別 電子詞典
藏語動詞的研究歷來是藏語語法研究的核心。藏語書面語約有1500 個單音節動詞,其中大多數動詞具有詞形數目不等的時式形態變化。在藏語的發展過程中,由于語言內部結構的語音變化及語言的外部影響,藏語動詞的詞形出現了不同的簡化模式。
1 藏語動詞形態自動識別模塊
藏語動詞形態的自動識別是藏語句法分析和藏語八格的識別等過程中的一個重要環節。藏語動詞形態自動識別的目的是識別出藏語文本中的大量的藏語動詞形態,并消除識別過程中動詞形態的變化問題。藏語動詞形態自動識別模塊采用了以藏語傳統語法為依據,格桑居冕(1982)在《藏語文法教程》(簡稱教程)中對藏語書面動詞進行了詳細講并收集其中所講的藏語動詞形態和動詞形態的接續規則來實現。最終建立了藏語動詞形態的規則庫,按規則庫中相應的規則來識別句子中的動詞形態的變化。
具體如圖1所示。
2 藏語動詞形態的自動識別算法
如圖2所示。
在藏語動詞形態識別過程中動詞形態處變化處理算法描述如下:
S=“”
在S中消除具有一個以上音節的詞。
S=“”
在S中消除虛詞。
S=“”
逐一取每一個詞在詞典中data中查找,如果查找到,就將結果存儲在SS中,最后顯示SS中的內容,如下:
3 藏語動詞形態識別的運行結果
如圖3所示。
4 結束語
通過探索藏文傳統文法理論,建立藏語動詞形態的接續規則,按照規則及相關的算法和模塊實現藏語動詞形態自動識別系統。
參考文獻
[1]格桑居冕, 格桑央金.藏文文法教程[M].四川民族出版社,2004.11(391-513).
[2]金鵬.藏語動詞屈折形態向粘著形態的轉變[J].中國藏學,1988(01)(131-139).
[3]金鵬.《西藏現代口語動詞的時態和體及其表達方法》.西藏研究1984(03)-1985(02).
作者簡介
俄果措(1987-),女,青海省人。碩士學位。現為青海省玉樹州曲麻萊萊縣政府辦文秘。研究方向為中國少數民族語言文學。
安見才讓(1969-),青海省人。碩士學位。現為青海省西寧市青海民族大學計算機學院教授。研究方向為藏文信息處理及應用。