扎西拉旦 安見才讓
本文提出了藏文字組合的規則和藏文字的語法分析相結合的藏文字自動分解算法和藏文字組成結構用形式化描述,通過研究藏文字的構件規則,得到藏文字的結構特征,而進一步對藏文字的字母組合進行分段處理,簡化藏文字構件復雜度,研究出各分段部分的藏文字的構件規則,并且按照規則進行藏文字數的統計。實驗表明,系統對現代藏文字能有效地自動識別分解。
一、引言
在信息時代,信息技術發展水平成為衡量一個國家、一個地區或一個民族科學技術發展水平的重要標志。而文字的信息處理則是信息技術的重要組成部分,藏文信息處理技術語言也在進一步發展。在這幾年狀況下要加速藏文信息處理的發展,主要是開展藏文信息技術標準制定、藏文操作系統研究、藏文資源建設和藏文字自動分解系統的研究。藏文信息處理要以藏字信息處理的實現為基礎,要提高藏字信息處理的智能水平,又要借助藏文信息處理的成果。
隨著藏文信息處理的深入,藏文字自動分解問題已經引起高度重視,成為藏文信息處理的一個前沿課題。經過十幾年的研究,藏文字自動分解技術也取得了令人矚目的成果,在各個方面得到了長足的發展,因此產生了積極的社會效應。
藏文語音經過一千多年演變,而書面語的正字法永遠不變,還有一個就是藏文拼寫變的非常復雜,拼寫的時候是以不同的輔音字母的“加字”來表示不同的音調,藏文拼寫雖然復雜,但是拼寫都很有規則的,藏文字是一種以輔音字母為主要構件的特殊拼音文字,藏文文法具有按字性組織的特征,其構字、構詞都要考慮字的基本構件及其屬性。因此,分解藏文字是藏文信息處理研究基礎。藏文字符包括30個基本輔音字母和4個元音符號, 30個輔音字母中有10個可做后加字,后加字中的5個又可做前加字, 2個可做再后加字。
二、藏文字的語法結構特征

輔音和前加字、后加字、再后加字的關系為Z∈A∈G∈M,如圖1所示。
藏字在結構上由基字、前加字、上加字、下加字、后加字、再后加字及元音以不同結構組成,它不僅具有橫向拼寫性,同時也具有縱向拼寫性,其中前加字、基字、后加字與又后加字橫向拼寫,而在基字所在的豎直方向上還可能有上加字、基字、下加字和元音的縱向拼寫,如圖2所示。
藏文字結構自動識別分解流程圖,如圖3所示。
三、藏文字組成結構形式化描述




六構件的藏字結構可以歸納為兩種括號表達式,與兩種括號表達式對應的樹形圖,如圖11和圖12。
七構件的藏字結構可以歸納為兩種括號表達式,與兩種括號表達式對應的樹形圖,如圖13。
四、結束語
本文從構件角度將藏文字的基本形式,前加字、上加字、基字、下加字、元音、后加字、再后加字為分為一構件、二構件、三構件、四構件,并通過建立組合構件規則庫,詳細研究了藏文字構件的分解算法和形式化描述及統計藏文字數,今后在該研究成果的基礎上進一步研究對藏文字符生成技術和藏文句型分布,為藏文字符頻率計算、藏文句型結構分布、藏文字符排序、藏語語音合成和藏漢機器翻譯研究提供論依據和數據基礎。