○寶美榮
(內(nèi)蒙古師范大學(xué)圖書館,內(nèi)蒙古 呼和浩特 010022)
利用現(xiàn)代信息技術(shù)進(jìn)行民族文獻(xiàn)的數(shù)字化對(duì)極其寶貴的民族文獻(xiàn)資料保存并有效利用、廣泛傳播等具有深遠(yuǎn)的意義。中國(guó)蒙古文現(xiàn)代圖書近3萬(wàn)種,期刊150多種,古籍1.5萬(wàn)種,收藏蒙古文文獻(xiàn)的各級(jí)圖書館400多家,所以蒙古文圖書文獻(xiàn)資源豐富且地域分布廣。所以建立統(tǒng)一的蒙古文文獻(xiàn)數(shù)字化共建、共享平臺(tái)是非常有必要。隨著軟件硬件技術(shù)的不斷發(fā)展對(duì)文獻(xiàn)數(shù)字化建設(shè)提供了良好的環(huán)境和平臺(tái)。因此蒙古文文獻(xiàn)的數(shù)字化工作越來(lái)越受到人們的重視。
從技術(shù)層面分析,目前各高校圖書館使用的蒙古文文獻(xiàn)管理系統(tǒng)不盡相同,如匯文、金盤等。而且各個(gè)系統(tǒng)之間不兼容,導(dǎo)致對(duì)資源的共享帶來(lái)很大的困難。而文獻(xiàn)數(shù)字化的最終目的是資源的廣泛共享。實(shí)現(xiàn)共享要需要統(tǒng)一的文獻(xiàn)管理平臺(tái)。其根本的統(tǒng)一在于蒙古文編碼。由于蒙古文編碼國(guó)際標(biāo)準(zhǔn)制定較晚(2002年)導(dǎo)致多種編碼(形碼、音碼等)并存,編碼不統(tǒng)一,對(duì)資源共享帶來(lái)一定的障礙。
從語(yǔ)言本身分析,蒙古文是一種復(fù)雜的拼音文字。也是唯一從左到右、從上到下豎排的文字。這個(gè)特點(diǎn)對(duì)文字處理技術(shù)帶來(lái)了一定的難度。除此之外,蒙古文中存在一音多形、一形多音等現(xiàn)象,因普通用戶很難100%正確掌握,文字錄入過(guò)程中難免會(huì)出錯(cuò),所以會(huì)影響檢索效率。
從編碼角度分析,自從蒙古文編碼國(guó)際標(biāo)準(zhǔn)制定之后大部分蒙古文信息處理系統(tǒng)都遵循國(guó)際標(biāo)準(zhǔn)編碼。微軟從vista系統(tǒng)開(kāi)始支持基于OpenType蒙古文字庫(kù)的傳統(tǒng)蒙古文輸入法。這對(duì)蒙古文文獻(xiàn)數(shù)字化提供了統(tǒng)一編碼的良好平臺(tái)。
但是,這套OpenType字庫(kù)中一些規(guī)則沒(méi)有遵循蒙古文語(yǔ)法規(guī)則,導(dǎo)致控制符使用繁雜,加大了用戶輸入蒙古文時(shí)的不必要的復(fù)雜性。所以文本重點(diǎn)分析了蒙古文OpenType字庫(kù)中存在的問(wèn)題并提出了優(yōu)化方案。
蒙古文編碼國(guó)際標(biāo)準(zhǔn)由有碼位的“名義字符”和無(wú)碼位的“變形顯現(xiàn)字符”兩部分構(gòu)成。所以顯示正確的蒙古文文字時(shí)必須考慮到名義字符和變形顯現(xiàn)字符之間的映射。而這種映射關(guān)系應(yīng)該用語(yǔ)言知識(shí)和語(yǔ)法規(guī)則體現(xiàn)出來(lái),從而達(dá)到正確選形的目的。對(duì)于語(yǔ)言知識(shí)和語(yǔ)法規(guī)則無(wú)法區(qū)分的情況,通過(guò)輸入附加控制符來(lái)標(biāo)識(shí)。OpenType字庫(kù)技術(shù)恰好可以解決此問(wèn)題,字庫(kù)設(shè)計(jì)者主要利用OpenType布局(Layout)表設(shè)置布局規(guī)則,體現(xiàn)名義字符和顯現(xiàn)字符之間的映射關(guān)系。蒙古文OpenType字庫(kù)主要涉及布局表中的字形替換(GSUB)表。
為了支持蒙古族、藏族、維吾爾族等復(fù)雜的少數(shù)民族語(yǔ)言文字,微軟在Vista及Win7系統(tǒng)中設(shè)計(jì)實(shí)現(xiàn)了一套完全符合Unicode編碼標(biāo)準(zhǔn)的蒙古文OpenType字庫(kù)(蒙古文白體)并附帶了蒙古文讀音輸入法,基本能滿足蒙古文輸入的需要。輸入蒙古文時(shí)如果頻繁使用控制符會(huì)給普通用戶帶來(lái)不必要的困難。如蒙古文控制符種類多、用法繁雜難于記憶;發(fā)音不標(biāo)準(zhǔn)的用戶會(huì)輸入顯現(xiàn)字符正確而編碼錯(cuò)誤的信息;在編輯操作及網(wǎng)絡(luò)傳輸過(guò)程中控制符會(huì)發(fā)生失去控制能力、控制符丟失等現(xiàn)象而導(dǎo)致顯現(xiàn)字符不正確。因此,從名義字符到變形顯現(xiàn)字符的轉(zhuǎn)換規(guī)則應(yīng)當(dāng)盡可能利用蒙古文的拼寫規(guī)則與語(yǔ)法規(guī)則,只有在拼寫規(guī)則、語(yǔ)法規(guī)則無(wú)法區(qū)分的情況才使用控制符來(lái)標(biāo)識(shí)。即應(yīng)該按照“不用控制符”或“盡量少用控制符”的原則來(lái)建立字庫(kù)布局規(guī)則。從而減少控制字符帶來(lái)的副作用,使蒙古文讀音輸入更加便捷。
在蒙古文編碼國(guó)際標(biāo)準(zhǔn)中定義了蒙古文所需的特殊控制字符如表1示:

表1 蒙古文控制字符及其功能
這些控制字符主要用在蒙古文字符前后來(lái)一起確定字符的正確變體。微軟蒙古文Opentype字庫(kù)中主要存在的問(wèn)題是輔音GA與HA的變體選形規(guī)則不完備。
該布局規(guī)則沒(méi)有完全遵循元音諧律及輔音諧律語(yǔ)法,導(dǎo)致一些詞必須附加控制符才能正確輸入(選形),主要體現(xiàn)在表2中的陰性變體的選擇上。如圖1至圖3所示:

表2 輔音GA與HA的變體字符列表

圖1 規(guī)則不符合輔音和諧律

圖2 規(guī)則不符合元音諧律

圖3 規(guī)則沒(méi)有考慮強(qiáng)制性合體字
以上圖中的正確詞形只有在附加輸入控制符時(shí)才能得到。實(shí)際上,在蒙古文語(yǔ)法輔音諧律中規(guī)定輔音字符“GA”的陰性詞中形式只出現(xiàn)在陰性詞中。圖1中詞的第一個(gè)字符(陰性元音U)就完全可以決定選擇輔音“GA”的陰性詞中形式,無(wú)需再用控制字符來(lái)確定。同樣,圖2沒(méi)有遵循元音和諧律,一個(gè)詞中出現(xiàn)了兩個(gè)中性元音,那么這個(gè)詞就屬于陰性詞,就應(yīng)該選擇表1中輔音GA的陰性詞末形式,也無(wú)需用控制字符來(lái)確定。圖3規(guī)則除了包含 等陰性元音外,還應(yīng)該包含 等輔音與陰性元音組合的強(qiáng)制性合體字符,就能完全覆蓋所有可能上文,就可不需要附加變體選擇符了。
從方便用戶和盡量少用控制符的原則出發(fā),對(duì)微軟蒙古文OpenType字庫(kù)中的顯現(xiàn)規(guī)則進(jìn)行優(yōu)化,具體實(shí)現(xiàn)方案如下:
利用 Microsoft公司提供的字庫(kù)制作工具 Volt,通過(guò)Lookup關(guān)系表中的上下文替換,可以指定在哪個(gè)(些)字符的前面或后面出現(xiàn)該字符時(shí),映射成該字符的哪個(gè)變形顯現(xiàn)形式。為方便起見(jiàn),將在該字符前面出現(xiàn)的字符總體稱為前綴,后面出現(xiàn)的字符總體稱為后綴。

圖4 優(yōu)化后的字符“GA”的陽(yáng)性詞中形式到陰性詞中形式轉(zhuǎn)換規(guī)則
圖4是優(yōu)化后的從輔音字符“GA”的陽(yáng)性詞中形式到陰性詞中形式的上下文轉(zhuǎn)換規(guī)則。主要優(yōu)化了前綴和后綴,其中前綴calt6擴(kuò)充了的陰性元音與陰性強(qiáng)制性合體字符詞首、詞中形式,前綴g-81-1包括了中性元音詞中形式,后綴g-81-2包括了陰性和中性元音詞中、詞末形式,后綴calt39包括了輔音字符詞中、詞末形式。標(biāo)準(zhǔn)ISO/IEC 10646于2000年2月通過(guò),“從理論上,結(jié)束了由于沒(méi)有統(tǒng)一的編碼,無(wú)法共享資源的困境”。目前,蒙古文編碼國(guó)際標(biāo)準(zhǔn)的實(shí)現(xiàn)和應(yīng)用還存在推廣緩慢和應(yīng)用不廣等問(wèn)題。通過(guò)面向普通用戶優(yōu)化字庫(kù)中控制字符的規(guī)則,盡可能減少輸入中控制字符的類型和數(shù)量,簡(jiǎn)化輸入操作方法對(duì)推廣和普及蒙古文國(guó)際編碼標(biāo)準(zhǔn)具有現(xiàn)實(shí)意義。有了較完善的標(biāo)準(zhǔn)字庫(kù)對(duì)蒙古文文獻(xiàn)的數(shù)字化共建、共享會(huì)提供良好的基礎(chǔ)平臺(tái)。

圖5 微軟字庫(kù)中字符“GA”的陽(yáng)性詞中形式到陰性詞中形式轉(zhuǎn)換規(guī)則
圖5中顯示的是微軟蒙古文OpenType字庫(kù)中關(guān)于字符“GA”的陽(yáng)性詞中形式到陰性詞中形式轉(zhuǎn)換規(guī)則,與圖4中的規(guī)則相比過(guò)于復(fù)雜,沒(méi)有合理的利用語(yǔ)法規(guī)則,而且忽略了強(qiáng)制性合體字是一個(gè)“整體”的概念,前綴和后綴中沒(méi)有包含強(qiáng)制性合體字而導(dǎo)致了圖1~3中的錯(cuò)誤詞形。
在國(guó)內(nèi)外專家學(xué)者機(jī)構(gòu)的共同努力下,蒙古文編碼國(guó)際
[1]蘇日娜.蒙古文古籍文獻(xiàn)數(shù)字化建設(shè)探析[J].圖書情報(bào)工作,2012(2):112-114.
[2]鮑玉來(lái),劉學(xué)洪,劉川.蒙古文文獻(xiàn)數(shù)字化理論與技術(shù)研究思路[J].科技成果管理與研究,2009(1):83-85.
[3]確精扎布.蒙古文編碼[M].內(nèi)蒙古大學(xué)出版社,2000.
[4]清格爾泰.蒙古語(yǔ)語(yǔ)法[M].內(nèi)蒙古人民出版社,1991.
[5]烏達(dá)巴拉,鞏政.蒙古文OpenType字庫(kù)制作技術(shù)[J].內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,37(5):570 -573.
[6]薩日娜,嘎日迪,趙小兵,林民.蒙古文OpenType字庫(kù)技術(shù)研究[C]//第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集.2007:217-223.
[7]姚延棟,吳健,孫玉芳,呼斯勒.傳統(tǒng)蒙古文變形顯示截至研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2004(2):66-72.