陳小瑩 艾金勇
摘要:本文通過收集整理藏語夏河話的音系,歸納出對應的音系特征,依據SAMPA的設計原則并參照漢語和藏語的國際音標,最終設計并實現了藏語夏河話機讀音標系統。藏語機讀音標的設計可以為藏語語音工程的實現打下堅實的基礎,可以真正地實現文音轉換功能。
關鍵詞:藏語;夏河話;機讀音標;SAMPA
中圖分類號:TP391 文獻標識碼: A 文章編號:2095-2163(2016)01-
Abstract: Through the collection of Tibetan Xiahe dialect phonetic system, the paper sums up corresponding phonetic feature. Based on this work, according to the principles of design of sampa and with reference to the international phonetic alphabet of Chinese and Tibetan, the paper designs and implements the Tibetan Xiahe phone read phonetic system. Tibetan machine read the phonetic alphabet design can lay a solid foundation for the realization of Tibetan speech engineering, which could truly realize the text to speech function.
Keywords: Tibetan; Xiahe dialect; Machine readable phonogram;SAMPA
1機讀音標系統
1.1機讀音標系統概述
機讀音標SAMPA(Speech Assessment Methods Phonetic Alphabet)是1987-1989年間歐洲的 ESPRIT(歐洲信息技術研究開發戰略計劃)開發的一種計算機可讀的音標系統,該系統采用拉丁字母、數字以及其它簡單易于輸入的鍵盤符號組合形式來替代目前國際音標中的各種特殊符號。目前世界上各種語言的語音數據庫都使用該符號系統,使得計算機在輸入國際音標時更加方便,同時也能便捷地表示出各種復雜的國際音標符號[1]。但是每一種語言的音標都有各自的語言版本,不同版本之間的SAMPA表并不能完全兼容,因此SAMPA表并不能表示出所有語言的國際音標。針對SAMPA表的這一缺點,1995年倫敦大學的語言學教授設計并提出了X-SAMPA,能夠代表所有國際音標的單一代碼表,而且是在SAMPA的基礎上進行擴充,從而可以用ASCII字符表示國際音標的所有符號[2]。由此,SAMPA就成為一個在國際音標基礎上能夠表示世界上各種語言的機讀音標系統。目前,SAMPA已廣泛應用于歐洲的主要語種以及日語等東亞語言。國內的漢語、粵方言和臺灣的“國語”也隨之而設計了 SAMPA方案,在一定程度上推進了SAMPA的普及與應用。同時眾多語音工作者也開始對SAMPA進行研究,并在嗓音醫學和計算機語音教學等方面取得了諸多成果和可觀成就。
1.2機讀音標系統設計原則
SAMPA最初的目的是為了使計算機在盡可能保證語言本身音系的基礎上,比較方便地表示出國際音標。基于此目的,SAMPA設定了具體原則[3]:
(1)SAMPA設計必須遵循語言本身,依據實際語言的國際音標進行處理。國際音標中的特殊字符若已包含在SAMPA字符中,則可直接使用,否則需盡量采用符合SAMPA規則的符號來予以代替;
(2)相關語言系統中已經成型的SAMPA中有一些附加符號亦盡量采用;
(3)講究整體的系統性以及與其它語言的相通性。
在設計藏語安多話機讀音標系統時,輸入的藏文字符首先要在遵循其本身國際音標的基礎上,轉換成對應的國際音標。通過設計夏河話的聲母SAMPA、韻母SAMPA以及聲調的SAMPA,從而最終有效推進并完成了對夏河話SAMPA_AT的研發與實現。具體設計流程如圖1所示。
2夏河話SAMPA_AT設計
2.1聲母設計
夏河話中共有36個單輔音和18個復輔音,都可以作為聲母(/kw/以外都能在第一音節出現)。單輔音聲母包含9個塞音、9個塞擦音、10個擦音、4個鼻音、2個半元音、1個鼻音和1個閃音。復輔音聲母主要有nc型和hc型兩種類型,其中nc型指鼻音前置與輔音結合的復輔音形式,hc型指喉音h和?前置與輔音結合的復輔音形式,其它復輔音形式基本已經消失[4]。
在夏河話聲母SAMPA_AT的設計部分,部分采用的規則和藏語拉薩話聲母一致,具體則如表1所示。
在夏河話聲母SAMPA_AT的設計部分,參照已有的拉薩話聲母SAMPA_WT的設計方案,其余基本上采用鍵盤上可以直接輸入的符號,并且盡可能依據國際音標,采用X-SAMPA類似符號,這樣不易引起音位混淆。具體將按如下方法展開設計:
(1)如果國際音標可直接用ASCII字符來提供合理表示,而為了節約空間和擊鍵次數,夏河話聲母的 SAMPA_AT機讀音標即可直接采用藏語的國際音標來進行解析與表示。輔音聲母x,z,b,d,g,dz在SAMPA_AT中采用與其國際音標相同字母替代,并且對應的機讀音標 SAMPA_AT分別標記為/x/,/z/,/b/,/d/,/g/,/dz/;
(2)對于其它難以用鍵盤輸入的國際音標,直接使用和國際音標相近的且未使用過的鍵盤符號來標記。但是之前的標記過程中已經使用過這些音標符號,為了避免出現相同的SAMPA_AT符號,同時為了和其它相同字母區分,有些在國際音標的基礎上輔以鍵盤上其它符號表示與其關聯的SAMPA_AT;現舉幾例,則如下所示:
輔音d?,該國際音標符號用鍵盤不方便輸入,為了和已經使用過的/dz/區分,同時也表明其卷舌的發音方式,所以在該國際音標的基礎上加一個符號來標記它的SAMPA_AT,標記為/dz`/;
輔音t?,?,?,?和d?,這五個符號在鍵盤上不存在,為了表明與其相同發音方式輔音的相關性,機讀音標分別標記為/ts\/,/z\/,/p\/,/h\/,/dz\/;
由于輔音?不同于以上情況,因此參照國際音標,即將其機讀音標SAMPA_AT標記為/G/。
(3)藏語安多方言中聲母的送氣和不送氣這一區別特征,在發音和感知上非常重要。例如送氣輔音sh在SAMPA_AT轉換時,也添加了表示送氣的附加符號,具體所定義的機讀音標SAMPA_AT則標記為/s_h/。
夏河話中復輔音聲母的SAMPA_AT設計方式也是分兩部分展開與實現,也就是分別按照對應的單輔音聲母轉換符號進行轉換,然后再將兩者相組合完成復輔音聲母的轉換設計。具體可如表2所示。
在夏河話復輔音聲母SAMPA_AT的設計部分,也和單輔音聲母采用一致的規則來完成構建,同時又為節約空間和擊鍵次數,藏語拼音的SAMPA_AT機讀音標將直接采用國際音標來表示;對于其它的難以用鍵盤輸入的國際音標,則直接使用和國際音標相近的且未使用過的鍵盤符號來標記。但是之前的標記已經使用過這些音標符號,為了避免出現相同的SAMPA_AT符號,同時為了和其它相同字母區分,有些在國際音標的基礎上輔以鍵盤上其它符號來表示其所對應的SAMPA_AT。
2.2韻母設計
安多夏河話中一共包含34個韻母,其中包含6個單元音/a/、/i/、/o/、/u/、/e/、/?/;3個復元音韻母/ai/、/ao/、/eo/以及25個帶輔音韻尾的韻母,這些帶韻尾的韻母分別為元音/e/、/a/、/o/、/?/、與韻尾p、m、t、n、k、?、r相結合形成的;/i/、/u/兩個元音不能與任何韻尾結合[4]。
夏河話包括除/a/、/i/、/o/、/u/、/e/這5個鍵盤可以直接輸入的基本元音外,還包括鍵盤無法直接輸入的單元音/?/,參照前面的分析以及SAMPA原則將其SAMPA_AT符號設計為“@”。在元音與復合韻尾結合構成的韻母也是分兩部分進行設計,分別將基本元音和輔音韻尾的SAMPA符號結合實現,SAMPA_AT中韻母與拉薩話韻母的設計方式基本一致。
2.3聲調處理
安多方言區不存在區分語義和語法作用的聲調系統,在安多方言區存在的只是一些習慣調,但是這些習慣調并不會影響到語音交流,因此項目中不予考慮[5]。
3結束語
本文選取夏河話作為藏語安多方言區的代表,通過歸納整理拉薩話音系特征,在遵循SAMPA的原則下,參照X-SAMPA以及漢語成熟的SAMPA_SC系統完成了藏語夏河話SAMPA系統的設計。藏語機讀音標的設計可以為藏語語音工程的實現打下堅實的基礎,可以真正實現文音轉換功能。同時也為藏語韻律特征研究、語音合成以及語音識別等語音工程領域研究提供科學依據。
參考文獻:
[1]于洪志,高璐,李永宏,等. 藏語機讀音標SAMPA_ST的設計[J]. 中文信息學報, 2012, 26(4):66-72.
[2] 劉 博,楊鴻武,甘振業,等. 利用SAMPA實現藏語的字音轉換[J].計算機工程與應用, 2011, 47(35): 117-121.
[3]張家騄. 漢語普通話機讀音標SAMPA-SC[J].聲學學報(中文版), 2009,34(1):81-86.
[4]格桑居冕.藏語方言概論[M]. 北京:民族出版社,2002.
[5]胡坦. 藏語(拉薩話)聲調研究[J]. 民族語文, 1980(1) :22-36.