韋 韌
(中國社會科學院 民族學與人類學研究所,北京 100081)
在語音數據庫建設方面,我國近30年的成果顯著。如中國科技大學、中國科學院聲學研究所、中國社會科學院語言研究所聯合建立了《漢語語音識別資料庫》,中國社會科學院語言所還建立了《現代漢語自然口語語料庫》《自然對話語料庫》《現代漢語方言自然口語語料庫》;中國科學院自動化所建立《旅游咨詢口語對話語料庫》和《旅館預定口語對話語料庫》;北京語言大學建立《漢語中介語語音語料庫》;香港大學和香港理工大學聯合建立《香港廣州話語音資料庫》以及臺灣建立的《高山語語音語料庫》等[1]。這一系列語料庫的建立為語言學的進一步研究提供了大批量語料,也積累了技術經驗,為研究成果提供了客觀依據。
與漢語方言相比,藏語語音數據庫建設方面的成果相對來說就少得多。藏語拉薩話語音聲學參數數據庫收集了733個藏語拉薩話單音節,并分析歸納出4個數據群,分別是聲母(輔音)數據群、核心元音數據群、鼻音數據群和聲調數據群。數據庫還設置了三個功能,包括排序檢索功能、統計分析功能和繪圖功能[2]。安多藏語語音合成語料庫包含1萬個詞匯,這些詞匯是從各類電子詞典和電子文本中選擇獲取[3]。藏語單音節聲學參數數據庫收集了囊括藏語三個方言的約10萬詞條,共整理歸納出約6 000個音節,并對音節進行窮盡性錄音、標注國際音標、歸納音節類型。與此同時,在整理、歸納與分析音節結構的基礎上,設計和建立了包含39項聲學參數的藏語單音節聲學參數數據庫[4]。
在藏語語音識別和語音合作研究方面,訊飛科技有限公司與西藏大學等單位合作,搭建了藏語語音識別和合成的技術框架,在書面藏文的文讀語音識別和合成方面做了大量的工作。
但是藏語語音識別的基礎工作還比較薄弱,尤其是在藏語方言土語語音資源建設方面,還遠遠不能滿足當前語音識別的要求。
中國境內的藏族使用藏語作為他們的民族語言,藏語的使用范圍較廣,遍布整個藏區,較集中的使用地區有西藏自治區、青海省、四川省甘孜藏族自治州及阿壩藏族羌族自治州、甘肅省甘南藏族自治州、云南省迪慶藏族自治州。根據譜系分類,藏語歸屬于漢藏語系藏緬語族藏語支。藏語有三個方言,分別是衛藏方言、安多方言和康方言。衛藏方言的標準音是拉薩話,使用范圍在西藏自治區拉薩市以南。安多方言的使用范圍在青海省藏區、四川省阿壩藏族羌族自治州和甘肅省甘南藏族自治州。康方言的使用范圍在西藏自治區拉薩市以北、云南省迪慶藏族自治州、四川省甘孜藏族自治州和青海省玉樹藏族自治州。
藏語方言語圖標注庫存儲了藏語方言的字、詞及句的文本、音頻及元數據等其他屬性信息。藏語方言語圖標注庫依靠自然語音數據,采集自然語音,并對語音進行標注,為語言學的本體研究和語言學信息化技術服務。藏語方言語圖標注庫建設可以分為兩大部分:一是藏語方言數據的建設,包括語料編制、語料采集、語料標注。二是數據庫的建設,包括數據庫的結構框架設計、數據管理。具體分為以下四個階段:①數據庫設計;②語料采集;③語料標注;④數據庫使用和維護。
語圖是在計算機上繪制輸出的語音頻譜圖,語圖能直觀表達出語音的各項聲學特征。語料庫是采集到的自然語言材料數據庫,原始語料需要經過分析和處理后才能成為計算機能識別、并且能分析利用的資源。這個分析處理的過程即是標注。
文本語料的選擇編制和語料標注的可靠性是藏語方言語圖標注庫構建中的重難點。語料的收集途徑要求真實、客觀,收集的方法要求科學。文本語料在設計時,要充分考慮到所挑選的文本具有代表性,以保證語料庫數據可以全面囊括自然語言特征。按照這個選取標準和選取方法構建出來的語料庫既全面又沒有冗余。語料標注采用荷蘭語言學家開發的Praat軟件,進行切音標注,繪制語圖。如果只用一人進行手工標注,無法確保切分標注結果的準確性,如果雇傭多人進行手工標注,短時間內又無法找到大批量的專業標注人才。如果雇傭的標注人員專業知識不扎實,切分標注結果的準確性得不到保證。解決上述兩種情況的對策辦法,一是在工作開始前開展集中培訓,提高手工標注切分人員的專業知識,以減少因人的主觀傾向性產生的誤差;二是增加手工標注切分人員數量,同一語料分配給多個人同時處理后,再統一匯總,以保證標注切分結果的準確率。
藏語方言語圖標注庫的建立可以系統地記錄保存藏語方言語音,對語料進行科學的切音標注,繪制出語圖。內容上主要包括語料錄音整理、語音自動標注、語圖標注數據庫的建庫三個方面,在研究方法上選擇定性研究和定量研究相結合,語料的選取原則、切分、標注與分析屬于定性研究,語料的收集、數據庫建設屬于定量研究。首先,在藏語三個方言分布區域內依據制定好的語料選取原則,選擇多個語料數據采集點,內容分為字、詞、句、篇章。所采用語料從目前已建好語料庫中選取,再到各采集點選擇合適的發音人,采取發音人一對一地調查錄音。想要創建一個全面標準的藏語方言語圖標注庫,語料的客觀性和代表性是最根本的要求。因此,調研人員需要有較強的調研能力,必須具有豐富的田野經驗,熟悉語料采集的整個流程,能夠熟練操作錄音設備和電腦軟件,具有善于溝通交流的能力。調研人員還要有很強的專業知識,能夠快速核對語料,發現問題及時就地解決,以節約人力和時間成本。語料的切分、標注通過Praat軟件完成。具體的操作步驟:①將文本語料轉寫成國際音標。②使用軟件自帶的自動標注功能對語料進行初次標注。③專業標注人員核查,對已經自動標注過的語料進行二次標注,對標注錯誤或不合理的地方進行手動調整。④將所有文本語料、錄音材料和語圖標注數據集合成數據庫系統,以方便后續研究的調用。
為建設數據庫所開展的語料采集工作有利于保護藏語方言,并且在語音數據庫建設中提出的一些方法和理論對創建其他少數民族語言語音數據庫是一個有利的參考。藏語方言語音數據庫的創建過程中,需要運用語言學、應用語言學和計算機語言學學科知識,是社會科學和自然科學的交叉結合。該數據的建成不僅限于為藏語的語言學研究提供包含語音、詞匯、語法三方面的基礎材料,還為藏族文化、歷史地理和風俗習慣提供了文字證據。同時,發揮了一個示范作用,推動社會科學和自然科學的交叉運用研究。藏語方言語圖標注庫是一種重要而必需的資源儲備,是自然語言處理工作的前提準備和必要環節,只有創建了一個全面準確的熟語料數據庫,才能有效地開展藏語的語音識別與合成、藏文文本自動翻譯和人機交互技術等工作,對國家安全具有直接的應用價值。