王金海 孟子惠
摘? 要:本文基于認知體驗觀和多模態語言理論,結合少數民族語言檔案管理的特殊性,分析多模態民族語言檔案數據庫建設的必要性,探討多模態民族語言檔案數據庫的基本構成,并以音頻語言檔案數據庫的建設為例,提出建設該類檔案數據庫的基本步驟,以期對我國少數民族語言檔案管理工作和相關研究的開展提供借鑒思路。
關鍵詞:認知體驗觀;檔案管理;少數民族語言檔案;多模態語言;檔案數據庫
Abstract: In this paper, basing on the theory of cognitive experience and multimodal language, combing with the particularity of minority language Archives management, analyzing of multimodal national language Archives database construction, the necessity of multimodal nation language basic structure of the database Archives, and audio language Archives for the construction of the database, for example, building the basic steps of the class Archives database, in order to minority language Archival management in our country and the development of related research to provide reference ideas.
Keywords: Cognitive experience view; Archives management; Archives of minority languages; Multimodal language;? Archive database
本文基于認知體驗觀和多模態語言理論對少數民族語言檔案數據庫建設的認知基礎、必要性及具體建設等問題展開探討。
1 少數民族多模態語言檔案管理的必要性
據統計,國內現存民族語言達120余種之多,其中,有近30種還兼具文字使用,尤以維文、壯文、蒙文、藏文及哈薩克文等最具影響力。這些語言歷時悠久,底蘊深厚,在本語族內通常與漢語共存使用,并行不悖,較為廣泛地運用于廣播傳媒、科教出版及公共管理等社會生活的眾多領域。
然而,研究顯示,我國境內已有近50種民族語言處于嚴重瀕危,9種民族語言已經消亡。[1]這無疑對少數民族文字檔案的管理提出了巨大挑戰。可見,對少數民族特殊語言環境下非通用語言的檔案管理顯得格外重要。
當前我國各少數民族地區的檔案管理機關多已開展本民族文字檔案的收集和整理。但囿于少數民族地區語言和社會環境的特異性,相較通用語言檔案,民族語言檔案管理在多樣性上要求更高。
單純以文字形式保存的語言檔案,在精確性和可利用性上均存在一定弊端,這在一定程度上限制了少數民族語言檔案管理工作的有效開展,勢必會對我國多民族文化的可持續保護和傳承產生不良影響。科學管理少數民族語言檔案既是我國語言檔案管理不可或缺的重要內容,也是語言檔案管理的艱巨任務。
在各少數民族的語言檔案中,其中有一部分是以口頭形式呈現,如口述的神話、傳說、詩歌及諺語等,還有相當部分則是以書面形式記錄,如正式出版的書籍、官方檔案及民間文書等。
到了近現代,部分語言文字檔案開始以音視頻的形式出現,主要涉及相關訪談、民族發展中成果的圖片影像資料整理等。音視頻格式的語言檔案資料在新時期檔案管理工作中已越來越多見,但在早期語言文字檔案資料的管理中尚不多見。
早期檔案以口頭和書面形式居多,并有部分檔案面臨缺損或流失的問題,亟待重新整理。對早期語言文字檔案的管理是民族檔案管理工作中最有價值,也最有難度的一部分。
考慮到少數民族語言文化的特殊性,單純口頭或書面的記錄既不利于相關檔案的精準記錄,也不利于后期的有效利用和傳承。
筆者查閱相關文獻發現,在方言檔案建設方面,浙江方言語音檔案建設工程曾對68 個方言的語音、詞匯、說唱及戲曲等方面建立了音視頻檔案庫。
相較民間口傳或文字記錄等傳統方言檔案記錄形式,音視頻檔案庫的建設無疑對搶救和完善方言資源和區域文化具有積極意義;在少數民族語言檔案建設方面,漢藏同源詞研究系統收錄了漢藏語系中包括少數民族語言在內的12 種漢語方言和122 種語言中最具代表性的1500 余條詞匯,但僅以文字形式記錄。
中國社會科學院建設的漢語、蒙語、維語和藏語民族語言資料庫僅涉及781篇文章的文本信息,且多數年代久遠的語言檔案存在語音信息不同程度的缺失等問題,借助圖像、視頻等現代技術手段全方位展示語言檔案信息的管理形式顯著不足,這直接導致現有老舊語言文字檔案的精準度和可利用度存在嚴重缺陷。[2]
相反,與傳統語言檔案不同,多模態語言檔案更強調不同模態語言間的整合關系,旨在通過搭建跨模態框架,借助多種感官體驗的認知疊加更精準地記錄和傳播信息,使各模態間相互組配,相互促進,從而達到語言信息結構的最優存儲。因此,對民族語言檔案,特別是早期語言檔案信息的多模態存檔擴容就顯得尤為必要。
加快少數民族語言檔案,特別是瀕危語言檔案的多模態檔案數據庫建設,探索民族地區語言檔案管理的新模式,可以有效保護和搶救少數民族文化,從而使語言檔案資源能更好地服務社會文化發展。
總體上,目前我國少數民族多模態語言檔案建設尚處于探索階段,亟待完善。隨著現代信息技術的發展和大數據時代的來臨,我國的檔案現代化建設不斷推進,這為由文字、圖片、音頻及視頻綜合架構的多模態語言檔案數據庫建設提供了更多可能性。[3]
2 多模態語言檔案數據庫的基本構成和建設
2.1 多模態語言檔案數據庫的基本構成
2.1.1 文本數據庫。文本數據庫仍是民族語言檔案庫的基礎,尤其是年代久遠的文字檔案,應盡量留存原始檔案,這類語言檔案數據庫多以詞句、段落及屬性解析等文本信息的形式存在,主要激活視覺體驗認知。
2.1.2 圖像數據庫。圖像數據庫主要起到輔助文本檔案和音頻檔案的作用,例如對有關發音部位語言檔案信息的記錄,圖像便可以起到很有效的輔助作用。條件允許的前提下,所有文本子檔案庫也都應建立對等圖像子檔案庫留作副本。這類語言檔案數據庫亦主要激活視覺體驗認知。
2.1.3 音頻數據庫。音頻數據庫應作為民族語言檔案數據的主要部分來創建,因其兼顧了語言檔案的存儲效率、存儲精準性和保存持久性等方面的最佳平衡點。音頻數據庫尤其在記錄語言的語音信息方面顯得格外重要,如音位、語調、韻律等語音屬性檔案。
理想的音頻檔案數據庫應實現通過語音快速檢索數據的功能,同時還應該涵蓋本民族語言與普通話的雙向匹配。[4]條件允許的前提下,所有文本子檔案庫都應建立對等音頻子檔案庫留作副本,這類語言檔案數據庫主要激活聽覺體驗認知。
2.1.4 視頻數據庫。視頻數據庫則通過字幕、發聲和圖像的互相補充,融合了視覺體驗認知和聽覺體驗認知,使民族語言數據信息呈現得更清晰,可實現語言檔案的最優集成化效果。這種多位一體的多模態語言檔案,彌合了相關語言檔案的失真問題,可以使民族語言的內涵及特征得到更好展現。
以上四類子數據庫既相互獨立又相互補充,共同構成了完整的民族語言檔案數據庫系統。多模態語言檔案建設可針對少數民族語言檔案的特殊性進行全方面立體構建,能更精準、更多樣地展現語言檔案的信息內涵。
2.2 建設步驟——以音頻數據庫為例
2.2.1 選取目標語言材料。選取語言數據材料是語言檔案音頻數據庫建設的首要步驟,其中最核心的問題是數據的典型性問題。[5]
最具代表性的語言數據既能更準確地反映相關類屬語言檔案的典型特征,又能最大程度降低數據庫建設的成本,以最經濟的數據樣本實現最大化的特征覆蓋。
如在設計詞表時,可優先選取雙音節詞,以便研究詞語的變調特征;在設計語篇朗讀材料時,應盡量涵蓋能反映韻律、音段等多特征在內的多種句式。
2.2.2 建立發聲人信息檔案庫。發聲人語音的標準性是保證發聲人信息檔案庫科學性的關鍵。發聲人選取標準主要有三個方面:一是應為常年生活在當地的典型母語使用者,且固定家庭成員也應為母語使用者;二是發聲人聽力和發聲能力正常,無影響語音信息采集的相關疾病或缺陷;三是年齡段和性別分布相對平衡。
如在采集壯族歇后語語音數據時,選取15-65歲間不同年齡段的本地母語使用者男女各10名,并進行測試以確定發聲人發音符合要求。
2.2.3 采集語言數據。采集語言數據是建立語言檔案音頻數據庫的核心步驟,主要涉及采集地點的選取、采集設備的裝配及現場采集等關鍵問題。傳統借助錄音筆的即時即地采集模式,雖相對便捷,但聲音質量普遍不高,容易產生數據失真等問題,從而影響語音數據的精準性和后期可分析性。
因此,語言數據的采集應在專業的場地由專業人員操作專業設備完成采集。除了聲音之外,還應采集發聲人的表情和肢體動作等輔助信息,優化采集效果。
2.2.4 加工語言數據。這一步驟主要包括對采集數據的后期處理和校對歸檔兩部分。采集語言數據后,需要進行后期處理,以保證數據的有效性,如刪除無效數據或對低質量音頻進行降噪及削波等修繕處理等。此外,還要對采集數據進行校對歸檔,確保數據信息的準確性,如核驗語音與目標文本是否對應、查缺補漏等。
2.2.5 管理和維護語言檔案。檔案的合理命名、編排及檢索對于語言檔案數據庫的集成化、高效化使用至關重要。如在對錄制的音頻數據命名時可包含發聲人的年齡、性別、材料名稱、錄制時間及錄制地點等信息,以便快速識別和調取;鑒于多模態語言檔案的特殊性,定期對語言檔案實施維護也十分必要,如對損壞的音頻數據及時修復或補錄等。
參考文獻:
[1]彭飛.基于格局理論的多模態語言檔案數據庫建設研究[J].北京檔案,2017(03): 26-28.
[2]石貞貞.符號學視域下多模態語言檔案建設研究.[J].山西檔案,2019(04): 84-86.
[3]劉永.檔案信息資源共享云體系建設的思考.[J].檔案管理,2017(06): 25-29.
[4]趙生輝,胡瑩.中國少數民族語言檔案雙語著錄規范研究[J].檔案管理,2019(02): 24-26.
[5]彭飛.澳大利亞少數民族語言檔案數據庫建設現狀及啟示[J].中國檔案,2019(11): 70-71.
(作者單位:王金海,廣西民族大學/鄭州航空工業管理學院;孟子惠,天津師范大學? 來稿日期:2020-12-19)