鄧海龍
(贛南師范大學 外國語學院,江西 贛州 341000)
贛南客家方言語音語料庫建設的必要性分析
鄧海龍
(贛南師范大學 外國語學院,江西 贛州341000)
方言缺乏文字系統,難以采集和數字化,在社會政治生活中處于邊緣地位,因此,方言語料庫建設較少受到學界和社會關注。本文以贛南客家方言語音語料庫的建設為切入點,從學術研究意義、實際應用價值和文化傳承維護等方面論證方言語料庫建設的必要性。方言語料庫建設費時費力,但其意義深遠,價值不可估量。
客家方言語料庫贛南地區必要性
語料庫主要是指以電子形式儲存并能以一定方式檢索的語言資源庫(Biber,2000;衛乃興,2005)。語料庫方法的語言研究發端于歐美國家,起初主要用于英語、法語等國際通用語言的研究。隨著信息技術迅速發展和個人電腦的廣泛普及,運用語料庫逐漸成為語言研究的常規手段(McEnery &Hardie2012)。當今大數據時代,官方語言(如普通話等)電子資源不斷豐富,相關語料庫的建設自然更加方便。然而,由于方言缺乏書寫系統,通常沒有文字資料留存,網上不會有大量電子數據產生,很難進行語料庫采集和數字化。方言在社會政治生活中外于邊緣地位,不容易受到學界和社會關注。因此,方言語料庫的建設總體上還較為薄弱。本文以贛南地區的客家方言為例,探討方言語音語料庫建設的多重價值和必要性,以期引起有關部門和學界對方言語音語料庫建設更多的關注。
漢語語料庫的建設取得了較大成果,其中國家語委的“現代漢語通用平衡語料庫”已達到了一億字符以上(劉連元,1996);北京大學的現代漢語語料庫經過長年積累不斷發展壯大,已經達到3億字符以上,可以在線檢索(俞士汶,2002)。
語料庫可以分為語音語料庫和文本語料庫。考慮到采集、存儲和檢索方便,早期語料庫均以文本語料為主,上面所述的兩大漢語語料庫都是文本語料。文本語料庫對于具有書面語的主流語言變體是基本適宜的,但是,因為方言大多只以口語形式傳承,方言語料庫一般需要通過語音形式采集和保存。
上個世紀80年代,北京語言文化大學開始建設“北京口語語料庫”(北京語言大學語言研究所,2010),這是我國較早的方言語料庫,將口語以文本轉寫的方式呈現,屬于“口語”語料庫,卻并非“語音”語料庫。該語料庫已經對外開放檢索(http://app.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp)。
另外,美國賓夕法尼亞大學的語言數據聯盟(Linguistic DataConsortium,http://catalog.ldc.upenn.edu/)已發布了我國普通話和粵語語音語料庫。我國臺灣的國立政治大學建成并公開包括國語(普通話)、客家話、閩南話的“漢語口語語料庫”(http://140.119.172.200/)。2008年,國家語委啟動了“中國語言資源有聲數據庫建設”項目,江蘇省率先建成了本省方言語音數據庫(http://jsyw.jsjyt.edu.cn/col/col82/index.html),北京市、上海市、廣西壯族自治區和山東省等省市也開始建設本地區方言語音數據庫。
1933年,羅香林以《客家研究導論》奠定了客家研究基礎,并影響了客家方言在漢語方言體系中的位置(劉綸鑫,2001)。贛南地區客家方言是客家方言中比較重要的片區之一。到目前為止,客家方言的研究一般集中在語音、字詞、習語和社會文化背景等內容,研究手段多以邏輯思辨和少量田野調查為主,尚未發現有基于較大規模語料庫的相關研究(劉綸鑫,2001;溫昌衍,2006)。2002年,南昌大學文學院建成的客贛方言數據庫在第五屆客家方言暨贛方言首屆學術研討會上進行了演示。該語言數據庫由劉綸鑫教授主持開發,其中涉及的軟件設計是上海師范大學潘悟云教授完成的。這個方言數據庫將方言資料以電子化形式儲存,便于查詢和檢索,主要是音韻內容,沒有一般的話語資源(東石,2002)。2004年,由羅美珍等學者主編的《客家話通用詞典》得到出版,為客家方言資料的保存與完善作出了極其有意義的貢獻。不過略嫌遺憾的是,僅是文本形態,而且由于懂贛南地區客家方言的學者不是太多,贛南地區的客家方言資料收集顯得有點單薄(羅美珍,2004)。從已有文獻來看,漢語、北京話、粵語及一些少數民族語言(如蒙古語、維吾爾語等)的語料庫建設已經比較成熟,但客家方言,尤其是語音語料庫的建設卻相對滯后,中山大學莊初升教授主持在研2014年度國家重大項目 “海內外客家方言的語料庫建設和綜合比較研究”,側重于描繪海內外客家方言的總體面貌。總體而言,由于口語語料采集費時費力,方言語音語料庫的建設(包括客家方言)比較欠缺,從而嚴重制約方言研究的整體發展水平(范俊軍,2013)。
(一)運用語料庫展開語言研究是基本趨勢。語言研究大致有理性主義與經驗主義之分。理性主義代表人物喬姆斯基持一種內在主義語言觀,強調人類語言能力的先天屬性,主張以內省的方式研究語言(Chomsky,2000)。與此相對的則是經驗主義研究方法,注重從大量語言事實中挖掘語言規律,而語料庫語言學方法正是經驗主義研究的有效手段(馮志偉,2007)。目前,經驗主義研究方法已經逐漸取代理性主義研究方法,成為主流研究手段,用馮志偉先生的話來說,就是 “語言學研究要實現戰略大轉移”(馮志偉,2011;2013)。可見,建設和應用語料庫進行語言研究是目前語言學研究的基本發展方向之一。
(二)客家方言語音語料庫可為客家方言本體研究提供基礎性平臺。限于實際條件,當前客家方言的研究大多根據自身語感,比較零星地進行一些歸納和對比,很難實現系統性和規范化,研究結果不容易做到可靠和準確。隨著語言研究的日益精深化,語料庫在語言研究中扮演著越來越重要的角色。根據現代語言學理論,在語言研究中,口語是第一位的,書寫系統是第二位的。語音語料對于語言研究至關重要。方言一般缺乏書寫系統,語音材料更是唯一必需的研究資料。客家方言語音語料庫的建立可以使客家方言得到更為細致客觀的描述,為其他相關研究提供重要的原始素材。這是一項客家方言研究的基礎性工作,將可能催生一系列以語料庫為基礎的客家方言研究。
(一)在語言教學應用研究中發揮積極作用。贛南客家方言是贛南地區數百萬人的母語,對于贛南客家人的普通話和外語學習都會產生重要影響(劉慧,溫書鴻,2013)。母語對于外語學習的影響很大,利用語音語料庫把握母語規律,通過贛南客家方言語料庫和普通話或者英語語料庫之間的比較研究,將有助于發現第二語言學習規律,強化語言教學效果。
(二)為語言信息工程研究提供基礎數據。計算機語言識別需要涉及不同漢語方言的語言特點,方言語料庫將有助于人機對話語言服務系統的開發,幫助刑偵人員判定罪犯來源于哪一個方言區,鑒別罪犯成長地所在區域(楊鴻武,2009)。
(一)語料庫在保護弱勢和瀕危語言資源中的重要作用。由于交通和通訊技術的不斷發展,很多弱勢語言不斷受到主流語言的影響和侵蝕,語料庫是有效的語言保護手段,得到了我國家高層有關部門的高度重視。例如,2008年,國家語委啟動了“中國語言資源有聲數據庫建設”項目,這是一項具有深遠影響的國家重大語言文字工程,要求統一規范地采集我國境內實際使用中的各類地方語言,將之科學整理和歸檔,建成有聲數據庫(李宇明,2010)。2013年,教育部語言文字信息管理司發布了《中國語言資源有聲數據庫建設工作規范(試行)》(教語信司函〔2013〕17號),進一步規范了我國語音語料庫的建設。
(二)客家方言語音數據在客家文化傳承與保護方面的重要價值。語言與文化密不可分,贛南地區客家方言語音語料庫的建設可以對贛南地區口耳相傳文化起到傳承和保護的作用。隨著人口流動的不斷加快和媒介傳播的廣泛發展,客家方言越來越受到普通話等其他主流語言的影響,許多具有特色的表達方式和語音習慣逐漸不為人所知,甚至最終消失。建設贛南地區客家方言語音語料庫,保存的不僅僅是語言,還是一個族群的文化傳承,是我們國家多樣性生態文化的重要資源。
2012年,《國務院關于支持贛南等原中央蘇區振興發展的若干意見》(國發〔2012〕21號)在“加快文化體育事業發展”這一項中提出要“加強非物質文化遺產保護”。雖然從嚴格意義上說,贛南客家方言不能算做一項非物質文化遺產,但它滲透到當地的山歌、戲曲、歌謠等各種形式之中,屬于贛南地區人民寶貴的精神資源,采取一定措施進行留存是非常必要的。
廣而言之,客家方言對團結海內外客家后裔,促進贛臺兩岸交流,推進國內外客家群體之間的經濟、文化活動有著不可估量的現實意義。
目前,漢語方言語音語料庫并不多見,贛南地區客家方言語音語料庫更是未見先例。雖然方言并非主流交際用語,但其語言研究和文化傳承價值卻極其重大。若能得到有關部門和學界的支持,建成科學規范的贛南地區客家方言語音語料庫,并面向全社會公開,充分發揮語料庫的社會服務功能,可以為方言研究、方言語音信息工程、贛南人學習普通話或者外語研究等各個領域提供研究素材;同時可為傳承贛南客家文化和弘揚蘇區精神產生積極作用。因此,在學術上,贛南客家方言語料庫可以為客家方言本體研究提供重要數據,促進語言教學研究;在社會文化領域,建成語料庫還將為客家文化保護和傳承發揮重要的應用價值。
[1]Biber,D.,ConcradS.,ReppenR.CorpusLinguistics[M].北京:外語教學與研究,2000.
[2]Chomsky,N.NewHorizonsintheStudyofLanguage andMind[M].Cambridge[England].NewYorkCambridgeUniversityPress,2000.
[3]Mcenery,T.,HardieA.CorpusLinguistics:Method,TheoryandPractice[M].CambridgeUniversityPress,2012.
[4]北京語言大學語言研究所.北京口語語料查詢系統簡介[J].語言教學與研究,2010(04):95-96.
[5]東石.客贛方言數據庫在南昌大學文學院建成[J].中國語文,2002(05):477.
[6]范俊軍.漢語方言自然口語語料庫建設的幾個基本問題[J].學術研究,2013(02):153-158.
[7]馮志偉.基于經驗主義的語料庫研究[J].術語標準化與信息技術,2007(01):29-36+39.
[8]馮志偉.論語言學研究中的戰略轉移[J].現代外語,2011(01):1-11+108.
[9]馮志偉.語言學正面臨戰略轉移的重要時刻[J].南開語言學刊,2013(01):7-19.
[10]李宇明.論中國語言資源有聲數據庫的建設[J].中國語文,2010(04):356-363+384.
[11]劉慧,溫書鴻.贛南客家方言區基礎教育中的普通話推廣現狀及對策[J].語文建設,2013(11):55-56.
[12]劉連元.現代漢語語料庫研制[J].語言文字應用,1996(03):3-9+114.
[13]劉綸鑫.西客家方言概況[M].南昌:江西人民出版社,2001.
[14]羅美珍,林立芳,饒長溶.客家話通用詞典[M].廣州:中山大學出版社,2004.
[15]羅香林.客家研究導論[M].上海:上海文藝出版社,1992.
[16]衛乃興,李文中,濮建忠.語料庫應用研究[M].上海:上海外語教育出版社,2005.
[17]溫昌衍.客家方言[M].廣州:華南理工大學出版社,2006.
[18]楊鴻武,梁青青,郭威彤,etal.一個面向言語工程的蘭州方言語料庫[J].西北師范大學學報(自然科學版),2009(06):54-59.
[19]俞士汶,段慧明,朱學鋒,etal.北京大學現代漢語語料庫基本加工規范[J].中文信息學報,2002(05):49-64.
本文系江西省高校人文社會科學研究青年基金項目《贛南地區客家方言語音語料庫及檢索平臺建設》(編號YY1413)階段性成果。