譚正嬌 王文文 余曉鈴
(云南大學(xué) 云南 昆明 650000)
國內(nèi)漢語中介語語料庫建立于1995年,建立之初的特點(diǎn)是盡量搜集語料,但對(duì)語料的深度分析和挖掘做得不夠。隨著計(jì)算機(jī)技術(shù)的發(fā)展和成熟,漢語中介語語料庫呈現(xiàn)出新的特點(diǎn):語料挖掘更加細(xì)致,注重用戶體驗(yàn),從不同角度建庫,口語語料庫建設(shè)得到重視……這些變化都促進(jìn)漢語中介語語料庫朝著更好的方向發(fā)展。
語料庫是以計(jì)算機(jī)為載體承載語言知識(shí)的基礎(chǔ)資源,其中存放的是在語言的實(shí)際使用中真實(shí)出現(xiàn)過的語言材料,這些語言材料經(jīng)過人工處理,最終變成可供使用分析的基礎(chǔ)資源。世界上第一個(gè)語料庫是1963年在美國建成的布郎家族語料庫(Brown Corpus),布朗家族語料庫選取了1961年美國出版的各類刊物(小說、期刊等)共500個(gè)樣本,每個(gè)樣本選取約2000個(gè)詞,共計(jì)100萬個(gè)詞,并按照布朗大學(xué)的圖書分類進(jìn)行目錄分類,層級(jí)清晰、系統(tǒng)完善——先把整個(gè)語料庫分為兩個(gè)大類,再對(duì)這兩個(gè)大類進(jìn)行更加精細(xì)化的分類,類似于一個(gè)蛛網(wǎng),從中間點(diǎn)不斷向外延伸擴(kuò)展。[1]我國的漢語中介語語料庫建設(shè)靈感就來源于布朗家族語料庫,其建庫方法、選材等都成為國內(nèi)中介語語料庫的靈感來源。
漢語中介語語料庫以母語為非漢語者的書面學(xué)習(xí)材料為研究對(duì)象,通過全面地記錄學(xué)習(xí)者的書面語言,經(jīng)過計(jì)算機(jī)分析,得出學(xué)習(xí)者學(xué)習(xí)漢語過程中出現(xiàn)的單項(xiàng)和綜合信息,最終豐富國際中文的教學(xué)理論基礎(chǔ)。通過語料庫客觀分析得出的結(jié)論信度較高,更有說服力,區(qū)別于以往語言研究僅憑“語感”得出的結(jié)論。
國內(nèi)于1993年正式提出構(gòu)建漢語中介語語料庫的設(shè)想,在此之前,對(duì)語料的搜集整理存在著以下局限:(1)收錄的語料僅是留學(xué)生的病句、錯(cuò)句,語料收集不完整。(2)由于語料收集不成系統(tǒng)和規(guī)模,可能導(dǎo)致得出的理論存在一定偏頗。[2]第一個(gè)漢語中介語語料庫于1995年在北京語言學(xué)院正式建成,填補(bǔ)了漢語中介語語料庫研究方面的空白,在漢語作為第二語言教學(xué)領(lǐng)域里取得了開創(chuàng)性成果。[3]
語料庫作為一種新的研究手段,有著很廣闊的應(yīng)用前景。首先,它可以盡量詳盡地收集學(xué)習(xí)者的口語、書面語作為研究材料,為國際中文的理論研究提供語料支持;其次,語料庫詳盡地占有語料后,可以為老師的教、學(xué)生的學(xué)提供教學(xué)資源;再次,由語料庫衍生的語料庫語言學(xué),不僅可以為語料庫研究提供支持,還能為社會(huì)學(xué)、歷史學(xué)等學(xué)科研究提供幫助;最后,數(shù)據(jù)分析統(tǒng)計(jì)軟件和語音轉(zhuǎn)寫軟件的開發(fā),豐富了語料庫建設(shè)、研究的手段,降低了語料庫建設(shè)過程中需要消耗的人力物力。
目前,國內(nèi)國際中文中介語研究熱點(diǎn)大致分為語料庫建設(shè)、基于語料庫的研究和語料庫檢索分析軟件的開發(fā)三大模塊。
1.語料庫建設(shè)
自1995年第一個(gè)漢語中介語語料庫建成以來,“語料庫建設(shè)”這一課題逐漸成為熱點(diǎn),國內(nèi)知名的漢語中介語語料庫(已建成且對(duì)外開放)包括:
(1)“HSK動(dòng)態(tài)作文語料庫”——北京語言大學(xué)。該庫的特點(diǎn)是:收集了1992—2005年間HSK考試中部分考生的作文語料,共計(jì)11569篇語料424萬字,是目前國內(nèi)最大的中介語語料庫;最早公開偏誤標(biāo)注規(guī)范,其后新建語料庫的偏誤標(biāo)注均以HSK動(dòng)態(tài)作文語料庫為范本,再根據(jù)實(shí)際需要加以改進(jìn)。
(2)“留學(xué)生漢語中介語語料庫”——暨南大學(xué)。該語料庫的特點(diǎn)是:可以根據(jù)兩個(gè)詞之間的間距進(jìn)行檢索,如“不但”“而且”間隔距離為5個(gè)詞;根據(jù)句子中的包含關(guān)系進(jìn)行檢索,如含有“我們”且“他們”的句子。
(3)“中山大學(xué)中介語語料庫”——中山大學(xué)。該語料庫把偏誤標(biāo)注分類為“漢字偏誤標(biāo)注版”和“字、詞、句偏誤標(biāo)注版”,“錯(cuò)字語料庫”是該語料庫的一大特點(diǎn),用戶可以在其中搜索到“中山大學(xué)中介語語料庫”里所有錯(cuò)字的使用情況。
(4)“臺(tái)灣師大漢字偏誤庫”——臺(tái)灣師范大學(xué)。該語料庫是專門針對(duì)漢字繁體字偏誤創(chuàng)建的語料庫。
2.基于語料庫的研究
蔡武2017年通過CiteSpaces5.0對(duì)國內(nèi)漢語中介語語料庫進(jìn)行可視化分析,從發(fā)文時(shí)間、期刊分布、發(fā)文機(jī)構(gòu)等方面考量,認(rèn)為自“2013年開始,關(guān)于漢語中介語語料庫的論文數(shù)量急劇增長,發(fā)文機(jī)構(gòu)、作者相對(duì)集中”“形成了偏誤分析與習(xí)得研究、語料庫建設(shè)研究和基于國別化的學(xué)習(xí)者研究是該領(lǐng)域發(fā)展的三大熱點(diǎn)”等結(jié)論。[4]偏誤分析與習(xí)得研究偏向于二語學(xué)習(xí)者在學(xué)習(xí)目的語的過程中產(chǎn)生的偏誤研究,語料庫建設(shè)研究著重點(diǎn)在如何合理建設(shè)中介語口語語料庫和書面語語料庫,國別化的學(xué)習(xí)者研究則是通過劃分學(xué)習(xí)者的國籍,區(qū)分不同國家的學(xué)習(xí)者在學(xué)習(xí)漢語時(shí)產(chǎn)生的不同偏誤。2015年,漢語“中介語語料庫”建設(shè)漸成高潮。[5]在中國知網(wǎng)(CNKI)以關(guān)鍵詞“對(duì)外漢語”“中介語語料庫”進(jìn)行搜索,共找出相關(guān)期刊、碩博論文559篇,從2015年1月1日至2020年11月20日,共有論文成果250篇,年平均增長量遠(yuǎn)超過去23年(1993年1月1日至2014年12月31日)。
3.語料庫檢索、分析軟件的開發(fā)
語料庫建成之后,如何最大限度地利用變成了首要問題。對(duì)語料庫不熟悉的人都認(rèn)為從事語料庫相關(guān)工作需要強(qiáng)大的計(jì)算機(jī)技術(shù),其實(shí)不然。我們大部分時(shí)間做的工作是如何把語料庫當(dāng)作一個(gè)工具,利用它來研究其他東西,因此大部分語料庫使用者需要的是簡單、強(qiáng)大、易上手的檢索分析軟件。目前在國內(nèi),AntConc、PowerConc等是比較熱門的軟件,以AntConc為例,該軟件有以下優(yōu)點(diǎn):一是不需要強(qiáng)大的計(jì)算機(jī)專業(yè)背景知識(shí),大部分人很快就能學(xué)會(huì)如何使用;二是文本導(dǎo)入后可以生成關(guān)鍵詞表,統(tǒng)計(jì)詞匯出現(xiàn)的頻率并自動(dòng)保存;三是檢索項(xiàng)分為初級(jí)檢索和高級(jí)檢索,用戶能根據(jù)自己的實(shí)際需求設(shè)置檢索級(jí)別。
張寶林認(rèn)為,以2018年用計(jì)算機(jī)語言形成新的語料庫軟件系統(tǒng)開發(fā)為界,我國的漢語中介語語料庫可以分為1.0時(shí)代和2.0時(shí)代。[6]1.0時(shí)代是漢語中介語語料庫的奠基期,這一時(shí)期的語料庫擁有大量的語言材料,但由于計(jì)算機(jī)技術(shù)等條件限制,擁有的語言材料沒能被很好地加工轉(zhuǎn)化成規(guī)范的語料以供進(jìn)一步研究,是“粗放型”的語料庫,此外,還有系統(tǒng)漏洞多、查詢條件設(shè)置不合理等缺憾。自2018年1月開始,用計(jì)算機(jī)語言處理大量繁雜的初始文字資料,大大提高了工作效率,中介語語料庫正式進(jìn)入2.0時(shí)代。2.0時(shí)代在繼承了1.0版優(yōu)勢(shì)的基礎(chǔ)上,還著重于優(yōu)化用戶體驗(yàn),增強(qiáng)系統(tǒng)穩(wěn)定性。
目前國內(nèi)的中介語語料庫建設(shè)還有以下幾個(gè)特點(diǎn):
1.語料來源方面
一是來源于教師在教外國留學(xué)生的過程中,留學(xué)生提交的書面作業(yè);二是來源于學(xué)生在實(shí)習(xí)過程中收集到的語料。
在這一過程中,語料庫呈現(xiàn)出以下特點(diǎn):(1)語料大部分是學(xué)習(xí)者以書面語呈現(xiàn)出來的材料,如遣詞造句、小作文等。(2)語料庫來源大部分是初、中級(jí)學(xué)習(xí)者,原因是目前在學(xué)習(xí)漢語的外國人當(dāng)中,初、中級(jí)學(xué)習(xí)者占大部分比例,零基礎(chǔ)和高級(jí)學(xué)習(xí)者占比較少。(3)語言原材料大多數(shù)是對(duì)同一階段的學(xué)生進(jìn)行集體性材料收集,少有針對(duì)某一個(gè)學(xué)習(xí)者的追蹤調(diào)查。
2.建庫方面
(1)國內(nèi)大部分中介語語料庫還是書面語語料庫,少有對(duì)學(xué)習(xí)者口語語料進(jìn)行收集整理和研究的語料庫,國內(nèi)最先開展口語語料庫建設(shè)的是暨南大學(xué),但尚未對(duì)外開放。(2)大部分國際中文教師沒有意識(shí)到語料庫建設(shè)的重要性,一線教師沒有收集語料的習(xí)慣,導(dǎo)致語料流失。
3.其他方面
(1)基于語料庫的研究僅限于少數(shù)方面,如偏誤分析、中介語研究等,其他方面少有涉及。(2)目前國內(nèi)針對(duì)漢語中介語檢索的軟件過少,導(dǎo)致千辛萬苦建起來的語料庫最終因?yàn)椤安缓糜谩倍贿z棄,沒有達(dá)到最初建庫的目的。
雖然國內(nèi)中介語語料庫建設(shè)和使用還存在較大空白,但中介語語料庫的建設(shè)無疑會(huì)給國際中文專業(yè)帶來正面影響:
建設(shè)中介語語料庫,可以為國際中文的學(xué)科發(fā)展提供理論知識(shí)和數(shù)據(jù)支持。語料收集、語料庫建設(shè)、語言教學(xué)是一個(gè)良性循環(huán)的過程——在教學(xué)中收集到的語料可以用于語料庫建設(shè),語料庫建設(shè)過程中產(chǎn)生的問題和成果可以用作后續(xù)實(shí)際教學(xué)的理論支撐。另外,語料庫中的語料全部來源于真實(shí)的書面語或者口語材料,這為有關(guān)學(xué)者編寫國際中文教材提供了貼近真實(shí)生活的材料,因此,國內(nèi)在漢語中介語語料庫建設(shè)方面還大有可為。
教師在教學(xué)中可以把語料庫當(dāng)作一本“在線詞典”,遇到不好向?qū)W生解釋的語法點(diǎn),就能利用語料庫中的語料加以辨析。如教授“拉”和“牽”,運(yùn)用圖片加語料庫語料的教學(xué)辦法,能讓學(xué)生更好地理解知識(shí)點(diǎn)。另外,教師在教的時(shí)候可以有意識(shí)地向?qū)W生展示如何使用語料庫進(jìn)行學(xué)習(xí),當(dāng)學(xué)生的知識(shí)儲(chǔ)備達(dá)到一定層次,就可以探索式地自我學(xué)習(xí),以獲得更好的學(xué)習(xí)效果。
學(xué)生學(xué)會(huì)使用語料庫之后,可以自己嘗試對(duì)一些知識(shí)點(diǎn)進(jìn)行總結(jié)歸納,再由教師糾偏,這樣不僅能激發(fā)學(xué)生的學(xué)習(xí)興趣,還能提高學(xué)習(xí)效率。
學(xué)習(xí)者通過訪問中介語語料庫,可以為自己的學(xué)術(shù)研究找到對(duì)應(yīng)的理論支撐(如韓國留學(xué)生可以找到韓國相關(guān)的語料),還可以通過對(duì)前人學(xué)習(xí)過程的總結(jié)歸納,總結(jié)出一套適合自己甚至適用于本國留學(xué)生的學(xué)習(xí)方法,為本國學(xué)生學(xué)習(xí)漢語掃平一些障礙。
評(píng)價(jià)一個(gè)專業(yè)是否有研究前景和應(yīng)用價(jià)值,要看它是否具有相關(guān)理論支撐和技術(shù)支持。國內(nèi)漢語中介語語料庫迄今已走過25年時(shí)光,每一次進(jìn)步都離不開計(jì)算機(jī)技術(shù)的發(fā)展,各類統(tǒng)計(jì)、分析、轉(zhuǎn)寫軟件技術(shù)的日趨完善,使軟件技術(shù)在語料庫建設(shè)中起到了不可替代的作用。從建設(shè)語料庫需要用到的HunAlign、WinAlign等工具,到檢索語料庫用到的Antconc、Powerconc等軟件,語料庫建設(shè)依托于計(jì)算機(jī)軟件的開發(fā),正發(fā)生著日新月異的變化。但語料庫建設(shè)始于國外,很多理論和軟件都是由國外研發(fā)并先行使用,這些軟件更適用于外語語料庫建設(shè)。國內(nèi)針對(duì)中介語語料庫的寫入、輸出、檢索等軟件都還留有大片空白等待被填補(bǔ)。只有不斷優(yōu)化升級(jí)相關(guān)軟件,讓語料庫建設(shè)和使用過程變得更加經(jīng)濟(jì)方便,才能最終造福于我們的語料研究工作和國際中文教學(xué)事業(yè)。
目前,國內(nèi)缺少對(duì)于口語語料的收集和分析整理。究其原因,是因?yàn)榭谡Z具有瞬時(shí)性的特點(diǎn),難以收集,口語語料在收集完之后還要花費(fèi)大量時(shí)間轉(zhuǎn)寫成書面材料,雖然現(xiàn)在有語言轉(zhuǎn)寫軟件,但還需人工校對(duì),費(fèi)時(shí)費(fèi)力;此外,受緊張、壓力、提前準(zhǔn)備考試等因素影響,從HSK考試中收集的口語語料,很難準(zhǔn)確體現(xiàn)出學(xué)習(xí)者真實(shí)的學(xué)習(xí)情況變化。從學(xué)習(xí)者日常交談會(huì)話中選擇語料,雖然能反映出學(xué)習(xí)者的真實(shí)水平,但很可能涉及個(gè)人隱私,即使學(xué)習(xí)者同意將語音材料用于研究,也不能大范圍對(duì)外開放。
國際中文的教學(xué)目標(biāo)是讓學(xué)習(xí)者先運(yùn)用漢語進(jìn)行日常交際,其次才是書面寫作,加強(qiáng)漢語口語語料庫的建設(shè),對(duì)本學(xué)科發(fā)展大有裨益。張寶林在2012年提出建設(shè)“全球漢語中介語語料庫”的計(jì)劃,得到了大力支持,“全球”即“語料來自全球、全球共建、全球共享”[7],可以預(yù)見全球漢語中介語語料庫建成之后,我國的國際中文教學(xué)事業(yè)將會(huì)前進(jìn)一大步。
另外,國內(nèi)論文數(shù)據(jù)分析還是比較依賴外國的數(shù)據(jù)分析軟件,我國自主研發(fā)的軟件占比較少,針對(duì)性地進(jìn)行軟件研發(fā),對(duì)國內(nèi)的論文數(shù)據(jù)分析將會(huì)起到錦上添花的效果。