劉 皓
(西安外國語大學(xué),陜西 西安 710128)
【語言與文化】
基于自建酒店西班牙語小型語料庫的研究和應(yīng)用
劉 皓
(西安外國語大學(xué),陜西 西安 710128)
隨著我國經(jīng)濟(jì)的快速發(fā)展,西班牙語專業(yè)因其廣泛的用途越來越受到重視。本文在自建酒店西班牙語小型語料庫的基礎(chǔ)上,利用Word Smith軟件分析了酒店西班牙語語言的特征及西班牙酒店網(wǎng)頁的語言特色與功能,以為進(jìn)一步建設(shè)漢西雙語語料庫奠定基礎(chǔ)、積累經(jīng)驗(yàn)。
酒店西班牙語;語料庫;WordSmith
漢語、英語和西班牙語是世界上使用人數(shù)最多的三種語言。近年來,隨著全球經(jīng)濟(jì)的飛速發(fā)展,西班牙及拉美等國在國際貿(mào)易往來中扮演著越來越重要的角色,西班牙語儼然已成為使用最廣泛的國際貿(mào)易往來語種之一。[1]2007年,在哥倫比亞召開的第四屆世界西班牙語大會(huì)上,西班牙語國家的一些經(jīng)濟(jì)學(xué)家和出版專家一致認(rèn)為,隨著中國和西班牙語國家經(jīng)濟(jì)的崛起,漢語和西班牙語將削弱英語在經(jīng)貿(mào)領(lǐng)域的主導(dǎo)地位。[2]可見,英、漢、西“三足鼎立”的時(shí)代已經(jīng)到來。
在大數(shù)據(jù)的時(shí)代背景下,語料庫語言學(xué)在經(jīng)歷了近半個(gè)世紀(jì)的發(fā)展,得到了相當(dāng)程度的普及,并且日趨成熟。具體表現(xiàn)為從最初語料庫的建設(shè)、檢索工具的研發(fā)等初級(jí)階段邁向了系統(tǒng)的理論創(chuàng)新和廣泛具體的實(shí)際應(yīng)用階段。
西班牙語語料庫的研究以西語國家(西班牙、墨西哥等)為主,主要有CORPUS DEL ESPAOL, Corpus—Spanish FrameNet Project, Spanish Learner Language Oral Corpora(SPLLOC)等。西班牙皇家語言學(xué)院的“21世紀(jì)語料庫”是世界上規(guī)模最大的西語語料庫,收錄有現(xiàn)在西班牙和拉丁美洲最新的3億個(gè)西班牙語詞條。以西語為第二語語料庫(CEDEL2)和西班牙語學(xué)習(xí)者口語語料庫(SPLLOC)是以母語為英語的西班牙語學(xué)習(xí)者為語料建立的語料庫。中國臺(tái)灣成功大學(xué)建設(shè)的“臺(tái)灣多國語言學(xué)習(xí)者語料庫”,其中包括臺(tái)灣西語學(xué)習(xí)者語料庫。
雖然漢語和西班牙語是世界上使用人口最多的語言,但由于歷史的原因,現(xiàn)有漢語和西班牙語料資源較少,處理難度高,國內(nèi)的研究才剛起步。
旅游業(yè)是西班牙的第一大產(chǎn)業(yè),也是中國急需發(fā)展的綠色產(chǎn)業(yè)?;谖靼嘌勒Z使用的廣泛性、中國和西班牙旅游的國際地位和旅游業(yè)對(duì)酒店的需求,筆者建立了一個(gè)酒店西班牙專業(yè)語料庫,并對(duì)其進(jìn)行了初步分析與研究。
對(duì)任何語料庫的研究都從語料庫的建設(shè)開始,語料庫的建設(shè)主要包括語料庫類型確立、語料的選取及語料入庫等環(huán)節(jié)。
(一)語料庫類型與選材原則
Donkd E. Walker將語料庫劃分為異質(zhì)型、同質(zhì)型、系統(tǒng)型和專用型四種類型[3],語料庫的用途是確定語料庫類型的主要依據(jù)。[4]酒店西班牙語語料庫主要是針對(duì)從事酒店業(yè)務(wù)的管理者和消費(fèi)群體,其是一個(gè)專用型的西班牙母語語料庫。
語料庫的類型確定后,就要制定語料庫的選材原則及選材范圍。在此過程中,考慮到該語料庫的目的和使用對(duì)象,并按照通用性、描述性、實(shí)用性、科學(xué)性、現(xiàn)勢(shì)性等原則選擇酒店網(wǎng)頁作為語料庫建設(shè)的材料及研究對(duì)象。和傳統(tǒng)類型的文本材料相比,網(wǎng)頁具有一系列獨(dú)有的附加優(yōu)勢(shì),因?yàn)樗幵谝粋€(gè)不斷更新的環(huán)境中,它所提供的語料不管是在形式上還是內(nèi)容上,都處于不斷更新、日趨豐富的過程中。基于本小型教學(xué)語料庫的用途,具體所采集的酒店網(wǎng)頁語料文本涉及以下四類。
1.簡介類:一般位于酒店官方網(wǎng)站的首頁,用于勸說和促使消費(fèi)者購買酒店的服務(wù),接受采取某些消費(fèi)行為的信息。
2.設(shè)施設(shè)備類:空調(diào)、電視、通風(fēng)設(shè)備、服務(wù)、餐廳、迷你吧臺(tái)、自助餐、吹風(fēng)機(jī)、無線網(wǎng)絡(luò)、洗衣店、自動(dòng)販賣機(jī)等。
3.運(yùn)營管理:預(yù)定、取消、辦理入住、退房、酒店政策、價(jià)目單、促銷等。
4.評(píng)論類:該類評(píng)論語料可從網(wǎng)上采集,其提供了豐富的用于表達(dá)觀點(diǎn)、情感、評(píng)價(jià)的文本材料。
(二)語料庫的規(guī)模
根據(jù)語料庫類型與選材原則,本文選取了西班牙三大自治區(qū)安達(dá)盧西亞、加利西亞及瓦倫西亞不同星級(jí)的46家酒店的網(wǎng)頁文本共計(jì)2.1萬字作為具體的語料數(shù)據(jù),并將其保存為“txt”格式導(dǎo)入WordSmith軟件進(jìn)行具體的研究分析和應(yīng)用。
Word Smith Tools軟件是英國語料庫專家麥克爾·斯考特(Mike Scott)設(shè)計(jì)編寫的,它共包含Word List(單詞列表工具)、Key Words(主題詞檢索工具)、Concord(檢索工具)、Splitter(文本分割工具)、Text Converter(文本替換工具)、Viewer(文本瀏覽工具)六個(gè)程序。[5]其中,Word List、Concord是主要的文本檢索工具,也是筆者用于酒店西班牙語語料庫具體研究分析的主要工具。
(一)Word List(單詞列表工具)
Word List最主要的用處在于生成語料庫所涉及文本的總體信息列表,以及語料庫中單詞使用的頻率列表。前者顯示的數(shù)據(jù)主要包括以下幾個(gè)方面:第一列為所有文本的總體數(shù)據(jù),其他各列則分別顯示各個(gè)文本的具體對(duì)應(yīng)數(shù)據(jù);第一行Text File為文本名稱,第二行Bytes為各個(gè)文本所包含的字節(jié),第三行Tokens為詞次,第四行Types為類符數(shù),第五行Type/Token Ratio為類符、詞次比,第六行Standardised Type/Token為標(biāo)準(zhǔn)化的類符/詞次比,第七行Ave. Word Length為單詞平均長度,第八行Sentences為句子數(shù)量,第九行Sent.length為句子長度,第十行sd.Sent. Length為標(biāo)準(zhǔn)化句子長度,第十一行paragraphs為段落數(shù),第十二行Para.length為段落長度,第十三行sd.Para.length為標(biāo)準(zhǔn)化段落長度;另外若干項(xiàng)分別顯示了不同字母個(gè)數(shù)的單詞在文本中的數(shù)量,具體如圖1所示。

圖1 單詞詞表統(tǒng)計(jì)
而語料庫中單詞使用的頻率列表可按照需要生成兩種順序的單詞頻率列表:語料庫中所涵蓋的所有單詞即可按照字母順序排列,也可按照單詞出現(xiàn)頻率從高到低進(jìn)行排序,依次顯示它在所選文本中出現(xiàn)的次數(shù)(Freq)及該詞占文本總單詞數(shù)的百分比率(%)。單詞頻率列表提供了更多研究語料庫詞匯的可能,其具體可以應(yīng)用于以下幾方面。
1.可以利用按照字母順序排序的單詞頻率列表進(jìn)行不同詞性同根詞的學(xué)習(xí)。
2.確定專門用途語料庫中的常見詞塊,并進(jìn)行有針對(duì)性的教學(xué)。
3.比較不同文本中特定詞匯的使用頻率。
4.比較不同語言中對(duì)認(rèn)知詞匯對(duì)應(yīng)翻譯語的使用頻率。
5.制作酒店西班牙語專門用途單詞列表。
(二)Concord(檢索工具)
Concord主要用于查詢和統(tǒng)計(jì)語料庫中某個(gè)或某些詞匯或短語出現(xiàn)的頻率數(shù)。相較于傳統(tǒng)字典只能給出單詞的意思及少量例句而言,它的優(yōu)勢(shì)在于可以通過語境跨度(span)及語境詞的設(shè)定來對(duì)檢索詞進(jìn)行高級(jí)檢索,進(jìn)而檢索出所有文本中符合檢索條件帶有檢索詞的語句。通過大量原汁原味的句子,可以更好地學(xué)習(xí)檢索詞在不同真實(shí)語境下的使用方法。例如,輸入的檢索詞為habitación(房間),設(shè)定為“5L to 5R”,即把語境跨度設(shè)定為從檢索詞左邊第5個(gè)詞開始到檢索詞右邊第5個(gè)詞截止。[6]它是所導(dǎo)入的三個(gè)文本中所有包含habitación檢索詞的語句,共有161項(xiàng),其中,第一項(xiàng)有5 264個(gè)詞(占86%),其源文件是hotele-1.txt.(具體如圖2所示)。
通過檢索列表,可以一目了然地看出哪些詞可以和habitación一起搭配使用,進(jìn)而反映出西班牙語酒店業(yè)中不同房型的表達(dá)方法:habitación individual;habitación simple, habitación doble;habitación triple, habitación cuádruple;habitación standard/
estándar, habitación;superior, habitación matrimonial, habitaciónfamiliar, habitación de luxe, habitación;club superior, habitación suite, habitación;classic, habitación ejecutiva,等等。
此外,Concord檢索功能還提供了諸多選項(xiàng)卡,通過這些選項(xiàng)卡可以獲得與核心詞(即檢索詞)搭配相關(guān)的更多數(shù)據(jù)及信息,如使用最為廣泛的“clusters”“collocates”及“patterns”。下面仍以habitación檢索詞為例,分別介紹這三種工具的具體用法。
1.Clusters可以用來分析帶有檢索詞的詞叢,即其常見的組合方式,按照頻率從高到低進(jìn)行排序,在專門用途西班牙語的教學(xué)中就可以做到有的放矢(圖3)。

圖2 Concord檢索功能示例

圖3 詞從列表示例
2.Collocates主要用于觀察與檢索詞進(jìn)行搭配的詞匯、二者共同出現(xiàn)的頻次以及該搭配詞匯的具體位置。以habitación一詞為例(圖4),列出三個(gè)文本中與其搭配的所有單詞,并以頻率從高到低的順序進(jìn)行排列。分別顯示搭配詞與檢索詞共同出現(xiàn)的頻次、搭配詞位于檢索詞左側(cè)的頻次、搭配詞位于檢索詞右側(cè)的頻次,以及具體到以檢索詞為中心左右各五個(gè)跨度搭配詞的頻次。例如,habitación在和servicio搭配時(shí),在所有文本中共同出現(xiàn)了38次,其中,servicio位于habitación左側(cè)的有28次,位于其右側(cè)的有10次。更具體的位置,servicio位于habitación左五位置出現(xiàn)了2次,左四1次,左三3次,左二21次,左一1次,右二5次,右三1次,右四1次,右五3次。由此可以看出,這兩個(gè)詞匯在搭配時(shí)的偏好位置為servicio處于habitación左二位置。

圖4 collocates列表示例
3.Patterns工具用來生成和檢索詞在各個(gè)位置高頻搭配詞的總結(jié)列表。通過該表,核心詞和各種詞性單詞的搭配位置及用法一目了然。圖5是以habitación一詞為檢索詞所生成的patterns列表,可以明顯看出,和其所搭配的高頻形容詞有“individual”“estándar”“amplia”“doble”“exterior”“ juniro”“ deluxe”等,和其所搭配的高頻動(dòng)詞有“disponer” “tener”“ofrecer”“ ser”等。

圖5 Patterns列表示例
(1)運(yùn)用WordSmith4.0分析了酒店西班牙語語言的特征與應(yīng)用,以及西班牙酒店網(wǎng)頁的語言特色與功能。本文是將語料庫語言學(xué)應(yīng)用于旅游酒店領(lǐng)域的研究嘗試,結(jié)合語料庫和行業(yè)標(biāo)準(zhǔn),以期探索行業(yè)西班牙語言研究新模式。
(2)中國語料庫的研究歷經(jīng)35年的發(fā)展,研究成果頗豐,但仍存在一些研究不足。當(dāng)下研究多局限于英語和漢語,西班牙語、法語、俄語等語言的語料庫研究較少,阿拉伯語語料庫的文獻(xiàn)更是空白。酒店西班牙語小型語料庫的建設(shè)在西班牙語料庫方面進(jìn)行了有益的嘗試,其為進(jìn)一步建設(shè)漢西雙語語料庫奠定了基礎(chǔ),積累了經(jīng)驗(yàn)。
(3)運(yùn)用Word Smith等文本分析工具對(duì)語料進(jìn)行分析、研究與應(yīng)用,突破了傳統(tǒng)的西班牙語教學(xué)模式,為學(xué)習(xí)者創(chuàng)造了廣闊的平臺(tái)。
[1]欒昀.我國專門用途西班牙語(EFE)教學(xué)探討[J].青年文學(xué)家,2012,(6):56-57.
[2]許云鵬,林如萱.漢語和西班牙語將削弱英語的主導(dǎo)地位[EB/OL].(2007-03-29)[2017-03-25].http://news.xinhuanet.com/world/2007-03/29/content_5910803.htm.
[3]劉連元.現(xiàn)代漢語語料庫研制[J].語言文字應(yīng)用,2013,(5):3-9.
[4]張淑文.CONULEXID語料庫系統(tǒng)中的文章庫介紹[C].中國辭書學(xué)會(huì)雙語詞典專業(yè)委員會(huì)第四屆年會(huì)暨學(xué)術(shù)研討會(huì)論文集,2001.
[5]申蕾,李曉霞,趙莉.基于語料庫研究方法對(duì)《孫子兵法》中外兩個(gè)英譯本的分析[J].長春師范學(xué)院學(xué)報(bào)(人文社會(huì)科學(xué)版),1996,(3):81-83.
[6]王立非,梁茂成.Word Smith方法在外語教學(xué)研究中的應(yīng)用[J].外語電化教學(xué),2007,(115):3-7.
【責(zé)任編輯:王 崇】
H319;H34
A
1673-7725(2017)07-0176-04
2017-05-10
劉皓(1986-),女,陜西西安人,助教,主要從事西班牙語與語料庫研究。