【摘 要】 英漢商務信函語料庫中語塊提取研究在借鑒語塊理論研究的基礎上,提出商務信函中英語和漢語語塊的界定標準,對其進行了分類和形式化描述,提出了一種基于規則匹配的方案,通過自動在互聯網上采集網頁構筑動態語料庫,利用英漢商務信函語塊的結構、意義和功能等方面的特征制定英漢商務信函語塊自動提取規則,從而實現從未經人工校對、自動分詞以及詞性標注的生語料中自動提取英漢商務信函語塊的功能。本文依據語塊理論來探討英漢商務信函語料庫中語塊提取研究的研究目的,主要工作和研究成果。
【關鍵詞】 英漢商務信函 語料庫 語塊提取
1.語塊理論初探
語塊研究在國內外語言學界已引起廣泛的重視。該研究的熱潮可從2009年5月在對外經濟貿易大學英語學院成功召開的“首屆全國語言語塊教學與研究學術研討會”得到印證。國內的語塊研究越來越細致、深入,主要涉及搭配的研究;揭示詞塊運用與英語口語和寫作之間的關系;強調詞塊學習在二語習得中的重要地位;語塊提取等。Sinclair(1991)認為:那些出現頻率高的詞匯串成了英語中基本的語言單位,大約70%的英語語言由存儲于人體大腦的語言板塊構成。由于商務信函中的語言大多是具有一定的言語程式或行話, 如: Enclosed please find… (隨函附寄……, 請查收), cash on delivery (貨到付款)等。此種言語程式或行話由于出現頻率很高, 并且形式和意義較固定, 使用的語境也較固定, 就像一個板塊一樣。可以預測,借助于語料庫、統計分析、認知科學等方面的知識和方法,語塊理論應用于語言教學、信息檢索和機器翻譯等方面的研究將更為明確化和具體化。因此,英漢商務信函語料庫的構建及語塊提取具有重要意義。
國內外學者對“語塊(chunks)”的表述有多種形式,如: “lexical phrases” (Nattinger DeCarrico, 1992), “formulaic sequence” (Wray, 2002)。雖然名稱不同,且這些名稱所指的內容也有一定的差別,但其探討的本質基本相同。Lewis (1997) 認為,語言不是由傳統的語法結構與詞匯組成,而是由多詞的語塊組成的。Altenberg Granger (2001)發現,大約70%的日常口語都是由預制語塊構成的。半固定化的結構和其它預制語言或‘板塊’結構在語言習得和語言運用中起十分重要的作用。因此,我們不應該僅僅在課堂中提供給學生大量的抽象的語法結構、孤立的單詞或者大段語篇的輸入,而應該教給學生類似語塊這種結合了語法結構、意義和功能的語言單位,且通過大量重復性的操練使這些語塊固定在學生的心理詞庫中。
關于語塊的研究方法,現有的研究主要使用了語法學方法、語料庫語言學方法、語言心理學研究方法以及近年來才出現的教學實驗研究方法。語法學的研究方法出現得最早,這種方法強調要對語塊的定義和所包含的范圍進行嚴格的界定。但從研究成果來看,語塊的名稱、定義和分類有很多種,沒有形成一個統一的受到普遍認可的理論框架。且現有的對語塊的定義和分類都是在對英語這一語言進行分析的基礎上進行的,不能確定這種定義和分類方法也適合其他語言。并且,語塊的范圍是可變的,在不同的領域,如語言教學領域的語塊,就不同于文學創作領域的語塊。語料庫語言學方法注重通過考察在大規模語料庫中的出現頻率再加上常識判斷來識別多詞結構、固定搭配和其他反復出現的語塊。在語料庫語言學的研究領域,語塊的提取一直是個難題。現有的詞塊提取方法主要有搭配法、詞叢法和搭配——詞叢法,在此基礎之上,濮建忠(2007)獨辟蹊徑,構建了語料庫數據驅動的連續詞塊自動提取模型,這不僅有效地排除了“結構”和“意義”不完整的噪音序列,而且較好地避免了詞叢法選取的詞塊之間的重疊部分,提取出的詞塊準確地反映了真實語言的使用情況(李晶潔,衛乃興2010)。
本人認為,上述方法都有各自的優點和不足之處。同時,各種方法又相輔相成、互為依據、互相補充。語法學研究方法是所有其他研究之根本,不對語塊的概念進行嚴格的定義,不按照統一標準對語塊進行分類,就無法使用篩選、統計、分析等語料庫語言學方法; 不通過語言心理學的相關研究方法,使用語法學研究方法研究出的理論就會缺乏相應的科學依據;不通過教學實驗,使用語法學研究方法提出的關于語塊作用的理論也得不到驗證。
總的來看,語塊研究在國內剛起步,還有許多問題尚待研究,應加強語塊本體和應用的研究,特別是筆者關注的語言教學和翻譯領域。因此,英漢商務信函語料庫的構建及語塊提取具有重要意義。
2. 研究目的
到目前為止,國內外鮮有學者專門針對英漢商務信函語料庫中的語塊提取展開研究。由于商務交往中有相當的一部分內容是通過信函形式進行,針對英漢商務信函語塊對商務英語教學、信息檢索和機器翻譯等方面工作造成的障礙,英漢商務信函語料庫中語塊提取研究在借鑒其他語塊研究的基礎上,提出了商務信函中英語和漢語語塊的界定標準,對其進行了分類和形式化描述并提出了一種基于規則匹配的方案,通過自動在互聯網上采集網頁構筑動態語料庫,利用英漢商務信函語塊結構、意義和功能等方面的特征制定英漢商務信函語塊自動提取規則,從而實現從未經人工校對、自動分詞以及詞性標注的生語料中自動提取英漢商務信函語塊的功能。
3. 主要工作和研究成果
3.1在借鑒英語和漢語對語塊概念與分類研究的基礎上,將英漢商務信函語塊分為三種類型:全稱縮略語塊、慣用表達語塊、專業術語語塊。
3.2為了制定英漢商務信函語塊自動提取規則,通過對大量英漢商務信函語料的分析,將基于規則的英漢商務信函語塊自動提取共包括三個步驟:文本預處理、英漢商務信函語塊識別和后期處理,并對其進行了形式化描述,分析了基于規則的英漢商務信函語塊自動提取的關鍵技術。
3.3設計制作英漢商務信函語塊自動提取實驗系統,通過“網頁自動下載模塊、語料信息抽取與格式化模塊、文本預處理模塊、英漢商務信函語塊識別模塊、后期處理模塊”五個模塊,采用基于規則的方法實現了從未經人工校對、自動分詞以及詞性標注的生語料文本中自動提取英漢商務信函語塊的功能,取得了較好的提取效果。
4. 研究意義
語塊數量如此之多,僅靠死記硬背是不現實的,因此,研究如何利用語料庫進行語塊的提取,在語言教學和機器翻譯等方面的研究中具有十分重要的意義。英漢商務信函語料庫中語塊提取研究是利用計算機進行基于英漢商務信函雙語語料庫的語塊提取研究,具有多方面的重要意義:(1)該研究為開展對外經貿交流和向國外有關企業機構提供經濟技術合作和貿易方面的信息咨詢服務并解決英漢商務信函中的語言溝通障礙。(2)英漢商務信函語塊自動提取的實現為英漢商務信函機器輔助翻譯系統的譯準率提高起到關鍵作用,為研制在互聯網上進行機器輔助英漢商務信函翻譯系統提供基礎,為研制經貿專業機器翻譯系統創造必要的條件。(3)英漢商務信函語塊自動提取方法對進一步對大規模各種專業的雙語語料利用計算機自動提取語塊提供了思路。(4)構建的一個規模為100萬詞次的英漢商務信函語料庫(包括四個子庫:英語商務信函語料庫,漢語商務信函語料庫,英漢商務信函平行語料庫,漢英商務信函平行語料庫)該庫為動態的,可以自動獲取服務于語塊自動提取的知識資源,是面向商務領域的一個特定的語料庫,它對商務英語學習者、商務漢語學習者、翻譯學習者及工作者的研究與學習起到指導作用。
參考文獻:
[1] 濮建忠. 英語詞匯教學中的類聯接、搭配及詞塊[J].外語教學與研究,2003(6):438-445.
[2] Wray, A. Formulaic Language and the Lexicon[M]. Cambridge: Cambridge University Press, 2002.
[3] Altenberg B. Granger S. The Grammatical and Lexical Patterning of \"Make\"in Native and Non-native Student Writing[J]. Applied Linguistics, 2001,22 (2) : 173-194.
[4] 王立非, 陳香蘭.語言語塊教學與研究在中國的進展--“首屆全國語言語塊教學與研究學術研討會”綜述[J].外國語, 2009 (6) : 90-94.
[5] 曹合建.基于語料庫的商務英語研究[M]. 北京: 對外經濟貿易大學出版社,2008.
[6] 李晶潔,衛乃興.學術英語文本中連續短語單位的提取方法[J].解放軍外國語學院學報,2010(2) : 45-50.
(作者單位:洛陽理工學院外語系)
China’s foreign Trade·下半月2012年12期