姚麗娟+周莉
摘要:本文概述了語料庫語言學和中醫英語語料庫的研究現狀,重點介紹中醫英語語料庫的建庫情況、已取得的研究成果和目前仍存在的問題和不足,最后對中醫英語語料庫的建設提出了幾點建議。
關鍵詞:語料庫;中醫英語;建庫現狀分析
一、引言
語料庫是指為了某種研究目的,運用科學的方法進行系統收集起來的語言資料文集。它的最大優勢在于使用大量真實的語言素材,其容量從最初的幾百詞已經發展到了目前的上億詞,能夠更加準確且全面地代表某一語言現象的本質特征或者其某一方面的語言特征。
二、中醫英語語料庫的構建
(一)建庫目的
建設中醫英語語料庫的目的大致可以分為三個方面:首先,促進中醫術語英譯的標準化。中醫基本名詞術語的英文譯名至今仍未實現規范化,其翻譯的原則和標準也沒有統一,這在一定程度上嚴重阻礙了中醫學知識和中醫藥文化的對外譯介和發展。語料庫具有強大的詞匯檢索功能,可以幫助翻譯工作者和中醫涉外人員突破個人因素,利用語料庫檢索工具可以搜索到同一個中醫術語所對應詞頻最高的一個或兩個英文表達方式,為翻譯實踐提供客觀的指導。語料庫收集的大量真實語料為中醫術語英譯的標準化提供了事實依據,同時也為探究中醫英語詞匯的搭配規律提供了參考數據,中醫英語語料庫的建設能夠為中醫術語英譯的標準化建設工作服務。其次,彌補中醫英語教材建設的不足。中醫英語教學質量的好壞在很大程度上依賴于是否有一個好的教學材料。雖然國內許多中醫藥大學都開設了中醫英語相關課程,有的甚至還開辦了中醫國際傳播方向或中醫翻譯方向的英語專業,但是市面上的中醫英語教材良莠不齊,很多學校都是自編自寫教材,教材的權威性和教學質量方面都存在很大的漏洞,要想提高中醫英語的教學質量,必須加快中醫英語教材的建設。中醫英語語料庫的建設不僅可以為中醫英語教學提供豐富的語料材料,語料庫的詞頻查詢功能還可以指導教學大綱在編寫中明確課程要求、突出教材重點。再次,開發人機互動的探索性學習模式。互聯網技術能夠協助師生擺脫上課時間和地點的限制,讓教學通過多媒體和網絡實現,把中醫英語的相關知識在網絡平臺上進行討論和學習。同時還打破了授課教師的專業限制,無論是中醫學專業知識欠缺的英語教師,還是語言能力相對較弱的中醫學專業教師都可以參與到互動交流中。另外,課堂內外的界限也被打破,學生可以利用翻譯軟件自動翻譯中醫文本資料,然后與教師所給的參考譯文和在語料庫中搜索到的參照譯文進行比較,這不僅大大節省了學習時間,而且還提高了學習效率,還給了機器翻譯更大的市場和提升空間。
(二)建庫原則
1.針對性原則。與通用語料庫不同,中醫英語語料庫作為一種特殊用途的語料庫,其建庫目標性專一是其首要原則。因此,語料的篩選應該具有針對性。選擇語料樣本時必須首先考慮“中醫英語”這一醫學語言,盡可能地包含到與醫學尤其是與中醫相關的領域,選取的語料必須具有代表性,能夠客觀反映該領域的語言特征。另外,還可以根據中醫學的不同專業建立相應的專門用途語料庫,如中醫臨床口語、中藥英語、針推涉外英語、護理英語等各種小型個性化語料庫等,以滿足不同層次、不同方向的研究和教學需要,盡量將語料庫設計為“一庫單用或一庫幾用”,而不是“一庫通用”。
2.真實性原則。語料的篩選應嚴格遵守真實性原則,盡量選擇已經公開出版或發表的中醫文獻及其英譯本、在國際交流中實際使用的中醫語言對應的英語表達方式,以確保所選文本的正確性和權威性。同時,在網上檢索時要隨機采樣,根據某一個關鍵詞在網上隨機檢索,盡量避免人工選擇的主觀性干預。
3.兼容性原則。雖然一些經典中醫文獻的英譯本相對而言是固定不變的,但是語言本身具有動態發展的特點,因此建立的中醫英語語料庫應該具有兼容性,語料的內容在使用過程中要注意擴展和及時更新。語料庫的內容不僅要最大限度地涵蓋與中醫英語和中醫文化相關的領域,還要注意收錄中醫英語同步互譯相關的實時性材料。
4.標準性原則。在語料整理方面必須嚴格執行標準化,入庫的所有語料都必須進行排序和標注之后再加入語料庫,以方便將來檢索和使用。在語料中添加系統標準標記,對選定的語料的背景信息和重點詞匯可以進行特殊標記,以滿足翻譯、教學、科研等不同方面的需要。
(三)構建方法
1.語料的采集。語料的采集取決于研究者的目的。建設中醫英語語料庫的目的是為了真實客觀地描述中醫文本及其英語表達的語言特征,以滿足中醫英語研究和實踐的需要。研究的目的決定了采樣的類型和范圍,比如是采集書面語或是口語材料,還是兩者兼收。研究的目的還決定了庫容的大小和應用范圍。目前,語料的來源主要有兩種:中醫文獻和互聯網。為了保證語料的權威性,往往選取由專業人員編譯的中醫文獻和互聯網上由一線工作人員翻譯的提供的電子文本。對印刷版書籍主要采用掃描輸入法,然后進行格式處理,轉換為Word文檔。由于掃描中系統識別可能會有錯誤,需要進行人工校對編輯。同時,對采集的語料要按照一定的原則分類,以便排序和查找。
2.語料的加工。原始語料采集校正完畢之后必須進行加工處理才能用于檢索,由于英漢兩種語言存在一定的差異,英語以詞為單位,詞與詞之間有空格隔開,而漢語以字為單位,字與字之間沒有空格。如果不對漢語語料進行分詞處理,就很難以詞匯為單位對漢語語料進行類符和形符比、詞匯密度和詞頻等方面的統計分析。目前較多使用的是中國科學院研發的漢語詞法分析軟件(TCTCLAS3.0),可以對漢語語料進行自動分詞處理,但還是需要進行人工校對,一些專有名詞、縮略語、新復合詞等仍需人工分詞處理。語料標注是指對語料庫中具體語料樣本的屬性或特征進行描述,大致分為兩種:一是篇頭信息標注,即在語料的抬頭標注說明整篇語料樣本的屬性,如語體、內容所屬領域、語料作者、寫作時間、來源出處等。二是篇體標注,即文本內部各種語言學屬性的標注,主要包括段落標注、語句標注、詞性標注、語義和語法標注等。語料庫標注有多種模式,目前常用的模式有COCOA參考模式和文本編碼計劃模式(TEI),也可以參照中醫語料庫的漢語標注方式。endprint
3.檢索工具的使用。最后是選擇一個合適的檢索分析軟件對某些詞匯或短語在文本中的使用頻次進行查詢統計。目前已開發了多種軟件可用于檢索,如WordSmith的檢索功能可以按照檢索、詞表和關鍵詞等進行統計。
三、中醫英語語料庫建庫現狀分析
(一)國內現狀
隨著中醫藥文化交流的深入以及中醫名詞術語英語翻譯國際標準工作的推進,中醫英語語料庫的建設已經被提到了議事日程。目前國內有一批中醫藥院校和科研機構已經開始研究中醫英語語料庫的建設,并且提出了許多合理的意見、設想和方法。山西中醫學院的聞永毅、樊新榮從中醫英語教學研究、英語翻譯研究、語言學研究以及中醫英語自動翻譯研究這四個方面闡述了建設中醫英語語料庫的意義,并指出中醫英語語料庫的建成將會極大地促進一個獨立的中醫英語學科的形成。上海中醫藥大學的倪傳斌探討了中醫英語語料庫的建庫原則,指出在建庫時應考慮語料庫的用途、語料庫具有的代表性、語料庫的結構、語料庫的容量、語料的采集等多方面因素,這對中醫英語語料的構建工作具有一定的指導意義。另外還有大量對語料庫技術在中醫英語翻譯和教學的指導意義及可行性研究方面的文章,在此就不一一贅述。
(二)存在的問題與不足
1.實證研究過少。盡管語料庫語言學在國內呈現出迅猛發展的勢頭,與中醫英語語料庫相關的研究論文也層出不窮,但大多數還是處于理論研究層面,缺乏相應的實證研究。基于語料庫的中醫英語研究大都采用以理論探討和方法歸納為主,屬于非實證研究,相關的實證研究成果較少,說服力不足。
2.研究范圍過窄。現已建成的中醫英語語料庫的研究和應用范圍多數只停留在醫學方面,很少涉及到其它學科。然而中國傳統醫學具有多學科性,中醫語言不僅包括醫學信息,還蘊含著豐富的哲學思想和文化知識,單方面的研究容易造成文化信息缺失、研究不夠深入。語料庫提供的語境如果不夠充分,詞語索引就不能對整篇文本或者語義現象進行全面分析,從而降低了分析結果的代表性和可信度。另外,中醫英語語料庫的應用范圍過于狹窄也不利于其研究成果在社會上的推廣。
3.電腦和軟件技術要求過高。語料庫的建設具有較高的技術難度,往往耗費大量的人力、物力和財力。許多翻譯工作者和語言學研究者都是文科背景,對專業性較強的語料庫技術有畏懼心理,建設語料庫有技術上的缺陷。而且語料庫的開發需要耗費相當數量的經費,許多高等院校或科研機構一般不太愿意給予經費支持。盡管近年來一批語料庫相繼問世,但未能實現資源共享,建成的中醫英語語料庫及相關語料庫僅供少數研究人員或研究團隊使用。另外,對電腦、網絡等硬件設備的過度依賴也限制了其推廣和應用范圍。
(三)提出的幾點建議
1.細分語料庫類別。在建設中醫英語語料庫時可以根據不同研究領域進行更加詳細的劃分,比如可以按照中醫概念的屬性分類,構建各種專用中醫英語語料庫,選樣時可以按照語料庫的用途和研究對象進行仔細篩選,避免采集語料時千篇一律。
2.拓寬應用范圍。眾所周知,一個語料庫的建成往往需要花費較長的時間,有的甚至長達十幾年。因此,應當最大限度地挖掘中醫英語語料庫在醫學研究方面的應用價值,同時還要開發其在指導英語教學、翻譯實踐、中醫文化輸出產業等方面的實際利用,盡量使語料庫的社會效益與建設時所花的人力和物力成正比。
3.推進網絡資源共享。中醫英語語料庫的建設除了需要資金支持之外,還需要中醫專業、英語專業、計算機網絡技術等團隊的參與。目前建成的中醫英語語料庫數量不多,不能有效地滿足研究需要。推進語料庫資源的共享,既可以減少不必要的重復建設造成的浪費,也可以提高語料庫的實際利用率,還可以促進語料庫的建設得到進一步的完善。endprint