王萌 李濤安 王治梅 聞永毅



摘?要:在中醫走向世界的時代背景下,中醫對外傳播的進程越來越快。中醫翻譯在中醫藥文化“走出去”中起著至關重要的作用,一部能夠快速、準確查詢中醫詞匯或術語的電子(在線)詞典可以為中醫翻譯者提供一個便捷的工具,可以更好地推動中醫藥對外傳播。文章對以層級對應技術為核心的中醫漢英電子詞典的研發進行探索研究,以期為中醫電子詞典的編纂乃至中醫翻譯事業的發展做出貢獻。
關鍵詞:層級對應技術;中醫翻譯;漢英電子詞典
中圖分類號:N04;R277;G255.75?文獻標識碼:A?DOI:10.3969/j.issn.1673-8578.2020.05.002
Abstract: Under the background of Traditional Chinese Medicine (TCM) going out to the world, the transmission process of TCM has become faster and faster. Translation of TCM plays a vital role in the “going out” of TCM culture. An electronic (online) dictionary which can quickly and accurately query TCM vocabulary or terms can provide a convenient tool for TCM translators. This paper focuses on the research and development of TCM ChineseEnglish electronic dictionaries with hierarchical correspondence technology in order to make contributions to the compilation of TCM electronic dictionary and the development of TCM translation.
Keywords: Hierarchical corresponding technique; TCM translation; ChineseEnglish electronic dictionary
習近平總書記提出“深入發掘中醫藥寶庫中的精華,充分發揮中醫藥的獨特優勢,推進中醫藥現代化,推動中醫藥走向世界”,發展中醫、向外推廣中醫也是中國夢的組成部分。而中醫的“走出去”很大程度上依賴于中醫翻譯,查詢詞典是翻譯過程中必不可少的步驟。
早在1999年,就有人指出現代信息技術使得詞典內容、檢索方式立體化,多媒體詞典集圖、文、聲、像等不同媒體信息于一身,將詞目全面立體地呈現在讀者眼前[1]。漢英電子詞典無論在內容、檢索方式、信息編排、編纂手段等方面都向多樣式、多層次的立體化方向靠近[2]國內關于電子詞典的研究雖然始于20世紀50、60年代,但在改革開放之后得到了充分重視,80年代后期,中文信息處理領域的專家開始了對機器詞典的研究,90年代初面向信息處理的機器詞典的。研究正式列入國家七五、八五、九五計劃。[3]
如今,隨著科學技術的不斷進步和互聯網的普及,各類電子詞典、在線詞典甚至在線翻譯應運而生(例如有道詞典、金山詞霸、百度翻譯、谷歌翻譯等)。王朝暉、余軍[4]對“有道翻譯”“百度翻譯”“谷歌翻譯”和“必應翻譯”等四大機器翻譯引擎的詞語翻譯質量評估后發現,基于不同知識源的不同機器翻譯給出的參考譯文各有千秋,最重要的是它們大多沒有收錄中醫專業詞匯和術語,所以目前市面上可以用來準確、快捷查詢中醫術語的電子或在線詞典極少。因此,我們嘗試開發一款基于層級對應的中醫翻譯專用詞典。此項研究基于2017年大學生創新創業訓練計劃項目——“層級中醫漢英在線詞典”項目而展開。
一?設計與實現
1.總體設計
本項目旨在研發一款中醫漢英電子(在線)詞典,主要是將層級對應技術用于對漢英雙語術語詞條進行加工,建立一個基本語料庫,供用戶查詢常規型術語,并在此基礎上建立一個層級控制系統,再基于一定的層次規則經過短語層次分析器進行分析,從而形成一個動態語料庫,可以使基本語料庫得到擴充。如圖1所示。
2.詞典數據庫結構設計
詞典數據庫分為基本語料庫和動態語料庫。其中,基本語料庫主要由人工建立的詞庫組成。通過相關的編程技術設置標準參數,動態語料庫可把符合條件的文本自動擴充至各層級語料庫中。
3.詞典管理程序設計
運用層級對應技術可合理有序地管理基本語料庫以及不斷擴充的動態語料庫。
4.詞典檢索(查詢)方式設計
此詞典將為用戶提供多源檢索技術,即可使用多種方式進行檢索,無論用戶搜索詞級還是短語級都能夠準確無誤地檢索出相關詞條及對應譯文。
5.提取漢語和對應譯文詞條
漢語詞條和對應譯文詞條計劃從WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region(WHO版)、International Standard ChineseEnglish Basic Nomenclature of Chinese Medicine of World Federation of Chinese Medicine Societies(世中聯版)、PMPH Terms List (updated 2010-05-18)(人衛版)這三套標準中提取。從實際情況出發,本項目的詞條擬定先從PMPH Terms List (updated 2010-05-18) (人衛版)中進行提取。
6.加工詞條,建立詞庫
運用層級對應技術對所收集的漢、英詞條進行加工處理,建立詞庫。
二?層級對應技術及其在詞典編纂中的應用
李安興[5]認為:基于平行語料庫的漢英詞典編纂研究,要有所創新,就必須發揮語料庫信息存儲量大、檢索便利的優勢。為建立一個大容量的語料庫,此詞典應用了層級對應技術,來合理有序地管理基本語料庫以及不斷擴充的動態語料庫,使之呈現為動態式、增進式的模式,如圖2所示。不斷擴充的動態語料庫展示了一個具有巨大存儲量的語料庫,且使用多源檢索技術可以輕松獲得檢索結果。
用戶輸入漢語詞條,經過多源檢索可進入基本詞庫,從而輸出對應的英語詞條。這個基本詞庫基于層級結構存儲方式建立,由層級控制系統包括詞級和短語級(短語1級、短語2級、短語3級)控制,也可通過設置參數建立自動擴展系統而自動擴展詞庫,形成動態詞庫。以“人參養榮湯——Decoction of Ginseng for Nourishing Vital Energy and Ying”為例,當用戶輸入“人參”時可出現詞級“人參”或“養榮”的對應譯文“Ginseng”或“Nourishing Vital Energy and Ying”、短語1級“養榮湯”的對應譯文“Decoction for Nourishing Vital Energy and Ying”以及短語2級“人參養榮湯”的對應譯文“Decoction of Ginseng for Nourishing Vital Energy and Ying”,如圖3所示。
詞典編纂所使用的層級對應技術可追溯到Chiang[6]提出的基于層次化短語(hierarchical phrasebased)的翻譯系統模型。這種模型最大的優點在于翻譯規則能自動從雙語對齊語料獲得,不需要依賴任何語言學知識。本詞典所使用的層級對應技術就是Chiang提出的基于層次化短語的翻譯系統模型的一大體現。與層次化短語翻譯系統類似,層級對應技術指的是按照一定的規則對中醫術語雙語語料的詞條進行分級(分為詞級、短語級),經過加工處理之后可以實現雙語在各層級的對應,使用戶可以進行多源檢索從而獲得術語的對應譯文。層級對應技術的應用主要體現在層級控制系統和自動擴展系統中。
同時,本項目的詞條提取和詞庫建立的方法是受基于實例的機器翻譯方法所啟發,基于實例的機器翻譯方法是由日本學者長尾真[7](Makoto Nagao)教授于20世紀80年代提出。李沐[8]曾提到這種翻譯方法首先利用雙語對照文本自動構建知識庫或實例庫,引入單語語義詞典、雙語詞典,通過類比對源語言句子進行翻譯。無須對句子進行復雜的語言分析,可直接利用已有的翻譯實例庫。
本項目將基于實例的機器翻譯方法部分運用到此詞典的編纂過程中,但與之最大的不同是,本項目詞條的提取和加工處理是人工完成的,而不是自動構建的。其主要操作如下:先從PMPH Terms List (updated 2010-05-18)中提取漢英雙語詞條,將其輸入Microsoft Excel中,運用層級對應技術對詞條進行加工,將一個漢語詞條分為詞級、短語1級、短語2級,然后再給出對應的英語詞條(如圖3所示),之后把漢語部分和英語譯文部分分別保存為兩個.txt文件。
在此詞典的編纂過程中,我們使用基于實例的機器翻譯方法和層級結構存儲方式對詞條的詞級、短語級進行分級處理,建立一個小型的可供查詢的雙語語料庫,如圖4所示。在此基礎上,通過自主研制開發的專用詞典軟件(由Wensor聞永毅設計開發)實現詞(術語)的查詢。
三?后續工作
目前,完成了詞條的提取和加工處理,建立了一個小型的語料庫(5000詞條),成功開發出查詞的專用詞典軟件。下一步我們將在此基礎上,將互聯網技術和層級對應技術相結合,運用到中醫術語語料庫及中醫網絡詞典的構建中,將此詞典升級為網絡(在線)電子詞典。為完善和推廣本項目所研發的詞典,后續還需做以下工作:
1.詞典上線工作
與相關技術人員合作開發現有電子詞典(應用程序)的PC端和手機端軟件。
2.宣傳與推廣工作
做好宣傳與推廣工作,擴大這款詞典的使用范圍。目前這款詞典由于缺乏良好的宣傳與推廣,仍處于小范圍調試階段,尚不能大范圍進行試用。
3.詞庫擴充工作
后續還需整理其他現存雙語術語詞條,主要是兩套國際標準術語,即WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region (WHO版) 和 International Standard Chinese-English Basic Nomenclature of Chinese Medicine of World Federation of Chinese Medicine Societies (世中聯版)。這兩套標準是目前國際認可度較高的中醫術語翻譯標準。譚耿耿、方剛[9]在對中醫術語翻譯渠道評估后提出,現代術語檢索渠道的可靠性取決于術語翻譯的收集來源和翻譯技術的發展。目前,尚無線上詞典收錄兩部國際標準,為了保證此詞典的專業性、科學性、先進性,有必要把兩套國際標準納入詞庫。
4.詞庫升級工作
現存詞庫有一定的缺陷,對于一些比較長且不能分割的中醫術語的查找來說具有局限性。此外,動態語料庫的建設需要通過編程技術設置標準參數來完善。
四?結?語
此項目將層級對應技術應用到中醫漢英電子(在線)詞典的編纂中,運用層級結構存儲方式對詞條進行加工處理后,建立了詞庫(基本語料庫),并且已經研發出一款可以用來查詢中醫術語對應英文的應用軟件,下一步我們將擴大詞庫中的詞條數量,完善動態語料庫,在大量語料庫的基礎上與互聯網技術相結合,將此詞典升級為中醫網絡電子詞典。
參考文獻
[1]?紀大慶.淺論現代信息技術對語文詞典編纂的影響[J].辭書研究,1999(2):75-80.
[2]?廖海宏.試論現行漢英電子詞典的分類與性能特征[J].廣東廣播電視大學學報,2004(1):74-77.
[3]?艾山·吾買爾.多語種—多媒體電子詞典資源平臺和大型英漢維電子詞典的研究和實現[D].烏魯木齊:新疆大學碩士論文,2007.
[4]?王朝暉,余軍.基于 CAT 及語料庫技術的電子商務翻譯研究[M].廈門:廈門大學出版社,2016.
[5]?李安興.關于漢英詞典編纂方法與理論創新問題的思考[J].中國出版,2010(24):42-45.
[6]?Chiang D. Hierarchical PhraseBased Translation.[J].Computational Linguistics,2007,33(2):201-228,42-45.
[7]?Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle [M]//Readings in Machine Translation Cambridge: MIT Press, 1984:352-354.
[8]?李沐.機器翻譯[M].北京:高等教育出版社,2018.
[9]?譚耿耿,方剛.中醫名詞翻譯術語檢索渠道評估[J].傳播力研究,2019(18):205-206.