傳染病學(xué)英漢雙語平行語料庫建設(shè)初探

2020-09-14 09:54:48袁博馮倩馬晶郭龐娜郭夢遙

讀與寫·教師版 2020年7期

袁博馮倩馬晶郭龐娜郭夢遙

摘要：在全球傳染病呈上升趨勢的背景下，國際間傳染病領(lǐng)域的合作與研究顯得尤為重要。但有關(guān)傳染病學(xué)的語料庫的建設(shè)及研究在我國才剛剛起步。因此，本研究旨在豐富傳染病學(xué)雙語語料庫存在的空白，同時該庫也對“語言+醫(yī)學(xué)”的教學(xué)方向起到了輔助作用。本文主要通過傳染病學(xué)英漢雙語平行語料庫建庫基礎(chǔ)與研究背景、建庫過程、建庫意義及應(yīng)用、結(jié)語四方面來展開討論。

關(guān)鍵詞：平行語料庫建設(shè);傳染病;醫(yī)學(xué)英語

分類號：G623.31

1.建庫基礎(chǔ)與研究背景

近年來，全球傳染病呈上升趨勢。2020年初，我國迎來了一項巨大的傳染病挑戰(zhàn)，2019-nCov病毒導(dǎo)致的新型冠狀病毒肺炎在武漢迅速爆發(fā)并蔓延至全國乃至其他國家。此外，近些年爆發(fā)的由SARS、MERS和埃博拉病毒引起的傳染病也極大的危害了人們的健康。因此，國際間的傳染病防控與研究就顯得尤為重要。傳染病學(xué)平行語料庫在醫(yī)學(xué)相關(guān)領(lǐng)域的科學(xué)研究及教學(xué)中可以起到重要作用。

通過語料庫進行語言研究的方式得到了國際社會的廣泛認(rèn)可。語料庫已逐漸運用于學(xué)科教學(xué)及語言教學(xué)等多個領(lǐng)域。語料庫主要指經(jīng)科學(xué)取樣和加工的大規(guī)模電子文本庫，借助語料分析工具，研究者能夠開展相關(guān)的語言理論及語言應(yīng)用研究。同時，語料庫的類型也多種多樣，根據(jù)不同的研究目的，語料庫可以劃分為通用語料庫和專用語料庫。通用語料庫主要針對一般性語料庫研究，例如：人民日報分詞語料庫（NEPD）、英國國家語料庫（BNC）等;而專用語料庫則是針對某一特定專業(yè)領(lǐng)域的語言的研究，例如：中國傳媒大學(xué)的媒體語言語料庫（MLC）和本研究涉及的傳染病學(xué)語料庫等。按照語料的語種，語料庫也可以分成單語語料庫、雙語語料庫和多語語料庫。按照語料的組織形式，雙語語料庫可分為平行語料庫和可比語料庫，前者是指原文文本及其平行對應(yīng)的譯語文本構(gòu)成的雙語語料庫，相互間存在“翻譯關(guān)系”;后者收集的文本是由不同語言的文本或同一種語言不同變體的文本所構(gòu)成的兩個或兩個以上的語料庫。針對同一主題，如學(xué)習(xí)者產(chǎn)出的語言與本族語者產(chǎn)生的語言，但相互之間不存在直接的“翻譯關(guān)系”。其中雙語平行語料庫是探索同一內(nèi)容如何用兩種語言表達(dá)的語料庫，它是一種能將源語言文本和其譯語文本進行全文檢索并對照顯示的語料庫，可用于譯文比較、翻譯教學(xué)等多個領(lǐng)域。

本研究基于國內(nèi)外權(quán)威醫(yī)學(xué)網(wǎng)站和圖書資源，經(jīng)過整合編輯處理，旨在建立一個適應(yīng)傳染病學(xué)研究和醫(yī)學(xué)英語及翻譯教學(xué)需求的傳染病學(xué)英漢雙語平行語料庫。

2.傳染病學(xué)英漢雙語平行語料庫的建設(shè)意義

2.1語料庫與翻譯研究

語料庫在翻譯領(lǐng)域的應(yīng)用程度不言而喻，傳染病學(xué)英漢雙語平行語料庫的建成會方便譯員進行傳染病學(xué)對語言會議的譯前準(zhǔn)備工作，同時也會對有關(guān)醫(yī)學(xué)文獻(xiàn)和新聞的筆譯工作者提供相當(dāng)程度的便利。此外，在翻譯研究領(lǐng)域，本庫也能夠滿足譯員“語言+專業(yè)背景”的現(xiàn)實需求，準(zhǔn)譯員對專業(yè)雙語語料庫的大量輸入，其專業(yè)語言的轉(zhuǎn)換意識也會得到質(zhì)的飛躍，成為具有扎實專業(yè)背景的翻譯技術(shù)人才，以適應(yīng)未來的專業(yè)翻譯環(huán)境。

2.2語料庫與教學(xué)

在北華大學(xué)，醫(yī)學(xué)英語的教學(xué)及MBBS培訓(xùn)得到了醫(yī)學(xué)院老師們的重視。傳染病學(xué)英漢雙語平行語料庫為原始的課堂提供了新的教學(xué)方向。基于真實應(yīng)用場景而產(chǎn)生的語料庫，為醫(yī)學(xué)英語教學(xué)提供了切實可行的語言事實。并在一定程度上能夠?qū)魅静W(xué)教材的編寫起到輔助作用。

近年來ESP（專門用途英語）課程改革正在一步一步地推進中，教師可通過本庫創(chuàng)新傳染病學(xué)科英語的詞匯課和寫作課教學(xué)模式，以詞為“點”進行檢索，展開語“面”，根據(jù)詞頻使用和搭配頻率，拓展相關(guān)詞匯和表達(dá)，也能作為診斷式語言教學(xué)提供系統(tǒng)而準(zhǔn)確的依據(jù)，為專用英語教學(xué)課堂提供新的路徑。ESP課程教學(xué)借助語料庫的功能，通過工具的索引、詞表和搭配查詢?nèi)蠡竟δ埽詳?shù)據(jù)支撐的形式提供給學(xué)生具有代表性、針對性的教學(xué)素材。

3.語料庫的建設(shè)過程

傳染病學(xué)英漢雙語平行語料庫的建設(shè)總原則是建立一個能夠比較全面反映傳染病學(xué)英漢雙語語言事實的語料庫。因此，本語料庫建庫過程分為以下三個步驟：選擇語料、采集加工語料、語料勘誤及檢索語料、最后將加工好的語料導(dǎo)入以形成語料庫。

3.1選擇語料

在建設(shè)的前期要充分考慮語料庫的抽樣原則，即什么樣的語料方為有效語料。此外還要考慮到如何保證樣本分布均衡，要兼顧文體特點、時間跨度、語料屬性是否全面等問題，從而使該語料庫盡可能具有代表性和可用性。[2] 語料也要有合理的數(shù)量比例，要如實反映近年來傳染病領(lǐng)域英語的橫向和縱向發(fā)展趨勢。[3]所以，選擇語料是決定一個語料庫是否有意義，建成后能否達(dá)到預(yù)期應(yīng)用方向的根本步驟。

因此，語料的選擇范圍被鎖定在包括國內(nèi)外醫(yī)學(xué)科技類網(wǎng)站、WHO官網(wǎng)、國外傳染病學(xué)期刊（如：《柳葉刀》（LANCET）、《傳染病》（Infectious Diseases）等）、國內(nèi)外傳染病學(xué)專業(yè)書目（如：《醫(yī)院感染學(xué)》、《傳染病百科全書》（Encyclopedia of Infectious Diseases）、《傳染病學(xué)原理與實踐》（Principles and Practice of Infectious Diseases）等）以及高校醫(yī)學(xué)專業(yè)部分教材在內(nèi)的專業(yè)資料。本研究選取的語料來源均為醫(yī)學(xué)學(xué)科的重要文獻(xiàn)和資料，語料來源經(jīng)過學(xué)界專家編輯校正，可確保準(zhǔn)確無誤、專業(yè)性強。

3.2采集加工語料

（1）語料的采集與降噪

在采集語料的過程中會遇到一些難以提取處理的語料來源，對于不同的語料來源，本研究也采用了不同的提取方式。

對于來源為紙質(zhì)材料的語料（下稱紙質(zhì)語料），先掃描所有紙質(zhì)材料為PDF格式，然后將其轉(zhuǎn)化為可編輯的TXT文檔。對于紙質(zhì)語料，文檔的可編輯轉(zhuǎn)化只能通過OCR進行識別，但此方法適用于文本較少，頁面較小的語料來源，因為OCR識別需要依賴于手機或電腦等電子設(shè)備，受屏幕大小的限制，導(dǎo)致OCR的識別區(qū)域有限、識別的清晰度閾值較大。除上述限制，紙質(zhì)語料還存在一個弊端，就是要保證掃描清晰度可使識別工具閱讀，得到足夠清晰的PDF是后續(xù)步驟開展的關(guān)鍵。

相較于紙質(zhì)語料，來自于PDF格式或Word文檔的語料可以直接采用文檔轉(zhuǎn)換進行采集，一種是通過文檔轉(zhuǎn)換器轉(zhuǎn)化，然后經(jīng)過人工降噪，即對轉(zhuǎn)化后的Word文本進行再加工，刪除其中存在的背景、圖表、空行和附錄等對語料庫意義不大的內(nèi)容，使文本內(nèi)容更加規(guī)范，格式保持一致。此方式比紙質(zhì)語料采集容易很多，也會大大提高語料的采集效率，但也偶然存在亂碼和信息缺失等情況。

因此，本研究采用了上述兩種方式結(jié)合的方法進行語料采集，保證了兩者的互補性，也使得語料來源具有豐富性，更加符合建庫原則。

（2）語料的對齊與賦碼

在語料的加工處理過程中，對齊與賦碼是決定語料在具體應(yīng)用中能否呈現(xiàn)語言事實的關(guān)鍵。對齊后的語料擁有更強的直觀性，在實際應(yīng)用中會達(dá)到事半功倍的效果。

筆者項目組先后試用Trados，ABBYYAligner和雪人CAT進行雙語對齊處理，但效果均不盡人意。經(jīng)過多方比較，最終采取“Transmate+Xbench”模式，雖然處理方法較為繁瑣，但處理質(zhì)量高、效果好。

首先，將采集到的“生語料”導(dǎo)入Transmate進行自動對齊。但計算機的自動識別會存在無法避免的錯誤及亂碼情況，這時就需要將自動識別出現(xiàn)的竄行以及語義緊密段的錯誤合并和分離等情況進行人工干預(yù)，經(jīng)過手動處理的語料得到了進一步的美化，符合了對齊的標(biāo)準(zhǔn)。再將全部處理好的語料導(dǎo)出為tmx格式，然后用Xbench將tmx格式的語料轉(zhuǎn)碼為txt格式，然后按語料的分類建立文件夾分別保存。

對齊之后就要對語料賦碼，賦碼后的語料擁有了更多的語言信息，更廣的應(yīng)用范圍和更高的使用價值。賦碼語料庫主要有三種賦碼形式：詞性碼、語法碼和句法碼。本研究主要賦予詞性碼，并采用學(xué)屆上接受度較高，實際應(yīng)用效果好的Treetagger軟件進行賦碼。賦碼后的語料由“生語料”變成了“熟語料”（也稱賦碼語料），熟語料可以通過Keywords Plus等軟件進行語料分析等方向。

3.3語料刪重及語料檢索

借助Ultraedit和Editplus文本處理器對文本進行整理，利用正則表達(dá)刪去重復(fù)語料，再進行人工復(fù)核，做好重復(fù)語料的清理工作。至此，得到的熟語料就可以用于檢索，進行實際應(yīng)用。

本研究通過對比試用BFSU_Paraconc、CUC_Paraconc和SADU_ParaConc三款平行語料庫檢索軟件，發(fā)現(xiàn)本庫更加適合后兩者進行檢索，其優(yōu)點如下：支持單文檔雙語語料檢索可自動識別雙語保存在單文件中的對齊形式，支持多種編碼的純文本語料檢索。經(jīng)過試用，本語料庫可以通過檢索，快速分析單詞使用場景，例如在遇到“epidemic”這個詞的時候，通過查詢，可得到圖1，2所示結(jié)果，因篇幅所限，僅列舉部分作為舉例。

4.結(jié)語

在人們開始發(fā)現(xiàn)語料庫對語言研究的重要性后，語料庫研究在中國已經(jīng)有了很大的進步。與此同時，也難免存在一些問題，比如：語料庫的重復(fù)性問題、語料庫共享化問題等依然亟待解決、針對個別領(lǐng)域（如醫(yī)學(xué)），國內(nèi)的語料庫資源還比較貧乏，在細(xì)化的傳染病領(lǐng)域更是少之又少。因此，如何讓將傳染病學(xué)與語料庫技術(shù)結(jié)合是本研究重點解決的任務(wù)，也希望本語料庫的建成能夠滿足翻譯研究和醫(yī)學(xué)英語教學(xué)需要，真正發(fā)揮現(xiàn)實作用。

參考文獻(xiàn)

[1] Hardie Andrew Lars Borin （ed）. 2002. Parallel corpora， parallel worlds. Selected papers from a symposium on parallel and comparable corpora at Uppsala University， Sweden， 22–23 April， 1999. Languages in Contrast. International Journal for Contrastive Linguistics，2005，5（2）

[2] 王連柱.醫(yī)學(xué)英語語料庫的建庫原則探析[J].新鄉(xiāng)學(xué)院學(xué)報（社會科學(xué)版），2009，23（04）：131-132.

[3] 章國英.專門用途醫(yī)學(xué)英語語料庫構(gòu)建的意義及實踐[J].中國醫(yī)學(xué)教育技術(shù)，2014，28（02）：146-149.

[4] 施稱，章國英.醫(yī)學(xué)英語語料庫在ESP課程改革中的應(yīng)用[J].西北醫(yī)學(xué)教育，2015，23（01）：129-132.

該文為2019年北華大學(xué)外國語學(xué)院國家級大學(xué)生創(chuàng)新創(chuàng)業(yè)項目【醫(yī)學(xué)傳染病學(xué)英漢雙語平行語料庫建設(shè)】（項目號：201910201024）的階段性研究成果。