999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向計算機輔助翻譯的民航規章術語庫詞性規則研究

2022-04-02 13:03:44王坤
中國科技術語 2022年2期

摘 要:當前主流計算機輔助翻譯系統(CAT)借助翻譯記憶(TM)和術語庫(TB)提高翻譯效率。翻譯記憶以自然句為主要匹配單位,需要整句相似或重復,匹配難度大。與之相比,術語庫以詞塊為匹配單位,較為靈活,可彌補翻譯記憶的缺陷。術語庫的構建涉及術語自動提取,需要參考特定文本類型中高頻語塊的詞性規則。文章使用n-gram提取英語民航規章文本的復現語塊,探究不同詞項長度和復現頻數下高頻語塊的詞性組合特征;并將其與文學文本進行對比。研究發現,在英語民航規章文本中,適用于計算機輔助翻譯系統術語庫的復現語塊以名詞短語為主,與文學文本存在顯著差異。

關鍵詞:計算機輔助翻譯;術語庫;n-gram;民航規章

中圖分類號:F562; N04; D993.4 ?文獻標識碼:A ?DOI:10.12339/j.issn.1673-8578.2022.02.009

Abstract: Most of the current CAT systems leverage Translation Memory (TM) and Termbase(TB) to enhance efficiency of translation. With respect to TM, due to its limitations in practice, whole sentence repetition often should be complemented by translation termbase, which is more flexible in use. Building a termbase requires the automatic extraction of terms, which demands knowledge of its POS (part of speech) configuration in the specific text typology. With corpus tools, we extracted n-grams of certain length and frequency from Civil Aviation Regulations in the US and examined the POS configuration of those recurrent chunks, followed by a contrast with that of literary texts. The study shows a dominance of NP and PP in recurrent chunks suitable for CAT termbase in those Civil Aviation Regulations, different from the result in literary texts.

Keywords: Computer Aided Translation(CAT); termbase; n-gram; civil aviation regulations

收稿日期:2021-10-12 ?修回日期:2022-03-08

基金項目:中國民航大學中央高校基金項目“英漢翻譯中的透明話語策略研究”(3122018R010)

引言

翻譯記憶(TM)和術語庫(TB)是計算機輔助翻譯系統(CAT)的重要組成部分。所謂翻譯記憶,是指把人工翻譯的源語和目的語語段經過雙語匹配后儲存在數據庫中,供翻譯者反復調用[1]。其基本原理是將基于特定語言單位的原文和譯文以一對一的方式存儲起來,并在下次翻譯到相同或相似的句子時自動予以提示。當前市場上的機助翻譯軟件中,以自然句為單位的翻譯記憶占據主流地位[2]。但在實踐中,翻譯記憶系統暴露出諸多缺陷。伯克爾(Bowker)指出,實際翻譯工作中,整句相似或重復的情況限于表格、說明書等具有內部重復特征的文本[3]。于是,作為翻譯記憶的補充,大多數輔助翻譯系統設有術語查詢功能。翻譯公司如果能夠有效提取、處理、翻譯和利用術語,可以彌補翻譯記憶的不足,節省商業翻譯的時間并降低成本[4]。

揭春雨等建議把術語定義為“專門用途語言中專業知識的語言表達”,把傳統定義中的名詞或名詞詞組擴充到專業知識所有可能形式的語言表達[5]。根據這一定義,術語非但包括形容詞、副詞等不同詞性,還可以包括短語、小句等不同結構層次。而在面向計算機輔助翻譯時,“術語”的定義還需進一步擴展。在翻譯實踐中,對于經常出現的詞,無論該詞是否屬于傳統意義上的術語,譯者都需要保持翻譯的一致性。因此,有學者提出,在計算機輔助翻譯的術語庫構建中,頻率應該成為術語界定的重要因素[4]。目前國內外有許多學者在此基礎上探索術語自動提取的方法。希瑪德和朗格萊(Simard & Langlais)在實驗中嘗試使用基于語言分析的語塊提高匹配精度和字段的復現頻率[6]。克羅米諾斯(Colominas)借助Phrase Tagger工具,從語料庫中提取名詞短語語塊(NP chunks),分析其復現頻率和可用性[7]。黃政豪和崔榮一嘗試構建基于詞性組合的術語抽取規則,并提出抽取規則是根據特定領域語料制定的,不同領域之間無法直接適用[8]。基于以上成果,本研究旨在分析民航規章中復現語塊的詞性組合特征,為民航規章領域的機助翻譯術語庫建設貢獻力量。

1 研究方法

1.1 研究設計

在民航翻譯實踐中發現,民航規章文本中適用于機助翻譯的翻譯術語以名詞短語為主,動詞短語、介詞短語等其他語塊所占比例較小。首先,為了對此經驗進行驗證,本研究選取一組民航法規文本,考察高頻語塊中各詞性組合所占比例。其次,為了更加深入地理解民航規章文本的特性,又選取一組文學文本,分析并對比兩類文本中高頻語塊詞性組合的差異。具體考察方法如下:首先使用語料庫工具AntConc從目標文本中提取n-gram復現語塊,隨后用Stanford Parser進行自動語法分析,繼而進行人工核查和標注,結合定性和定量分析,考察復現語塊的詞性組合特征。由于實驗結果可能受到復現頻數和詞項長度兩個變量的影響,我們先使用固定頻數,考察詞項長度對詞性組合的影響;再使用固定長度,考察不同頻數的影響。gzslib202204031303

1.2 文本材料和研究步驟

選取3個民航法規文本,均出自美國民用航空規章:

(1)A Report from the PED ARC to the FAA: Recommendations on Expanding the Use of Portable Electronic Devices During Flight;

(2)FAA Compliance and Enforcement Program (Order 2150.3b);

(3)14 CFR (Part 91): General Operating and Flight Rules。

文本(1)是咨詢委員會提交給美國聯邦航空局(FAA)的關于機上便攜式電子設備使用的技術性文本,包含較多通信領域和民航領域的術語;文本(2)是美國聯邦航空局執法政策文件,包含較多的法律和民航術語;文本(3)是美國聯邦法規(CFR)中針對民用航空的一般飛行規則,與前兩個文本相比,技術性和法律性較弱。從文本(1)中選取了全文,從文本(2)中選取從目錄到第6章第20條,從文本(3)中節選§91.1~§91.1055,并對所有文本去除圖片和表格,保留目錄、圖片、表格的文字部分,處理為純文本格式。三個文本的長度均為60 000詞左右。

文本預處理完成后,用AntConc提取n-gram復現語塊,首先將復現頻數設置為大于等于20,長度分別設置為2、3、4,得到9組數據,對每組數據進行語法標記和對比分析,以考察詞項長度變化對詞性組合特征的影響。然后,以文本(3)為對象,從中分別提取長度為3,頻數大于等于5、小于10的復現語塊和頻數大于等于10、小于20的復現語塊,將其與頻數大于等于20的復現數位進行比較,考察不同頻數對詞性組合特征的影響。

語法特征的標記采用人工和機器相結合的方法。首先借助Stanford Parser進行初步語法標記,隨后參照語境逐一人工檢查。由于復現語塊中存在大量不構成完整語法結構的語言片段,我們將其標記為FRAG,采用以下兩個標準進行認定:

①是否構成更大的復現語塊;

②是否構成完整語義。

第一條標準針對存在包含關系的復現語塊,表1是從文本(1)中提取出來的一組復現語塊。

在這組復現語塊中,第1行以下的各行都包含在首行之中,且除第4行,其余各行復現頻數相同。翻譯實踐中應采取頻數相同時長度最大的復現語塊,因此我們把第2、3、5、6列標注為FRAG。第二條標準的設定是考慮到翻譯實踐的需要,只有構成完整語義的單位才可以構成可用的翻譯術語,提升翻譯效率。

2 研究結果

2.1 民航文本復現語塊的詞性組合特征

研究表明,復現語塊的詞性組合方式包括名詞短語、動詞短語、主謂結構、動賓結構、介詞短語等。其中數量最多的是名詞短語、介詞短語和主謂結構3類,我們分別標記為NP、PP和NV;數量較少有動詞短語、限定詞短語(QP)等詞性組合方式,標記為OTHERS;還有為數不少的復現語塊并不能構成完整的語法結構,如of the,that the,recommendation the arc等,標記為FRAG。

文本(1)中復現頻數大于等于20,長度為2、3、4的單位,分別有210、56和34個,語法結構分布如圖1。

詞項長度為2時,名詞短語占比28.57%;為3時,占比約41.00%;為4時,占比17.65%。一方面,半數以上的復現語塊不構成完整的語法結構,而其余部分的絕大多數為名詞短語,介詞短語、主謂結構次之。另一方面,隨著詞項長度的增加,復現語塊的總量大幅減少,名詞短語仍占絕對多數,同時主謂結構占比略有增加。總起來說,詞項較短時,名詞短語構成可用術語的絕大多數;詞項較長時,名詞短語和主謂結構共同構成可用術語的主要部分,但占比都較小。定性分析發現,由于文本(1)屬于機上便攜式電子設備使用的技術性文本,所以復現語塊中的可用翻譯術語多為名詞性技術術語,如consumer electronics association、safety risk assessment等。

對文本(2)分析結果如圖2。

文本(2)復現語塊中,長度為2、3、4的分別有304、72和15個;名詞短語分別占比35.20%、50.00%和33.33%。對比圖1和圖2可見,與文本(1)相同,復現語塊中數量最多的是零散的語言片段,其次是名詞短語;可用翻譯術語同樣以名詞短語為主。而與文本(1)不同的是,文本(2)中詞項長度為4時,介詞短語較多。通過定性分析可以發現,這些介詞短語包括in the EIR,in Chapter x Subparagraph x,under U.S.C,under C.F.R.等,多為法律文本特有的高頻語塊。由于文本(2)涉及聯邦航空局對行政相對人違規違法行為的處理辦法,因此法律術語較多。

對文本(3)的分析結果如圖3。

文本(3)復現語塊中,長度為2、3、4的分別有361、132和53個;名詞短語分別占比25.21%、12.12%和15.09%。比較圖3與圖1、圖2可知,文本(3)復現語塊中零散片段所占比例明顯高于前兩個文本。此外,文本(1)、(2)中詞項長度為3時名詞短語占比最大,而文本(3)中詞項長度為2時名詞短語更多。定性分析發現,這些長度為2的名詞短語多由冠詞和普通名詞組成,在機助翻譯中對提高翻譯效率作用有限。總體看來,文本(3)中的高頻語塊對機助翻譯的適用性較差。由于文本(3)屬于針對民用航空的一般飛行規則,面向從事民用航空飛行活動的廣泛人員,因此與前兩個文本相比,術語所占比例稍低。但是,從詞性組合角度看,可用翻譯術語依然以名詞短語為主。

接下來,為了考察不同頻數對詞性組合特征的影響,以文本(3)為研究材料,以3為固定詞項長度,依次提取頻數大于等于5、小于10的復現語塊,頻數大于等于10、小于20的復現語塊,和頻數大于等于20的語塊。在文本相同,詞項長度都為3的情況下,不同頻數復現語塊中各詞性組合的比例如圖4所示。gzslib202204031303

文本(3)中詞項長度為3,頻數大于等于5、小于10的復現語塊共1073個,其中名詞短語139個,占比12.95%;頻數大于等于10、小于20的復現語塊共351個,名詞短語54個,占比15.38%;頻數大于等于20的復現語塊共132個,名詞短語16個,占比12.12%。由圖4可見,隨著頻數的增加,語言片段所占比例略有下降,介詞短語和主謂結構所占比例逐漸增加。這說明高頻復現語塊構成完整語法單位的傾向更強。同時,復現語塊的頻數對于各詞性組合所占比例沒有造成顯著差異,名詞短語始終構成了可用翻譯術語的最大部分,在復現詞塊中所占比例維持在12%~16%之間。

2.2 民航與文學文本比較

為了加深對民航英語文本復現語塊詞性組合特征的認識,我們選取了兩個文學文本進行對比研究,分別是夏洛特·勃朗特(Charlotte Bront)的《簡愛》(節選前60 000詞)和喬治·奧威爾(George Orwell)的《1984》(節選前60 000詞)。我們分別提取長度為2、3、4,頻數大于等于20的復現語塊,所獲得的復現語塊總數普遍低于民航文本,如圖5。

我們對長度為2的復現語塊進行語法標注,并統計各詞性組合所占比例。《簡愛》中,長度為2的復現語塊共233個,其中占比最高的仍是FRAG結構(70%),其次是主謂結構(19%),再次是名詞短語(11%)。如圖6所示:

對提取的名詞短語和主謂結構進一步分析發現,25個名詞短語中,10個為人名,其余15個見表2。

表2中列出的名詞短語,雖然屬于高頻復現語塊,但在機助翻譯實踐中沒有太多意義。主謂結構同樣不適用于機助翻譯。45個主謂結構皆是以人稱代詞和there開頭的簡單語言單位,如he had,there were。

相似的特征也體現在《1984》的復現語塊中。其中長度為2的復現語塊共255個,占比最高的同樣是FRAG結構(73%),其次是主謂結構(14%),再次是名詞短語(13%)。如圖7所示。

與《簡愛》相比,《1984》提取的33個名詞短語中人名只有1個,但其余名詞短語同樣以冠詞、物主代詞加普通名詞為主,機助翻譯的適用性仍然不高。《1984》中的35個主謂結構同樣是以人稱代詞和there開頭,不適用于機助翻譯。

對比這兩個文學文本和民航文本可以發現,文學文本的復現語塊整體上數量少、長度短,機助翻譯的適用性差。雖然兩類文本中,零散片段都占據了復現語塊的最大比例,但除零散片段之外,名詞短語在民航文本中占優勢,主謂結構在文學文本中占優勢。

3 結語

通過分析民航規章文本中復現語塊的詞性組合特征,可以發現,民航規章文本中適用于機助翻譯術語庫的復現語塊以名詞短語為主。復現語塊中占比最大的為零散語言片段,其次為名詞短語,再次為主謂結構和介詞短語。由于介詞短語也由名詞短語加介詞構成,因此在術語庫構建的語塊提取過程中,可以將其納入名詞短語的詞性規則模板。本研究可以為民航規章文本中翻譯術語的提取、篩選規則的確立打下基礎,為構建適用于民航規章的機助翻譯術語庫提供幫助。

參考文獻

[1]HAROLD S. Computers and Translation[M]. Amsterdam: John Benjamins Publishing Company, 2003:1.

[2]王正.翻譯記憶系統的語境觀[J].上海翻譯, 2013(1): 69-72.

[3]BOWKER L. Computer-aided Translation Technology: A Practical Introduction[M]. Ottawa: University of Ottawa Press, 2002:93.

[4]沃伯頓. 面向翻譯管道的術語加工[J]. 宋楠楠,朱波,譯.中國科技術語,2019,21(5): 16-21.

[5]揭春雨,馮志偉.基于知識本體的術語定義(下)[J].術語標準化與信息技術,2009(3):14-23.

[6]SIMARD ?M,LANGLAIS P. Sub-sentential exploitation of translation memories[C]//Proceedings of the Machine Translation Summit VIII,Santiago De Compostela, Spain, 2001: 335-340.

[7]COLOMINAS C. Towards Chunk-based Translation Memories[J]. Babel: Revue Internationale de la Traduction, 2008, 54(4): 343-354.

[8]黃政豪,崔榮一.基于術語自動抽取的科技文獻翻譯輔助系統的設計[J].延邊大學學報(自然科學版),2017,43(3): 259-263.

主站蜘蛛池模板: 久久国产亚洲偷自| 国产午夜人做人免费视频中文 | 国产精品亚洲欧美日韩久久| 欧美另类第一页| 国产精品99r8在线观看| 欧美一区二区三区香蕉视| 国产一级妓女av网站| 精品色综合| 全午夜免费一级毛片| 亚洲精品国产综合99| 亚洲精品自在线拍| 久久精品无码国产一区二区三区| 99re在线观看视频| 久久综合丝袜日本网| 日日拍夜夜操| 国产视频你懂得| 久久99国产精品成人欧美| 久青草免费视频| 国产人人射| 国产精品福利一区二区久久| 波多野衣结在线精品二区| 国产在线精彩视频论坛| 国产午夜福利在线小视频| 97人妻精品专区久久久久| 园内精品自拍视频在线播放| 狠狠色丁婷婷综合久久| 欧美亚洲日韩不卡在线在线观看| 亚洲a免费| 国产00高中生在线播放| 久久无码av一区二区三区| 久久这里只精品国产99热8| 婷婷六月色| 国产成人亚洲毛片| 欧美.成人.综合在线| 日韩欧美亚洲国产成人综合| 免费看一级毛片波多结衣| 91外围女在线观看| 亚洲av无码人妻| 黄色网站不卡无码| 国产原创演绎剧情有字幕的| 情侣午夜国产在线一区无码| 免费国产在线精品一区| 毛片视频网| 久草视频中文| 国产综合日韩另类一区二区| 国产极品美女在线| 人妻丰满熟妇AV无码区| www成人国产在线观看网站| 免费jizz在线播放| 国产亚洲欧美在线中文bt天堂| 中国国语毛片免费观看视频| 91久久大香线蕉| 美女亚洲一区| 国产原创自拍不卡第一页| 毛片一级在线| 亚洲中文字幕手机在线第一页| 欧美精品在线免费| 在线播放精品一区二区啪视频 | 最新痴汉在线无码AV| 国产在线观看第二页| 国产精品污污在线观看网站| 最新亚洲av女人的天堂| 久久国产乱子| 日韩无码精品人妻| 手机在线看片不卡中文字幕| 在线观看国产精美视频| 欧美一区二区精品久久久| 99er精品视频| 中文字幕亚洲电影| 毛片网站在线播放| 亚洲免费毛片| 日本不卡在线播放| 亚洲精品无码av中文字幕| 男女性午夜福利网站| 亚洲综合网在线观看| 91精品专区| 好吊妞欧美视频免费| 毛片久久久| 久久永久免费人妻精品| 不卡视频国产| 中文字幕日韩丝袜一区| 欧美亚洲中文精品三区|