999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的陜西旅游文化法英翻譯資源庫構建方法

2021-12-23 12:24:50王玉
微型電腦應用 2021年12期
關鍵詞:分類文本旅游

王玉

(咸陽師范學院 外國語學院,陜西 咸陽 712000)

0 引言

語言溝通是人類交流的主要方式,但是各個國家和地區都有其當地語言風俗,這些差異導致旅游文化對外輸出[1]遇到了巨大的阻礙。翻譯是打破這個阻礙最有效的途徑,但是這不僅要求翻譯人員具備專業的翻譯知識,還需對當地旅游文化資源具有一定的了解,否則就會出現景點介紹不到位、文化現象翻譯得不夠傳神等現象。在當今信息快速發展的時代,人工翻譯顯然不能滿足社會發展的需求,相關學者開始研究利用機器翻譯替代人工翻譯,于是構建關于旅游文化的翻譯資源庫,整合經過系統處理的高質量的翻譯資源[2],如李華勇[3]重點研究了翻譯漢語語料庫TED-CN中構筑的語義韻與其在原創漢語語料庫BJKY中構筑的語義韻存在顯著性差異,為提高翻譯質量提供了參考;嚴世蕓等[4]構建中醫藥現代知識體系,確定中醫藥名詞術語內涵,以推動實現中醫藥的現代化與對外傳播。國外學者提出了一種將連續詞嵌入與深度學習相結合的并行句子生成方法[5]。引入跨語言語義誘導雙語信號,實驗表明,對于低資源語言,在缺乏外部資源的情況下,可以取得較好的翻譯效果。

陜西西安作為六朝古都和世界四大古都之一,鐘樓、雁塔、兵馬俑、華清池等我國優秀歷史文化,高度體現了我國古代勞動人民的智慧;關中盆地地勢平坦、土質肥沃、水源豐富,號稱“八百里秦川”。隨著我國對外開放的不斷推進,這些優秀的旅游資源也要適應跨地區、跨國家的需求。本研究在機器學習的基礎上,提出了陜西旅游文化法英翻譯資源庫構建方法。根據對資源庫的設計要求和應用目標分析,明確了資源庫的總體架構和功能架構。通過構建資源訓練集,為后續進行分類計算提供數據輸入,利用樸素貝葉斯分類算法對資源訓練集進行分類計算,找出概率值最大的資源文本,并根據機器學習過程,完成對資源庫中資源的補充和完善,由此完成資源庫的構建。通過性能測試結果表明,本研究所設計方法可保證翻譯的準確性和流暢性,對于旅游文化翻譯工作具有較高的參考依據。

1 構建陜西旅游文化法英翻譯資源庫

基于機器學習的法英翻譯資源庫,是在機器學習的基礎上,利用自學習特性不斷分類處理資源,確保資源庫具有極高的分類準確性。完善包含法英雙語分詞系統、機器自學習過程、資源訓練集和詞庫的分布式并行計算等主要部分的資源庫。

1.1 旅游文化法英翻譯資源庫構建需求分析

旅游是一種特殊的跨文化交際類型。這項工作的主題是譯者為了達到成功的交際而被要求進行的干預程度。他們的任務不是展示他們在特定主題上的知識,而是展示他們的調節能力,從而使之適用于與原著所針對的類型必然不同的旅游者。因此,翻譯人員應該學會為旅游者提供足夠的信息。同時譯者在語言和解釋層面的決定在一定程度上會讓讀者參與其中,從而影響旅游目的地的推廣。國際外宣翻譯工作在城市對外旅游宣傳中起著非常重要的作用。但是目前對法英翻譯資源庫中資源分類方案和資源分類訓練集的研究較少[6],本研究基于文本分類的思想,將機器學習和樸素貝葉斯分類算法結合起來建立了資源分類系統。與文本分類思想不同的是,由于旅游文化的翻譯具有不確定性、復雜性和多變性,這使得本研究構建的分類系統應具備更強大的分類性能、自學習性能和過濾性能,以便更好地適應復雜多變的翻譯內容。

為了資源庫的穩定運行,本研究設計的資源庫隸屬于分布式并行環境。該環境采用分布式并行計算框架DaSyx,該框架具備較高的計算性能,為資源庫的穩定運行提供了強有力的保障。

1.2 法英資源庫架構

從對法英資源庫的設計目標分析,將資源庫的總體架構分為預處理模塊、樸素貝葉斯分類模塊、機器學習模塊、資源訓練模塊、DaSyx框架模塊和日志服務模塊??傮w架構構成如圖1所示。

圖1 法英翻譯資源庫框架構成

DaSyx框架在法英資源庫中的主要功能是為資源庫提供分布式并行計算服務,確保資源庫可以高效、穩定地運行。

從法英資源庫的應用目標分析,資源庫的功能架構主要由機器學習系統、資源訓練集、法英分詞系統和樸素貝葉斯分類器4個部分組成。運作流程為法英資源庫獲取到待分類文本[7]后,首先通過法英分詞系統對文本信息進行分詞操作,并將無用信息濾除掉,完成分詞后將結果傳送至樸素貝葉斯分類器中;分類器通過文本訓練集計算出文本信息的概率值,并將結果按照從大到小的順序分類,匹配出最大概率值所屬的資源類型;完成匹配后的結果集通過機器學習系統與初始訓練集結合,共同對文本的字詞結構和特征權重不斷進行優化更新,以保證翻譯的準確度。資源庫的功能架構如圖2所示。

圖2 翻譯資源庫功能架構

將資源訓練集分為n個初始化資源,并以文件夾的形式存儲,每個文件夾中包含所屬該類型的資源文本。不僅如此,資源訓練集中還包含著分類計算所匹配的文本信息和計算結果[8],當達到觸發器設定的閾值標準后則啟動機器學習系統,進入自學習過程。完成自學習后,評估系統自動對自學習結果進行測試評估,只有通過測試后才能被永久保存在初始集中。

1.3 構建法英資源訓練集

法英資源訓練集主要包含初始集和擴展集[9]兩部分。初始集為初始資源類別,擴展集為擴展的資源類別。初始集通過機器學習不斷執行自學習過程,進行資源的優化和完善,初始集主要用于資源匹配中。擴展集是初始集的進一步完善和補充,主要對未定義的資源類別[10]進行資源擴展。

法英資源類別由多個資源文本構成,這些資源文本又同時構成了資源訓練集,具體如圖3所示。

圖3 資源訓練集的構成

資源訓練集中資源文本均以結構化的方式直接存儲在系統硬盤上,使用時直接調用即可。

1.4 基于樸素貝葉斯算法的分類運算

樸素貝葉斯分類器是在樸素貝葉斯公式的基礎上實現的分類運算。假設資源庫獲取的待分類文本屬性為X,用特征向量將其表示為X(X1,X2,X3,…,Xj);假設類別集合為S,已定義的類別集合為Si,用特征向量將其表示為S(S1,S2,S3,…,Si)。把X和Si的特征向量共同輸入樸素貝葉斯分類器中,計算過程如式(1)。

(1)

式中,P(Si|X)表示X屬于Si的概率值;P(X|Si)表示如果X不屬于Si,Si中包含X的概率;P(Si)表示X屬于Si的概率值;P(S)表示所有給定資源類別的聯合概率值。

根據式(1)中S的定義計算,可知屬于該資源類別的P(S)值為一個固定值,求解資源類別的過程就是求解max(P1,P2,P3,…,Pt)的過程,由此可將式(1)簡化為式(2)。

max[P(Si|X)]=max[P(X|Si)×P(Si)]

(2)

又因樸素貝葉斯分類算法獨特的“樸素性”,其特征向量X(X1,X2,X3,…,Xj)均可為獨立存在的狀態,可以將概率計算轉換為對每個文本屬性特征概率分布的乘積計算,如式(3)。

P(X|Si)=∏P(Xj|Si)

(3)

因此有式(4)。

max[P(Si|X)]=max[∏P(Xj|Si)×P(Si)]

(4)

式(4)為樸素貝葉斯分類算法的分類函數原型,在計算過程中,P(Xj|Si)和P(Si)均為未知數,不能直接應用在文本屬性計算中,所以需要先對其進行先驗概率的估算,如式(5)。

(5)

式中,N(Si)表示資源訓練集中隸屬于Si的數量;N表示資源訓練集中的文本屬性總數量。

(6)

式中,N(Xj,Si)表示Si中包含屬性Xj的資源訓練集中的文本屬性總數量;K為一個非0系數,目的是避免Si中包含的文本屬性為0時終止計算。

式(6)給出了分類算法輸出結果為Xj屬于Si的概率值,由此可獲得樸素貝葉斯算法的函數原型,以此函數原型為基礎展開的分類計算可直接用于法英資源庫的構建。

由于樸素貝葉斯分類算法沒有考慮各個文本屬性之間的關系,只是為了提升計算速度,簡化復雜的計算過程。但事實上,各個文本屬性之間存在著多種關系,而且每個文本屬性對分類計算的重要程度也不相同,所以樸素貝葉斯分類算法會與實際情況產生一定的偏差。為了將這種誤差控制到最小,本研究采用了基于特征權重的樸素貝葉斯分類器,對資源訓練集中的每一個文本屬性都進行一次權重計算,以便于更好地區分不同的文本屬性對分類計算的重要程度。該方法可以在一定程度上提高算法的分類精度,構成如圖4所示。

圖4 基于特征權重的樸素貝葉斯分類算法構成

基于特征權重的樸素貝葉斯分類算法主要由待分類資源文本、樸素貝葉斯分類器、資源翻譯列表和具有TF-UIDF權重的文本訓練集組成。計算流程如下:資源庫獲取到待分類資源文本后,樸素貝葉斯分類器根據資源訓練集中文本屬性的權重和數量,得到資源文本屬于每個資源類別的概率,并找出概率值最大的資源類別,把待分類的資源文本劃分到該資源類別中。

本研究利用增加了TF-UIDF權重的樸素貝葉斯分類算法,對文本屬性具有更高的分類準確性。

1.5 基于機器學習的法英翻譯算法

機器學習自學習過程主要由評估系統、觸發器模塊、貢獻度計算模塊和文本集維護模塊4部分共同完成。自學習過程如圖5所示。

圖5 機器學習自學習過程

文本集維護模塊整合了資源訓練集和匹配結果集的所有文本資源,并采用文件鎖的形式存儲資源,保證整個資源庫資源的完整性。

觸發器模塊作為自學習過程的啟動模塊,本研究對該模塊設定了2個觸發條件:匹配結果集容量觸發和循環時間觸發模式。

貢獻度計算模塊主要為資源訓練集和匹配結果集中的支持計算其貢獻度大小。在資源庫中,某個單詞的貢獻度可以看作為在分類計算時的重要程度。

評估系統根據貢獻度計算模塊得出的結果對自學習效果進行測試評估。該系統包含了預替換過程、效果評估和確認替換3個模塊。如果測試通過,執行預替換操作,否則不予替換。

對陜西旅游文化進行英法翻譯的主要步驟如式(7)。

(7)

式(7)計算了某一個單詞在上下文單詞中的條件概率,T為一個變量,表示訓練句子的數量;wy為英法翻譯權重;l為單詞長度;m為單詞最大長度,為實數。隨著訓練次數的增加,機器學習算法結果也更加準確。

對某一單詞在上下文單詞中出現的對數概率做最大化計算,如式(8)。

(8)

式中,vc為單詞的詞向量;uo和uw分別為在單詞作中心詞時使用的向量表征和外部詞語時使用的向量表征。根據計算結果,將概率值最高的作為翻譯結果輸出。

機器學習的自學習過程,是補充和完善的過程,在資源庫中,只有通過不斷的自學習,才能保證資源庫中的資源具有較高的準確性,以應變復雜多變的翻譯內容。

2 性能測試

為了驗證本研究所設計方法的有效性,對本研究構建的英法翻譯資源庫進行性能測試,共有10名外語系專業學生參加測試。

2.1 測試內容

對采用本研究所設計方法和未采用本研究所設計方法翻譯的兩種譯文從忠實度、流暢度和可理解度3方面進行打分。忠實度為評判譯文是否忠實地表達原文意思,分為0—5分5個等級,打分結果取小數點后一位小數。流暢度為譯文翻譯是否流暢、正宗,分為0—5分5個等級,打分結果取小數點后一位小數。可理解度為評判學生(用戶)是否可以理解翻譯后的文章,分為0—5分5個等級,打分結果取小數點后一位小數。

2.2 測試步驟

(1)不采用本研究所設計方法,對陜西旅游文化資源進行法英翻譯。

(2)采用本研究所設計方法翻譯同一篇文章,并對翻譯后的文章進行人工校對,如表1、表2所示的忠實度、流暢度和可理解度標準對兩篇譯文進行打分。

表1 忠實度、流暢度打分標準

表2 可理解度打分標準

(3)完成測試,統計打分結果。

2.3 測試結果

測試結果如表3所示。由表3可以看出,雖然本研究構建的法英資源庫并沒有得到滿分,存在一定的分類優化問題,但是采用本研究所設計方法后,在忠實度、流暢度和可理解度方面均比未采用本研究所設計方法前有了明顯提升,均保持在94%以上。

表3 法英翻譯結果打分統計表

3 總結

旅游文化的翻譯工作和研究受到國內外很多學者的關注,在進行翻譯工作之前,構建高效的翻譯資源庫是必不可少的。本研究在理論語言學的基礎上,結合機器學習,構建了陜西旅游文化法英翻譯資源庫,填補了該領域語言翻譯資源庫建設的空白。將需要檢索的信息輸入資源庫中,就可得到包含檢索關鍵詞的所有陜西旅游文化法英翻譯的語句和相關文章,完成對陜西旅游文化法英翻譯資源庫。翻譯資源庫不僅可以為翻譯工作者提供參考依據,還可以幫助翻譯工作者在翻譯旅游文化資源時了解特殊的語句結構和語法特征。不僅如此,還可以在本研究構建資源庫的基礎上,提高機器翻譯在旅游翻譯領域的效率。但是,本研究在研究過程中,發現資源庫還有許多新的問題需要解決,如雙語文本語義和句法標注技術的更新等,將以此為重點進行下一步研究,進行更深層次的研究工作。

猜你喜歡
分類文本旅游
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
旅游
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
旅游的最后一天
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 久久久受www免费人成| 国产精品浪潮Av| 精品第一国产综合精品Aⅴ| 欧洲日本亚洲中文字幕| 毛片在线播放网址| 亚洲乱码在线播放| 色悠久久综合| 亚洲日本在线免费观看| 在线综合亚洲欧美网站| 日韩欧美中文字幕一本| 波多野结衣一区二区三视频| 国内精品久久久久久久久久影视| 香蕉蕉亚亚洲aav综合| 91在线视频福利| 激情无码字幕综合| 狠狠v日韩v欧美v| 国产精品刺激对白在线| 国产波多野结衣中文在线播放| 黑色丝袜高跟国产在线91| 久久频这里精品99香蕉久网址| 中文字幕无码中文字幕有码在线| 国产精品免费入口视频| 亚洲伦理一区二区| 亚洲精品午夜天堂网页| 国产日韩欧美精品区性色| 亚洲日韩图片专区第1页| 国产精品自在线天天看片| 免费一级毛片在线播放傲雪网| 青草视频网站在线观看| 亚洲视频在线青青| 亚洲午夜福利在线| 嫩草在线视频| 亚洲成人免费看| 亚洲久悠悠色悠在线播放| 久久精品国产电影| 欧美综合中文字幕久久| 亚洲国产理论片在线播放| AV无码一区二区三区四区| 国模沟沟一区二区三区| 九一九色国产| 国产无码高清视频不卡| 97视频精品全国在线观看| 免费看av在线网站网址| 亚洲狼网站狼狼鲁亚洲下载| 欧美国产日韩在线| 国产高清不卡| 欧美97欧美综合色伦图| 青草精品视频| 午夜性刺激在线观看免费| 亚洲va在线∨a天堂va欧美va| 久久精品无码一区二区日韩免费 | 最新亚洲人成无码网站欣赏网| 亚洲a级在线观看| 都市激情亚洲综合久久| 福利姬国产精品一区在线| 一区二区日韩国产精久久| 日本成人福利视频| 色哟哟国产精品一区二区| 伊人久久影视| 狠狠色噜噜狠狠狠狠色综合久| 亚洲精品自产拍在线观看APP| 亚洲精品成人福利在线电影| 亚洲日韩AV无码一区二区三区人| 亚洲最新网址| 看看一级毛片| 免费a级毛片视频| 91久久天天躁狠狠躁夜夜| 欧美一级在线| 精品视频一区二区观看| 免费国产黄线在线观看| 欧美三级视频网站| 国产成人一区在线播放| 国产一区二区三区在线观看视频 | 免费毛片网站在线观看| 久久人妻xunleige无码| 成年免费在线观看| 亚洲首页在线观看| a级毛片一区二区免费视频| 亚洲天堂在线免费| 欧美日本视频在线观看| 成人av手机在线观看| 亚洲精品无码AⅤ片青青在线观看|