999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自建語料庫的礦業文本特征分析

2017-09-11 06:47:01詹露
速讀·中旬 2017年9期

摘 要:在中國礦業積極學習借鑒西方國家先進礦業技術的背景下,礦業文本的翻譯變得越發重要。但目前該領域翻譯人才缺乏,相關翻譯活動有一定難度,故本文以Maptek公司礦業相關文本作為語料自建語料庫,從詞頻、詞匯密度、平均詞長、平均句長四個方面對礦業文本的特征進行分析,以期為礦業領域的翻譯實踐提供些許建議。

關鍵詞:語料庫;礦業;文本分析;翻譯實踐

1引言

近年來,隨著中國工業化、城鎮化進程不斷加快,經濟高速發展帶動了礦產資源需求的高速增長,中國礦業展示出了前所未有的發展勢頭,2003—2011年,我國礦業產值從7357億元增長到了5.86萬億元,增長了7倍,年均增長率為29.6%,但相較于西方發達國家,我國礦業發展仍處于一個初始階段,距資本—技術密集型相差很遠。鑒于此,對西方發達國家礦業領域的文本進行翻譯,有助于學習和借鑒其先進的采礦技術和工藝,促進中國礦業不斷發展。但由于多種原因,目前國內該領域翻譯人才欠缺,礦業文本翻譯相關研究不足。

2介紹

當譯者著手翻譯一篇文章時,對文本的分析無疑是第一步。文本分析對于翻譯而言就如同臺階的第一步,萬丈高樓的基石。文本分析對譯者透徹理解原文、制定翻譯策略起著至關重要的作用。談及文本分析的方法,德國功能學派理論學家諾德所提出的文本分析模式(以下簡稱“諾德”模式)無疑占據了很重要的位置。諾德認為文本分析應該從語言和非語言兩方面因素進行,即文本內因素和文本外因素,文本外因素包含文本發送者、發送者意圖、文本接受者、媒介等,文本內因素則涉及篇章結構安排、詞匯層面、句子結構、超音段特征等方面。諾德模式無疑為文本特征分析提供了方向和角度,但其缺陷在于沒有提供分析文本內外因素的具體方式和衡量標準,比如分析詞匯層面的特定術語,該如何分析,有怎樣的指標,都沒有涉及,因而運用諾德模式進行文本分析會不好衡量和把握。但語料庫手段的引入無疑為進行客觀的文本特征分析,尤其是文本內因素的分析提供了一個很好的途徑。

3自建語料庫

當前,基于語料庫的翻譯研究不斷增多,所建語料庫類型也是種類繁多,內容日趨完善,但仍缺乏針對礦業文本專門建立的語料庫。自建語料庫大小比較靈活,可根據需要自行確定,但通常適用于沒有現成語料庫,現有語料庫不適用或不能滿足研究需求,需要對比語料庫以及需要特殊語料的情況。鑒于目前沒有直接可用的礦業文本語料庫,探尋礦業文本的文本特征以服務該領域翻譯實踐的需求又越發凸顯,故而本文作者專門建立了一個小型礦業文本語料庫,在此基礎上對礦業文本特征進行分析。

3.1語料搜集

Maptek公司是澳大利亞一家全球領先的礦業創新軟件、硬件以及技術服務供應商,本次自建語料庫所使用的語料是Maptek公司Vulcan軟件和I-Site軟件應用于采礦作業的案例,內容涵蓋整個采礦流程,涉及地質勘探、品位控制、礦山優化以及地質建模等方面,語料字數總計為105,430字。

3.2語料整理

語料整理對于自建語料庫而言十分關鍵,會直接影響語料的處理速度和結果。語料文本如不加以清理會導致詞匯分析、統計不準確,詞性賦碼出錯或分析無法進行。此外,大多數語料庫軟件只能識別純文本類型的文件,不能識別其他編碼格式的文本,一些特殊格式標識符號在讀取中會出現亂碼,因而影響處理結果。在語料整理過程中,為確保語料庫統計高效且準確,預先使用了文本整理編輯器對文本進行了清理,刪去了多余空行、段首尾空格、全角空格,統一了中英文標點符號和文字格式,并保存成了純文本格式。

4礦業文本特征分析

利用Wordsmith和Concordance語料庫軟件從詞頻、詞匯密度、平均詞長、平均句長四個方面對語料進行分析。考慮到語料來自于一家澳大利亞公司,因而選取了BNC(British National Corpus)語料庫以及FLOB(Freiburg-LOB Corpus of British English)語料庫作為參照語料庫,進行礦業文本特征對比分析。

4.1詞頻

詞頻可以反映某類型文本或某個作品中的用詞傾向,進而反映出文本的特征。在Concordance軟件中,去除功能詞后根據詞頻從高到低排序,前20位詞語分別是:data,Vulcan,mine,model,I-Site,Maptek,coal,mining,modelling,block,project,pit,grade,planning,3D,ore,laser,time,design,scanner,其中“Maptek”,“Vulcan”,“I-Site”三個詞代表的是該語料所涉及的產品名稱,本文不予考慮。通常詞表中排在前面的高頻詞是功能詞,或者說是表達語法意義的虛詞,接著是較抽象、概括的詞,然后逐漸過渡到具體、含有特定含有的詞,像“data”,“mine”,“model”,“pit”,“ore”這樣的詞出現在高頻詞范圍內需要引起我們的關注。

語料庫軟件可以顯示出每個單詞在文章中使用頻次所占的百分比,從客觀數據上體現某個單詞對于整個語料庫的貢獻。以“mine”和“pit”為例,對比BNC語料庫中這兩個詞的使用頻率,按不同文本類型進行統計,結果如下:

圖1和圖2分別表示的是“mine”和“pit”兩詞在BNC語料庫中使用分布的文本類型及使用頻率,其中的“FREQ”表示的是出現頻數,“PER MIL”是指語料庫中某一詞匯、短語每百萬詞(per million)出現的頻數,又叫標準化頻數。結合詞頻統計中的百分比,利用“各自頻數/總字數*100 million”,可以推算出在礦業類型文本中每一百萬字中這兩個詞的使用頻次分別約是6127次和2665次,高于BNC語料庫總計的使用頻次。此外,BNC語料庫中并沒有對兩詞不同詞義的使用頻次進行區分,但通過Concordance軟件中的詞語語境篩查可以發現在礦業文本中這兩個詞都具有單一專業含義,分別表示“礦山”和“基坑”,因而就專業含義來講,自建語料庫中兩詞的使用頻次是遠高于其在其他英語文本類型中的頻次。endprint

詞表前20位中多數詞都與采礦作業流程相關,專業詞意明確,涉及地質數據采集、塊體建模、基坑修建、礦床勘探等,如“model”,“block”,經過比較,這些詞的使用頻次都高于其在其他單個英文文本類型中的使用頻次,因而這些詞可以反映礦業文本在用詞上的傾向。礦業涉及內容多,涵蓋彈性力學、土力學、巖石力學、爆破工程等多方面知識,在翻譯該類型文本時需要對涉及這些方面的專業詞匯有所重視。利用自建語料庫對礦業文本的詞頻進行研究,明確礦業領域中的常用詞或通用詞匯,并基于詞頻建立起礦業領域的詞匯分級,廣泛應用于專業詞典編纂、專業教學,這將推動該領域的相關學習及翻譯實踐。

4.2詞匯密度

詞匯密度可以反映出某類文本用詞的多樣性、詞匯的豐富度。類符/形符比(type-token ratio,TTR)可以用來計算文本的詞匯密度,TTR比值越高,文本用詞越豐富,反之,則越貧乏。但若語料超過了1000字,類符數會隨著形符數的增加而增加,到后面類符數就會趨于穩定,類符形符比就會不斷減小,所以需要采用標準類符形符比(standardized TTR)。經語料庫軟件處理所得的標準類符形符比結果為41.43,FLOB語料庫的STTR值為39.03,相較而言可以發現礦業文本中詞匯的使用是靈活且豐富的。礦業涉及學科多,文本內容廣而豐富,尤其是專業詞匯,多而細化,因而在翻譯過程中需要意識到礦業領域內用詞的豐富性,注重積累。

4.3詞長

詞長在一定程度上代表了語言單位的復雜性,是反映文本閱讀難易程度的一個標準。通常由2~5個字母組成的詞看作是小詞或常見詞,這些詞在整個語料庫中的比例越高,近似地反映出語料使用的小詞或常見詞越多。單詞越短小,文本越易理解,難度越低,文本的正式程度就越低;反之,文本越不易理解,難度越大,文本越正式。語料庫統計得到的單詞詞長分布結果如下:

根據表1的數據可以計算出5個字母以下單詞的總數為62,717個,占全部語料文本的59.5%,按照楊秀珍等人的推論,礦業文本中使用的小詞多,文本閱讀起來應該更為簡單。由于人類的惰性、大腦信息處理能力的有限性乃至語言使用慣性,人們在言語交際過程中傾向于選用短小、簡單的詞匯表達特定意義以節省力量消耗,但礦業文本屬于專業領域的文本,語料所用文本來自于門戶網站,書面規范性強,詞匯的選擇較之口語表達肯定是更為謹慎認真的,但使用短小詞的占比那么高,不由得引人注意。

結合本文作者翻譯礦業文本的實踐,發現文本中有很多常見短小詞并非常見通用意義,而是具有特定含義,比如“pit”指的是“基坑”,“grade”代表的是“品位”,“block”代表的“塊體”。這從某種程度上可以說明即使從詞長標準上來講礦業文本中使用的短小詞更多,但考慮到詞語含義非普遍意義,那么文本閱讀起來也并不一定容易。僅僅依據5個字母以下單詞的使用占比來判定文本難易程度是較為不當的。

平均詞長是指文本中詞的平均長度,以字母數為單位。該指標考量的是文本用詞的平均情況,是對文本整體用詞的評估。一般文本的平均詞長為4個字母左右。語料庫統計得到的平均詞長為5.23,而FLOB語料庫的平均詞長為4.37,相較而言可以發現礦業文本在用詞上是較為復雜的。從表2也可以計算出5個字母以上詞匯(中長詞)的使用占比達到了40%,這一比例是較高的,對于礦業類型文本而言中長度詞語不僅具有專業意義,也更可能從長度上反映詞匯的難易程度。

以上分析表明,雖然短小詞使用的占比一定程度上反映出了文本詞匯的難易度,但尤其是在專業領域中詞匯的難易度并不能單純地從詞長進行判定,往往短小詞匯所具有的專有意義是文本閱讀的一個困難。綜合詞長和平均詞長的數據結果,可以發現礦業文本閱讀起來較為不易,即使短小詞多,但意義可能并不常見。此外,礦業詞匯專業化強,表達細節信息的詞數量多,還有很多派生詞和復合詞,如“geomorphological”,“auto-registration”,“back-transformation”,詞匯較為復雜。

4.4平均句長

平均句長是以句子所包含的詞數為依據,是衡量文本難度的一個參數。句子長度越長,句子越難理解;反之,理解則更為容易。句子長短的判定遵循一定的標準,根據句子長度把句子分為三類:短句(1~9個詞)、中長句(10~25個詞)和長句(25個詞以上)。運用語料庫軟件統計得到的平均句長結果是48.59,結合詞頻表中that,which以及其他連接詞使用的頻次較高,我們可以合理地推測礦業文本句式較為復雜,多用從句、分句。這一方面符合英語傾向于用從句的特征,另一方面可能是礦業文本闡釋詳盡的一種體現。

從衡量句子的難易程度來講,其涉及的因素比較多。鄭錦全提出了句子閱讀難易度的三個考量因素:一是句子長短;二是句中所有詞語在文本中出現頻率的高低;三是詞語語意類別的多少。就句子長度而言,結合考量句內使用的專業詞匯,礦業文本可以算得上較難,譯者在翻譯該類型文本時,需要對長句引起重視。但就句中詞語在文本中的出現頻率和詞語語意類別而言,由于詞語所屬領域較為單一,在文本中出現的頻率也高,因而只要接觸足夠多,就會更加容易。這一點無疑說明礦業文本的翻譯可能在入門時由于專業原因較為困難,但只要注重積累,后期就可以更加輕松。

5發現與展望

根據語料庫分析所得數據可以發現礦業因其涉及的知識廣泛、內容眾多,使得該類型文本中詞匯使用靈活豐富,相關專業詞匯使用廣且使用頻次高,詞匯平均詞長大,句子多用長句,文本難度較大、專業性強。翻譯人員在從事礦業領域文本翻譯時,需要對長句予以重視,注重礦業學科專業詞匯的積累,尤其要對文本中常見短小詞的專業意義引起關注。但只要積累達到一定程度,礦業文本的翻譯是可行的且可以更為高效的。

對于專業領域的文本而言,由于詞匯的特定含義,單從5個字母以下單詞使用的頻次來判定文本用詞的難易程度有所局限性,而中長詞往往可以從長度上普遍反映出文本用詞的情況,故而分析文本特征時需要結合考量中長詞的使用情況以及平均詞長。

但本篇研究也有值得深入改進和發展的地方,自建語料庫所用語料的數量還可以有所增加。此外,可以在自建語料庫基礎上,利用參照語料庫,制作出礦業領域的專業詞匯,服務于翻譯實踐。

參考文獻:

[1]陳其慎,于汶加等.礦業發展周期理論與中國礦業發展趨勢[J].資源科學,2015(05):891-899.

[2]Nord,Christiane.Translating as a Purposeful Activity:Functionalist Approaches Explained. Manchester:St Jerome,1997.

[3]鄧曉宇,胡小婕等.基于類比語料庫的紅色旅游文本語言分析研究[J]. 江西理工大學學報,2015(06):102-106.

[4]梁茂成,李文中等.語料庫應用教程[M].北京:外語教學與研究出版社,2010.

[5]楊惠中.語料庫語言學導論[M].上海:上海外語教育出版社,2002.

[6]姜文東,任娟.基于語料庫的《格列佛游記》文本詞匯特征分析[J].山東廣播電視大學學報,2013(02):55-56.

[7]楊秀珍,續娜等.基于語料庫的《暮光之城》系列小說詞匯特點初探[J].長春理工大學學報(社會科學版),2010(02):71-73.

[8]鄧耀臣,馮志偉.詞匯長度與詞匯頻數關系的計量語言學研究[J].外國語(上海外國語大學學報),2013(03):29-39.

作者簡介:

詹露(1994.03.08—),女,重慶人,同濟大學外國語學院英語語言文學2015級研究生,主要研究方向為翻譯學。endprint

主站蜘蛛池模板: 欧美成人第一页| 亚洲V日韩V无码一区二区| av一区二区三区在线观看 | 狠狠五月天中文字幕| 免费 国产 无码久久久| 香蕉在线视频网站| 九九久久99精品| 性色在线视频精品| 亚洲日本中文字幕天堂网| 大陆国产精品视频| 99re视频在线| 国产成人精品免费av| 91在线中文| 成人综合久久综合| swag国产精品| 青草精品视频| 国产成人a在线观看视频| 69精品在线观看| 午夜性刺激在线观看免费| 一区二区三区四区日韩| 亚洲最大综合网| 伊人狠狠丁香婷婷综合色| 国产在线视频福利资源站| 国产欧美网站| 手机精品福利在线观看| 一级成人a做片免费| 日韩高清欧美| 中国精品久久| 老熟妇喷水一区二区三区| 中国精品久久| 一级毛片在线播放| 任我操在线视频| 欧美第二区| 伊人福利视频| 久久99这里精品8国产| 午夜啪啪网| 狠狠色婷婷丁香综合久久韩国| 青青青国产免费线在| 久久窝窝国产精品午夜看片| 亚洲欧洲自拍拍偷午夜色无码| 欧美国产中文| 国产精品色婷婷在线观看| 青青热久免费精品视频6| 久久婷婷人人澡人人爱91| 2021亚洲精品不卡a| 免费看一级毛片波多结衣| 国产精品网址你懂的| 亚洲国产成人在线| 少妇精品在线| 久久一本日韩精品中文字幕屁孩| 美女一区二区在线观看| 二级特黄绝大片免费视频大片| yjizz视频最新网站在线| 成人小视频在线观看免费| 国产真实自在自线免费精品| 国产成人AV综合久久| 国产日韩欧美视频| 久久公开视频| a毛片免费观看| 欧美中文字幕在线视频| 欧美日韩一区二区三区在线视频| 欧美五月婷婷| 日韩亚洲综合在线| 久久精品国产精品青草app| 亚洲第一成人在线| 男人天堂亚洲天堂| 91精品啪在线观看国产91九色| 亚洲一区网站| 久草视频精品| 美女一级毛片无遮挡内谢| 精品一区二区三区视频免费观看| 亚洲国产高清精品线久久| 国产成人精品免费av| 日韩精品高清自在线| 久久无码av三级| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 久久99精品久久久久纯品| 国产91成人| av一区二区三区高清久久| 黄色国产在线| 国产凹凸视频在线观看| 五月婷婷伊人网|