王喜艷



摘?要:本文在遵循語料庫建庫的權威性、真實性、隨機性、代表性的原則上,用Teleport?ultra從美國專利商標局聚類抽樣了156篇與之相關的文本,建成了一個小型石油鉆井英語語料庫,然后以COCA語料庫為參照,借助Wordsmith分析了石油鉆井英語的詞匯密度、詞長、詞頻,用直觀的數據探討了石油鉆井英語的高頻詞、用詞傾向等方面的特點,這對石油鉆井英語詞匯特點的認知具有重要的指導意義。
關鍵詞:石油鉆井英語;自建石油鉆井英語語料庫;Teleportultra;COCA語料庫;Wordsmith
中圖分類號:F74?????文獻標識碼:A??????doi:10.19311/j.cnki.16723198.2023.05.021
0?引言
對石油鉆井英語詞匯特征的把握有助于準確地進行翻譯,從而為專業技術人員提供更加先進的鉆井技術以及設備和管理經驗等。本文由四章組成。第一章介紹了理論背景。第二章介紹了自建石油鉆井英語語料庫的具體操作。第三章對石油鉆井英語的詞匯特征分析和總結。第四章介紹了本研究的成果和意義。
1?理論背景
1.1?語料庫
語料庫源于拉丁詞“corpus”,在1828年拜占庭帝國所編纂的民法法典Body?of?Civil?Law中提到了“corpus”這個詞,指的是關于法律法規的集合,到現在為止,語料庫也一直沿用的這個集合的概念,語料庫概念的源流大概分為四個階段,第一階段是表示文本的匯集。第二階段表示作為研究材料的文本匯集。第三階段表示作為語言學研究資料的文本匯集。20世紀四五十年代在美國結構主義語言學文獻中,開始出現“corpus”單獨使用表示語言研究素材庫的含義。第四階段表示作為語言學研究資料的電子文本匯集。20世紀60年代后,以布朗語料庫為代表,逐漸確立了按一定取樣方案采集、服務于語言研究目的的電子文本文庫這一概念。現在對語料庫的具有代表性的定義是,“語料庫是指在隨機采樣的基礎上收集的有代表性的真實語言材料的集合,是語言運用的樣本(楊惠中,2002)。”
1.2?語料庫語言學
語料庫語言學最早源自20世紀初至五六十年代的美國結構主義,它的代表人物有Boas,?Sapir和Bloomfileld,它的核心任務是基于真實語料的語言描寫。語料庫語言學也非常注重語境,最早以Firth為代表的倫敦學派提出了對語境考察的概念。之后在Malinowski和Firth的“語境語義觀”的指導下,語料庫語言學主張基于語料庫,通過詞語搭配、詞類聯接、語義傾向和評價特征,尋求對語義生成機制的解釋。
1.3?基于語料庫的詞匯研究
基于語料庫的詞匯研究既深化了以往的研究,又拓寬了詞匯研究的領域。本部分詳述了基于語料庫的詞匯研究的各個方面,并根據研究內容將其分為三大類:詞典編纂、關鍵詞研究與形態學和構詞法。
(1)詞典編纂。正如Kennedy(1998)所說:“語料庫在詞匯描寫方面最明顯的作用是在詞典編纂方面。”計算機技術的進步使基于語料庫的詞典學研究更進一步。詞典編纂者可以利用計算機從現有的或自建的語料庫中快速、詳盡地獲取某個詞或短語在上下文中的用法和說明。
(2)關鍵詞研究。通過語料庫研究關鍵詞可以用來分析詞匯與文本主題之間的關系,也可以用來分析詞與詞之間的搭配。關鍵詞一般指的是相較于參照語料庫,某一特定文本語料庫出現的高頻詞,其與文本的主題聯系非常緊密。
(3)形態學和構詞法。基于語料庫的詞匯研究也有助于研究詞匯的形態學和構詞法。有些詞典可以為研究詞匯形態或構詞法提供一些信息,通過語料庫來研究不同形態詞匯的頻率也很重要。
2?自建小型石油鉆井英語語料庫
2.1?語料庫設計
(1)參照語料庫。本文將美國當代英語語料庫(COCA)作為參照語料庫。從COCA官網對每種類型的語料隨機抽樣,共抽取16萬字的語料作為參照語料,并進行了清洗和分詞處理。
(2)自建語料庫設計。設計語料庫要考慮是否具有代表性、權威性、可及性等。本研究用Teleport?ultra從美國專利商標局抽樣156篇與石油鉆井英語相關的專利文本,并對這些語料進行加工處理,自建語料庫的規模定在了15萬字左右。
2.2?語料收集
在USPTO輸入oil?drilling,完成檢索后用Teleport?Ultra抓取語料,抓取設置為僅抓取文本,原始語料為html格式。如圖1所示。
2.3?語料加工處理
(1)語料預處理。
完成抓取后,需要將文本的html格式轉換為txt格式,用textforever工具進行格式轉換,如圖2所示:
轉換為txt格式后,用文本整理器對txt文本整理,如圖3所示。
(2)語料分詞。
將處理后的文本通過tree?tagger進行分詞,如圖4所示。
3?石油鉆井英語詞匯特征分析
3.1?數據分析
(1)詞匯長度。
一般來說,詞匯越長,文本就越復雜,也就越正式。詞匯長度通常可以用字母的數量與詞匯的數量的比來計算。通過在wordlist中生成詞表,自建的ODEC與COCA的平均詞長和標準詞長對比如下表1所示。
從表1可以看出,?ODEC的平均詞長和標準詞長都要高于COCA。因此,ODEC的復雜程度要高于COCA。
(2)詞匯密度。詞匯密度可以用來判斷文本的難易程度和文本的信息量。Halliday(1985)提出了詞匯密度的計算公式,也就是TTR的值,TTR的計算公式如下:
TTR=(type/token)*100
Type指的是類符,是指在語料中不重復計算的形符數。Token指的是形符,是一個語言單位。類符與形符的比就是詞匯密度。但用這種方法來計算長度不同的文本是不合理的,因此又引入了STTR,STTR可以用來比較不同長度的文本的詞匯密度。通過wordsmith得出了ODEC和COCA的TTR和STTR,結果如下表2所示。
從以上表2可以看出,ODEC形符和類符的數量都低于COCA,但是TTR和STTR值都高于COCA。因此,自建的ODEC的詞匯密度高于COCA。也就是說,石油鉆井英語的文本是比通用英語要更為復雜,更難理解。
(3)詞頻。
詞頻表是做語料庫研究的一個基本的數據分析手段。通常來說,出現頻率最高的詞大多數都是功能詞。ODEC?與COCA詞頻對比如下表3所示。
從上表3可以看出,ODEC詞頻排名前15的都是功能詞,COCA排名前15的大多數都是功能詞,但是COCA還出現了諸如“I;?he;?you”的人稱代詞。因此可以得出結論,石油鉆井英語注重客觀表達,較少使用人稱代詞。
此外,應用wordsmith也做了ODEC和COCA的實詞的詞頻對比。結果如下表4和表5所示。
從以上表4和5可以看出,ODEC的高頻實詞都是鉆井,鉆頭,油井;井眼;修井;鉆井液以及鉆井工具組合,這些高頻詞由名詞以及動名詞組成,這表明名詞在ODEC中扮演著重要的角色。而作為參照語料庫的COCA的高頻實詞基本都是動詞,因此通用語料庫的動詞比較常見。
4?結語
本文基于自建的小型石油鉆井英語語料庫,應用wordsmith研究石油鉆井英語的詞匯特征,分別從詞匯長度、詞匯密度和詞頻三方面對自建的語料庫和參照的語料庫進行了對比,得出了石油鉆井英語通常詞匯密度大、文本較為復雜、詞長長、功能詞較多、注重表達客觀性、很少用人稱代詞以及多用名詞的結論,本研究對石油鉆井英語詞匯的學習、寫作以及翻譯具有重要的指導意義。
參考文獻
[1?]Halliday.Spoken?and?Written?Language?[M?].Australia:?Deakin?University,1985.
[2?]Kennedy.An?Introduction?to?Corpus?Linguistics?[M?].?Foreign?Language?Teaching?and?Research?Press,1998.
[3?]梁茂成,李文中,許家金.語料庫應用教程?[M?].外語教學與研究出版社,2010.
[4?]王立非,梁茂成.wordsmith方法在外語教學研究中的應用?[J?].外語電化教學,2007.
[5?]楊慧中.語言學導論?[M?].上海外語教育出版社,2002.